AI 之 llama.cpp 本地化安装与国内适配全指南

ben

llama.cpp 本地化安装与国内适配全指南

llama.cpp 是一个轻量级、高性能的 LLM 推理框架，支持 CPU/GPU 加速，适配各类开源大模型（如 Llama、Qwen、Baichuan、ChatGLM 等）。本文详细讲解本地化安装步骤、国内源适配、模型下载 / 转换及基础使用，解决国内网络、依赖安装、模型源等核心问题。

一、环境准备（国内环境适配）

1. 系统要求

Windows/Linux/macOS：Windows 建议用 WSL2（兼容性更好），Linux 推荐 Ubuntu 20.04+/CentOS 8+，macOS 推荐 12+（M 系列芯片原生支持）。
依赖工具：Git、CMake（3.24+）、C/C++ 编译器（GCC 9+/Clang 12+/MSVC 2022）、Python 3.8+（可选，用于模型转换）。
硬件：CPU 支持 AVX2（x86）/NEON（ARM），GPU 可选（NVIDIA CUDA/AMD ROCm/Apple Metal）。

2. 国内依赖加速安装

（1）Git 加速（解决克隆仓库慢）

修改 Git 镜像源（可选，推荐国内 Gitee 镜像）：

bash

运行

临时克隆（推荐）

git clone https://gitee.com/mirrors/llama.cpp.git # 国内镜像

或官方仓库（需科学上网，或配置代理）

git clone https://github.com/ggerganov/llama.cpp.git

永久配置 Git 代理（如果有代理）

git config --global http.proxy http://127.0.0.1:7890
git config --global https.proxy http://127.0.0.1:7890
$$

（2）CMake / 编译器安装（国内源）

Linux：bash运行

$$

Ubuntu/Debian

sudo apt update && sudo apt install -y git cmake build-essential gcc g++ # 国内源默认已加速

CentOS/RHEL

sudo yum install -y git cmake3 gcc-c++ make

$$
Windows：
- 下载 CMake 国内镜像（或用 scoop 安装：scoop install cmake gcc）。
- 安装 Visual Studio 2022（勾选 “桌面开发使用 C++”）。
macOS：bash运行

$$

安装 Xcode 命令行工具

xcode-select --install

用 brew 安装依赖（国内源：替换 brew 镜像为清华/中科大）

/bin/bash -c "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/homebrew-install/install.sh)"
brew install git cmake

$$

二、llama.cpp 本地化编译安装

1. 进入仓库目录

bash

运行

$$
cd llama.cpp
$$

2. 编译（适配国内环境 + 硬件加速）

llama.cpp 支持多种编译选项，根据硬件选择：

硬件 / 场景编译命令（Linux/macOS）Windows（PowerShell）仅 CPU（基础版）makecmake --build . --config ReleaseNVIDIA CUDA 加速make CUDA=1cmake -DLLAMA_CUDA=ON . && cmake --build . --config ReleaseApple Metal（M1/M2/M3）make METAL=1-AMD ROCm 加速make ROCM=1-启用 BLAS（CPU 提速）make BLAS=1 OPENBLAS=1cmake -DLLAMA_BLAS=ON -DLLAMA_OPENBLAS=ON . && cmake --build . --config Release

编译注意事项（国内常见问题）

CUDA 找不到：指定 CUDA 路径（如 make CUDA=1 CUDA_PATH=/usr/local/cuda-12.1）。
OpenBLAS 安装：Linux 用 sudo apt install libopenblas-dev，Windows 下载 OpenBLAS 国内镜像。
Windows 编译失败：用 WSL2 编译（推荐），或确保 Visual Studio 环境变量生效（vcvars64.bat）。

3. 验证安装

编译完成后，运行以下命令验证：

bash

运行

Linux/macOS

./main -h

Windows（Release 目录下）

./Release/main.exe -h
$$

若输出帮助信息，说明安装成功。

三、国内模型源配置与模型获取

llama.cpp 支持的模型需转换为 GGUF 格式（替代旧的 GGML），国内推荐以下模型源：

1. 国内模型仓库（免科学上网）

平台地址特点魔搭社区（ModelScope）https://www.modelscope.cn/国内最大开源模型库，支持 Qwen、Baichuan 等智源开放平台https://open.bigmodel.cn/ChatGLM 系列官方源Hugging Face 镜像https://hf-mirror.com/Hugging Face 国内镜像，支持所有开源模型阿里云百炼https://dashscope.aliyun.com/models可下载通义千问系列模型

2. 模型下载（国内加速）

（1）从魔搭社区下载模型

以通义千问 Qwen-7B-Chat 为例：

bash

运行

安装 modelscope （国内源加速）

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

下载模型到本地

from modelscope.hub.snapshot_download import snapshot_download

下载 Qwen-7B-Chat

model_dir = snapshot_download('qwen/Qwen-7B-Chat', cache_dir='./models/qwen-7b-chat')
$$

（2）从 Hugging Face 镜像下载

bash

运行

设置 HF 镜像环境变量（永久生效可写入 ~/.bashrc）

export HF_ENDPOINT=https://hf-mirror.com

用 git-lfs 下载模型（先安装 git-lfs：sudo apt install git-lfs）

git lfs install
git clone https://hf-mirror.com/Qwen/Qwen-7B-Chat ./models/qwen-7b-chat
$$

3. 模型转换为 GGUF 格式（llama.cpp 兼容）

下载的原生模型（如 PyTorch 格式）需转换为 GGUF，步骤如下：

（1）安装转换依赖（国内源）

bash

运行

$$
pip install torch transformers sentencepiece -i https://pypi.tuna.tsinghua.edu.cn/simple
$$

（2）运行转换脚本

llama.cpp 提供 convert.py 脚本，支持主流模型转换：

bash

运行

转换 Qwen-7B-Chat 为 GGUF（FP16 格式）

python convert.py ./models/qwen-7b-chat --outtype f16 --outfile ./models/qwen-7b-chat-f16.gguf

量化（可选，减小体积，提升速度）

4-bit 量化（推荐）

./quantize ./models/qwen-7b-chat-f16.gguf ./models/qwen-7b-chat-q4_0.gguf q4_0
$$

转换注意事项

不同模型适配：
- ChatGLM 系列：需用 convert_chatglm.py（llama.cpp 社区适配脚本，可从这里下载）。
- Baichuan 系列：直接用官方 convert.py 即可。
量化级别选择：q4_0（平衡速度 / 精度）、q8_0（高精度）、q2_k（极致轻量化）。

四、基础使用（国内环境示例）

1. 运行模型（CPU 示例）

bash

运行

Linux/macOS

./main -m ./models/qwen-7b-chat-q4_0.gguf -p "你好，介绍一下自己" -n 512 --temp 0.7

Windows

./Release/main.exe -m ./models/qwen-7b-chat-q4_0.gguf -p "你好，介绍一下自己" -n 512 --temp 0.7
$$

2. 启用 GPU 加速（NVIDIA CUDA 示例）

bash

运行

$$
./main -m ./models/qwen-7b-chat-q4_0.gguf -p "你好" -n 512 --temp 0.7 --n-gpu-layers 35 # 35层加载到GPU
$$

3. 交互式对话

bash

运行

$$
./main -m ./models/qwen-7b-chat-q4_0.gguf -i -r "用户：" -f prompts/chat-with-bob.txt
$$

五、国内环境常见问题解决

1. 克隆 llama.cpp 仓库慢

改用 Gitee 镜像：git clone https://gitee.com/mirrors/llama.cpp.git。
配置 Git 代理：git config --global https.proxy http://127.0.0.1:7890。

2. Python 依赖安装失败

用清华 / 阿里云 PyPI 源：pip install xxx -i https://pypi.tuna.tsinghua.edu.cn/simple。
升级 pip：pip install --upgrade pip -i https://pypi.tuna.tsinghua.edu.cn/simple。

3. 模型转换报错

确保 PyTorch 版本匹配：pip install torch==2.1.0+cu121 -i https://pypi.tuna.tsinghua.edu.cn/simple（根据 CUDA 版本调整）。
模型文件不完整：重新下载（检查 git-lfs 是否生效，git lfs pull）。

4. 运行时性能差

启用 BLAS 加速：重新编译 make BLAS=1 OPENBLAS=1。
量化模型：使用 q4_0/q5_0 量化格式，减少内存占用。
调整线程数：--threads 8（设置为 CPU 核心数）。

六、进阶配置（国内生产环境）

1. 永久配置 HF 镜像

bash

运行

Linux/macOS

echo 'export HF_ENDPOINT=https://hf-mirror.com' >> ~/.bashrc
source ~/.bashrc

Windows（PowerShell）

[Environment]::SetEnvironmentVariable("HF_ENDPOINT", "https://hf-mirror.com", "User")
$$

2. 批量转换模型脚本

创建 convert_model.sh（Linux/macOS）：

bash

运行

$$
#!/bin/bash
MODEL_PATH=$1
OUTPUT_PATH=$2

转换为 FP16

python convert.py $MODEL_PATH --outtype f16 --outfile ${OUTPUT_PATH}-f16.gguf

量化为 q4_0

./quantize ${OUTPUT_PATH}-f16.gguf ${OUTPUT_PATH}-q4_0.gguf q4_0
echo "转换完成：${OUTPUT_PATH}-q4_0.gguf"
$$

使用：./convert_model.sh ./models/qwen-7b-chat ./models/qwen-7b-chat

3. 启用 API 服务（国内部署）

llama.cpp 支持 REST API，适合本地部署：

bash

运行

$$
./server -m ./models/qwen-7b-chat-q4_0.gguf --host 0.0.0.0 --port 8080

测试 API（国内环境）

curl http://127.0.0.1:8080/completion -X POST -H "Content-Type: application/json" -d '{
"prompt": "你好",
"max_tokens": 512,
"temperature": 0.7
}'
$$

总结

llama.cpp 本地化安装核心是编译适配硬件+国内源加速依赖 / 模型下载，国内用户优先选择魔搭社区 / HF 镜像获取模型，通过量化降低硬件要求。若需更友好的界面，可搭配 llama-cpp-python（Python 封装）或 open-webui（可视化界面），均支持国内环境适配。

ben

ben Makefile:6: *** Build system changed:

The Makefile build has been replaced by CMake.

For build instructions see:

https://github.com/ggml-org/llama.cpp/blob/master/docs/build.md

sudo apt-get update && sudo apt install -y libcurl4-openssl-dev

`# 1. 下载 CMake 3.28.0（最新稳定版，x86_64）
cd /tmp
wget https://github.com/Kitware/CMake/releases/download/v3.28.0/cmake-3.28.0-linux-x86_64.tar.gz

2. 解压到 /usr/local（系统级目录）

sudo tar -zxvf cmake-3.28.0-linux-x86_64.tar.gz -C /usr/local/

3. 创建软链接（全局可用）

sudo ln -s /usr/local/cmake-3.28.0-linux-x86_64/bin/cmake /usr/bin/cmake
sudo ln -s /usr/local/cmake-3.28.0-linux-x86_64/bin/ctest /usr/bin/ctest
sudo ln -s /usr/local/cmake-3.28.0-linux-x86_64/bin/cpack /usr/bin/cpack

4. 验证

cmake --version # 输出 3.28.0 即成功`

ben

ben [ 98%] Built target server-context

[ 98%] Generating loading.html.hpp

[ 98%] Generating index.html.gz.hpp

[ 98%] Building CXX object tools/cli/CMakeFiles/llama-cli.dir/cli.cpp.o

[ 98%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server-http.cpp.o

[ 98%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server.cpp.o

[ 99%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server-models.cpp.o

[ 99%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server-task.cpp.o

[ 99%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server-queue.cpp.o

[ 99%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server-common.cpp.o

[ 99%] Building CXX object tools/server/CMakeFiles/llama-server.dir/server-context.cpp.o

[ 99%] Linking CXX executable ../../bin/llama-cli

[ 99%] Built target llama-cli

[100%] Linking CXX executable ../../bin/llama-server

[100%] Built target llama-server

ben

我能说啥呢。。。总不能怪正斧吧

server-mat

ben O.0

ben

改一行代码，下载ollama-linux-amd64.tgz后本地安装吧。

status "Installing ollama to $OLLAMA_INSTALL_DIR"
$SUDO install -o0 -g0 -m755 -d $BINDIR
$SUDO install -o0 -g0 -m755 -d "$OLLAMA_INSTALL_DIR/lib/ollama"
status "Downloading Linux ${ARCH} bundle"
curl --fail --show-error --location --progress-bar \
"https://ollama.com/download/ollama-linux-${ARCH}.tgz${VER_PARAM}" | \
$SUDO tar -xzf - -C "$OLLAMA_INSTALL_DIR"

改为：

status "Installing ollama to $OLLAMA_INSTALL_DIR"

$SUDO install -o0 -g0 -m755 -d $BINDIR

$SUDO install -o0 -g0 -m755 -d "$OLLAMA_INSTALL_DIR/lib/ollama"

status "Downloading Linux ${ARCH} bundle"

tar -xzf ./ollama-linux-amd64.tgz -C "$OLLAMA_INSTALL_DIR"

优势：安装简单（提前装好驱动），最感人的是模型下载不限速。

ben

echo 'export OLLAMA_ORIGINS="*"' >> ~/.bashrc 晕

test-bbs

gogogo,想要一个spark。。。