Releases: tekintian/llama.cpp
Releases · tekintian/llama.cpp
v1.5.9
专门针对intel CPU优化编译的最新版本llama.cpp version: 159 (82380db)
dyn是动态编译的
static 是静态编译的
注意本编译物使用了openblas加速, 需要再目标机器上面安装响应的库,
# 在部署服务器安装openblas库
yum install openblas-threads.x86_64 -y
#安装后查看库文件 find /usr -name "libopenblas*"
# 软连接名称为 libopenblas.so.0 这个是llama.cpp认识的名字
ln -sf /usr/lib64/libopenblasp-r0.3.3.so /usr/lib64/libopenblas.so.0docker 镜像
docker pull ghcr.io/tekintian/llama-cpp-server
# 前提:本地目录 ./models 存放 GGUF 模型文件(如 Qwen3.5-0.8B-Q4_K_M.gguf)
docker run -d \
--name llama-server \
-p 8080:8080 \
-v $PWD/models:/models \
-e LLAMA_MODEL=/models/Qwen3.5-0.8B-Q4_K_M.gguf \
ghcr.io/tekintian/llama-cpp-server自定义参数启动(进阶配置)
docker run -d \
--name llama-server \
-p 9090:9090 \
-v $PWD/models:/models \
-e LLAMA_HOST=0.0.0.0 \
-e LLAMA_PORT=9090 \
-e LLAMA_CTX_SIZE=4096 \
-e LLAMA_EXTRA_ARGS="--threads 8 --temperature 0.7 --top-p 0.9" \
-e LLAMA_MODEL=/models/Qwen3.5-1.8B-Q4_K_M.gguf \
ghcr.io/tekintian/llama-cpp-server| 环境变量 | 作用 | 默认值 |
|---|---|---|
| LLAMA_HOST | 服务监听地址 | 0.0.0.0 |
| LLAMA_PORT | 服务监听端口 | 8080 |
| LLAMA_CTX_SIZE | 上下文窗口大小(影响推理长度) | 2048 |
| LLAMA_MODEL | 模型文件路径(容器内路径) | 无(必填) |
| LLAMA_EXTRA_ARGS | 额外 llama.cpp 参数 | 空 |
- 常用 LLAMA_EXTRA_ARGS 参数
# 示例:调整推理参数
LLAMA_EXTRA_ARGS="--threads 16 \
--temperature 0.8 \ # 随机性(0=确定性,1=高随机)
--top-p 0.85 \ # 采样概率阈值
--n-predict 1024 \ # 最大生成字数
--repeat-penalty 1.1 \ # 重复惩罚
--verbose" # 开启详细日志CLI版本 https://github.com/tekintian/llama.cpp/pkgs/container/llama-cpp-cli
Docker CPU使用统计
更多信息 https://ai.tekin.cn