Skip to content

Releases: tekintian/llama.cpp

v1.5.9

15 Mar 08:59
1f07cae

Choose a tag to compare

专门针对intel CPU优化编译的最新版本llama.cpp version: 159 (82380db)

dyn是动态编译的
static 是静态编译的

注意本编译物使用了openblas加速, 需要再目标机器上面安装响应的库,

# 在部署服务器安装openblas库 
yum install openblas-threads.x86_64 -y
#安装后查看库文件 find /usr -name "libopenblas*"
# 软连接名称为 libopenblas.so.0 这个是llama.cpp认识的名字
ln -sf /usr/lib64/libopenblasp-r0.3.3.so /usr/lib64/libopenblas.so.0

docker 镜像

docker pull ghcr.io/tekintian/llama-cpp-server

 # 前提:本地目录 ./models 存放 GGUF 模型文件(如 Qwen3.5-0.8B-Q4_K_M.gguf)
docker run -d \
  --name llama-server \
  -p 8080:8080 \
  -v $PWD/models:/models \
  -e LLAMA_MODEL=/models/Qwen3.5-0.8B-Q4_K_M.gguf \
  ghcr.io/tekintian/llama-cpp-server

自定义参数启动(进阶配置)

docker run -d \
  --name llama-server \
  -p 9090:9090 \ 
  -v $PWD/models:/models \
  -e LLAMA_HOST=0.0.0.0 \
  -e LLAMA_PORT=9090 \
  -e LLAMA_CTX_SIZE=4096 \ 
  -e LLAMA_EXTRA_ARGS="--threads 8 --temperature 0.7 --top-p 0.9" \ 
  -e LLAMA_MODEL=/models/Qwen3.5-1.8B-Q4_K_M.gguf \
  ghcr.io/tekintian/llama-cpp-server
环境变量 作用 默认值
LLAMA_HOST 服务监听地址 0.0.0.0
LLAMA_PORT 服务监听端口 8080
LLAMA_CTX_SIZE 上下文窗口大小(影响推理长度) 2048
LLAMA_MODEL 模型文件路径(容器内路径) 无(必填)
LLAMA_EXTRA_ARGS 额外 llama.cpp 参数
  • 常用 LLAMA_EXTRA_ARGS 参数
# 示例:调整推理参数
LLAMA_EXTRA_ARGS="--threads 16 \
  --temperature 0.8 \  # 随机性(0=确定性,1=高随机)
  --top-p 0.85 \       # 采样概率阈值
  --n-predict 1024 \   # 最大生成字数
  --repeat-penalty 1.1 \  # 重复惩罚
  --verbose"            # 开启详细日志

CLI版本 https://github.com/tekintian/llama.cpp/pkgs/container/llama-cpp-cli

Docker CPU使用统计

image

更多信息 https://ai.tekin.cn

v0.1.0

01 Mar 06:43
05728db

Choose a tag to compare

llama.cpp-darwin-amd64.7z

macos v12 平台编译的 llama.cpp