Releases · tekintian/llama.cpp

专门针对intel CPU优化编译的最新版本llama.cpp version: 159 (82380db)

dyn是动态编译的
static 是静态编译的

注意本编译物使用了openblas加速，需要再目标机器上面安装响应的库，

# 在部署服务器安装openblas库 
yum install openblas-threads.x86_64 -y
#安装后查看库文件 find /usr -name "libopenblas*"
# 软连接名称为 libopenblas.so.0 这个是llama.cpp认识的名字
ln -sf /usr/lib64/libopenblasp-r0.3.3.so /usr/lib64/libopenblas.so.0

docker 镜像

docker pull ghcr.io/tekintian/llama-cpp-server

 # 前提：本地目录 ./models 存放 GGUF 模型文件（如 Qwen3.5-0.8B-Q4_K_M.gguf）
docker run -d \
  --name llama-server \
  -p 8080:8080 \
  -v $PWD/models:/models \
  -e LLAMA_MODEL=/models/Qwen3.5-0.8B-Q4_K_M.gguf \
  ghcr.io/tekintian/llama-cpp-server

自定义参数启动（进阶配置）

docker run -d \
  --name llama-server \
  -p 9090:9090 \ 
  -v $PWD/models:/models \
  -e LLAMA_HOST=0.0.0.0 \
  -e LLAMA_PORT=9090 \
  -e LLAMA_CTX_SIZE=4096 \ 
  -e LLAMA_EXTRA_ARGS="--threads 8 --temperature 0.7 --top-p 0.9" \ 
  -e LLAMA_MODEL=/models/Qwen3.5-1.8B-Q4_K_M.gguf \
  ghcr.io/tekintian/llama-cpp-server

环境变量	作用	默认值
LLAMA_HOST	服务监听地址	0.0.0.0
LLAMA_PORT	服务监听端口	8080
LLAMA_CTX_SIZE	上下文窗口大小（影响推理长度）	2048
LLAMA_MODEL	模型文件路径（容器内路径）	无（必填）
LLAMA_EXTRA_ARGS	额外 llama.cpp 参数	空

常用 LLAMA_EXTRA_ARGS 参数

# 示例：调整推理参数
LLAMA_EXTRA_ARGS="--threads 16 \
  --temperature 0.8 \  # 随机性（0=确定性，1=高随机）
  --top-p 0.85 \       # 采样概率阈值
  --n-predict 1024 \   # 最大生成字数
  --repeat-penalty 1.1 \  # 重复惩罚
  --verbose"            # 开启详细日志

CLI版本 https://github.com/tekintian/llama.cpp/pkgs/container/llama-cpp-cli

Docker CPU使用统计

更多信息 https://ai.tekin.cn

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

docker 镜像

自定义参数启动（进阶配置）

Docker CPU使用统计

Uh oh!

Choose a tag to compare

Sorry, something went wrong.

Sorry, something went wrong.

Uh oh!

No results found

Uh oh!

Releases: tekintian/llama.cpp

v1.5.9

docker 镜像

自定义参数启动（进阶配置）

Docker CPU使用统计

Uh oh!

v0.1.0

Uh oh!