一开始选型的是 Ollama 这个工具套件的，而且也是想着在手机上部署来使用，可惜的就是没有折腾成功的说。

之所以会折腾自己编译，主要是因为自己没有打开下拉，错误下载了一个欧拉版本的二进制包，看着运行运行库的问题“百思不得其解”。眼看如此就决定尝试编译一个“适合的”版本，反正都打算在手机上部署的，就干脆在 Linux 上准备编译安卓上用的版本，在编译的时候发现这编译用的配置太低，老是在编译到90%左右的ui.cpp这一步被杀进程。多次尝试无果后才毅然发现，我特么没有展开 Github 发布页的列表，全部展开后终于发现“心心念的” Linux 二进制可执行安装包。

介绍

llama.cpp 是一个用 C/C++ 编写的大语言模型推理框架，目标是在消费级硬件上高效运行 LLM。它支持 macOS、Linux、Windows 以及各种 GPU 加速后端，是目前最流行的本地 AI 推理工具之一。

安装

二进制可执行文件安装

下载

大部分设备只需在 Github 下载好编译好的二进制可执行文件即可，根据具体的设备类型选择对应的下载链接。

比如我是在 X86_64 的虚拟服务器上部署的，则下载：

wget https://github.com/ggml-org/llama.cpp/releases/download/b9245/llama-b9245-bin-ubuntu-x64.tar.gz

编译安装

注册成 service 服务

[Unit]
Description=Llama Large Language Model Inference Server
After=network-online.target

[Service]
ExecStart=/usr/local/llama/llama-server -c 2048 -b 2048 -t 1 -np 1 -n 4096 --temp 0.7 --top-k 20 --top-p 0.6 --repeat-penalty 1.05 --no-warmup --host 127.0.0.1 --port 11456 --api-key Chiu..2026..Yut  --log-file /var/log/llama-server.log --log-verbose --log-prefix --log-timestamps
User=llama
Group=llama
Restart=always
RestartSec=3
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
Environment="LLAMA_MAX_VRAM=0"
Environment="LLAMA_LLM_LIBRARY=cpu"
Environment="LLAMA_NO_CUDA=1"

[Install]
WantedBy=default.target

在低配的 VPS 上使用 llama.cpp 搭建可供在本地运行大语言模型的环境

介绍

安装

二进制可执行文件安装

下载

编译安装

注册成 service 服务

使用

体验

参考

发布者

ChiuYut