辛辛苦苦等地安装好 Proot-Distro 的容器，回过头来才发现其实可以更简单点安装 Ollama 的！

安装

这里安装就方便许多了，除了可以使用 Ollama 官网提供的脚本进行安装，除此之外还能使用在线存储库的源进行安装。

安装有 Termux 的安卓手机
在 Termux 里面进行操作：
- 更新在线源的缓存：
```
pkg update
```
- 安装 Ollama ：
```
pkg install ollama
```
- 启动 Ollama ：
```
ollama serve &
```
- 运行模型：
```
ollama run deepseek-r1:1.5b --verbose
```

性能对比：

在Proot-Distro 的容器里面：

>>> 你的速度如何？ 
您好！我是由中国的深度求索（DeepSeek）公司开发的智能助 手DeepSeek-R1。有关模型和产品的详细内容请参考官方文档。

[GIN] 2026/05/25 - 09:08:24 | 200 | 12.299039587s | 127.0.0.1 | POST "/api/chat" 

total duration: 12.298808764s 
load duration: 237.548103ms 
prompt eval count: 7 token(s) 
prompt eval duration: 561.56024ms 
prompt eval rate: 12.47 tokens/s 
eval count: 38 token(s) 
eval duration: 11.36346595s 
eval rate: 3.34 tokens/s

直接在 Termux 里直接运行：

>>> 你的速度如何？ 
您好！我是由中国的深度求索（DeepSeek）公司开发的智能助 手DeepSeek-R1 created in 2023年4月。有关模型和产品的详 细内容请参考官方文档。

[GIN] 2026/05/25 - 09:14:50 | 200 | 13.802764953s | 127.0.0.1 | POST "/api/chat" 

total duration: 13.802643151s 
load duration: 188.753412ms 
prompt eval count: 7 token(s) 
prompt eval duration: 515.518299ms 
prompt eval rate: 13.58 tokens/s 
eval count: 48 token(s) 
eval duration: 12.933170156s 
eval rate: 3.71 tokens/s

速度相差无几，基本排除第二次使用的缓存命中的原因。其实我也不清楚有没有缓存的？

接口调用：
虽然是在 Termux 里面运行的，但在软件外的浏览器中可以正常使用本地环回地址访问。
API接口：https://127.0.0.1:11434
就此可以使用 Ollama 的程序连接使用。

体验

Models

NAME	ID	SIZE
glm4:9b	5b699761eca5	5.5 GB
gemma3:4b	a2af6cc3eb7f	3.3 GB
qwen3.5:4b	2a654d98e6fb	3.4 GB
granite4.1:8b	444af1c4b2fe	5.3 GB
deepseek-r1:1.5b	e0979632db5a	1.1 GB

性能一览

deepseek-r1:1.5b

>>> 你的速度如何？ 
您好！我是由中国的深度求索（DeepSeek）公司开发的智能助 手DeepSeek-R1 created in 2023年4月。有关模型和产品的详 细内容请参考官方文档。

[GIN] 2026/05/25 - 09:14:50 | 200 | 13.802764953s | 127.0.0.1 | POST "/api/chat" 

total duration: 13.802643151s 
load duration: 188.753412ms 
prompt eval count: 7 token(s) 
prompt eval duration: 515.518299ms 
prompt eval rate: 13.58 tokens/s 
eval count: 48 token(s) 
eval duration: 12.933170156s 
eval rate: 3.71 tokens/s

granite4.1:8b

>>> 你的速度如何？ 
作为一个大型语言模型，我的处理和响应速度取决于多种因素 ，包括但不限于服务器负载、请求的复杂性以及网络延迟。通 常情况下，我能够在几百毫秒到一秒之间生成并返回对您问题 的回答。请注意，具体的响应时间可能会有所不同，但我的设 计目标是提供尽快且准确的信息。如果您有特定的查询或需要 实时处理大量数据，请告诉我，我将尽力满足您的需求。

[GIN] 2026/05/25 - 09:50:04 | 200 | 3m43s | 127.0.0.1 | POST "/api/chat" 

total duration: 3m43.078881491s 
load duration: 129.694639ms 
prompt eval count: 15 token(s) 
prompt eval duration: 5.145896872s 
prompt eval rate: 2.91 tokens/s 
eval count: 161 token(s) 
eval duration: 3m37.384439856s 
eval rate: 0.74 tokens/s

qwen3.5:4b

>>> 你的速度如何？ 
Thinking... 
嗯，用户问我的速度如何。首先，我需要确认他们想知道的是 响应速度还是处理速度。可能他们之前遇到了响应慢的情况， 或者听说我的速度很快，想确认一下。 作为 Qwen3.5，我的生成速度应该依赖于后端的技术架构。我 需要提到具体的优化点，比如混合注意力机制、多 token 预测 这些技术。但用户可能不太熟悉这些术语，需要用更易懂的语 言解释。 另外，用户可能关心实际使用时的体验，比如在网页或应用中 的响应时间。我需要强调在实际应用中，速度取决于服务器和 系统状态，但我会尽力优化。 可能还要比较不同模型的速度，但用户没要求比较，所以点到 为止。需要避免技术细节过多，保持回答友好，同时突出优势 。 还要注意用户可能关心并发请求的处理能力，比如高并发下的 稳定性。这时候要提到架构优化和分布式处理，但同样需要简 化。 最后，确保回答准确，不夸大，同时提供改进空间，比如建议 反馈，这样显得真诚。 

...done thinking. 

你好！关于速度，我这边可以这么说： **作为 Qwen3.5，我的核心生成速度在技术层面经过全面优化 **： 

1. **生成效率**： - 采用了**混合注意力机制**与**多 token 预测**技术， 在复杂任务中仍能保持流畅的响应输出。 - 实际应用中，简单问题的响应通常在几秒内完成，复杂任 务也会通过后台异步优化确保体验。 

2. **实际体验**： - 具体速度取决于**服务器负载、网络状况**以及**任务复 杂度**（比如生成 1000 字 vs. 10000 字）。 - 如果是常规文本生成（如写文章、回答问题），速度非常 快；如果涉及长文本理解或复杂逻辑推理，可能会稍需时间优 化，但整体仍属流畅级别。 

3. **高并发支持**： - 架构设计支持**大规模并发请求**，即使多人同时使用， 也能保持响应稳定（这点在实际使用中很关键）。 

4. **实际对比**： - 相比早期版本，我在速度上提升了约 30%（具体数值视场 景而定），尤其是**多轮对话**和**长文本处理**的场景。 **需要调整速度的情况**： - 如果是超大规模数据（如生成数十万字内容），可能需要 分批次处理，但整体耗时仍在可控范围内。 - 如果遇到卡顿，建议检查网络或减少单次请求的复杂度（ 比如拆分任务）。 

总之，**速度是我的核心优势之一**，尤其在需要快速响应的 场景下，我的表现非常接近原生流畅体验。如果你有具体场景 （比如网页端、API 调用），可以告诉我，我会针对性说明优 化细节～


[GIN] 2026/05/25 - 10:10:54 | 200 | 12m40s | 127.0.0.1 | POST "/api/chat" 

total duration: 12m40.484470244s 
load duration: 349.087934ms 
prompt eval count: 14 token(s) 
prompt eval duration: 3.136495495s 
prompt eval rate: 4.46 tokens/s eval 
count: 586 token(s) 
eval duration: 12m34.290122095s 
eval rate: 0.78 tokens/s

gemma3:4b

>>> 你的速度如何？
 作为一个大型语言模型，我的速度取决于几个因素： 

* **请求的复杂性：** 简单的问题（例如“你好”）可以几乎即 时得到回复。复杂的请求，例如需要大量计算、深入的分析， 或者需要访问外部数据源，则需要更多的时间。 

* **服务器负载：** 我的运行在大型服务器集群上。当其他 用户同时使用我时，响应速度可能会变慢。 

* **网络连接：** 您的网络连接速度也会影响响应时间。 

* **模型大小和优化：** 我是一个非常大的模型，但谷歌一 直在持续地对模型进行优化，以提高速度和效率。 

**一般来说，以下是一些大致的响应时间：** 

* **简单问题:** 几百毫秒 (0.1-1 秒) 

* **中等问题:** 1-3 秒 

* **复杂问题 (需要计算、分析):** 3-10 秒 (甚至更长，取 决于具体情况) 

**我一直在努力提升我的速度。** 谷歌工程师们不断地改进我 的架构和算法，以让我能够更快速、更有效地回答您的提问。 

**为了更好地理解您的需求，您可以尝试：** 

* 提供更具体的问题。 * 将复杂的请求分解成更小的步骤。 

* 检查您的网络连接。 

您有什么问题想问我吗？ 我会尽力尽快回答！ 


[GIN] 2026/05/25 - 10:19:44 | 200 | 3m27s | 127.0.0.1 | POST "/api/chat" 

total duration: 3m27.627229429s 
load duration: 493.499992ms 
prompt eval count: 13 token(s) 
prompt eval duration: 2.124245576s 
prompt eval rate: 6.12 tokens/s 
eval count: 301 token(s) 
eval duration: 3m23.773644977s 
eval rate: 1.48 tokens/s

glm4:9b

>>> 你的速度如何？ 
我的回复速度取决于服务器的响应时间和网络条件。通常情况 下，我的回答应该是即时的。如果您觉得有延迟，可能是因为 您所在地区与服务器之间的网络状况不佳。请耐心等待，我会 尽快给您答复。

[GIN] 2026/05/25 - 11:15:17 | 200 | 1m24s | 127.0.0.1 | POST "/api/chat" 

total duration: 1m24.330914514s 
load duration: 204.532554ms 
prompt eval count: 10 token(s) 
prompt eval duration: 4.125569314s 
prompt eval rate: 2.42 tokens/s 
eval count: 47 token(s) 
eval duration: 1m19.775492174s 
eval rate: 0.59 tokens/s

不知道准不准确，发现模型的大小与内存的大小有些相关的样子，比如7.2GB的模型在8GB的云手机上就内存不足。

不太满意的就是在这里不能使用systemctl、service拉起服务，只能用命令行的方式启动。

ChiuYut

2026年05月25日

直接在 Termux 里安装 Ollama 以使用本地运行的大语言模型环境

安装

体验