Ollama 跑大模型太慢？保姆级提速手册！看完速度直接翻 3 倍

阿贾克斯ajax0322

1501人浏览 · 2026-04-20 12:34:06

阿贾克斯ajax0322 · 2026-04-20 12:34:06 发布

前言：我懂你的痛

先搞懂：为什么 Ollama 会慢？（一句话讲透原理）

🚀 第一部分：零成本！立竿见影的优化（先做这几个）

⚙️ 第二部分：进阶配置优化（再提速 50%）

1. 强制全 GPU 加速，别让 CPU 拖后腿

Windows 系统：

Mac 系统：

Linux 系统：

2. 开启 Flash Attention（闪电注意力）

3. 调整 CPU 线程数（纯 CPU 跑的人必看）

怎么改？

4. 把模型文件放到 NVMe 固态硬盘里

怎么改 Ollama 的模型存储位置？

Windows 系统：

Mac/Linux 系统：

💻 第三部分：终极硬件升级指南（一步到位）

前言：我懂你的痛

相信每个刚入坑本地大模型的人，都经历过这个绝望的瞬间：

发了一句 “你好”，去泡了杯茶、洗了个苹果，回来一看屏幕还在转圈圈显示 Thinking...
好不容易等到首字出来，结果一个字一个字蹦，比老太太打字还慢
聊个三五轮之后，速度直接断崖式下跌，发个问题要等半分钟才有反应
明明买了个不错的显卡，结果跑个 7B 模型都卡成 PPT

别慌！这不是你的问题，也不是 Ollama 本身垃圾，99% 的情况都是你没开对设置。这篇手册我会把所有能提速的方法，从 “零成本立竿见影” 到 “进阶配置” 再到 “终极硬件升级”，全部用大白话讲清楚，照着做就行。

先搞懂：为什么 Ollama 会慢？（一句话讲透原理）

把大模型比作一个超级大的图书馆：

模型本身 = 图书馆里所有的书（几十亿本，堆起来有几栋楼那么高）
显卡显存 = 图书馆的阅览室（空间越大，能同时放的书越多）
电脑内存 = 图书馆外面的大书架（空间比阅览室大，但拿书要走很远）
CPU = 图书馆的管理员（负责把书从书架搬到阅览室）

你问模型一个问题 = 让管理员帮你找某几本书里的内容，然后整理成答案给你。

慢的本质原因只有一个：阅览室太小了！

大部分书都放在外面的大书架上，管理员要来回跑着搬书
每次搬书都要花很长时间，所以你要等很久
聊的轮次越多，阅览室里堆的旧书越多，找新书就越慢

所有的优化方法，本质上都是围绕着 **“让更多的书待在阅览室里，让管理员少跑路”** 来做的。

🚀 第一部分：零成本！立竿见影的优化（先做这几个）

这些方法不用花一分钱，不用改一行代码，5 分钟就能搞定，做完速度至少提升 2 倍。

1. 换量化模型（效果最明显！首推！）

这是所有优化方法里，投入产出比最高的一个，没有之一。

什么是量化？（大白话）

刚才说模型是几十亿本书，原来的书都是全彩高清印刷的（FP16 精度），一本就有 10 斤重，搬起来特别费劲。量化就是把这些书改成黑白精华版：

Q8 量化：黑白印刷，内容完全没变，重量减半
Q4 量化：黑白 + 精简掉没用的废话，内容几乎没变，重量变成原来的 1/4
Q2 量化：极度精简，重量变成原来的 1/8，但会丢一些细节

对于日常聊天、写文案、查资料来说，Q4 量化的精度损失你根本感觉不到，但速度能提升 2-3 倍，显存占用直接砍到原来的 1/4。

怎么换？（Ollama 一行命令搞定）

你原来跑模型是这样的：

ollama run qwen3.5:9b

这默认跑的是 FP16 精度的版本，巨慢巨占显存。

换成 Q4 量化版，只要加个后缀就行：

ollama run qwen3.5:9b-q4_K_M

记住这个黄金后缀：`-q4_K_M`

这是全世界玩家公认的速度和精度的最佳平衡点，没有之一。

不要用-q2，太糊了，经常胡说八道
不要用-q8，速度提升不明显，显存占用还是很高
所有 Ollama 支持的模型都有这个后缀，比如：
- llama3:8b-q4_K_M
- gemma2:9b-q4_K_M
- mistral:7b-q4_K_M

2. 别用超长上下文！够用就行

现在很多模型都吹自己有 32K、128K 甚至 1M 的上下文，但这玩意儿是速度杀手！

还是用图书馆的比喻：

8K 上下文 = 阅览室能放 8000 本书
32K 上下文 = 阅览室要放 32000 本书
128K 上下文 = 阅览室要放 128000 本书

你的阅览室（显存）就那么大，硬要塞这么多书，结果就是大部分书都只能放在外面的书架上，管理员来回跑断腿。

99% 的日常场景，8K 上下文完全够用了：

日常聊天：最多用 2K
写一篇 1000 字的文章：最多用 4K
分析一个几十页的 PDF：最多用 8K

怎么改？（Ollama 一行命令搞定）

创建一个Modelfile文件，内容如下：

FROM qwen3.5:9b-q4_K_M
PARAMETER num_ctx 8192

然后运行：

ollama create qwen3.5-fast -f Modelfile
ollama run qwen3.5-fast

这样你就得到了一个 8K 上下文的快速版本。

3. 限制输出长度，别让模型写小说

很多人不知道，Ollama 默认允许模型一次生成 4096 个 token（大概 3000 个汉字）。这意味着，哪怕你只问 “今天天气怎么样”，模型也要准备好写 3000 字的答案，当然慢了。

怎么改？

还是在刚才的Modelfile里加一行：

FROM qwen3.5:9b-q4_K_M
PARAMETER num_ctx 8192
PARAMETER num_predict 1024

这样模型一次最多生成 1024 个汉字，足够日常使用了，速度会快很多。

4. 关掉所有占用显存的程序

这个不用我多说了吧？

后台别开游戏、视频剪辑、PS、其他 AI 软件
浏览器别开太多标签页（Chrome 是显存大户）
把所有没用的程序都关掉，把显卡资源全给 Ollama

很多时候慢，根本不是模型的问题，是你的显存被其他程序占满了！

⚙️ 第二部分：进阶配置优化（再提速 50%）

如果上面的方法做完还是觉得慢，可以试试这些进阶配置，需要改一点点环境变量，但也很简单。

1. 强制全 GPU 加速，别让 CPU 拖后腿

Ollama 默认会自动分配 GPU 和 CPU 的任务，但有时候它会犯傻，把很多本该 GPU 做的事交给 CPU，结果就慢了。

我们可以强制让所有模型层都跑在 GPU 上：

Windows 系统：

右键点击 “此电脑”→“属性”→“高级系统设置”→“环境变量”
在 “系统变量” 里点击 “新建”
变量名：OLLAMA_GPU_LAYERS
变量值：999（意思是把所有 999 层都交给 GPU）
点击确定，然后重启 Ollama 服务（任务管理器里找到 Ollama，结束任务，再重新打开）

Mac 系统：

打开终端，运行：

launchctl setenv OLLAMA_GPU_LAYERS 999

然后重启 Ollama。

Linux 系统：

echo "export OLLAMA_GPU_LAYERS=999" >> ~/.bashrc
source ~/.bashrc

然后重启 Ollama。

2. 开启 Flash Attention（闪电注意力）

这是一个黑科技优化，开启后速度直接翻倍，显存占用还能降低 20%！Ollama 0.1.30 及以上版本已经默认开启了，但如果你用的是旧版本，一定要手动开。

检查你的 Ollama 版本：

ollama --version

如果版本低于 0.1.30，先升级：

curl -fsSL https://ollama.com/install.sh | sh

3. 调整 CPU 线程数（纯 CPU 跑的人必看）

如果你没有显卡，只能用 CPU 跑模型，那这个设置非常重要。

很多人以为线程数越多越快，其实不是！线程数超过 CPU 的物理核心数，反而会因为线程打架变慢。

比如你是 6 核 12 线程的 CPU，线程数设成 6 就够了，不要设成 12。

怎么改？

还是在环境变量里加：

变量名：OLLAMA_NUM_THREADS
变量值：你的 CPU 物理核心数

4. 把模型文件放到 NVMe 固态硬盘里

如果你的模型文件放在机械硬盘里，那加载和推理速度都会巨慢。机械硬盘的读写速度大概是 100MB/s，而 NVMe 固态硬盘的读写速度是 3000MB/s 以上，差了 30 倍。

怎么改 Ollama 的模型存储位置？

很多人不知道，Ollama 默认把模型存在 C 盘，很容易把 C 盘占满。

Windows 系统：

先停止 Ollama 服务（任务管理器里结束 Ollama）
把C:\Users\你的用户名\.ollama\models文件夹整个复制到其他盘，比如D:\Ollama\Models
设置环境变量：
- 变量名：OLLAMA_MODELS
- 变量值：D:\Ollama\Models
重启 Ollama 服务

Mac/Linux 系统：

echo "export OLLAMA_MODELS=/path/to/your/models" >> ~/.bashrc
source ~/.bashrc

💻 第三部分：终极硬件升级指南（一步到位）

如果上面所有优化都做完了，你还是觉得慢，那只能说明：你的硬件跟不上了。

这里给大家一个不同显存能流畅跑的模型对照表，照着买准没错：

表格

显卡显存	能流畅跑的最大模型（Q4 量化）	日常使用体验
4GB	1B-3B 模型	只能简单聊天，速度一般
8GB	7B-9B 模型	非常流畅，日常使用完全够用
12GB	14B 模型	丝滑流畅，能处理复杂任务
16GB	22B 模型	体验接近云端大模型
24GB	34B-70B 模型	本地大模型的天花板

几个重要的误区：

不是显存越大越好，还要看算力
- RTX3060 12G 虽然显存大，但算力不如 RTX4060 8G
- 跑模型的速度：RTX4060 8G > RTX3060 12G
不要买 AMD 显卡！
- Ollama 对 AMD 显卡的支持非常差，很多优化都不支持
- 同价位的 N 卡跑模型速度是 A 卡的 3-5 倍
纯 CPU 跑模型没有意义
- 哪怕是顶级的 i9-14900K，跑 7B 模型的速度也不如一张 RTX3050
- 没有显卡的话，不如直接用云端大模型

❌ 避坑指南：这些做法只会让速度更慢

❌ 不要用 FP16 精度的模型，除非你有 40G 以上的显存
❌ 不要同时跑多个模型，显存会被占满
❌ 不要用太老的显卡驱动，新驱动对大模型有优化
❌ 不要开代理跑 Ollama，会增加网络延迟
❌ 不要用太长的上下文，够用就好

📊 怎么测试优化效果？

优化完之后，怎么知道速度有没有提升呢？用这个命令跑一下测试：

ollama run qwen3.5:9b-q4_K_M --verbose

然后随便问一个问题，比如 “写一首关于春天的诗”。等模型回答完之后，你会看到这样的输出：

plaintext

total duration:       2.345s
load duration:        0.123s
prompt eval count:    10 tokens
prompt eval duration: 0.234s
eval count:           50 tokens
eval duration:        1.987s
eval rate:            25.16 tokens/s

重点看最后一行的eval rate，这就是模型的生成速度：