Ollama 跑大模型太慢?保姆级提速手册!看完速度直接翻 3 倍
目录
Ollama 跑大模型太慢?保姆级提速手册!看完速度直接翻 3 倍
前言:我懂你的痛
相信每个刚入坑本地大模型的人,都经历过这个绝望的瞬间:
- 发了一句 “你好”,去泡了杯茶、洗了个苹果,回来一看屏幕还在转圈圈显示
Thinking... - 好不容易等到首字出来,结果一个字一个字蹦,比老太太打字还慢
- 聊个三五轮之后,速度直接断崖式下跌,发个问题要等半分钟才有反应
- 明明买了个不错的显卡,结果跑个 7B 模型都卡成 PPT
别慌!这不是你的问题,也不是 Ollama 本身垃圾,99% 的情况都是你没开对设置。这篇手册我会把所有能提速的方法,从 “零成本立竿见影” 到 “进阶配置” 再到 “终极硬件升级”,全部用大白话讲清楚,照着做就行。
先搞懂:为什么 Ollama 会慢?(一句话讲透原理)
把大模型比作一个超级大的图书馆:
- 模型本身 = 图书馆里所有的书(几十亿本,堆起来有几栋楼那么高)
- 显卡显存 = 图书馆的阅览室(空间越大,能同时放的书越多)
- 电脑内存 = 图书馆外面的大书架(空间比阅览室大,但拿书要走很远)
- CPU = 图书馆的管理员(负责把书从书架搬到阅览室)
你问模型一个问题 = 让管理员帮你找某几本书里的内容,然后整理成答案给你。
慢的本质原因只有一个:阅览室太小了!
- 大部分书都放在外面的大书架上,管理员要来回跑着搬书
- 每次搬书都要花很长时间,所以你要等很久
- 聊的轮次越多,阅览室里堆的旧书越多,找新书就越慢
所有的优化方法,本质上都是围绕着 **“让更多的书待在阅览室里,让管理员少跑路”** 来做的。
🚀 第一部分:零成本!立竿见影的优化(先做这几个)
这些方法不用花一分钱,不用改一行代码,5 分钟就能搞定,做完速度至少提升 2 倍。
1. 换量化模型(效果最明显!首推!)
这是所有优化方法里,投入产出比最高的一个,没有之一。
什么是量化?(大白话)
刚才说模型是几十亿本书,原来的书都是全彩高清印刷的(FP16 精度),一本就有 10 斤重,搬起来特别费劲。量化就是把这些书改成黑白精华版:
- Q8 量化:黑白印刷,内容完全没变,重量减半
- Q4 量化:黑白 + 精简掉没用的废话,内容几乎没变,重量变成原来的 1/4
- Q2 量化:极度精简,重量变成原来的 1/8,但会丢一些细节
对于日常聊天、写文案、查资料来说,Q4 量化的精度损失你根本感觉不到,但速度能提升 2-3 倍,显存占用直接砍到原来的 1/4。
怎么换?(Ollama 一行命令搞定)
你原来跑模型是这样的:
ollama run qwen3.5:9b
这默认跑的是 FP16 精度的版本,巨慢巨占显存。
换成 Q4 量化版,只要加个后缀就行:
ollama run qwen3.5:9b-q4_K_M
记住这个黄金后缀:-q4_K_M
这是全世界玩家公认的速度和精度的最佳平衡点,没有之一。
- 不要用
-q2,太糊了,经常胡说八道 - 不要用
-q8,速度提升不明显,显存占用还是很高 - 所有 Ollama 支持的模型都有这个后缀,比如:
llama3:8b-q4_K_Mgemma2:9b-q4_K_Mmistral:7b-q4_K_M
2. 别用超长上下文!够用就行
现在很多模型都吹自己有 32K、128K 甚至 1M 的上下文,但这玩意儿是速度杀手!
还是用图书馆的比喻:
- 8K 上下文 = 阅览室能放 8000 本书
- 32K 上下文 = 阅览室要放 32000 本书
- 128K 上下文 = 阅览室要放 128000 本书
你的阅览室(显存)就那么大,硬要塞这么多书,结果就是大部分书都只能放在外面的书架上,管理员来回跑断腿。
99% 的日常场景,8K 上下文完全够用了:
- 日常聊天:最多用 2K
- 写一篇 1000 字的文章:最多用 4K
- 分析一个几十页的 PDF:最多用 8K
怎么改?(Ollama 一行命令搞定)
创建一个Modelfile文件,内容如下:
FROM qwen3.5:9b-q4_K_M
PARAMETER num_ctx 8192
然后运行:
ollama create qwen3.5-fast -f Modelfile
ollama run qwen3.5-fast
这样你就得到了一个 8K 上下文的快速版本。
3. 限制输出长度,别让模型写小说
很多人不知道,Ollama 默认允许模型一次生成 4096 个 token(大概 3000 个汉字)。这意味着,哪怕你只问 “今天天气怎么样”,模型也要准备好写 3000 字的答案,当然慢了。
怎么改?
还是在刚才的Modelfile里加一行:
FROM qwen3.5:9b-q4_K_M
PARAMETER num_ctx 8192
PARAMETER num_predict 1024
这样模型一次最多生成 1024 个汉字,足够日常使用了,速度会快很多。
4. 关掉所有占用显存的程序
这个不用我多说了吧?
- 后台别开游戏、视频剪辑、PS、其他 AI 软件
- 浏览器别开太多标签页(Chrome 是显存大户)
- 把所有没用的程序都关掉,把显卡资源全给 Ollama
很多时候慢,根本不是模型的问题,是你的显存被其他程序占满了!
⚙️ 第二部分:进阶配置优化(再提速 50%)
如果上面的方法做完还是觉得慢,可以试试这些进阶配置,需要改一点点环境变量,但也很简单。
1. 强制全 GPU 加速,别让 CPU 拖后腿
Ollama 默认会自动分配 GPU 和 CPU 的任务,但有时候它会犯傻,把很多本该 GPU 做的事交给 CPU,结果就慢了。
我们可以强制让所有模型层都跑在 GPU 上:
Windows 系统:
- 右键点击 “此电脑”→“属性”→“高级系统设置”→“环境变量”
- 在 “系统变量” 里点击 “新建”
- 变量名:
OLLAMA_GPU_LAYERS - 变量值:
999(意思是把所有 999 层都交给 GPU) - 点击确定,然后重启 Ollama 服务(任务管理器里找到 Ollama,结束任务,再重新打开)
Mac 系统:
打开终端,运行:
launchctl setenv OLLAMA_GPU_LAYERS 999
然后重启 Ollama。
Linux 系统:
echo "export OLLAMA_GPU_LAYERS=999" >> ~/.bashrc
source ~/.bashrc
然后重启 Ollama。
2. 开启 Flash Attention(闪电注意力)
这是一个黑科技优化,开启后速度直接翻倍,显存占用还能降低 20%!Ollama 0.1.30 及以上版本已经默认开启了,但如果你用的是旧版本,一定要手动开。
检查你的 Ollama 版本:
ollama --version
如果版本低于 0.1.30,先升级:
curl -fsSL https://ollama.com/install.sh | sh
3. 调整 CPU 线程数(纯 CPU 跑的人必看)
如果你没有显卡,只能用 CPU 跑模型,那这个设置非常重要。
很多人以为线程数越多越快,其实不是!线程数超过 CPU 的物理核心数,反而会因为线程打架变慢。
比如你是 6 核 12 线程的 CPU,线程数设成 6 就够了,不要设成 12。
怎么改?
还是在环境变量里加:
- 变量名:
OLLAMA_NUM_THREADS - 变量值:你的 CPU 物理核心数
4. 把模型文件放到 NVMe 固态硬盘里
如果你的模型文件放在机械硬盘里,那加载和推理速度都会巨慢。机械硬盘的读写速度大概是 100MB/s,而 NVMe 固态硬盘的读写速度是 3000MB/s 以上,差了 30 倍。
怎么改 Ollama 的模型存储位置?
很多人不知道,Ollama 默认把模型存在 C 盘,很容易把 C 盘占满。
Windows 系统:
- 先停止 Ollama 服务(任务管理器里结束 Ollama)
- 把
C:\Users\你的用户名\.ollama\models文件夹整个复制到其他盘,比如D:\Ollama\Models - 设置环境变量:
- 变量名:
OLLAMA_MODELS - 变量值:
D:\Ollama\Models
- 变量名:
- 重启 Ollama 服务
Mac/Linux 系统:
echo "export OLLAMA_MODELS=/path/to/your/models" >> ~/.bashrc
source ~/.bashrc
💻 第三部分:终极硬件升级指南(一步到位)
如果上面所有优化都做完了,你还是觉得慢,那只能说明:你的硬件跟不上了。
这里给大家一个不同显存能流畅跑的模型对照表,照着买准没错:
表格
| 显卡显存 | 能流畅跑的最大模型(Q4 量化) | 日常使用体验 |
|---|---|---|
| 4GB | 1B-3B 模型 | 只能简单聊天,速度一般 |
| 8GB | 7B-9B 模型 | 非常流畅,日常使用完全够用 |
| 12GB | 14B 模型 | 丝滑流畅,能处理复杂任务 |
| 16GB | 22B 模型 | 体验接近云端大模型 |
| 24GB | 34B-70B 模型 | 本地大模型的天花板 |
几个重要的误区:
- 不是显存越大越好,还要看算力
- RTX3060 12G 虽然显存大,但算力不如 RTX4060 8G
- 跑模型的速度:RTX4060 8G > RTX3060 12G
- 不要买 AMD 显卡!
- Ollama 对 AMD 显卡的支持非常差,很多优化都不支持
- 同价位的 N 卡跑模型速度是 A 卡的 3-5 倍
- 纯 CPU 跑模型没有意义
- 哪怕是顶级的 i9-14900K,跑 7B 模型的速度也不如一张 RTX3050
- 没有显卡的话,不如直接用云端大模型
❌ 避坑指南:这些做法只会让速度更慢
- ❌ 不要用 FP16 精度的模型,除非你有 40G 以上的显存
- ❌ 不要同时跑多个模型,显存会被占满
- ❌ 不要用太老的显卡驱动,新驱动对大模型有优化
- ❌ 不要开代理跑 Ollama,会增加网络延迟
- ❌ 不要用太长的上下文,够用就好
📊 怎么测试优化效果?
优化完之后,怎么知道速度有没有提升呢?用这个命令跑一下测试:
ollama run qwen3.5:9b-q4_K_M --verbose
然后随便问一个问题,比如 “写一首关于春天的诗”。等模型回答完之后,你会看到这样的输出:
plaintext
total duration: 2.345s
load duration: 0.123s
prompt eval count: 10 tokens
prompt eval duration: 0.234s
eval count: 50 tokens
eval duration: 1.987s
eval rate: 25.16 tokens/s
重点看最后一行的eval rate,这就是模型的生成速度:
- <10 tokens/s:很慢,需要优化
- 10-20 tokens/s:一般,还能接受
- 20-30 tokens/s:流畅,体验很好
- 30 tokens/s:丝滑,和云端大模型没区别
📝 总结:最优提速路线图
最后给大家一个最省事的提速路线,照着做就行:
- 第一步:把你的模型换成
-q4_K_M版本(必做) - 第二步:把上下文改成 8192,输出长度改成 1024
- 第三步:设置环境变量
OLLAMA_GPU_LAYERS=999 - 第四步:关掉所有没用的程序
- 第五步:如果还是慢,升级显卡到 8G 以上显存
按照这个路线,99% 的人都能把 Ollama 的速度提升 3 倍以上,体验直接从 “能用” 变成 “好用”。
本地大模型的乐趣就在于它完全属于你,没有任何限制。希望这篇手册能帮你解决速度慢的问题,让你更好地享受 AI 带来的便利!
更多推荐




所有评论(0)