目录

Ollama 跑大模型太慢?保姆级提速手册!看完速度直接翻 3 倍

前言:我懂你的痛

先搞懂:为什么 Ollama 会慢?(一句话讲透原理)

🚀 第一部分:零成本!立竿见影的优化(先做这几个)

1. 换量化模型(效果最明显!首推!)

什么是量化?(大白话)

怎么换?(Ollama 一行命令搞定)

记住这个黄金后缀:-q4_K_M

2. 别用超长上下文!够用就行

怎么改?(Ollama 一行命令搞定)

3. 限制输出长度,别让模型写小说

怎么改?

4. 关掉所有占用显存的程序

⚙️ 第二部分:进阶配置优化(再提速 50%)

1. 强制全 GPU 加速,别让 CPU 拖后腿

Windows 系统:

Mac 系统:

Linux 系统:

2. 开启 Flash Attention(闪电注意力)

3. 调整 CPU 线程数(纯 CPU 跑的人必看)

怎么改?

4. 把模型文件放到 NVMe 固态硬盘里

怎么改 Ollama 的模型存储位置?

Windows 系统:

Mac/Linux 系统:

💻 第三部分:终极硬件升级指南(一步到位)

几个重要的误区:

❌ 避坑指南:这些做法只会让速度更慢

📊 怎么测试优化效果?

📝 总结:最优提速路线图


前言:我懂你的痛

相信每个刚入坑本地大模型的人,都经历过这个绝望的瞬间:

  • 发了一句 “你好”,去泡了杯茶、洗了个苹果,回来一看屏幕还在转圈圈显示 Thinking...
  • 好不容易等到首字出来,结果一个字一个字蹦,比老太太打字还慢
  • 聊个三五轮之后,速度直接断崖式下跌,发个问题要等半分钟才有反应
  • 明明买了个不错的显卡,结果跑个 7B 模型都卡成 PPT

别慌!这不是你的问题,也不是 Ollama 本身垃圾,99% 的情况都是你没开对设置。这篇手册我会把所有能提速的方法,从 “零成本立竿见影” 到 “进阶配置” 再到 “终极硬件升级”,全部用大白话讲清楚,照着做就行。


先搞懂:为什么 Ollama 会慢?(一句话讲透原理)

把大模型比作一个超级大的图书馆

  • 模型本身 = 图书馆里所有的书(几十亿本,堆起来有几栋楼那么高)
  • 显卡显存 = 图书馆的阅览室(空间越大,能同时放的书越多)
  • 电脑内存 = 图书馆外面的大书架(空间比阅览室大,但拿书要走很远)
  • CPU = 图书馆的管理员(负责把书从书架搬到阅览室)

你问模型一个问题 = 让管理员帮你找某几本书里的内容,然后整理成答案给你。

慢的本质原因只有一个:阅览室太小了!

  • 大部分书都放在外面的大书架上,管理员要来回跑着搬书
  • 每次搬书都要花很长时间,所以你要等很久
  • 聊的轮次越多,阅览室里堆的旧书越多,找新书就越慢

所有的优化方法,本质上都是围绕着 **“让更多的书待在阅览室里,让管理员少跑路”** 来做的。


🚀 第一部分:零成本!立竿见影的优化(先做这几个)

这些方法不用花一分钱,不用改一行代码,5 分钟就能搞定,做完速度至少提升 2 倍。

1. 换量化模型(效果最明显!首推!)

这是所有优化方法里,投入产出比最高的一个,没有之一。

什么是量化?(大白话)

刚才说模型是几十亿本书,原来的书都是全彩高清印刷的(FP16 精度),一本就有 10 斤重,搬起来特别费劲。量化就是把这些书改成黑白精华版

  • Q8 量化:黑白印刷,内容完全没变,重量减半
  • Q4 量化:黑白 + 精简掉没用的废话,内容几乎没变,重量变成原来的 1/4
  • Q2 量化:极度精简,重量变成原来的 1/8,但会丢一些细节

对于日常聊天、写文案、查资料来说,Q4 量化的精度损失你根本感觉不到,但速度能提升 2-3 倍,显存占用直接砍到原来的 1/4

怎么换?(Ollama 一行命令搞定)

你原来跑模型是这样的:

ollama run qwen3.5:9b

这默认跑的是 FP16 精度的版本,巨慢巨占显存。

换成 Q4 量化版,只要加个后缀就行:

ollama run qwen3.5:9b-q4_K_M
记住这个黄金后缀:-q4_K_M

这是全世界玩家公认的速度和精度的最佳平衡点,没有之一。

  • 不要用-q2,太糊了,经常胡说八道
  • 不要用-q8,速度提升不明显,显存占用还是很高
  • 所有 Ollama 支持的模型都有这个后缀,比如:
    • llama3:8b-q4_K_M
    • gemma2:9b-q4_K_M
    • mistral:7b-q4_K_M

2. 别用超长上下文!够用就行

现在很多模型都吹自己有 32K、128K 甚至 1M 的上下文,但这玩意儿是速度杀手

还是用图书馆的比喻:

  • 8K 上下文 = 阅览室能放 8000 本书
  • 32K 上下文 = 阅览室要放 32000 本书
  • 128K 上下文 = 阅览室要放 128000 本书

你的阅览室(显存)就那么大,硬要塞这么多书,结果就是大部分书都只能放在外面的书架上,管理员来回跑断腿。

99% 的日常场景,8K 上下文完全够用了

  • 日常聊天:最多用 2K
  • 写一篇 1000 字的文章:最多用 4K
  • 分析一个几十页的 PDF:最多用 8K
怎么改?(Ollama 一行命令搞定)

创建一个Modelfile文件,内容如下:

FROM qwen3.5:9b-q4_K_M
PARAMETER num_ctx 8192

然后运行:

ollama create qwen3.5-fast -f Modelfile
ollama run qwen3.5-fast

这样你就得到了一个 8K 上下文的快速版本。

3. 限制输出长度,别让模型写小说

很多人不知道,Ollama 默认允许模型一次生成 4096 个 token(大概 3000 个汉字)。这意味着,哪怕你只问 “今天天气怎么样”,模型也要准备好写 3000 字的答案,当然慢了。

怎么改?

还是在刚才的Modelfile里加一行:

FROM qwen3.5:9b-q4_K_M
PARAMETER num_ctx 8192
PARAMETER num_predict 1024

这样模型一次最多生成 1024 个汉字,足够日常使用了,速度会快很多。

4. 关掉所有占用显存的程序

这个不用我多说了吧?

  • 后台别开游戏、视频剪辑、PS、其他 AI 软件
  • 浏览器别开太多标签页(Chrome 是显存大户)
  • 把所有没用的程序都关掉,把显卡资源全给 Ollama

很多时候慢,根本不是模型的问题,是你的显存被其他程序占满了!


⚙️ 第二部分:进阶配置优化(再提速 50%)

如果上面的方法做完还是觉得慢,可以试试这些进阶配置,需要改一点点环境变量,但也很简单。

1. 强制全 GPU 加速,别让 CPU 拖后腿

Ollama 默认会自动分配 GPU 和 CPU 的任务,但有时候它会犯傻,把很多本该 GPU 做的事交给 CPU,结果就慢了。

我们可以强制让所有模型层都跑在 GPU 上

Windows 系统:
  1. 右键点击 “此电脑”→“属性”→“高级系统设置”→“环境变量”
  2. 在 “系统变量” 里点击 “新建”
  3. 变量名:OLLAMA_GPU_LAYERS
  4. 变量值:999(意思是把所有 999 层都交给 GPU)
  5. 点击确定,然后重启 Ollama 服务(任务管理器里找到 Ollama,结束任务,再重新打开)
Mac 系统:

打开终端,运行:

launchctl setenv OLLAMA_GPU_LAYERS 999

然后重启 Ollama。

Linux 系统:
echo "export OLLAMA_GPU_LAYERS=999" >> ~/.bashrc
source ~/.bashrc

然后重启 Ollama。

2. 开启 Flash Attention(闪电注意力)

这是一个黑科技优化,开启后速度直接翻倍,显存占用还能降低 20%!Ollama 0.1.30 及以上版本已经默认开启了,但如果你用的是旧版本,一定要手动开。

检查你的 Ollama 版本:

ollama --version

如果版本低于 0.1.30,先升级:

curl -fsSL https://ollama.com/install.sh | sh

3. 调整 CPU 线程数(纯 CPU 跑的人必看)

如果你没有显卡,只能用 CPU 跑模型,那这个设置非常重要。

很多人以为线程数越多越快,其实不是!线程数超过 CPU 的物理核心数,反而会因为线程打架变慢。

比如你是 6 核 12 线程的 CPU,线程数设成 6 就够了,不要设成 12。

怎么改?

还是在环境变量里加:

  • 变量名:OLLAMA_NUM_THREADS
  • 变量值:你的 CPU 物理核心数

4. 把模型文件放到 NVMe 固态硬盘里

如果你的模型文件放在机械硬盘里,那加载和推理速度都会巨慢。机械硬盘的读写速度大概是 100MB/s,而 NVMe 固态硬盘的读写速度是 3000MB/s 以上,差了 30 倍。

怎么改 Ollama 的模型存储位置?

很多人不知道,Ollama 默认把模型存在 C 盘,很容易把 C 盘占满。

Windows 系统:
  1. 先停止 Ollama 服务(任务管理器里结束 Ollama)
  2. C:\Users\你的用户名\.ollama\models文件夹整个复制到其他盘,比如D:\Ollama\Models
  3. 设置环境变量:
    • 变量名:OLLAMA_MODELS
    • 变量值:D:\Ollama\Models
  4. 重启 Ollama 服务
Mac/Linux 系统:
echo "export OLLAMA_MODELS=/path/to/your/models" >> ~/.bashrc
source ~/.bashrc

💻 第三部分:终极硬件升级指南(一步到位)

如果上面所有优化都做完了,你还是觉得慢,那只能说明:你的硬件跟不上了。

这里给大家一个不同显存能流畅跑的模型对照表,照着买准没错:

表格

显卡显存 能流畅跑的最大模型(Q4 量化) 日常使用体验
4GB 1B-3B 模型 只能简单聊天,速度一般
8GB 7B-9B 模型 非常流畅,日常使用完全够用
12GB 14B 模型 丝滑流畅,能处理复杂任务
16GB 22B 模型 体验接近云端大模型
24GB 34B-70B 模型 本地大模型的天花板

几个重要的误区:

  1. 不是显存越大越好,还要看算力
    • RTX3060 12G 虽然显存大,但算力不如 RTX4060 8G
    • 跑模型的速度:RTX4060 8G > RTX3060 12G
  2. 不要买 AMD 显卡!
    • Ollama 对 AMD 显卡的支持非常差,很多优化都不支持
    • 同价位的 N 卡跑模型速度是 A 卡的 3-5 倍
  3. 纯 CPU 跑模型没有意义
    • 哪怕是顶级的 i9-14900K,跑 7B 模型的速度也不如一张 RTX3050
    • 没有显卡的话,不如直接用云端大模型

❌ 避坑指南:这些做法只会让速度更慢

  1. ❌ 不要用 FP16 精度的模型,除非你有 40G 以上的显存
  2. ❌ 不要同时跑多个模型,显存会被占满
  3. ❌ 不要用太老的显卡驱动,新驱动对大模型有优化
  4. ❌ 不要开代理跑 Ollama,会增加网络延迟
  5. ❌ 不要用太长的上下文,够用就好

📊 怎么测试优化效果?

优化完之后,怎么知道速度有没有提升呢?用这个命令跑一下测试:

ollama run qwen3.5:9b-q4_K_M --verbose

然后随便问一个问题,比如 “写一首关于春天的诗”。等模型回答完之后,你会看到这样的输出:

plaintext

total duration:       2.345s
load duration:        0.123s
prompt eval count:    10 tokens
prompt eval duration: 0.234s
eval count:           50 tokens
eval duration:        1.987s
eval rate:            25.16 tokens/s

重点看最后一行的eval rate,这就是模型的生成速度:

  • <10 tokens/s:很慢,需要优化
  • 10-20 tokens/s:一般,还能接受
  • 20-30 tokens/s:流畅,体验很好
  • 30 tokens/s:丝滑,和云端大模型没区别

📝 总结:最优提速路线图

最后给大家一个最省事的提速路线,照着做就行:

  1. 第一步:把你的模型换成-q4_K_M版本(必做)
  2. 第二步:把上下文改成 8192,输出长度改成 1024
  3. 第三步:设置环境变量OLLAMA_GPU_LAYERS=999
  4. 第四步:关掉所有没用的程序
  5. 第五步:如果还是慢,升级显卡到 8G 以上显存

按照这个路线,99% 的人都能把 Ollama 的速度提升 3 倍以上,体验直接从 “能用” 变成 “好用”。

本地大模型的乐趣就在于它完全属于你,没有任何限制。希望这篇手册能帮你解决速度慢的问题,让你更好地享受 AI 带来的便利!

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐