Ollama 让你一条命令搞定
Ollama 让你一条命令搞定
想在本地跑 ChatGPT?Ollama 让你一条命令搞定
说实话,第一次听说 Ollama 的时候,我还以为是哪个新出的咖啡品牌,毕竟名字听着挺文艺的(笑)。
后来朋友安利了好几次,我也没太当回事。直到有天深夜——我正在调试一个 AI 项目,OpenAI API 突然疯狂报错,改配置、查文档、翻 issue…折腾了两个小时,心态直接崩了。
朋友发来一条消息:“为啥不用 Ollama?”
我说啥玩意儿?
他说:“下载个模型,本地跑,不就完了?”
我当时就想骂他(别问为啥,程序员都懂)。
但那天晚上我还是试了试——我直接被震撼到了。
不用注册账号、不用翻墙、不用担心数据泄露、更不用每个月掏几百块 API 费用。一条命令,你的电脑就变成了一个私人 AI 助手。
那天晚上我折腾到凌晨 3 点,完全停不下来。
今天就来聊聊这个让无数开发者直呼"相见恨晚"的神器。
一、Ollama 到底是啥?
简单来说,Ollama 就是本地 AI 的 Docker。
如果你用过 Docker,你应该知道它的威力:一个 docker run 就能拉起任何服务,不用配环境、不用装依赖,docker-compose 一拉,整套系统就起来了。
Ollama 做了类似的事情,但它针对的是 AI 模型。
以前跑个本地 LLM 是什么体验?
你得:
- 配 Python 环境(Python 3.9?3.10?版本兼容是个坑)
- 装 PyTorch、CUDA(别问我为什么 CUDA 版本总对不上)
- 下载模型文件(几十 GB,下载半天)
- 写一堆推理代码(还得考虑量化、显存优化)
- 哪怕跑起来了,性能还可能很拉跨
一堆劝退操作,我以前试过两次,都没坚持下来。
现在? 就两行代码:
# 安装 Ollama(Mac/Windows 都有一键安装包)
curl -fsSL https://ollama.com/install.sh | sh
# 下载并运行 Llama 3 模型
ollama run llama3
就这么简单。
5 分钟从零到跑起来,一点都不夸张。
我第一次跑的时候还在想,这玩意儿能行吗?结果一问,回答质量居然还不错,而且速度也快,完全颠覆了我的认知。
二、为什么要用 Ollama?
你可能问:我直接用 ChatGPT 不香吗?
问得好。老实说,ChatGPT 确实好用,但 Ollama 解决了几个核心痛点——尤其是对开发者来说。
1️⃣ 隐私安全 ⭐⭐⭐⭐⭐
这个太重要了。
所有对话都在你的电脑上完成,数据不会上传到任何服务器。
写代码、处理文档、分析敏感数据,你再也不用担心被"监听"了。
我之前在一家金融公司工作,开发环境连外网都是隔离的,想用 AI 助手?没门。那时候要是有 Ollama,能省多少麻烦啊。
2️⃣ 成本为零 ⭐⭐⭐⭐⭐
OpenAI API 按Token收费,用多了钱包真的痛。
我之前做个小项目,跑了几千次 API 调用,账单一来——几百块没了(别问,问就是泪)。
Ollama 的模型都是免费的,硬件投入是一次性的,电费另算(但真心不多,跑个 3B 模型,功耗也就几十瓦)。
3️⃣ 离线可用 ⭐⭐⭐⭐
没网也能用!
飞机上、深山老林里(夸张了点,但地铁上没网的时候是真的多),只要电脑有电,AI 就在线。
我有次出差,在高铁上改代码,遇到个问题,直接本地一查一问,问题解决了。旁边同事还问:“你连网了吗?”
我说:“不用。”
他一脸懵逼。
4️⃣ 模型丰富 ⭐⭐⭐⭐⭐
Llama、Mistral、Gemma、DeepSeek、Qwen…主流开源模型一网打尽,而且都在持续更新。
你想玩深度推理?用 DeepSeek-R1。想要中文支持好的?Qwen 2.5。想要速度快、轻量级的?Mistral。
总有一款适合你。
5️⃣ API 友好 ⭐⭐⭐⭐
Ollama 自带 HTTP API,完全兼容 OpenAI 接口格式。
这意味着你写的 OpenAI 代码,几乎不用改就能切到 Ollama。
我之前写了个项目,本来接的是 GPT-4,后来成本太高,我就改成了 DeepSeek-R1(通过 Ollama 本地跑)。
改了多少代码?
# 以前
client = OpenAI(api_key="sk-xxxxx")
# 现在
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # 随便填,Ollama 不检查
)
就改了三行,其他代码完全不用动,瞬间成本归零。
三、新手快速上手(保姆级教程)
好,不说废话了,直接上干货。
Step 1:安装
Mac 用户:
brew install ollama
Windows 用户:
去 ollama.com 下载安装包,双击安装(和装 QQ 一样简单,一路下一步就完事)。
Linux 用户:
curl -fsSL https://ollama.com/install.sh | sh
装完后,运行:
ollama --version
看到版本号就说明成功了。
Step 2:下载第一个模型
推荐新手从 Llama 3.2 3B 开始。
为什么推荐这个?
- 轻量级,普通笔记本也能跑
- 性能均衡,回答质量不错
- 下载快,也就 2GB 左右
运行命令:
ollama run llama3.2
第一次会下载模型文件(大概 2GB 左右,取决于网速)。
下载速度怎么样?看人品(别问,问就是国外的源)。
下载完成后,你会进入一个类似 ChatGPT 的对话界面:
>>> 你好,我是你的AI助手。有什么可以帮你?
随便聊两句试试:
你好!
用Python写一个快速排序
解释一下什么是量子计算
我当时试的第一个问题是:“写个 Python 快速排序”。
它给的代码居然能直接跑,我直接傻了——这玩意儿真的能行啊!
Step 3:查看已安装的模型
ollama list
你会看到类似这样的输出:
NAME ID SIZE MODIFIED
llama3.2:latest a80c4f17... 2.1GB 2024-03-26
deepseek-r1:latest 9a73b5c2... 4.7GB 2024-03-25
mistral:latest b8f3e2a1... 4.2GB 2024-03-20
Step 4:运行不同模型
Ollama 支持数百个模型,但我只推荐新手用这几个:
| 模型 | 特点 | 适用场景 | 显存要求 |
|---|---|---|---|
| llama3.2 | Meta 出品,均衡 | 通用对话、写作、代码 | 4GB+ |
| deepseek-r1 | 深度推理能力强 | 复杂逻辑、数学题、推理 | 8GB+ |
| mistral | 法国人做的,快 | 日常对话、轻量任务 | 4GB+ |
| qwen2.5 | 阿里开源,中文好 | 中文场景、翻译 | 4GB+ |
运行方式:
ollama run deepseek-r1
ollama run mistral
ollama run qwen2.5
Step 5:在命令行中使用
不想进入交互模式?直接用命令:
ollama run llama3.2 "写一首关于春天的诗"
输出会直接打印在终端,你可以用管道重定向到文件,或者写个脚本批量处理。
四、高级玩法(进阶但简单)
1️⃣ 用 API 调用 Ollama
Ollama 默认监听 localhost:11434,直接用 HTTP 请求就行:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "写一首关于春天的诗"
}'
Python 代码示例:
import requests
response = requests.post('http://localhost:11434/api/generate', json={
"model": "llama3.2",
"prompt": "写一首关于春天的诗"
})
print(response.json()['response'])
兼容 OpenAI 格式(这个太香了):
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1',
api_key='ollama' # 随便填,Ollama 不检查
)
response = client.chat.completions.create(
model='llama3.2',
messages=[{'role': 'user', 'content': '你好'}]
)
print(response.choices[0].message.content)
是的,你只需要改一行代码,就能从 OpenAI 切到本地模型!
2️⃣ 搭个 Web 界面
如果你不习惯命令行,想有个类似 ChatGPT 的网页界面,推荐 Open WebUI:
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
然后在浏览器打开 http://localhost:3000,颜值和体验都很在线,完全不输 ChatGPT。
我给公司搭了个,同事们都用得很开心,还省了一笔 ChatGPT Plus 的订阅费。
3️⃣ 集成到开发工具
VS Code、Cursor、Windsurf 等编辑器都支持 Ollama,在设置里把 API 地址改成 http://localhost:11434 就能直接用本地模型写代码了。
我现在写代码完全用本地模型,既快又省,还不怕代码被传到外面去。
五、踩坑指南(这些我都踩过)
说实话,没有工具是完美的,Ollama 也有一些坑。但别担心,我帮你踩过了。
❌ 问题 1:模型下载很慢
原因: 默认源在国外,国内网络不稳定。
解决方案:
- 设置镜像源(如果有的话,我目前还没找到好用的)
- 或者耐心等待(我第一次下载等了半小时,煮碗面的功夫就好了)
- 找朋友要一份模型文件,手动放到
~/.ollama/models目录(Mac/Linux)或%USERPROFILE%\.ollama\models(Windows)
❌ 问题 2:跑起来很卡
原因: 模型太大,你的显卡顶不住。
解决方案:
- 换个小模型(3B、7B)
- 或者用量化版本(后缀带
q4_k_m之类的,模型更小,但精度会稍微降一点)
ollama run llama3.2:3b-q4_k_m
我用的是一台 2020 年的 MacBook Pro,M1 芯片,跑 llama3.2:3b 还是很流畅的。
❌ 问题 3:回答质量不如 ChatGPT
原因: 开源模型确实和 GPT-4 有差距,但差距在快速缩小。
解决方案:
- 试试 DeepSeek-R1(推理能力很强,我用来做数学题效果很好)
- 换个更大的模型(70B 版本,但需要更好的显卡)
- 提示词优化一下(比如"请一步步思考"、“详细解释你的推理过程”)
其实对于大部分日常场景,3B 模型已经够用了,不用太纠结。
❌ 问题 4:占用太多内存
原因: 模型加载后常驻内存。
解决方案: 不用的时候把模型卸载:
# 停止当前模型(Ctrl+C 或 Ctrl+D)
# 或者手动卸载
ollama rm llama3.2
六、实用小技巧
💡 技巧 1:查看模型详情
ollama show llama3.2
可以看到模型的参数、架构、作者等信息。
💡 技巧 2:设置系统提示词
ollama run llama3.2 --system "你是一个Python专家,只回答代码相关问题"
这样模型就会在这个角色下回答问题。
💡 技巧 3:查看运行日志
# Mac/Linux
tail -f ~/.ollama/logs/server.log
# Windows
notepad %USERPROFILE%\.ollama\logs\server.log
出问题的时候,看看日志能帮你快速定位原因。
七、最后想说的话
说实话,Ollama 真的降低了本地 AI 的门槛。
以前跑个本地模型,你是工程师;现在,只要你有一台电脑,你就能拥有自己的 AI 助手。
数据安全、零成本、离线可用,这三点就够我毫不犹豫地入坑了。
我用了半年多,现在基本上所有 AI 任务都在本地跑,偶尔才用云端的模型。
如果你还在犹豫,听我的:
今晚回家,花 10 分钟装上 Ollama,跑个 ollama run llama3.2,随便聊两句。
你会回来感谢我的。 😊
📚 推荐资源
- 官网:ollama.com — 文档写得很好,有问题先看这里
- 模型库:ollama.com/library — 上百个模型任你选
- GitHub:github.com/ollama/ollama — Star 数已经 16 万+ 了,说明这玩意儿真的好用
如果这篇文章对你有帮助,点个赞分享给朋友吧! 💪
更多推荐


所有评论(0)