Ollama 让你一条命令搞定

大亮啊

390人浏览 · 2026-03-27 11:11:25

大亮啊 · 2026-03-27 11:11:25 发布

想在本地跑 ChatGPT？Ollama 让你一条命令搞定

说实话，第一次听说 Ollama 的时候，我还以为是哪个新出的咖啡品牌，毕竟名字听着挺文艺的（笑）。

后来朋友安利了好几次，我也没太当回事。直到有天深夜——我正在调试一个 AI 项目，OpenAI API 突然疯狂报错，改配置、查文档、翻 issue…折腾了两个小时，心态直接崩了。

朋友发来一条消息：“为啥不用 Ollama？”

我说啥玩意儿？

他说：“下载个模型，本地跑，不就完了？”

我当时就想骂他（别问为啥，程序员都懂）。

但那天晚上我还是试了试——我直接被震撼到了。

不用注册账号、不用翻墙、不用担心数据泄露、更不用每个月掏几百块 API 费用。一条命令，你的电脑就变成了一个私人 AI 助手。

那天晚上我折腾到凌晨 3 点，完全停不下来。

今天就来聊聊这个让无数开发者直呼"相见恨晚"的神器。

一、Ollama 到底是啥？

简单来说，Ollama 就是本地 AI 的 Docker。

如果你用过 Docker，你应该知道它的威力：一个 docker run 就能拉起任何服务，不用配环境、不用装依赖，docker-compose 一拉，整套系统就起来了。

Ollama 做了类似的事情，但它针对的是 AI 模型。

以前跑个本地 LLM 是什么体验？

你得：

配 Python 环境（Python 3.9？3.10？版本兼容是个坑）
装 PyTorch、CUDA（别问我为什么 CUDA 版本总对不上）
下载模型文件（几十 GB，下载半天）
写一堆推理代码（还得考虑量化、显存优化）
哪怕跑起来了，性能还可能很拉跨

一堆劝退操作，我以前试过两次，都没坚持下来。

现在？ 就两行代码：

# 安装 Ollama（Mac/Windows 都有一键安装包）
curl -fsSL https://ollama.com/install.sh | sh

# 下载并运行 Llama 3 模型
ollama run llama3

就这么简单。

5 分钟从零到跑起来，一点都不夸张。

我第一次跑的时候还在想，这玩意儿能行吗？结果一问，回答质量居然还不错，而且速度也快，完全颠覆了我的认知。

二、为什么要用 Ollama？

你可能问：我直接用 ChatGPT 不香吗？

问得好。老实说，ChatGPT 确实好用，但 Ollama 解决了几个核心痛点——尤其是对开发者来说。

1️⃣ 隐私安全 ⭐⭐⭐⭐⭐

这个太重要了。

所有对话都在你的电脑上完成，数据不会上传到任何服务器。

写代码、处理文档、分析敏感数据，你再也不用担心被"监听"了。

我之前在一家金融公司工作，开发环境连外网都是隔离的，想用 AI 助手？没门。那时候要是有 Ollama，能省多少麻烦啊。

2️⃣ 成本为零 ⭐⭐⭐⭐⭐

OpenAI API 按Token收费，用多了钱包真的痛。

我之前做个小项目，跑了几千次 API 调用，账单一来——几百块没了（别问，问就是泪）。

Ollama 的模型都是免费的，硬件投入是一次性的，电费另算（但真心不多，跑个 3B 模型，功耗也就几十瓦）。

3️⃣ 离线可用 ⭐⭐⭐⭐

没网也能用！

飞机上、深山老林里（夸张了点，但地铁上没网的时候是真的多），只要电脑有电，AI 就在线。

我有次出差，在高铁上改代码，遇到个问题，直接本地一查一问，问题解决了。旁边同事还问：“你连网了吗？”

我说：“不用。”

他一脸懵逼。

4️⃣ 模型丰富 ⭐⭐⭐⭐⭐

Llama、Mistral、Gemma、DeepSeek、Qwen…主流开源模型一网打尽，而且都在持续更新。

你想玩深度推理？用 DeepSeek-R1。想要中文支持好的？Qwen 2.5。想要速度快、轻量级的？Mistral。

总有一款适合你。

5️⃣ API 友好 ⭐⭐⭐⭐

Ollama 自带 HTTP API，完全兼容 OpenAI 接口格式。

这意味着你写的 OpenAI 代码，几乎不用改就能切到 Ollama。

我之前写了个项目，本来接的是 GPT-4，后来成本太高，我就改成了 DeepSeek-R1（通过 Ollama 本地跑）。

改了多少代码？

# 以前
client = OpenAI(api_key="sk-xxxxx")

# 现在
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 随便填，Ollama 不检查
)

就改了三行，其他代码完全不用动，瞬间成本归零。

三、新手快速上手（保姆级教程）

好，不说废话了，直接上干货。

Step 1：安装

Mac 用户：

brew install ollama

Windows 用户：

去 ollama.com 下载安装包，双击安装（和装 QQ 一样简单，一路下一步就完事）。

Linux 用户：

curl -fsSL https://ollama.com/install.sh | sh

装完后，运行：

ollama --version

看到版本号就说明成功了。

Step 2：下载第一个模型

推荐新手从 Llama 3.2 3B 开始。

为什么推荐这个？

轻量级，普通笔记本也能跑
性能均衡，回答质量不错
下载快，也就 2GB 左右

运行命令：

ollama run llama3.2

第一次会下载模型文件（大概 2GB 左右，取决于网速）。

下载速度怎么样？看人品（别问，问就是国外的源）。

下载完成后，你会进入一个类似 ChatGPT 的对话界面：

>>> 你好，我是你的AI助手。有什么可以帮你？

随便聊两句试试：

你好！
用Python写一个快速排序
解释一下什么是量子计算

我当时试的第一个问题是：“写个 Python 快速排序”。

它给的代码居然能直接跑，我直接傻了——这玩意儿真的能行啊！

Step 3：查看已安装的模型

ollama list

你会看到类似这样的输出：

NAME              ID              SIZE    MODIFIED
llama3.2:latest   a80c4f17...     2.1GB   2024-03-26
deepseek-r1:latest 9a73b5c2...    4.7GB   2024-03-25
mistral:latest    b8f3e2a1...     4.2GB   2024-03-20

Step 4：运行不同模型

Ollama 支持数百个模型，但我只推荐新手用这几个：

模型	特点	适用场景	显存要求
llama3.2	Meta 出品，均衡	通用对话、写作、代码	4GB+
deepseek-r1	深度推理能力强	复杂逻辑、数学题、推理	8GB+
mistral	法国人做的，快	日常对话、轻量任务	4GB+
qwen2.5	阿里开源，中文好	中文场景、翻译	4GB+

运行方式：

ollama run deepseek-r1
ollama run mistral
ollama run qwen2.5

Step 5：在命令行中使用

不想进入交互模式？直接用命令：

ollama run llama3.2 "写一首关于春天的诗"

输出会直接打印在终端，你可以用管道重定向到文件，或者写个脚本批量处理。

四、高级玩法（进阶但简单）

1️⃣ 用 API 调用 Ollama

Ollama 默认监听 localhost:11434，直接用 HTTP 请求就行：

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "写一首关于春天的诗"
}'

Python 代码示例：

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    "model": "llama3.2",
    "prompt": "写一首关于春天的诗"
})

print(response.json()['response'])

兼容 OpenAI 格式（这个太香了）：

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 随便填，Ollama 不检查
)

response = client.chat.completions.create(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '你好'}]
)

print(response.choices[0].message.content)

是的，你只需要改一行代码，就能从 OpenAI 切到本地模型！

2️⃣ 搭个 Web 界面

如果你不习惯命令行，想有个类似 ChatGPT 的网页界面，推荐 Open WebUI：

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

然后在浏览器打开 http://localhost:3000，颜值和体验都很在线，完全不输 ChatGPT。

我给公司搭了个，同事们都用得很开心，还省了一笔 ChatGPT Plus 的订阅费。

3️⃣ 集成到开发工具

VS Code、Cursor、Windsurf 等编辑器都支持 Ollama，在设置里把 API 地址改成 http://localhost:11434 就能直接用本地模型写代码了。

我现在写代码完全用本地模型，既快又省，还不怕代码被传到外面去。

五、踩坑指南（这些我都踩过）

说实话，没有工具是完美的，Ollama 也有一些坑。但别担心，我帮你踩过了。

❌ 问题 1：模型下载很慢

原因： 默认源在国外，国内网络不稳定。

解决方案：

设置镜像源（如果有的话，我目前还没找到好用的）
或者耐心等待（我第一次下载等了半小时，煮碗面的功夫就好了）
找朋友要一份模型文件，手动放到 ~/.ollama/models 目录（Mac/Linux）或 %USERPROFILE%\.ollama\models（Windows）

❌ 问题 2：跑起来很卡

原因： 模型太大，你的显卡顶不住。

解决方案：

换个小模型（3B、7B）
或者用量化版本（后缀带 q4_k_m 之类的，模型更小，但精度会稍微降一点）

ollama run llama3.2:3b-q4_k_m

我用的是一台 2020 年的 MacBook Pro，M1 芯片，跑 llama3.2:3b 还是很流畅的。

❌ 问题 3：回答质量不如 ChatGPT

原因： 开源模型确实和 GPT-4 有差距，但差距在快速缩小。

解决方案：

试试 DeepSeek-R1（推理能力很强，我用来做数学题效果很好）
换个更大的模型（70B 版本，但需要更好的显卡）
提示词优化一下（比如"请一步步思考"、“详细解释你的推理过程”）

其实对于大部分日常场景，3B 模型已经够用了，不用太纠结。

❌ 问题 4：占用太多内存

原因： 模型加载后常驻内存。

解决方案： 不用的时候把模型卸载：

# 停止当前模型（Ctrl+C 或 Ctrl+D）
# 或者手动卸载
ollama rm llama3.2

六、实用小技巧

💡 技巧 1：查看模型详情

ollama show llama3.2

可以看到模型的参数、架构、作者等信息。

💡 技巧 2：设置系统提示词

ollama run llama3.2 --system "你是一个Python专家，只回答代码相关问题"

这样模型就会在这个角色下回答问题。

💡 技巧 3：查看运行日志

# Mac/Linux
tail -f ~/.ollama/logs/server.log

# Windows
notepad %USERPROFILE%\.ollama\logs\server.log

出问题的时候，看看日志能帮你快速定位原因。

七、最后想说的话

说实话，Ollama 真的降低了本地 AI 的门槛。

以前跑个本地模型，你是工程师；现在，只要你有一台电脑，你就能拥有自己的 AI 助手。

数据安全、零成本、离线可用，这三点就够我毫不犹豫地入坑了。

我用了半年多，现在基本上所有 AI 任务都在本地跑，偶尔才用云端的模型。

如果你还在犹豫，听我的：

今晚回家，花 10 分钟装上 Ollama，跑个 ollama run llama3.2，随便聊两句。

你会回来感谢我的。 😊

📚 推荐资源

官网：ollama.com — 文档写得很好，有问题先看这里
模型库：ollama.com/library — 上百个模型任你选
GitHub：github.com/ollama/ollama — Star 数已经 16 万+ 了，说明这玩意儿真的好用

如果这篇文章对你有帮助，点个赞分享给朋友吧！ 💪

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

如何“训练” Codex 的 Skill：从概念到实战写一个自己的专用技能

#如何“训练” Codex 的 Skill：从概念到实战写一个自己的专用技能

AI编程社区

Gemini 3.5 Flash 普通人怎么用？这 5 个场景让我彻底放下了其他模型

AI编程社区

苹果Siri独立App来了：打磨两年仍是Beta，但这是苹果入局大模型的真正起点

独立App形态：从弹窗助手到对话AI，Siri获得专属交互入口Beta标签：打磨两年仍未完工，但苹果选择"先上线再迭代"三大核心能力：用户画像+屏幕感知+App整合，这是ChatGPT做不到的接入Gemini：务实选择，用外部能力补足自研短板30亿设备预装：全球最大AI分发渠道，零门槛覆盖Siri还是Beta，但这艘船已经离港。苹果用了两年时间证明：在AI时代，完美不是目标，速度才是。全球30亿台