想在本地跑 ChatGPT?Ollama 让你一条命令搞定

说实话,第一次听说 Ollama 的时候,我还以为是哪个新出的咖啡品牌,毕竟名字听着挺文艺的(笑)。

后来朋友安利了好几次,我也没太当回事。直到有天深夜——我正在调试一个 AI 项目,OpenAI API 突然疯狂报错,改配置、查文档、翻 issue…折腾了两个小时,心态直接崩了。

朋友发来一条消息:“为啥不用 Ollama?”

我说啥玩意儿?

他说:“下载个模型,本地跑,不就完了?”

我当时就想骂他(别问为啥,程序员都懂)。

但那天晚上我还是试了试——我直接被震撼到了

不用注册账号、不用翻墙、不用担心数据泄露、更不用每个月掏几百块 API 费用。一条命令,你的电脑就变成了一个私人 AI 助手。

那天晚上我折腾到凌晨 3 点,完全停不下来。

今天就来聊聊这个让无数开发者直呼"相见恨晚"的神器。


一、Ollama 到底是啥?

简单来说,Ollama 就是本地 AI 的 Docker

如果你用过 Docker,你应该知道它的威力:一个 docker run 就能拉起任何服务,不用配环境、不用装依赖,docker-compose 一拉,整套系统就起来了。

Ollama 做了类似的事情,但它针对的是 AI 模型。

以前跑个本地 LLM 是什么体验?

你得:

  • 配 Python 环境(Python 3.9?3.10?版本兼容是个坑)
  • 装 PyTorch、CUDA(别问我为什么 CUDA 版本总对不上)
  • 下载模型文件(几十 GB,下载半天)
  • 写一堆推理代码(还得考虑量化、显存优化)
  • 哪怕跑起来了,性能还可能很拉跨

一堆劝退操作,我以前试过两次,都没坚持下来。

现在? 就两行代码:

# 安装 Ollama(Mac/Windows 都有一键安装包)
curl -fsSL https://ollama.com/install.sh | sh

# 下载并运行 Llama 3 模型
ollama run llama3

就这么简单。

5 分钟从零到跑起来,一点都不夸张。

我第一次跑的时候还在想,这玩意儿能行吗?结果一问,回答质量居然还不错,而且速度也快,完全颠覆了我的认知。


二、为什么要用 Ollama?

你可能问:我直接用 ChatGPT 不香吗?

问得好。老实说,ChatGPT 确实好用,但 Ollama 解决了几个核心痛点——尤其是对开发者来说。

1️⃣ 隐私安全 ⭐⭐⭐⭐⭐

这个太重要了。

所有对话都在你的电脑上完成,数据不会上传到任何服务器

写代码、处理文档、分析敏感数据,你再也不用担心被"监听"了。

我之前在一家金融公司工作,开发环境连外网都是隔离的,想用 AI 助手?没门。那时候要是有 Ollama,能省多少麻烦啊。

2️⃣ 成本为零 ⭐⭐⭐⭐⭐

OpenAI API 按Token收费,用多了钱包真的痛。

我之前做个小项目,跑了几千次 API 调用,账单一来——几百块没了(别问,问就是泪)。

Ollama 的模型都是免费的,硬件投入是一次性的,电费另算(但真心不多,跑个 3B 模型,功耗也就几十瓦)。

3️⃣ 离线可用 ⭐⭐⭐⭐

没网也能用!

飞机上、深山老林里(夸张了点,但地铁上没网的时候是真的多),只要电脑有电,AI 就在线。

我有次出差,在高铁上改代码,遇到个问题,直接本地一查一问,问题解决了。旁边同事还问:“你连网了吗?”

我说:“不用。”

他一脸懵逼。

4️⃣ 模型丰富 ⭐⭐⭐⭐⭐

Llama、Mistral、Gemma、DeepSeek、Qwen…主流开源模型一网打尽,而且都在持续更新。

你想玩深度推理?用 DeepSeek-R1。想要中文支持好的?Qwen 2.5。想要速度快、轻量级的?Mistral。

总有一款适合你。

5️⃣ API 友好 ⭐⭐⭐⭐

Ollama 自带 HTTP API,完全兼容 OpenAI 接口格式

这意味着你写的 OpenAI 代码,几乎不用改就能切到 Ollama。

我之前写了个项目,本来接的是 GPT-4,后来成本太高,我就改成了 DeepSeek-R1(通过 Ollama 本地跑)。

改了多少代码?

# 以前
client = OpenAI(api_key="sk-xxxxx")

# 现在
client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 随便填,Ollama 不检查
)

就改了三行,其他代码完全不用动,瞬间成本归零。


三、新手快速上手(保姆级教程)

好,不说废话了,直接上干货。

Step 1:安装

Mac 用户:

brew install ollama

Windows 用户:

ollama.com 下载安装包,双击安装(和装 QQ 一样简单,一路下一步就完事)。

Linux 用户:

curl -fsSL https://ollama.com/install.sh | sh

装完后,运行:

ollama --version

看到版本号就说明成功了。

Step 2:下载第一个模型

推荐新手从 Llama 3.2 3B 开始。

为什么推荐这个?

  • 轻量级,普通笔记本也能跑
  • 性能均衡,回答质量不错
  • 下载快,也就 2GB 左右

运行命令:

ollama run llama3.2

第一次会下载模型文件(大概 2GB 左右,取决于网速)。

下载速度怎么样?看人品(别问,问就是国外的源)。

下载完成后,你会进入一个类似 ChatGPT 的对话界面:

>>> 你好,我是你的AI助手。有什么可以帮你?

随便聊两句试试:

你好!
用Python写一个快速排序
解释一下什么是量子计算

我当时试的第一个问题是:“写个 Python 快速排序”。

它给的代码居然能直接跑,我直接傻了——这玩意儿真的能行啊!

Step 3:查看已安装的模型

ollama list

你会看到类似这样的输出:

NAME              ID              SIZE    MODIFIED
llama3.2:latest   a80c4f17...     2.1GB   2024-03-26
deepseek-r1:latest 9a73b5c2...    4.7GB   2024-03-25
mistral:latest    b8f3e2a1...     4.2GB   2024-03-20

Step 4:运行不同模型

Ollama 支持数百个模型,但我只推荐新手用这几个:

模型 特点 适用场景 显存要求
llama3.2 Meta 出品,均衡 通用对话、写作、代码 4GB+
deepseek-r1 深度推理能力强 复杂逻辑、数学题、推理 8GB+
mistral 法国人做的,快 日常对话、轻量任务 4GB+
qwen2.5 阿里开源,中文好 中文场景、翻译 4GB+

运行方式:

ollama run deepseek-r1
ollama run mistral
ollama run qwen2.5

Step 5:在命令行中使用

不想进入交互模式?直接用命令:

ollama run llama3.2 "写一首关于春天的诗"

输出会直接打印在终端,你可以用管道重定向到文件,或者写个脚本批量处理。


四、高级玩法(进阶但简单)

1️⃣ 用 API 调用 Ollama

Ollama 默认监听 localhost:11434,直接用 HTTP 请求就行:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "写一首关于春天的诗"
}'

Python 代码示例:

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    "model": "llama3.2",
    "prompt": "写一首关于春天的诗"
})

print(response.json()['response'])

兼容 OpenAI 格式(这个太香了):

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # 随便填,Ollama 不检查
)

response = client.chat.completions.create(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '你好'}]
)

print(response.choices[0].message.content)

是的,你只需要改一行代码,就能从 OpenAI 切到本地模型!

2️⃣ 搭个 Web 界面

如果你不习惯命令行,想有个类似 ChatGPT 的网页界面,推荐 Open WebUI

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

然后在浏览器打开 http://localhost:3000,颜值和体验都很在线,完全不输 ChatGPT。

我给公司搭了个,同事们都用得很开心,还省了一笔 ChatGPT Plus 的订阅费。

3️⃣ 集成到开发工具

VS Code、Cursor、Windsurf 等编辑器都支持 Ollama,在设置里把 API 地址改成 http://localhost:11434 就能直接用本地模型写代码了。

我现在写代码完全用本地模型,既快又省,还不怕代码被传到外面去。


五、踩坑指南(这些我都踩过)

说实话,没有工具是完美的,Ollama 也有一些坑。但别担心,我帮你踩过了。

❌ 问题 1:模型下载很慢

原因: 默认源在国外,国内网络不稳定。

解决方案:

  • 设置镜像源(如果有的话,我目前还没找到好用的)
  • 或者耐心等待(我第一次下载等了半小时,煮碗面的功夫就好了)
  • 找朋友要一份模型文件,手动放到 ~/.ollama/models 目录(Mac/Linux)或 %USERPROFILE%\.ollama\models(Windows)

❌ 问题 2:跑起来很卡

原因: 模型太大,你的显卡顶不住。

解决方案:

  • 换个小模型(3B、7B)
  • 或者用量化版本(后缀带 q4_k_m 之类的,模型更小,但精度会稍微降一点)
ollama run llama3.2:3b-q4_k_m

我用的是一台 2020 年的 MacBook Pro,M1 芯片,跑 llama3.2:3b 还是很流畅的。

❌ 问题 3:回答质量不如 ChatGPT

原因: 开源模型确实和 GPT-4 有差距,但差距在快速缩小。

解决方案:

  • 试试 DeepSeek-R1(推理能力很强,我用来做数学题效果很好)
  • 换个更大的模型(70B 版本,但需要更好的显卡)
  • 提示词优化一下(比如"请一步步思考"、“详细解释你的推理过程”)

其实对于大部分日常场景,3B 模型已经够用了,不用太纠结。

❌ 问题 4:占用太多内存

原因: 模型加载后常驻内存。

解决方案: 不用的时候把模型卸载:

# 停止当前模型(Ctrl+C 或 Ctrl+D)
# 或者手动卸载
ollama rm llama3.2

六、实用小技巧

💡 技巧 1:查看模型详情

ollama show llama3.2

可以看到模型的参数、架构、作者等信息。

💡 技巧 2:设置系统提示词

ollama run llama3.2 --system "你是一个Python专家,只回答代码相关问题"

这样模型就会在这个角色下回答问题。

💡 技巧 3:查看运行日志

# Mac/Linux
tail -f ~/.ollama/logs/server.log

# Windows
notepad %USERPROFILE%\.ollama\logs\server.log

出问题的时候,看看日志能帮你快速定位原因。


七、最后想说的话

说实话,Ollama 真的降低了本地 AI 的门槛

以前跑个本地模型,你是工程师;现在,只要你有一台电脑,你就能拥有自己的 AI 助手。

数据安全、零成本、离线可用,这三点就够我毫不犹豫地入坑了。

我用了半年多,现在基本上所有 AI 任务都在本地跑,偶尔才用云端的模型。

如果你还在犹豫,听我的:

今晚回家,花 10 分钟装上 Ollama,跑个 ollama run llama3.2,随便聊两句。

你会回来感谢我的。 😊


📚 推荐资源


如果这篇文章对你有帮助,点个赞分享给朋友吧! 💪

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐