很多开发者希望拥有一个私有、免费、可离线使用的 AI 对话环境。本文介绍如何用 Ollama 运行 Qwen2.5、DeepSeek V3 等开源模型,再搭配 Open WebUI 获得类似 ChatGPT 的完整 Web 界面。全程无需 GPU(CPU 可运行 7B 模型),数据完全留在本地。

1. 方案优势

对比项 官方 ChatGPT 本地方案
网络要求 必须联网,且需代理 完全离线可用
隐私安全 对话数据上传云端 数据存在本地硬盘
费用 $20/月 0 元(电费忽略)
模型选择 只有 OpenAI 模型 Qwen, DeepSeek, Llama, Mistral 等任意开源模型
功能扩展 有限 可接入 RAG、自定义工具

2. 硬件要求

模型 参数量 最低内存 推荐配置
Qwen2.5-7B 7B 8GB 16GB RAM
Qwen2.5-14B 14B 16GB 32GB RAM + 6GB 显存
DeepSeek V3 (64k) 7B 8GB 16GB RAM
Llama 3.1-8B 8B 8GB 16GB RAM

纯 CPU 运行 7B 模型约 2-5 token/s(可接受聊天速度)。

3. 安装步骤

3.1 安装 Ollama

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows 下载安装包: https://ollama.com/download

3.2 下载模型

# 下载 Qwen2.5-7B(中文能力强)
ollama pull qwen2.5:7b

# 或 DeepSeek V3(代码能力强)
ollama pull deepseek-coder-v2:16b

# 或小型模型(适合低配置)
ollama pull qwen2.5:3b

3.3 测试模型

ollama run qwen2.5:7b
>>> 写一个 Python 快速排序

4. 部署 Open WebUI(Web 界面)

Open WebUI 是一个仿 ChatGPT 的开源项目,支持对话管理、多模型切换、RAG 知识库等功能。

4.1 使用 Docker 一键部署

# 安装 Docker(如未安装)
curl -fsSL https://get.docker.com | sh

# 运行 Open WebUI
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

4.2 访问与配置

  • 浏览器打开 http://localhost:3000
  • 注册第一个账号(成为管理员)
  • 进入设置 → 连接 Ollama 地址:http://host.docker.internal:11434
  • 选择已下载的模型即可开始对话

5. 进阶:接入在线模型作为备选

Open WebUI 也支持 OpenAI 兼容的 API。如果你有 Claude API 或 GPT API,可以同时使用在线模型。

5.1 配置 OpenAI 兼容接口

在 Open WebUI 设置中添加:

  • API 地址https://api.openai.com/v1(或自定义代理)
  • API Key:你的 Key
  • 模型名称gpt-4oclaude-3-7-sonnet-20250219(需要配合代理)

若没有在线 API,可通过渠道获取(参考文末)。

5.2 本地 + 在线混合使用

在对话界面顶部可随时切换模型,非常方便。

6. 性能优化技巧

6.1 使用 GPU 加速(NVIDIA)

# 安装 CUDA 支持的 Ollama
ollama serve
# 模型会自动使用 GPU

6.2 量化模型减少内存

# 下载 4-bit 量化版本
ollama pull qwen2.5:7b-q4_0

6.3 限制上下文长度

在 Ollama 配置文件中设置:

{
  "context_length": 4096
}

7. 实用示例:本地 RAG 知识库

Open WebUI 支持上传文档(PDF、Word、TXT)建立本地知识库。

  1. 点击“工作空间” → “知识库”
  2. 上传你的文档(例如公司内部手册)
  3. 在对话中引用该知识库:#知识库名 查询内容
  4. 模型会基于文档内容回答

8. 常见问题

问题 解决方法
Ollama 命令找不到 重新加载 shell 或手动添加到 PATH
Docker 容器无法连接 Ollama 使用 --network=host 或指定正确 IP
回答全是英文 在 prompt 中要求“用中文回答”,或使用 qwen 系列模型
运行 14B 模型提示内存不足 改用 7B 或 3B 量化版

9. 成本对比总结

方案 月成本 数据隐私 联网要求 回答质量
本地 7B 模型 0 完全私有 可选离线 接近 GPT-3.5
本地 14B 模型 0 完全私有 可选离线 接近 GPT-4(部分场景)
官方 ChatGPT Plus $20 上传云端 必须 优秀
Claude Pro $20 上传云端 必须 极佳(编程)

对于注重隐私或网络不便的场景,本地方案是极佳的替代品。

10. 参考来源

文中若需要获取 Claude / GPT 在线 API Key 作为备选,可参考 gpt108.com(该渠道提供 ChatGPT Plus、Claude Pro、Cursor Pro、Gemini Advanced 等账号及 API 充值)。笔者仅作技术方案记录,请遵守各平台服务条款。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐