本地部署开源版 ChatGPT：使用 Ollama + Open WebUI 实现完全自托管

方案月成本数据隐私联网要求回答质量本地 7B 模型0完全私有可选离线接近 GPT-3.5本地 14B 模型0完全私有可选离线接近 GPT-4（部分场景）官方 ChatGPT Plus$20上传云端必须优秀Claude Pro$20上传云端必须极佳（编程）对于注重隐私或网络不便的场景，本地方案是极佳的替代品。

浩风祭月

400人浏览 · 2026-05-14 22:51:21

浩风祭月 · 2026-05-14 22:51:21 发布

很多开发者希望拥有一个私有、免费、可离线使用的 AI 对话环境。本文介绍如何用 Ollama 运行 Qwen2.5、DeepSeek V3 等开源模型，再搭配 Open WebUI 获得类似 ChatGPT 的完整 Web 界面。全程无需 GPU（CPU 可运行 7B 模型），数据完全留在本地。

1. 方案优势

对比项	官方 ChatGPT	本地方案
网络要求	必须联网，且需代理	完全离线可用
隐私安全	对话数据上传云端	数据存在本地硬盘
费用	$20/月	0 元（电费忽略）
模型选择	只有 OpenAI 模型	Qwen, DeepSeek, Llama, Mistral 等任意开源模型
功能扩展	有限	可接入 RAG、自定义工具

2. 硬件要求

模型	参数量	最低内存	推荐配置
Qwen2.5-7B	7B	8GB	16GB RAM
Qwen2.5-14B	14B	16GB	32GB RAM + 6GB 显存
DeepSeek V3 (64k)	7B	8GB	16GB RAM
Llama 3.1-8B	8B	8GB	16GB RAM

纯 CPU 运行 7B 模型约 2-5 token/s（可接受聊天速度）。

3. 安装步骤

3.1 安装 Ollama

# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh

# Windows 下载安装包: https://ollama.com/download

3.2 下载模型

# 下载 Qwen2.5-7B（中文能力强）
ollama pull qwen2.5:7b

# 或 DeepSeek V3（代码能力强）
ollama pull deepseek-coder-v2:16b

# 或小型模型（适合低配置）
ollama pull qwen2.5:3b

3.3 测试模型

ollama run qwen2.5:7b
>>> 写一个 Python 快速排序

4. 部署 Open WebUI（Web 界面）

Open WebUI 是一个仿 ChatGPT 的开源项目，支持对话管理、多模型切换、RAG 知识库等功能。

4.1 使用 Docker 一键部署

# 安装 Docker（如未安装）
curl -fsSL https://get.docker.com | sh

# 运行 Open WebUI
docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

4.2 访问与配置

浏览器打开 http://localhost:3000
注册第一个账号（成为管理员）
进入设置 → 连接 Ollama 地址：http://host.docker.internal:11434
选择已下载的模型即可开始对话

5. 进阶：接入在线模型作为备选

Open WebUI 也支持 OpenAI 兼容的 API。如果你有 Claude API 或 GPT API，可以同时使用在线模型。

5.1 配置 OpenAI 兼容接口

在 Open WebUI 设置中添加：

API 地址：https://api.openai.com/v1（或自定义代理）
API Key：你的 Key
模型名称：gpt-4o、claude-3-7-sonnet-20250219（需要配合代理）

若没有在线 API，可通过渠道获取（参考文末）。

5.2 本地 + 在线混合使用

在对话界面顶部可随时切换模型，非常方便。

6. 性能优化技巧

6.1 使用 GPU 加速（NVIDIA）

# 安装 CUDA 支持的 Ollama
ollama serve
# 模型会自动使用 GPU

6.2 量化模型减少内存

# 下载 4-bit 量化版本
ollama pull qwen2.5:7b-q4_0

6.3 限制上下文长度

在 Ollama 配置文件中设置：

{
  "context_length": 4096
}

7. 实用示例：本地 RAG 知识库

Open WebUI 支持上传文档（PDF、Word、TXT）建立本地知识库。

点击“工作空间” → “知识库”
上传你的文档（例如公司内部手册）
在对话中引用该知识库：#知识库名查询内容
模型会基于文档内容回答

8. 常见问题

问题	解决方法
Ollama 命令找不到	重新加载 shell 或手动添加到 PATH
Docker 容器无法连接 Ollama	使用 `--network=host` 或指定正确 IP
回答全是英文	在 prompt 中要求“用中文回答”，或使用 qwen 系列模型
运行 14B 模型提示内存不足	改用 7B 或 3B 量化版

9. 成本对比总结

方案	月成本	数据隐私	联网要求	回答质量
本地 7B 模型	0	完全私有	可选离线	接近 GPT-3.5
本地 14B 模型	0	完全私有	可选离线	接近 GPT-4（部分场景）
官方 ChatGPT Plus	$20	上传云端	必须	优秀
Claude Pro	$20	上传云端	必须	极佳（编程）