每日DeepSeek之-本地部署Ollama方案

完颜振江

2107人浏览 · 2025-03-03 13:26:22

完颜振江 · 2025-03-03 13:26:22 发布

一、简介

Deepseek R1 是支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南，涵盖硬件配置、国产芯片适配、量化方案、云端替代方案及完整671B MoE模型的Ollama部署方法。

核⼼提示：

个⼈⽤户：不建议部署32B及以上模型，硬件成本极高且运维复杂。
企业⽤户：需专业团队⽀持，部署前需评估ROI（投资回报率）。

⼆、本地部署核⼼配置要求

1. 模型参数与硬件对应表

模型参数	Windows 配置要求	Mac 配置要求	适⽤场景
1.5B	- RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB	- 内存: 8GB （M1/M2/M3） - 存储: 5GB	简单文本⽣成、基础代码补全
7B	- RAM: 8-10GB - GPU: GTX 1680（4-bit量化） - 存储: 8GB	- 内存: 16GB（M2 Pro/M3） - 存储: 8GB	中等复杂度问答、代码调试
14B	- RAM: 24GB - GPU: RTX 3090（24GB VRAM） - 存储: 20GB	- 内存: 32GB（M3 Max） - 存储: 20GB	复杂推理、技术文档生成
32B+	企业级部署（需多卡并联）	暂不支持	科研计算、大规模数据处理

2. 算力需求分析

模型名称	参数规模	计算精度	最低显存需求	最低算力需求
DeepSeek-R1 (671B)	671B	FP8	≥890GB	2XE9680（16H20 GPU）
DeepSeek-R1-Distill 70B	70B	BF16	≥180GB	4L20 或 2H20 GPU

三、国产芯片与硬件适配方案

1. 国内生态合作伙伴动态

企业	适配内容	性能对标（vs NVIDIA）
华为昇腾	昇腾910B原生支持R1全系列，提供端到端推理优化方案	等效A100（FP16）
沐曦 GPU	MXN系列支持70B模型BF16推理，显存利用率提升30%	等效RTX3090
海光 DCU	适配V3/R1模型，性能对标 NVIDIA A100	等效A100（BF16）

2. 国产硬件推荐配置

模型参数	推荐方案	适⽤场景
1.5B	太初T100加速卡	个⼈开发者原型验证
14B	昆仑芯 K200 集群	企业级复杂任务推理
32B	壁彻算力平台+昇腾910B集群	科研计算与多模态处理

四、云端部署替代方案

1. 国内云服务商推荐

平台	核⼼优势	适⽤场景
硅基流动	官方推荐API，低延迟，支持多模态模型	企业级高并发推理
腾讯云	一键部署+限时免费体验，支持VPC私有化	中小规模模型快速上线
PPIO派欧云	价格仅为OpenAI 1/20，注册赠5000万tokens	低成本尝鲜与测试

2. 国际接入渠道（需魔法或外企上⽹环境）

英伟达 NIM：企业级 GPU 集群部署链接
Groq：超低延迟推理链接

五、完整671B MoE模型部署（Ollama+Unsloth）

1. 量化方案与模型选择

量化版本	文件体积	最低内存+显存需求	适⽤场景
DeepSeek-R1-UD-Q1_M	158 GB	≥200 GB	消费级硬件（如Mac Studio）
DeepSeek-R1-Q4_K_M	404 GB	≥500 GB	高性能服务器/云GPU

下载地址：

HuggingFace 模型库
Unsloth AI 官方说明

2. 硬件配置建议

硬件类型	推荐配置	性能表现（短⽂本生成）
消费级设备	Mac Studio（192GB 统一内存）	10+ token/秒
高性能服务器	4×RTX4090（96GB 显存+384GB 内存）	7-8 token/秒（混合推理）

3. 部署步骤（Linux 示例）

安装依赖工具：

# 安装llama.cpp（用于合并分片文件）
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

下载并合并模型分一片：
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf
安装 Ollama：

curl -fsSL https://ollama.com/install.sh | sh

创建 Modelfile：

FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28 # 每块RTX4090加载7层（共4卡）
PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<｜end▁of▁thinking｜>{{ .Prompt }}<｜/think▷think▷接下来，我将为您逐步解析如何完成这个任务。

步骤 1：安装依赖工具

如果您使用的是 macOS，可以通过 Homebrew 安装 llama.cpp。 Homebrew 是一个非常流行的包管理工具，它可以轻松地安装各种软件包。运行以下命令即可完成安装：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp

步骤 2：下载并合并模型分片

假设您已经下载了模型分片文件 DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf，现在需要将其与其他分片合并。可以使用以下命令来完成合并：

llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf

步骤 3：安装 Ollama

Ollama 是一个用于运行和管理大型语言模型的工具。安装非常简单，只需运行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

步骤 4：创建 Modelfile

Modelfile 是用于定义模型配置的文件。您需要按照以下格式创建一个 Modelfile：

FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf 
PARAMETER num_gpu 28 # 每块RTX 4090加载7层（共4卡） PARAMETER num_ctx 2048 
PARAMETER temperature 0.6 
TEMPLATE "<｜end▁of▁thinking｜>{{ .Prompt }}<｜end▁of▁thinking｜>"

5. 运行模型

运行以下命令启动模型：

ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile
ollama run DeepSeek-R1-UD-IQ1_M --verbose

4. 性能调优与测试

GPU利用率低：升级高带宽内存（如DDR5 5600+）。
扩展交换空间：

sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

六、注意事项与风险提示

成本警示：
- 70B模型：需3张以上80G显存显卡（如RTX A6000），单卡用户不可行。
- 671B模型：需8xH100集群，仅限超算中心部署。
替代方案：
- 个人用户推荐使用云端API（如硅基流动），免运维且合规。
国产硬件兼容性：需使用定制版框架（如昇腾CANN、沐曦MXMLLM）。

七、附录：技术支持与资源

华为昇腾：昇腾云服务
沐曦 GPU：免费API体验
李锡涵博客：完整部署教程
结语：
- Deepseek R1的本地化部署需极高的硬件投入与技术门槛，个人用户务必谨慎，企业用户应充分评估需求与成本。通过国产化适配与云端服务，可显著降低风险并提升效率。技术无止境，理性规划方能降本增效！
手册更新与反馈：如有补充或修正，请联系文档作者，接⼊细节请阅读详细文档硅基流动社区。

全球企业个人渠道附表

秘塔搜索：https://metaso.cn
360纳米AI搜索：https://www.n.cn/
硅基流动：https://cloud.siliconflow.cn/i/OBklluwO
字节跳动火山引擎：https://console.volcengine.com/ark/region:ark+cn-beijing/experience
百度云千帆：https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list
英伟达NIM：https://build.nvidia.com/deepseek-ai/deepseek-r1
Groq：https://groq.com/
Fireworks：https://fireworks.ai/models/fireworks/deepseek-r1
Chutes：https://chutes.ai/app/chute/
Github：https://github.com/marketplace/models/azureml-deepseek/DeepSeek-R1/playground
POE：https://poe.com/DeepSeek-R1
Cursor：https://cursor.sh/
Monica：https://monica.im/invitation?c=ACZ7WJJ9
Lambda：https://lambdalabs.com/
Cerebras：https://cerebras.ai
Perplexity：https://www.perplexity.ai
阿里云百炼：https://api.together.ai/playground/chat/deepseek-ai/DeepSeek-R1

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

解决导出格式难题选 AI 导出鸭：ChatGPT 公式粘贴后乱码怎么解决？多终端通用修复方案

AI编程社区

Claude 导出 word 下载不了？AI 导出鸭一键搞定文档导出难题

AI编程社区

ChatGPT 的 Embedding和Claude的 Embedding 转化结果一样吗

OpenAI 使用自研 BPE 分词器；Anthropic 使用自研 SentencePiece 分词；同一个中文 / 英文句子拆分出的 token 不同，模型提取语义特征的起点就不同。把同一句话交给 OpenAI 和 Claude 生成向量，好比：同一个人，分别用两套完全不同的测绘规则测绘两套独立星球的坐标，坐标数字毫无关联，没法放在一张地图上对比远近。两家对向量的缩放、标准化处理逻辑不统一，