每日DeepSeek之-本地部署Ollama方案
·
一、简介
Deepseek R1 是支持复杂推理、多模态处理、技术文档生成的高性能通用大语言模型。本手册为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯片适配、量化方案、云端替代方案及完整671B MoE模型的Ollama部署方法。
核⼼提示:
- 个⼈⽤户:不建议部署32B及以上模型,硬件成本极高且运维复杂。
- 企业⽤户:需专业团队⽀持,部署前需评估ROI(投资回报率)。
⼆、本地部署核⼼配置要求
1. 模型参数与硬件对应表
| 模型参数 | Windows 配置要求 | Mac 配置要求 | 适⽤场景 |
|---|---|---|---|
| 1.5B | - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB |
- 内存: 8GB (M1/M2/M3) - 存储: 5GB |
简单文本⽣成、基础代码补全 |
| 7B | - RAM: 8-10GB - GPU: GTX 1680(4-bit量化) - 存储: 8GB |
- 内存: 16GB(M2 Pro/M3) - 存储: 8GB |
中等复杂度问答、代码调试 |
| 14B | - RAM: 24GB - GPU: RTX 3090(24GB VRAM) - 存储: 20GB |
- 内存: 32GB(M3 Max) - 存储: 20GB |
复杂推理、技术文档生成 |
| 32B+ | 企业级部署(需多卡并联) | 暂不支持 | 科研计算、大规模数据处理 |
2. 算力需求分析
| 模型名称 | 参数规模 | 计算精度 | 最低显存需求 | 最低算力需求 |
|---|---|---|---|---|
| DeepSeek-R1 (671B) | 671B | FP8 | ≥890GB | 2XE9680(16H20 GPU) |
| DeepSeek-R1-Distill 70B | 70B | BF16 | ≥180GB | 4L20 或 2H20 GPU |
三、国产芯片与硬件适配方案
1. 国内生态合作伙伴动态
| 企业 | 适配内容 | 性能对标(vs NVIDIA) |
|---|---|---|
| 华为昇腾 | 昇腾910B原生支持R1全系列,提供端到端推理优化方案 | 等效A100(FP16) |
| 沐曦 GPU | MXN系列支持70B模型BF16推理,显存利用率提升30% | 等效RTX3090 |
| 海光 DCU | 适配V3/R1模型,性能对标 NVIDIA A100 | 等效A100(BF16) |
2. 国产硬件推荐配置
| 模型参数 | 推荐方案 | 适⽤场景 |
|---|---|---|
| 1.5B | 太初T100加速卡 | 个⼈开发者原型验证 |
| 14B | 昆仑芯 K200 集群 | 企业级复杂任务推理 |
| 32B | 壁彻算力平台+昇腾910B集群 | 科研计算与多模态处理 |
四、云端部署替代方案
1. 国内云服务商推荐
| 平台 | 核⼼优势 | 适⽤场景 |
|---|---|---|
| 硅基流动 | 官方推荐API,低延迟,支持多模态模型 | 企业级高并发推理 |
| 腾讯云 | 一键部署+限时免费体验,支持VPC私有化 | 中小规模模型快速上线 |
| PPIO派欧云 | 价格仅为OpenAI 1/20,注册赠5000万tokens | 低成本尝鲜与测试 |
2. 国际接入渠道(需魔法或外企上⽹环境)
五、完整671B MoE模型部署(Ollama+Unsloth)
1. 量化方案与模型选择
| 量化版本 | 文件体积 | 最低内存+显存需求 | 适⽤场景 |
|---|---|---|---|
| DeepSeek-R1-UD-Q1_M | 158 GB | ≥200 GB | 消费级硬件(如Mac Studio) |
| DeepSeek-R1-Q4_K_M | 404 GB | ≥500 GB | 高性能服务器/云GPU |
下载地址:
- HuggingFace 模型库
- Unsloth AI 官方说明
2. 硬件配置建议
| 硬件类型 | 推荐配置 | 性能表现(短⽂本生成) |
|---|---|---|
| 消费级设备 | Mac Studio(192GB 统一内存) | 10+ token/秒 |
| 高性能服务器 | 4×RTX4090(96GB 显存+384GB 内存) | 7-8 token/秒(混合推理) |
3. 部署步骤(Linux 示例)
-
安装依赖工具:
# 安装llama.cpp(用于合并分片文件) /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" brew install llama.cpp -
下载并合并模型分一片:
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf -
安装 Ollama:
curl -fsSL https://ollama.com/install.sh | sh
- 创建 Modelfile:
FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf PARAMETER num_gpu 28 # 每块RTX4090加载7层(共4卡) PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<|end▁of▁thinking|>{{ .Prompt }}<|/think▷think▷接下来,我将为您逐步解析如何完成这个任务。
步骤 1:安装依赖工具
如果您使用的是 macOS,可以通过 Homebrew 安装 llama.cpp。 Homebrew 是一个非常流行的包管理工具,它可以轻松地安装各种软件包。运行以下命令即可完成安装:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
brew install llama.cpp
步骤 2:下载并合并模型分片
假设您已经下载了模型分片文件 DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf,现在需要将其与其他分片合并。可以使用以下命令来完成合并:
llama-gguf-split --merge DeepSeek-R1-UD-IQ1_M-00001-of-00004.gguf DeepSeek-R1-UD-IQ1_S.gguf
步骤 3:安装 Ollama
Ollama 是一个用于运行和管理大型语言模型的工具。安装非常简单,只需运行以下命令:
curl -fsSL https://ollama.com/install.sh | sh
步骤 4:创建 Modelfile
Modelfile 是用于定义模型配置的文件。您需要按照以下格式创建一个 Modelfile:
FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf
PARAMETER num_gpu 28 # 每块RTX 4090加载7层(共4卡) PARAMETER num_ctx 2048
PARAMETER temperature 0.6
TEMPLATE "<|end▁of▁thinking|>{{ .Prompt }}<|end▁of▁thinking|>"
5. 运行模型
运行以下命令启动模型:
ollama create DeepSeek-R1-UD-IQ1_M -f DeepSeekQ1_Modelfile
ollama run DeepSeek-R1-UD-IQ1_M --verbose
4. 性能调优与测试
- GPU利用率低:升级高带宽内存(如DDR5 5600+)。
- 扩展交换空间:
sudo fallocate -l 100G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
六、注意事项与风险提示
- 成本警示:
- 70B模型:需3张以上80G显存显卡(如RTX A6000),单卡用户不可行。
- 671B模型:需8xH100集群,仅限超算中心部署。
- 替代方案:
- 个人用户推荐使用云端API(如硅基流动),免运维且合规。
- 国产硬件兼容性:需使用定制版框架(如昇腾CANN、沐曦MXMLLM)。
七、附录:技术支持与资源
- 华为昇腾:昇腾云服务
- 沐曦 GPU:免费API体验
- 李锡涵博客:完整部署教程
- 结语:
- Deepseek R1的本地化部署需极高的硬件投入与技术门槛,个人用户务必谨慎,企业用户应充分评估需求与成本。通过国产化适配与云端服务,可显著降低风险并提升效率。技术无止境,理性规划方能降本增效!
- 手册更新与反馈:如有补充或修正,请联系文档作者,接⼊细节请阅读详细文档硅基流动社区。
全球企业个人渠道附表
- 秘塔搜索:https://metaso.cn
- 360纳米AI搜索:https://www.n.cn/
- 硅基流动:https://cloud.siliconflow.cn/i/OBklluwO
- 字节跳动火山引擎:https://console.volcengine.com/ark/region:ark+cn-beijing/experience
- 百度云千帆:https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list
- 英伟达NIM:https://build.nvidia.com/deepseek-ai/deepseek-r1
- Groq:https://groq.com/
- Fireworks:https://fireworks.ai/models/fireworks/deepseek-r1
- Chutes:https://chutes.ai/app/chute/
- Github:https://github.com/marketplace/models/azureml-deepseek/DeepSeek-R1/playground
- POE:https://poe.com/DeepSeek-R1
- Cursor:https://cursor.sh/
- Monica:https://monica.im/invitation?c=ACZ7WJJ9
- Lambda:https://lambdalabs.com/
- Cerebras:https://cerebras.ai
- Perplexity:https://www.perplexity.ai
- 阿里云百炼:https://api.together.ai/playground/chat/deepseek-ai/DeepSeek-R1
更多推荐



所有评论(0)