Ollama部署本地大模型：DeepSeek-R1-Distill-Qwen-7B在国产海光DCU平台初步适配

你好像一条狗啊

278人浏览 · 2026-03-14 03:31:35

你好像一条狗啊 · 2026-03-14 03:31:35 发布

Ollama部署本地大模型：DeepSeek-R1-Distill-Qwen-7B在国产海光DCU平台初步适配

想不想在国产硬件上跑一个强大的推理模型？今天咱们就来聊聊怎么在海光DCU平台上，用Ollama部署DeepSeek-R1-Distill-Qwen-7B这个推理能力超强的模型。

你可能听说过DeepSeek-R1，它在数学、代码和推理任务上的表现和OpenAI的o1模型差不多。但那个模型太大了，对硬件要求太高。现在好了，DeepSeek团队推出了蒸馏版本，把大模型的能力“压缩”到了7B这个尺寸，让咱们在普通设备上也能体验到接近顶级模型的推理能力。

更棒的是，这个模型现在能在海光DCU上跑了。这意味着什么？意味着咱们国产硬件也能很好地支持先进的AI推理模型了。接下来，我就带你一步步把这个模型部署起来，看看它到底有多厉害。

1. 环境准备：海光DCU平台基础配置

在开始之前，咱们得先确保环境没问题。海光DCU和常见的NVIDIA GPU不太一样，需要一些特殊的配置。

1.1 系统要求检查

首先，确认你的系统满足以下基本要求：

操作系统：Ubuntu 20.04或22.04（推荐）
海光DCU驱动：已安装最新版本
内存：至少16GB RAM
存储：至少20GB可用空间（模型文件大约14GB）
网络：能正常访问GitHub和模型下载源

检查DCU是否正常识别：

# 查看DCU信息
rocm-smi

# 应该能看到类似这样的输出
# ====================== ROCm System Management Interface ======================
# DCU 0: Device Name: DCU [0x738c]
# DCU Memory: Total: 16384 MB, Used: 0 MB, Free: 16384 MB

如果看到DCU信息，说明驱动安装正常。如果没看到，可能需要先安装或更新海光ROCm驱动。

1.2 安装必要的软件包

接下来安装一些基础依赖：

# 更新系统包
sudo apt update
sudo apt upgrade -y

# 安装编译工具和依赖
sudo apt install -y build-essential cmake git wget curl
sudo apt install -y libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev
sudo apt install -y llvm libncurses5-dev libncursesw5-dev xz-utils tk-dev

2. Ollama安装与配置

Ollama是一个特别方便的本地大模型部署工具，它把复杂的模型部署过程简化成了几条命令。

2.1 安装Ollama

在海光DCU平台上，咱们需要从源码编译安装Ollama，因为预编译的二进制版本可能不包含DCU支持。

# 克隆Ollama仓库
git clone https://github.com/ollama/ollama.git
cd ollama

# 切换到稳定版本（建议使用最新稳定版）
git checkout main

# 编译安装
go generate ./...
go build -o ollama .

编译过程可能需要一些时间，取决于你的系统性能。编译完成后，你会得到一个名为ollama的可执行文件。

2.2 配置DCU支持

为了让Ollama能使用海光DCU，需要配置一些环境变量：

# 设置ROCm路径（根据你的实际安装路径调整）
export ROCM_PATH=/opt/rocm
export HSA_OVERRIDE_GFX_VERSION=9.0.0
export HCC_AMDGPU_TARGET=gfx90a

# 将Ollama添加到PATH
sudo cp ollama /usr/local/bin/

为了方便，可以把这些环境变量设置添加到你的~/.bashrc文件中：

echo 'export ROCM_PATH=/opt/rocm' >> ~/.bashrc
echo 'export HSA_OVERRIDE_GFX_VERSION=9.0.0' >> ~/.bashrc
echo 'export HCC_AMDGPU_TARGET=gfx90a' >> ~/.bashrc
echo 'export PATH=$PATH:/usr/local/bin' >> ~/.bashrc
source ~/.bashrc

3. DeepSeek-R1-Distill-Qwen-7B模型部署

环境准备好了，现在开始部署模型。DeepSeek-R1-Distill-Qwen-7B是DeepSeek-R1的蒸馏版本，保留了原模型强大的推理能力，但模型尺寸小了很多，更适合在本地部署。

3.1 创建模型配置文件

Ollama使用Modelfile来定义模型配置。为DeepSeek-R1-Distill-Qwen-7B创建一个配置文件：

# 创建配置目录
mkdir -p ~/.ollama/models
cd ~/.ollama/models

# 创建Modelfile
cat > DeepSeek-R1-Distill-Qwen-7B.Modelfile << 'EOF'
FROM deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

# 设置系统提示词
SYSTEM """你是一个有帮助的AI助手，擅长逻辑推理和问题解决。"""

# 参数配置
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER num_ctx 4096
PARAMETER num_predict 2048

# 模板配置
TEMPLATE """{{ .System }}
用户：{{ .Prompt }}
助手："""
EOF

这个配置文件做了几件事：

指定了模型来源（从deepseek-ai官方仓库）
设置了系统角色，让模型知道自己的定位
配置了生成参数，控制输出的随机性和质量
定义了对话模板，让模型知道如何组织回复

3.2 拉取并运行模型

现在用Ollama拉取并运行模型：

# 启动Ollama服务（后台运行）
ollama serve &

# 等待服务启动
sleep 5

# 创建模型（这会自动下载模型文件）
ollama create deepseek-r1-qwen-7b -f ./DeepSeek-R1-Distill-Qwen-7B.Modelfile

下载过程可能需要一些时间，因为模型文件大约14GB。下载速度取决于你的网络情况。下载完成后，你会看到类似这样的输出：

pulling manifest
pulling xxxxxxxxxx... 100%
pulling xxxxxxxxxx... 100%
verifying sha256 digest
writing manifest
success

3.3 验证模型运行

模型下载完成后，测试一下是否正常运行：

# 运行模型进行简单测试
ollama run deepseek-r1-qwen-7b "你好，请介绍一下你自己"

如果一切正常，你应该能看到模型的回复。第一次运行可能会慢一些，因为需要加载模型到内存中。

4. 模型使用与测试

模型部署好了，咱们来实际用用看，测试一下它的推理能力。

4.1 基础对话测试

先来个简单的对话，看看模型的基本表现：

# 启动交互式对话
ollama run deepseek-r1-qwen-7b

在交互模式下，你可以直接输入问题。比如问它：

用户：你能帮我解决一个数学问题吗？计算(15 × 23) + (47 ÷ 3)的结果，保留两位小数。

观察模型的回复，看看它是否：

正确理解问题
分步骤计算
给出准确结果
解释计算过程

4.2 推理能力测试

DeepSeek-R1系列模型的强项是推理，咱们测试一下它的逻辑推理能力：

# 测试逻辑推理
echo "如果所有的猫都怕水，而汤姆是一只猫，那么汤姆怕水吗？为什么？" | ollama run deepseek-r1-qwen-7b

再测试一下数学推理：

# 测试数学推理
echo "一个水池有两个进水管和一个出水管。单独开A管需要6小时注满水池，单独开B管需要8小时注满水池，单独开C管（出水管）需要12小时排空水池。如果三个管子同时开，需要多少小时注满水池？请分步骤解答。" | ollama run deepseek-r1-qwen-7b

4.3 代码生成测试

作为推理模型，代码生成也是重要能力：

# 测试代码生成
echo "用Python写一个函数，判断一个数是否是质数。要求函数有详细的注释，并包含测试用例。" | ollama run deepseek-r1-qwen-7b

观察模型生成的代码是否：

逻辑正确
注释清晰
包含边界情况处理
有测试用例

5. 性能优化与调优

在海光DCU上运行模型，咱们还可以做一些优化，让性能更好。

5.1 调整运行参数

修改模型运行参数，找到最适合你硬件的配置：

# 创建优化版的Modelfile
cat > DeepSeek-R1-Distill-Qwen-7B-optimized.Modelfile << 'EOF'
FROM deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

SYSTEM """你是一个有帮助的AI助手，擅长逻辑推理和问题解决。"""

# 优化后的参数
PARAMETER temperature 0.8  # 稍高的温度增加创造性
PARAMETER top_p 0.95       # 更高的top_p增加多样性
PARAMETER top_k 50         # 适中的top_k平衡质量与速度
PARAMETER num_ctx 8192     # 更大的上下文窗口
PARAMETER num_predict 1024 # 适中的生成长度
PARAMETER num_gpu 1        # 使用1个DCU
PARAMETER num_thread 8     # 使用8个CPU线程

TEMPLATE """{{ .System }}
用户：{{ .Prompt }}
助手："""
EOF

# 创建优化版模型
ollama create deepseek-r1-qwen-7b-opt -f ./DeepSeek-R1-Distill-Qwen-7B-optimized.Modelfile

5.2 监控资源使用

运行模型时，监控DCU和内存使用情况：

# 查看DCU使用情况
watch -n 1 "rocm-smi"

# 查看内存使用
watch -n 1 "free -h"

# 查看进程资源使用
htop

根据监控结果调整参数：

如果DCU内存使用接近上限，减少num_ctx或num_predict
如果CPU使用率过高，调整num_thread
如果响应速度慢，尝试减少生成长度

5.3 批量处理优化

如果需要处理大量请求，可以启用批处理：

# 启动Ollama服务时启用批处理
ollama serve --batch-size 4 --num-batch 2 &

# 或者修改系统服务配置
sudo systemctl edit ollama

在编辑器中添加：

[Service]
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"

6. 常见问题解决

在实际使用中，你可能会遇到一些问题。这里整理了一些常见问题和解决方法。

6.1 模型加载失败

如果模型加载失败，首先检查：

# 检查模型文件是否完整
ls -lh ~/.ollama/models/manifests/registry.ollama.ai/

# 检查DCU驱动
rocm-smi

# 检查Ollama日志
journalctl -u ollama -f

常见解决方法：

重新下载模型：ollama rm deepseek-r1-qwen-7b && ollama pull deepseek-r1-qwen-7b
检查磁盘空间：df -h
重启Ollama服务：sudo systemctl restart ollama

6.2 推理速度慢

如果推理速度不理想，尝试：

# 检查DCU是否被正确使用
export HIP_VISIBLE_DEVICES=0  # 指定使用第一个DCU
export PYTORCH_ROCM_ARCH=gfx90a  # 指定架构

# 调整模型参数
ollama run deepseek-r1-qwen-7b --num-predict 512 --temperature 0.5

6.3 内存不足

如果遇到内存不足错误：

减少上下文长度：修改Modelfile中的num_ctx为2048或1024
使用量化版本：如果官方提供量化版本，使用4bit或8bit量化
增加交换空间：

sudo fallocate -l 8G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

7. 实际应用示例

部署好了，优化完了，现在来看看这个模型能做什么实际的事情。

7.1 学术研究辅助

对于研究人员，这个模型可以帮助：

# 文献总结
echo "请用300字总结这篇论文的核心贡献：'论文标题：Attention Is All You Need。这篇论文提出了Transformer模型，完全基于注意力机制，摒弃了传统的循环和卷积结构。'" | ollama run deepseek-r1-qwen-7b

# 实验设计建议
echo "我正在研究深度学习模型在医学图像分割中的应用，你能给我一些实验设计的建议吗？" | ollama run deepseek-r1-qwen-7b

7.2 编程开发助手

对于开发者，它可以：

# 代码调试帮助
echo "我有一段Python代码运行报错：'ZeroDivisionError: division by zero'。代码功能是计算平均值，但列表可能为空。请帮我修复这个问题。" | ollama run deepseek-r1-qwen-7b

# 算法解释
echo "请用简单的语言解释什么是动态规划，并给一个Python示例。" | ollama run deepseek-r1-qwen-7b

7.3 教育学习工具

对于学生和教育工作者：

# 数学问题解答
echo "解释微积分中的链式法则，并给出一个实际应用的例子。" | ollama run deepseek-r1-qwen-7b

# 语言学习
echo "帮我分析这个英语句子的语法结构：'Had I known you were coming, I would have prepared dinner.'" | ollama run deepseek-r1-qwen-7b