保姆级教程:用Ollama快速部署DeepSeek-R1-Distill-Qwen-1.5B模型

1. 引言

随着大模型在边缘设备和本地化场景中的需求日益增长,如何在资源受限的硬件上高效运行高性能语言模型成为开发者关注的核心问题。DeepSeek-R1-Distill-Qwen-1.5B 正是在这一背景下脱颖而出的一款“小钢炮”模型——它通过知识蒸馏技术,在仅1.5B参数量下实现了接近7B级别模型的推理能力。

本教程将带你从零开始,使用 Ollama 框架完成 DeepSeek-R1-Distill-Qwen-1.5B 的本地部署,并结合 vLLM 与 Open WebUI 构建一个完整的对话式 AI 应用系统。无论你是树莓派爱好者、嵌入式开发人员,还是希望在低显存设备上体验高质量代码助手的技术探索者,本文都能为你提供可落地的操作路径。


2. 技术背景与选型理由

2.1 为什么选择 DeepSeek-R1-Distill-Qwen-1.5B?

该模型是 DeepSeek 团队基于 Qwen-1.5B,利用 80 万条 R1 推理链样本进行知识蒸馏得到的轻量化版本。其核心优势体现在以下几个方面:

  • 性能强劲:在 MATH 数据集上得分超过 80,HumanEval 超过 50,具备较强的数学与编程理解能力。
  • 体积小巧
  • FP16 全精度模型约 3.0 GB;
  • GGUF-Q4 量化后可压缩至 0.8 GB,适合移动端或嵌入式设备部署。
  • 低门槛运行:6GB 显存即可满速运行,RTX 3060 上可达 200 tokens/s。
  • 协议开放:采用 Apache 2.0 协议,支持商用且无版权风险。
  • 生态兼容性好:已集成 vLLM、Ollama 和 Jan 等主流推理框架,支持一键启动。

一句话总结:“1.5 B 体量,3 GB 显存,数学 80+ 分,可商用,零门槛部署。”

2.2 为何选用 Ollama 作为部署工具?

Ollama 是当前最简洁高效的本地大模型管理工具之一,具备以下特点:

  • 支持自定义 Modelfile 定义提示模板、参数配置;
  • 提供 REST API 接口,便于集成到其他应用;
  • 命令行交互友好,ollama run 即可进入聊天模式;
  • 支持 GPU 加速(CUDA/Metal),自动检测可用硬件资源。

结合 vLLM 提升吞吐、Open WebUI 实现可视化界面,我们能快速构建一套生产级可用的本地 LLM 服务。


3. 部署环境准备

3.1 系统要求

组件 推荐配置
操作系统 Ubuntu 20.04/22.04 LTS 或 macOS Sonoma 及以上
CPU x86_64 / ARM64(Apple Silicon)
内存 ≥8 GB RAM
显存 ≥6 GB(FP16 推荐),≥4 GB(GGUF 量化版)
存储空间 ≥10 GB 可用空间

若使用 Apple M 系列芯片设备(如 M1/M2/M3),可通过 llama.cpp + GGUF 量化模型实现高效推理。

3.2 安装依赖组件

安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh

安装完成后,Ollama 会以系统服务形式运行(Linux 下为 ollama.service):

systemctl status ollama.service    # 查看服务状态
systemctl start ollama.service     # 启动服务
systemctl restart ollama.service   # 重启服务
安装 Git LFS(用于下载大模型文件)
git lfs install

若未安装 Git LFS,git clone 将无法获取 .safetensors 等大文件。

使用 Hugging Face 镜像站加速下载

由于国内访问 Hugging Face 官方源较慢,建议使用镜像站替代:

https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

4. 模型下载与本地加载

4.1 创建工作目录并克隆模型

mkdir -p DeepSeek-R1-Distill-Qwen/1.5B
cd DeepSeek-R1-Distill-Qwen/1.5B
git lfs install
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

⚠️ 注意:若网络不稳定导致 git clone 中断,可采用分步下载策略。

替代方案:跳过大文件克隆 + 手动下载
GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
wget https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/resolve/main/model.safetensors
mv model.safetensors ./DeepSeek-R1-Distill-Qwen-1.5B/
(可选)使用 screen 保持后台任务

对于远程服务器用户,推荐使用 screen 防止 SSH 断连中断下载:

apt install screen

screen -S download_model    # 创建名为 download_model 的会话
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
Ctrl + A + D                # 挂起到后台
screen -r download_model    # 恢复会话

5. 使用 Modelfile 自定义模型配置

5.1 编写 Modelfile

在模型目录下创建名为 Modelfile 的文本文件,内容如下:

PARAMETER temperature 0.6
PARAMETER top_p 0.95
TEMPLATE """
{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<|User|>{{ .Content }}
{{- else if eq .Role "assistant" }}<|Assistant|>{{ .Content }}{{- if not $last }}<|end▁of▁sentence|>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<|Assistant|>{{- end }}
{{- end }}
"""

说明:

  • temperature: 控制生成随机性,默认 0.6,适合平衡创造性和准确性;
  • top_p: 核采样阈值,0.95 表示保留累计概率前 95% 的词;
  • TEMPLATE: 定义对话格式,适配 DeepSeek 特有的 <|User|><|Assistant|> 分隔符。

5.2 加载模型到 Ollama

执行以下命令将本地模型注册进 Ollama:

ollama create DeepSeek-R1-Distill-Qwen-1.5B -f ./Modelfile

成功后可通过列表查看:

ollama list

输出应包含:

NAME                              SIZE    MODIFIED
DeepSeek-R1-Distill-Qwen-1.5B     3.0GB   Just now

6. 模型调用与交互方式

6.1 命令行聊天模式

ollama run DeepSeek-R1-Distill-Qwen-1.5B

进入交互界面后,输入问题即可获得回复,例如:

>>> 天空为什么是蓝色的?
太阳光进入大气层时,短波长的蓝光比红光更容易被空气分子散射...

退出请输入 /bye

6.2 使用 cURL 调用 API

Ollama 默认监听 http://127.0.0.1:11434,可通过 HTTP 请求发起推理:

curl http://127.0.0.1:11434/api/generate -d '{
  "model": "DeepSeek-R1-Distill-Qwen-1.5B",
  "prompt": "请解释牛顿第一定律",
  "stream": false
}'

响应示例:

{
  "response": "牛顿第一定律又称惯性定律...",
  "done": true,
  "context": [123, 456, ...]
}

设置 "stream": true 可启用流式输出,逐 token 返回结果。


7. Python 集成与高级用法

7.1 安装 Ollama Python 包

pip install ollama

7.2 基础调用封装函数

import ollama

# 指定本地服务地址
ollama.Client(host='http://localhost:11434')

def ollama_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"):
    try:
        response = ollama.generate(
            model=model,
            prompt=prompt,
            options={
                "temperature": 0.7,
                "num_predict": 500
            }
        )
        return response['response']
    except Exception as e:
        return f"Error: {str(e)}"

# 示例调用
print(ollama_chat("什么是量子纠缠?"))

7.3 实现带上下文记忆的对话会话

class ChatSession:
    def __init__(self, model="DeepSeek-R1-Distill-Qwen-1.5B"):
        self.client = ollama.Client(host='http://localhost:11434')
        self.model = model
        self.context = []  # 存储上下文向量
        self.history = []  # 存储完整对话记录

    def chat(self, prompt):
        try:
            response = self.client.generate(
                model=self.model,
                prompt=prompt,
                context=self.context,
                options={'temperature': 0.7}
            )
            self.context = response.get('context', [])
            self.history.append({"user": prompt, "assistant": response['response']})
            return response['response']
        except Exception as e:
            return f"Error: {str(e)}"

# 使用示例
if __name__ == "__main__":
    session = ChatSession()
    while True:
        user_input = input("You: ")
        if user_input.lower() in ['exit', 'quit']:
            break
        response = session.chat(user_input)
        print(f"AI: {response}")

此设计确保多轮对话中语义连贯,适用于构建智能助手、客服机器人等场景。


8. 可视化界面搭建(Open WebUI)

8.1 启动 Open WebUI 服务

如果你使用的是预置镜像环境(如 CSDN 星图镜像广场提供的镜像),通常已内置 Open WebUI 服务。

等待几分钟让 vLLM 和 Open WebUI 完全启动后,可通过浏览器访问:

http://<your-server-ip>:7860

注:原始 Jupyter 服务端口为 8888,需改为 7860 进入 WebUI。

8.2 登录账号信息

演示账号如下:

  • 邮箱:kakajiang@kakajiang.com
  • 密码:kakajiang

登录后即可在图形化界面中与 DeepSeek-R1-Distill-Qwen-1.5B 进行自然语言交互,支持 Markdown 输出、历史记录保存、导出对话等功能。

图片


9. 总结

9.1 关键收获回顾

本文详细介绍了如何使用 Ollama 快速部署 DeepSeek-R1-Distill-Qwen-1.5B 模型,涵盖从环境准备、模型下载、配置加载、API 调用到可视化界面使用的全流程。主要成果包括:

  • 成功在本地设备上部署一个高性能、低资源消耗的 1.5B 级别模型;
  • 掌握了 Modelfile 的编写方法,实现对提示模板和生成参数的精细化控制;
  • 实现了命令行、cURL、Python SDK 三种调用方式,满足不同集成需求;
  • 搭建了 Open WebUI 图形界面,提升用户体验和调试效率。

9.2 最佳实践建议

  1. 优先使用 GGUF 量化模型:在内存紧张的设备(如树莓派、RK3588 板卡)上,选择 Q4_K_M 量化版本可显著降低显存占用。
  2. 合理设置 temperature:数学/代码任务建议设为 0.5~0.7,创意写作可提高至 0.9。
  3. 启用上下文管理:长期对话务必传递 context 字段,避免丢失历史信息。
  4. 监控资源使用:使用 nvidia-smihtop 观察 GPU/CPU 占用,防止 OOM。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐