保姆级教程：用Ollama快速部署DeepSeek-R1-Distill-Qwen-1.5B模型

柴木头 B2B电商

1073人浏览 · 2026-01-16 03:40:37

柴木头 B2B电商 · 2026-01-16 03:40:37 发布

保姆级教程：用Ollama快速部署DeepSeek-R1-Distill-Qwen-1.5B模型

1. 引言

随着大模型在边缘设备和本地化场景中的需求日益增长，如何在资源受限的硬件上高效运行高性能语言模型成为开发者关注的核心问题。DeepSeek-R1-Distill-Qwen-1.5B 正是在这一背景下脱颖而出的一款“小钢炮”模型——它通过知识蒸馏技术，在仅1.5B参数量下实现了接近7B级别模型的推理能力。

本教程将带你从零开始，使用 Ollama 框架完成 DeepSeek-R1-Distill-Qwen-1.5B 的本地部署，并结合 vLLM 与 Open WebUI 构建一个完整的对话式 AI 应用系统。无论你是树莓派爱好者、嵌入式开发人员，还是希望在低显存设备上体验高质量代码助手的技术探索者，本文都能为你提供可落地的操作路径。

2. 技术背景与选型理由

2.1 为什么选择 DeepSeek-R1-Distill-Qwen-1.5B？

该模型是 DeepSeek 团队基于 Qwen-1.5B，利用 80 万条 R1 推理链样本进行知识蒸馏得到的轻量化版本。其核心优势体现在以下几个方面：

性能强劲：在 MATH 数据集上得分超过 80，HumanEval 超过 50，具备较强的数学与编程理解能力。
体积小巧：
FP16 全精度模型约 3.0 GB；
GGUF-Q4 量化后可压缩至 0.8 GB，适合移动端或嵌入式设备部署。
低门槛运行：6GB 显存即可满速运行，RTX 3060 上可达 200 tokens/s。
协议开放：采用 Apache 2.0 协议，支持商用且无版权风险。
生态兼容性好：已集成 vLLM、Ollama 和 Jan 等主流推理框架，支持一键启动。

一句话总结：“1.5 B 体量，3 GB 显存，数学 80+ 分，可商用，零门槛部署。”

2.2 为何选用 Ollama 作为部署工具？

Ollama 是当前最简洁高效的本地大模型管理工具之一，具备以下特点：

支持自定义 Modelfile 定义提示模板、参数配置；
提供 REST API 接口，便于集成到其他应用；
命令行交互友好，ollama run 即可进入聊天模式；
支持 GPU 加速（CUDA/Metal），自动检测可用硬件资源。

结合 vLLM 提升吞吐、Open WebUI 实现可视化界面，我们能快速构建一套生产级可用的本地 LLM 服务。

3. 部署环境准备

3.1 系统要求

组件	推荐配置
操作系统	Ubuntu 20.04/22.04 LTS 或 macOS Sonoma 及以上
CPU	x86_64 / ARM64（Apple Silicon）
内存	≥8 GB RAM
显存	≥6 GB（FP16 推荐），≥4 GB（GGUF 量化版）
存储空间	≥10 GB 可用空间

若使用 Apple M 系列芯片设备（如 M1/M2/M3），可通过 llama.cpp + GGUF 量化模型实现高效推理。

3.2 安装依赖组件

安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，Ollama 会以系统服务形式运行（Linux 下为 ollama.service）：

systemctl status ollama.service    # 查看服务状态
systemctl start ollama.service     # 启动服务
systemctl restart ollama.service   # 重启服务

安装 Git LFS（用于下载大模型文件）

git lfs install

若未安装 Git LFS，git clone 将无法获取 .safetensors 等大文件。

使用 Hugging Face 镜像站加速下载

由于国内访问 Hugging Face 官方源较慢，建议使用镜像站替代：

https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

4. 模型下载与本地加载

4.1 创建工作目录并克隆模型

mkdir -p DeepSeek-R1-Distill-Qwen/1.5B
cd DeepSeek-R1-Distill-Qwen/1.5B
git lfs install
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

⚠️ 注意：若网络不稳定导致 git clone 中断，可采用分步下载策略。

替代方案：跳过大文件克隆 + 手动下载

GIT_LFS_SKIP_SMUDGE=1 git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
wget https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/resolve/main/model.safetensors
mv model.safetensors ./DeepSeek-R1-Distill-Qwen-1.5B/

（可选）使用 screen 保持后台任务

对于远程服务器用户，推荐使用 screen 防止 SSH 断连中断下载：

apt install screen

screen -S download_model    # 创建名为 download_model 的会话
git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B
Ctrl + A + D                # 挂起到后台
screen -r download_model    # 恢复会话

5. 使用 Modelfile 自定义模型配置

5.1 编写 Modelfile

在模型目录下创建名为 Modelfile 的文本文件，内容如下：

PARAMETER temperature 0.6
PARAMETER top_p 0.95
TEMPLATE """
{{- if .System }}{{ .System }}{{ end }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1}}
{{- if eq .Role "user" }}<｜User｜>{{ .Content }}
{{- else if eq .Role "assistant" }}<｜Assistant｜>{{ .Content }}{{- if not $last }}<｜end▁of▁sentence｜>{{- end }}
{{- end }}
{{- if and $last (ne .Role "assistant") }}<｜Assistant｜>{{- end }}
{{- end }}
"""

说明：

temperature: 控制生成随机性，默认 0.6，适合平衡创造性和准确性；
top_p: 核采样阈值，0.95 表示保留累计概率前 95% 的词；
TEMPLATE: 定义对话格式，适配 DeepSeek 特有的 <｜User｜> 和 <｜Assistant｜> 分隔符。

5.2 加载模型到 Ollama

执行以下命令将本地模型注册进 Ollama：

ollama create DeepSeek-R1-Distill-Qwen-1.5B -f ./Modelfile

成功后可通过列表查看：

ollama list

输出应包含：

NAME                              SIZE    MODIFIED
DeepSeek-R1-Distill-Qwen-1.5B     3.0GB   Just now

6. 模型调用与交互方式

6.1 命令行聊天模式

ollama run DeepSeek-R1-Distill-Qwen-1.5B

进入交互界面后，输入问题即可获得回复，例如：

>>> 天空为什么是蓝色的？
太阳光进入大气层时，短波长的蓝光比红光更容易被空气分子散射...

退出请输入 /bye。

6.2 使用 cURL 调用 API

Ollama 默认监听 http://127.0.0.1:11434，可通过 HTTP 请求发起推理：

curl http://127.0.0.1:11434/api/generate -d '{
  "model": "DeepSeek-R1-Distill-Qwen-1.5B",
  "prompt": "请解释牛顿第一定律",
  "stream": false
}'

响应示例：

{
  "response": "牛顿第一定律又称惯性定律...",
  "done": true,
  "context": [123, 456, ...]
}

设置 "stream": true 可启用流式输出，逐 token 返回结果。

7. Python 集成与高级用法

7.1 安装 Ollama Python 包

pip install ollama

7.2 基础调用封装函数

import ollama

# 指定本地服务地址
ollama.Client(host='http://localhost:11434')

def ollama_chat(prompt, model="DeepSeek-R1-Distill-Qwen-1.5B"):
    try:
        response = ollama.generate(
            model=model,
            prompt=prompt,
            options={
                "temperature": 0.7,
                "num_predict": 500
            }
        )
        return response['response']
    except Exception as e:
        return f"Error: {str(e)}"

# 示例调用
print(ollama_chat("什么是量子纠缠？"))

7.3 实现带上下文记忆的对话会话

class ChatSession:
    def __init__(self, model="DeepSeek-R1-Distill-Qwen-1.5B"):
        self.client = ollama.Client(host='http://localhost:11434')
        self.model = model
        self.context = []  # 存储上下文向量
        self.history = []  # 存储完整对话记录

    def chat(self, prompt):
        try:
            response = self.client.generate(
                model=self.model,
                prompt=prompt,
                context=self.context,
                options={'temperature': 0.7}
            )
            self.context = response.get('context', [])
            self.history.append({"user": prompt, "assistant": response['response']})
            return response['response']
        except Exception as e:
            return f"Error: {str(e)}"

# 使用示例
if __name__ == "__main__":
    session = ChatSession()
    while True:
        user_input = input("You: ")
        if user_input.lower() in ['exit', 'quit']:
            break
        response = session.chat(user_input)
        print(f"AI: {response}")

此设计确保多轮对话中语义连贯，适用于构建智能助手、客服机器人等场景。