DeepSeek-R1升级：8B蒸馏模型性能比肩Qwen3-235B，已上架 Ollama，可本地部署

Python老猿

1121人浏览 · 2025-09-03 11:02:45

Python老猿 · 2025-09-03 11:02:45 发布

近日，DeepSeek 升级更新了 R1 模型（DeepSeek-R1-0528），推理能力、思考深度得到显著提升。其中，8B 小模型 (DeepSeek-R1-0528-Qwen3-8B)，数学能力超越 Qwen3-8B （+10.0%），与 Qwen3-235B 大模型相当。小模型的性能大幅度提升，为在终端设备部署高性能 AI 模型提供了可能性。

Ollama 为本地部署大模型的框架，DeepSeek-R1-0528-Qwen3-8B 已上架 Ollama，感兴趣的读者可尝试安装 Ollama，在本地部署运行 DeepSeek-R1-0528 模型。

本文主要内容：

DeepSeek-R1-0528 模型介绍
在 Ollama 上运行 DeepSeek-R1-0528 的 8B 模型

DeepSeek-R1-0528

✨ 核心亮点：思考更深、推理更强

版本号： DeepSeek-R1-0528
参数量：671B、8B
基座：基于 DeepSeek V3 Base (2024年12月)，但在后训练过程中投入了更多算力，显著提升了模型的思维深度与推理能力。
性能表现：在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩，并且在整体表现上已接近其他国际顶尖模型，如 o3 与 Gemini-2.5-Pro🥇

🧠 推理能力大提升

AIME 2025 数学测试：准确率从旧版 70% → 87.5%！🎯
思考更深：解题平均 token 用量从 12K → 23K，表明其在解题过程中进行了更为详尽和深入的思考。
知识蒸馏：用 R1-0528 的思维链训练的 8B 小模型 (DeepSeek-R1-0528-Qwen3-8B)，数学能力超越 Qwen3-8B （+10.0%），与 Qwen3-235B 相当！🤯

💻 其他能力更新

✅ 大幅减少幻觉：在改写、总结、阅读等场景，幻觉率降低 45~50%，结果更可靠。
✍️ 创意写作更出色：议论文、小说、散文等长文写作能力升级！篇幅更长、结构更完整、文风更贴近人类喜好！
🔧 工具调用：支持外部工具调用（不支持在 thinking 中进行工具调用）。
🚀 在前端代码生成、角色扮演等领域的能力均有更新和提升。

在 Ollama 上运行 DeepSeek-R1-0528 模型

Ollama 的安装步骤，可见：大模型本地部署开源框架 Ollama 介绍。 Ollama 上的 deepseek-r1 主页：https://ollama.com/library/deepseek-r1。

从 Ollama 的 deepseek-r1 主页的介绍可知，8B 和 671B 模型已升级至 0528 版本。

终端上运行 ollama pull deepseek-r1:8b，下载 DeepSeek-R1-0528 的 8B 模型到本地。

下载完成后，运行 ollama run deepseek-r1:8b 命令，在终端开启与模型的对话：

9.11 和 9.9，哪个大

>>> 9.11 和 9.9，哪个大
<think>
首先，用户的问题是：“9.11 和 9.9，哪个大？”这是一个关于比较两个小数大小的简单问题。

我需要理解这两个数字：9.11 和 9.9。它们都是十进制表示，但精度不同。

- 9.11 表示九点一一，即 9 + 0.11

- 9.9 表示九点九，即 9 + 0.9

为了比较它们，我可以将两个数字对齐小数位。9.9 可以写成 9.90，以便更容易比较。

所以：

- 9.11 = 9.11

- 9.9 = 9.90（因为添加一个零不影响其值）

现在，比较整数部分：两者都是 9，所以相同。接下来比较小数部分。

小数部分：9.11 的十分位是 1，百分位是 1；而 9.90 的十分位是 9，百分位是 0（因为它是 90/100）。

更精确地：

- 9.11 = 9 + 11/100

- 9.9 = 9 + 90/100

现在比较分数部分：11/100 和 90/100。

显然，90/100 大于 11/100，因为 90 > 11。

因此，9.9（或 9.90）大于 9.11。

我可以将它们转换为分数：

- 9.11 = 911/100

- 9.9 = 99/10？不，应该是 990/100 或更准确地 9.9 = 99/10，但为了统一分母。

最好使用相同的分母。两个数字都可以表示为以 100 为单位的分数：

- 9.11 = 911/100

- 9.9 = 99/10 = (99 * 10) / (10 * 10) 不，99/10 等于 990/100？让我们计算。

99/10 = ? 要得到分母为 100 的分数，分子和分母都乘以 10：(99 * 10) / (10 * 10) = 990/100。是的。

所以：

- 9.11 = 911/100

- 9.9 = 990/100

现在比较分子：911 和 990。显然，990 > 911，所以 990/100 > 911/100。

因此，9.9 大于 9.11。

用户可能犯了一个常见错误，认为有更多的小数位就意味着更大，但在这里，9.9 相当于 9.90，而 9.90 比 9.11 大。

在之前的对话历史中，有一个问题：“99.9 和 9.11，哪个大？”我回答了，并指出 99.9 表示九十九点九。但现在用户问的是“
9.11 和 9.9”，所以是不同的数字。

确保我的回答清晰和准确。

最终答案：9.9 大于 9.11。
</think>
从数值比较的角度来看：

- **9.11** 表示九点一一（即 9 + 0.11）。
- **9.9** 表示九点九（即 9 + 0.9），也可以写成 9.90 来便于比较。

现在，将两个数字对齐小数位：
- 9.11 = 9.11
- 9.9 = 9.90

整数部分相同（都是 9），因此比较小数部分：
- 小数部分：十分位和百分位。
- 9.11 的十分位是 1，百分位是 1。
- 9.90 的十分位是 9，百分位是 0。

因为 9.90 的十分位（9）大于 9.11 的十分位（1），所以 **9.9 大于 9.11**。

或者，将两个数字转换为相同的分母：
- 9.11 = 911/100
- 9.9 = 990/100

比较分子：990 > 911，因此 **990/100 > 911/100**，即 **9.9 > 9.11**。

直观上，你可以想象一下数轴或价格比较。例如，在货币中，$9.90 比 $9.11 大。

大模型算是目前当之无愧最火的一个方向了，算是新时代的风口！有小伙伴觉得，作为新领域、新方向人才需求必然相当大，与之相应的人才缺乏、人才竞争自然也会更少，那转行去做大模型是不是一个更好的选择呢？是不是更好就业呢？是不是就暂时能抵抗35岁中年危机呢？

答案当然是这样，大模型必然是新风口！

那如何学习大模型？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。但是具体到个人，只能说是：

最先掌握AI的人，将会比较晚掌握AI的人有竞争优势。
这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

但现在很多想入行大模型的人苦于现在网上的大模型老课程老教材，学也不是不学也不是，基于此我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近100余次后，终于把整个AI大模型的学习路线完善出来！

在这里插入图片描述

在这个版本当中：

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型路线+学习教程已经给大家整理并打包分享出来, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型学习资源包》免费分享（安全咨料，放心领取）👈

一、大模型经典书籍（免费分享）

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套大模型报告（免费分享）

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、大模型系列视频教程（免费分享）

在这里插入图片描述

四、2025最新大模型学习路线（免费分享）

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方二维码，免费领取

👉CSDN大礼包🎁：全网最全《LLM大模型学习资源包》免费分享（安全资料，放心领取）👈

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

GSV2231@ACP# 旗舰三屏 AI 多任务显示扩展芯片

AI编程社区

深入理解Transformer：从Self-Attention到ChatGPT

通过多头注意力机制，Transformer进一步扩展了模型的表征能力，使其能够并行处理不同层次的语义信息。Transformer由编码器和解码器堆叠而成，编码器负责将输入序列转化为高维表示，解码器则基于编码器的输出生成目标序列。每一层的残差连接和层归一化技术，确保了深层网络的稳定训练，为后续大模型的发展奠定了基础。近年来，Transformer模型彻底改变了自然语言处理领域，从最初的Self-At