DeepSeekOCR和MinerU2.5

我可以的！

230人浏览 · 2026-04-02 00:25:02

我可以的！ · 2026-04-02 00:25:02 发布

DeepSeekOCR和MinerU2.5

MinerU2.5和DeepSeekOCR采用两种不同的技术路径来解决高分辨率文档的OCR识别问题。

MinerU2.5采用的是分而治之的解耦路径，通过裁剪和分阶段处理来规避高计算量。

DeepSeekOCR采用的是**“整体压缩”的端到端路径**，致力于通过改进编码器结构来极致压缩视觉信息。

MinerU2.5 由粗到细的解耦策略

为了避免端到端处理高分辨率图像带来的巨大计算开销和Token冗余，MinerU将任务解耦为**“全局布局分析”和“局部内容识别”**两个阶段。

实现方式：

第一阶段：布局分析（Layout Analysis）

模型首先将输入图像统一调整为1036×1036像素的缩略图，在低分辨率下快速识别文档的全局结构元素（如文本块、图表、表格、公式的位置），进行快速的布局检测，避免直接处理高分辨率全图带来的巨大开销。

第二阶段：局部内容识别（Content Recognition）

在第一阶段检测到的布局信息的指导下，模型从原始高分辨率图像中裁剪关键区域。对这些保持了原始分辨率的局部区域进行精细的内容识别。这一步确保了对密集文本、复杂公式和表格等细节的精准解析。通过只处理包含信息的区域，模型避免处理文档中大量空白或低信息区域所导致的Token冗余。

第二阶段使用是一个视觉-语言模型VLM，并非传统的OCR专用小模型。它采用了一个6.75亿参数的NaVIT视觉编码器和Qwen2-Instruct的语言模型解码器。将第一阶段布局分析中得到的裁剪图像作为输入喂给这个VLM，针对不同的内容类型，模型会使用特定的提示词来激活不同的识别能力。

DeepSeekOCR 光学上下文压缩策略

实现方式：

基于上下文压缩的统一端到端策略, 将探索视觉模态作为文本信息的高效压缩介质，试图用极少量的视觉Token来表征丰富的文档信息。

DeepEncoder（深度压缩编码器）：旨在高分辨率输入下保持低显存占用并实现高压缩比。

（1）感知阶段：使用SAM-base架构，主要利用窗口注意力机制处理高分辨率图像的局部细节。

（2）压缩阶段：在感知与知识模块之间，引入了一个16倍的卷积压缩器，它将海量的局部视觉Token进行大幅下采样，实现高效上下文压缩。

（3）知识阶段：压缩后的Token进入后半部分，即基于Clip-Large的架构，利用全局注意力机制提取语义信息，由于Token大幅度降低，则成本变得可控。

MOE Decoder（混合专家模型）：采用DeepSeek3B-MOE模型作为解码器（激活参数仅5.7亿）。该解码器负责学习这种高度压缩的“视觉-文本”映射关系，将潜在的压缩视觉Token重建为对应的文本内容。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

# AI让普通人也可以开发软件

对于普通人而言，AI可以作为一种辅助工具，帮助他们初步实现软件功能的开发，但在后续的优化和完善过程中，可能还需要寻求专业人员的帮助。AI技术的崛起，特别是像claude code、codex等工具的出现，使得软件开发的门槛似乎在不断降低，让普通人也看到了开发软件的可能性。对于一些简单的软件功能开发，普通人无需具备深厚的编程知识，只需用自然语言清晰地表达自己的需求，AI就能快速生成代码。在面对复杂的

AI编程社区

2026深度实测：Cursor高适配替代品全景对比｜中文Vibe Coding迭代能力横评

固定的英文语境、高额的订阅费用、薄弱的本土化风险预判能力，很容易在信创、多环境部署等复杂场景引发线上事故。帮我写一套Spring Boot的设备用户管理CRUD接口，适配智能家居控制台信创项目，实现新增、查询、修改、删除功能，读取环境变量区分开发、测试、信创环境，添加基础参数校验和异常处理，贴合国内后端开发规范。我使用完全一致的口语化需求，通过TRAE Work模式（原SOLO模式）完成迭代，依托

AI编程社区

1-LangChain 简介

LangChain 是一个用于构建基于大型语言模型（LLM）应用程序的框架，旨在通过模块化设计简化开发流程。它支持与多种语言模型（如 OpenAI、Hugging Face 等）集成，并提供数据感知、代理（Agents）、链式调用（Chains）等核心功能，帮助开发者快速实现复杂任务。核心功能模型集成支持主流语言模型（如 GPT-3.5、Claude 等）和嵌入模型（如 OpenAI Embedd