DeepSeekOCR和MinerU2.5
DeepSeekOCR和MinerU2.5
MinerU2.5和DeepSeekOCR采用两种不同的技术路径来解决高分辨率文档的OCR识别问题。
MinerU2.5采用的是分而治之的解耦路径,通过裁剪和分阶段处理来规避高计算量。
DeepSeekOCR采用的是**“整体压缩”的端到端路径**,致力于通过改进编码器结构来极致压缩视觉信息。
MinerU2.5 由粗到细的解耦策略
为了避免端到端处理高分辨率图像带来的巨大计算开销和Token冗余,MinerU将任务解耦为**“全局布局分析”和“局部内容识别”**两个阶段。
实现方式:
第一阶段:布局分析(Layout Analysis)
模型首先将输入图像统一调整为1036×1036像素的缩略图,在低分辨率下快速识别文档的全局结构元素(如文本块、图表、表格、公式的位置),进行快速的布局检测,避免直接处理高分辨率全图带来的巨大开销。
第二阶段:局部内容识别(Content Recognition)
在第一阶段检测到的布局信息的指导下,模型从原始高分辨率图像中裁剪关键区域。对这些保持了原始分辨率的局部区域进行精细的内容识别。这一步确保了对密集文本、复杂公式和表格等细节的精准解析。通过只处理包含信息的区域,模型避免处理文档中大量空白或低信息区域所导致的Token冗余。
第二阶段使用是一个视觉-语言模型VLM,并非传统的OCR专用小模型。它采用了一个6.75亿参数的NaVIT视觉编码器和Qwen2-Instruct的语言模型解码器。将第一阶段布局分析中得到的裁剪图像作为输入喂给这个VLM,针对不同的内容类型,模型会使用特定的提示词来激活不同的识别能力。
DeepSeekOCR 光学上下文压缩策略
实现方式:
基于上下文压缩的统一端到端策略, 将探索视觉模态作为文本信息的高效压缩介质,试图用极少量的视觉Token来表征丰富的文档信息。
DeepEncoder(深度压缩编码器):旨在高分辨率输入下保持低显存占用并实现高压缩比。
(1)感知阶段: 使用SAM-base架构,主要利用窗口注意力机制处理高分辨率图像的局部细节。
(2)压缩阶段:在感知与知识模块之间,引入了一个16倍的卷积压缩器,它将海量的局部视觉Token进行大幅下采样,实现高效上下文压缩。
(3)知识阶段:压缩后的Token进入后半部分,即基于Clip-Large的架构,利用全局注意力机制提取语义信息,由于Token大幅度降低,则成本变得可控。
MOE Decoder(混合专家模型):采用DeepSeek3B-MOE模型作为解码器(激活参数仅5.7亿)。该解码器负责学习这种高度压缩的“视觉-文本”映射关系,将潜在的压缩视觉Token重建为对应的文本内容。
更多推荐

所有评论(0)