文章:PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation

代码:https://github.com/XIEFOX/PixDLM

单位:厦门大学


一、问题背景

无人机视觉在低空监控、搜救、智能巡检、自主导航等场景价值极高,但无人机推理分割一直存在三大核心痛点:

  1. 视角特殊:倾斜视角+高空视角,几何畸变严重,现有地面/卫星视角模型不适用

  2. 尺度极端:超高清画面里充斥大量小目标(车辆、行人、设施仅占数十像素),传统MLLM压缩token会丢失细节

  3. 任务复杂:需要同时做空间/属性/场景三类推理,而非简单识别物体,现有数据集缺少思维链标注

当前行业缺少专用无人机推理分割数据集,也没有适配无人机特性的像素级多模态模型,导致真实场景下推理与分割精度严重不足。

为此,本文正式定义UAV Reasoning Segmentation任务,并将其拆分为三大推理维度:

  • 空间推理:位置、相对关系、遮挡判断

  • 属性推理:外观、状态、特征差异

  • 场景推理:环境意图、功能用途、任务导向语义

同时构建DRSeg基准数据集:1万张超高清无人机图+思维链QA标注,覆盖城市、公园、住宅区、工业区、滨水区,含昼夜、多高度、大量小目标。

二、方法创新(核心详解)

PixDLM是双路径像素级多模态大模型,专为无人机推理分割设计,核心创新有三点:

1. 双路径视觉编码器(Dual-Path Vision Encoder)

同时解决“全局语义推理”和“细粒度小目标分割”矛盾:

  • 全局路径(Global-Scope Path):448×448低分辨率,用CLIP提取长程上下文,支撑复杂推理

  • 细粒度路径(Fine-Scope Path):1024×1024高分辨率,用SAM编码器保留边界、小目标、结构细节

2. 多路径对齐(MultiPath Alignment)

不只是简单融合,而是三阶段隐层融合+输出层融合

  • 把SAM高分辨率特征逐级注入CLIP语义路径

  • 门控残差融合,自适应控制细节注入强度

  • 最优方向:SAM→CLIP(高分辨率结构引导低分辨率语义)

3. 分层推理解码器(Hierarchical Reasoning Decoder)

解决LLM掩码token空间精度不足问题:

  • 三层多尺度解码器,从粗到精逐步 refine 掩码

  • 掩码调制视觉特征,聚焦高置信度区域

  • 融合多尺度中间掩码,输出精准像素级分割结果

整体流程

  1. 双路径提取全局语义+高分辨率结构

  2. 多路径对齐融合特征

  3. LLM+掩码token做跨模态推理

  4. 分层解码器输出最终分割掩码

三、实验结果

实验在DRSeg基准上进行,用gIoU/cIoU评估,对比SOTA模型:

1. 整体性能

  • 零样本:现有模型普遍偏低,证明无人机任务迁移困难

  • 微调后:PixDLM全面超越LISA、PixelLM等基线

    • 属性推理:62.80% / 62.84%

    • 场景推理:61.75% / 64.03%

    • 空间推理:62.51% / 62.80%

2. 消融实验关键结论

  • 思维链(CoT)监督:带来最大增益,尤其场景推理

  • 完整四层对齐:比单段融合提升显著

  • 三层解码器:比两层/单层精度大幅上涨,平均gIoU达62.35%

3. 泛化能力

在标准指代表情分割(RefCOCO/+/g)上同样达到SOTA水平,证明双路径架构通用性强。

四、优势与局限

核心优势

  1. 首次定义无人机推理分割任务并构建大规模高质量基准DRSeg

  2. 双路径设计完美适配无人机:倾斜视角、超高清、极端尺度、密集小目标

  3. 推理+分割一体化,支持自然语言自由指令

  4. 轻量高效:仅~4.19M可训练参数,单图推理约1.12s

  5. 泛化强:无人机任务SOTA,通用指代表情分割也领先

局限

  1. 单图仅标注一个目标,暂不支持多目标同时推理分割

  2. 极端暗光/严重模糊场景仍有提升空间

  3. 依赖SAM与CLIP预训练权重,端到端训练成本较高

五、一句话总结

PixDLM提出双路径视觉编码+多路径对齐+分层推理解码架构,搭配全新DRSeg基准,彻底解决无人机视角下推理分割的小目标丢失、视角畸变、语义推理弱三大难题,成为无人机视觉理解的强力基线模型。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐