【CVPR26-纪荣嵘-厦门大学】PixDLM：面向无人机推理分割的双路径多模态大语言模型

是王同学呀

341人浏览 · 2026-04-26 18:04:47

是王同学呀 · 2026-04-26 18:04:47 发布

文章：PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation

代码：https://github.com/XIEFOX/PixDLM

单位：厦门大学

一、问题背景

无人机视觉在低空监控、搜救、智能巡检、自主导航等场景价值极高，但无人机推理分割一直存在三大核心痛点：

视角特殊：倾斜视角+高空视角，几何畸变严重，现有地面/卫星视角模型不适用
尺度极端：超高清画面里充斥大量小目标（车辆、行人、设施仅占数十像素），传统MLLM压缩token会丢失细节
任务复杂：需要同时做空间/属性/场景三类推理，而非简单识别物体，现有数据集缺少思维链标注

当前行业缺少专用无人机推理分割数据集，也没有适配无人机特性的像素级多模态模型，导致真实场景下推理与分割精度严重不足。

为此，本文正式定义UAV Reasoning Segmentation任务，并将其拆分为三大推理维度：

空间推理：位置、相对关系、遮挡判断
属性推理：外观、状态、特征差异
场景推理：环境意图、功能用途、任务导向语义

同时构建DRSeg基准数据集：1万张超高清无人机图+思维链QA标注，覆盖城市、公园、住宅区、工业区、滨水区，含昼夜、多高度、大量小目标。

二、方法创新（核心详解）

PixDLM是双路径像素级多模态大模型，专为无人机推理分割设计，核心创新有三点：

1. 双路径视觉编码器（Dual-Path Vision Encoder）

同时解决“全局语义推理”和“细粒度小目标分割”矛盾：

全局路径（Global-Scope Path）：448×448低分辨率，用CLIP提取长程上下文，支撑复杂推理
细粒度路径（Fine-Scope Path）：1024×1024高分辨率，用SAM编码器保留边界、小目标、结构细节

2. 多路径对齐（MultiPath Alignment）

不只是简单融合，而是三阶段隐层融合+输出层融合：

把SAM高分辨率特征逐级注入CLIP语义路径
门控残差融合，自适应控制细节注入强度
最优方向：SAM→CLIP（高分辨率结构引导低分辨率语义）

3. 分层推理解码器（Hierarchical Reasoning Decoder）

解决LLM掩码token空间精度不足问题：

三层多尺度解码器，从粗到精逐步 refine 掩码
掩码调制视觉特征，聚焦高置信度区域
融合多尺度中间掩码，输出精准像素级分割结果

整体流程

双路径提取全局语义+高分辨率结构
多路径对齐融合特征
LLM+掩码token做跨模态推理
分层解码器输出最终分割掩码

三、实验结果

实验在DRSeg基准上进行，用gIoU/cIoU评估，对比SOTA模型：

1. 整体性能

零样本：现有模型普遍偏低，证明无人机任务迁移困难
微调后：PixDLM全面超越LISA、PixelLM等基线
- 属性推理：62.80% / 62.84%
- 场景推理：61.75% / 64.03%
- 空间推理：62.51% / 62.80%

2. 消融实验关键结论

思维链（CoT）监督：带来最大增益，尤其场景推理
完整四层对齐：比单段融合提升显著
三层解码器：比两层/单层精度大幅上涨，平均gIoU达62.35%

3. 泛化能力

在标准指代表情分割（RefCOCO/+/g）上同样达到SOTA水平，证明双路径架构通用性强。

四、优势与局限

核心优势

首次定义无人机推理分割任务并构建大规模高质量基准DRSeg
双路径设计完美适配无人机：倾斜视角、超高清、极端尺度、密集小目标
推理+分割一体化，支持自然语言自由指令
轻量高效：仅~4.19M可训练参数，单图推理约1.12s
泛化强：无人机任务SOTA，通用指代表情分割也领先

局限

单图仅标注一个目标，暂不支持多目标同时推理分割
极端暗光/严重模糊场景仍有提升空间
依赖SAM与CLIP预训练权重，端到端训练成本较高

五、一句话总结

PixDLM提出双路径视觉编码+多路径对齐+分层推理解码架构，搭配全新DRSeg基准，彻底解决无人机视角下推理分割的小目标丢失、视角畸变、语义推理弱三大难题，成为无人机视觉理解的强力基线模型。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026年国内订阅ChatGPT Plus和Claude Pro终极指南：不用信用卡，微信支付宝3分钟搞定

#+2026年国内订阅ChatGPT+Plus和Claude+Pro终极指南：不用信用卡，微信支付宝3分钟搞定##+开门见山：国内充值海外AI服务，到底有多难？2026年了，如果你在国内想正经花钱用ChatGPT+Plus或者Claude+Pro，你大概率遇到过这些情况：-+没有Visa/Mastercard信用卡，直接卡在支付页面-+搞了虚拟卡，结果平台突然停服（WildCard老用户都懂）-+

AI编程社区

Codex 在 VS Code 中的使用教程

Codex 在 VS Code 中的使用教程在 VS Code 里用 Codex，最常见的卡点不是“插件装不上”，而是 API Key、base_url、模型名和网络代理没配对。遇到连不上、一直转圈、提示 401/404/timeout 时，先不要急着换插件，按顺序检查配置会快很多。下面按实际开发环境来走一遍：准备接口参数、在 VS Code 插件里填

AI编程社区

Codex 全局配置与项目配置区别

Codex 全局配置与项目配置区别在多项目使用 Codex 时，最容易遇到的问题不是“配置怎么写”，而是“为什么这个项目里的 Codex 行为和另一个项目不一样”。比如同一台电脑上，有的项目默认用高质量模型，有的项目响应更快；有的项目能读取特定上下文，有的项目却总是忽略规则。排查这类问题时，建议先查配置来源，再查模型、上下文和环境变量。先明确使用场景