No.1 Omnivision:边缘设备优化的多模态模型

Omnivision 是一个紧凑的多模态模型,拥有 968M 参数,能够处理视觉和文本输入,专为边缘设备优化。该模型在 LLaVA 架构上进行了改进,显著减少了图像 token 数量,从而降低了延迟和计算成本。通过使用可信数据进行 DPO 训练,Omnivision 提供了更可靠的结果,适用于视觉问答和图像描述等任务。

Omnivision 的架构由三个关键组件组成:

  • Qwen2.5-0.5B-Instruct 作为基础语言模型处理文本输入;
  • SigLIP-400M 作为视觉编码器生成图像嵌入;
  • 投影层(MLP)将视觉编码器的嵌入对齐到语言模型的 token 空间。

Omnivision 亮点:

  • 9倍图像token减少,降低延迟和计算成本。
  • 使用DPO训练减少幻觉,提高结果可信度。
  • 在多项基准测试中优于nanoLLAVA。
  • 支持本地设备快速推理。
  • 适用于视觉问答和图像描述任务。

在这里插入图片描述

No.2 通义灵码团队开源Lingma SWE-GPT: 一款自动化软件改进模型

在这里插入图片描述

  • 论文地址:https://arxiv.org/pdf/2411.00622
  • 项目地址:https://github.com/LingmaTongyi/Lingma-SWE-GPT

在这里插入图片描述

阿里巴巴通义灵码团队开源了一款自动化软件改进模型:Lingma SWE-GPT。有两个版本,7B 和 72B,72B 性能更强,适合企业用户。

在这里插入图片描述

基于 Qwen 系列基础模型,Lingma SWE-GPT 通过软件工程开发过程数据的额外训练,增强了其解决复杂软件工程任务的能力。该模型旨在通过智能辅助,提升软件开发的各个方面。

Lingma SWE-GPT 的表现:

  • 在软件工程领域的应用中表现出色,首次在SWE-bench基准测试中达到了 30.20% 的解决率。
  • 能模拟专业开发者的思维过程,支持代码优化、开发辅助,代码故障定位成功率 51.16%,可以用它做代码审查、Bug 修复等。
  • 在软件工程特定任务中的表现优于其他类似规模的开源模型,如比 Llama 3.1 405B 高出 22.76%,接近封闭源模型(GPT-4o 解决 31.80% 问题)的表现。

在这里插入图片描述

图:Table 1 展示了 Lingma SWE-GPT(7B 和 72B)与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。

No.3 DeepSeek开源统一多模态框架JanusFlow,同时处理图像理解和生成,性能超越SDXL

在这里插入图片描述

  • 论文地址:https://arxiv.org/abs/2411.07975
  • 项目地址:https://github.com/deepseek-ai/Janus
  • 模型下载:https://huggingface.co/deepseek-ai/JanusFlow-1.3B

JanusFlow 是一个强大的框架,将图像理解和生成统一在一个模型中。它引入了一种极简的架构,将自回归语言模型与生成建模中的先进方法 —— 修正流(rectified flow)相结合。JanusFlow 的关键发现表明,修正流可以在大型语言模型框架内直接训练,无需复杂的架构修改。

在这里插入图片描述

基准结果表明,JanusFlow 在 MMBench、SeedBench 和 GQA 上的得分分别为74.9、70.5和60.3,表现优于许多现有的统一模型。

在这里插入图片描述

在图像生成方面,JanusFlow 超越了 SDv1.5和 SDXL,MJHQ FID-30k 得分为9.51,GenEval 得分为0.63。这些指标表明它在生成高质量图像和处理复杂多模态任务方面的卓越能力,且仅需1.3B 参数。

在这里插入图片描述

欢迎各位关注我的个人微信公众号:HsuDan,我将分享更多自己的学习心得、避坑总结、面试经验、AI最新技术资讯。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐