最新开源：边缘设备优化的多模态模型Omnivision！通义灵码团队开源Lingma SWE-GPT！DeepSeek开源统一多模态框架JanusFlow！

图：Table 1 展示了 Lingma SWE-GPT（7B 和 72B）与各种最先进模型在 SWE-bench Verified 和 SWE-bench Lite 上的综合表现。基于 Qwen 系列基础模型，Lingma SWE-GPT 通过软件工程开发过程数据的额外训练，增强了其解决复杂软件工程任务的能力。基准结果表明，JanusFlow 在 MMBench、SeedBench 和 GQA

快乐小码农

1046人浏览 · 2024-11-16 15:29:08

快乐小码农 · 2024-11-16 15:29:08 发布

文章目录

No.1 Omnivision：边缘设备优化的多模态模型
No.2 通义灵码团队开源Lingma SWE-GPT：一款自动化软件改进模型
No.3 DeepSeek开源统一多模态框架JanusFlow，同时处理图像理解和生成，性能超越SDXL

No.1 Omnivision：边缘设备优化的多模态模型

Omnivision 是一个紧凑的多模态模型，拥有 968M 参数，能够处理视觉和文本输入，专为边缘设备优化。该模型在 LLaVA 架构上进行了改进，显著减少了图像 token 数量，从而降低了延迟和计算成本。通过使用可信数据进行 DPO 训练，Omnivision 提供了更可靠的结果，适用于视觉问答和图像描述等任务。

Omnivision 的架构由三个关键组件组成：

Qwen2.5-0.5B-Instruct 作为基础语言模型处理文本输入；
SigLIP-400M 作为视觉编码器生成图像嵌入；
投影层（MLP）将视觉编码器的嵌入对齐到语言模型的 token 空间。

Omnivision 亮点：

9倍图像token减少，降低延迟和计算成本。
使用DPO训练减少幻觉，提高结果可信度。
在多项基准测试中优于nanoLLAVA。
支持本地设备快速推理。
适用于视觉问答和图像描述任务。

在这里插入图片描述

No.2 通义灵码团队开源Lingma SWE-GPT：一款自动化软件改进模型

在这里插入图片描述

论文地址：https://arxiv.org/pdf/2411.00622
项目地址：https://github.com/LingmaTongyi/Lingma-SWE-GPT

在这里插入图片描述

阿里巴巴通义灵码团队开源了一款自动化软件改进模型：Lingma SWE-GPT。有两个版本，7B 和 72B，72B 性能更强，适合企业用户。

在这里插入图片描述

基于 Qwen 系列基础模型，Lingma SWE-GPT 通过软件工程开发过程数据的额外训练，增强了其解决复杂软件工程任务的能力。该模型旨在通过智能辅助，提升软件开发的各个方面。

Lingma SWE-GPT 的表现：

在软件工程领域的应用中表现出色，首次在SWE-bench基准测试中达到了 30.20% 的解决率。
能模拟专业开发者的思维过程，支持代码优化、开发辅助，代码故障定位成功率 51.16%，可以用它做代码审查、Bug 修复等。
在软件工程特定任务中的表现优于其他类似规模的开源模型，如比 Llama 3.1 405B 高出 22.76%，接近封闭源模型（GPT-4o 解决 31.80% 问题）的表现。

在这里插入图片描述