51c大模型~合集27

从微软推出 Copilot 编程助手到雨后春笋般涌现的代码大模型及智能代码助手、再到今年首位 AI 软件工程师 Devin 的诞生，AI 进化的速度实在令人惊叹。这一方面要看到 AI 代码助手的应用潜力。根据《Gartner 2024 年十大战略技术趋势》预测，到 2028 年，75% 的企业软件工程师将使用 AI 编码助手，这一比例在 2023 年初还不足 10%。因此，在需求趋势驱动下，AI

whaosoft-143

1135人浏览 · 2025-10-23 19:12:36

whaosoft-143 · 2025-10-23 19:12:36 发布

我自己的原文哦~ https://blog.51cto.com/u_16839134/11692279

#适合初学者的Python编程课程

吴恩达亲自授课，LLM当「助教」

今天，人工智能著名学者、斯坦福大学教授吴恩达在社交平台 X 上发帖介绍了一门新课程 ——AI Python for Beginners，旨在从头开始讲授 Python 编程知识，适合初学者学习。吴恩达将担任该课程讲师。

课程链接：https://www.deeplearning.ai/short-courses/ai-python-for-beginners/

AI Python for Beginners 课程由四个部分组成，包括：

AI Python 编程基础知识：学习 Python 基础知识，并立即将它们应用到人工智能应用程序中。
使用 Python 自动化任务：学习如何自动执行重复任务并使用代码做出决策。学生将了解有效使用数据的方式，并创建人工智能驱动的工具，这些工具可以对任务进行优先级排序。
使用 Python 处理数据和文档：学习编写自定义函数来执行特定任务，使用 Python 读取文档内的数据并将其存储为字符串或数字，将文档中的文本传递给大型语言模型（LLM），并要求其以特定方式进行分析。
使用包和 API 扩展 Python：学会使用第三方代码扩展 Python，并创建一个简单的 AI 智能体。

学生将掌握 Python 基础知识，并学习基本的编程概念，如变量、函数、循环、数据结构等等。该课程还将教学生编写实用的人工智能应用程序，例如构建自定义菜谱生成器、智能待办事项列表和假期计划器等。这种实践方法可以让学生学会编写调用 AI 模型的代码，使其在工作和个人项目中编程更加高效。

吴恩达表示：「生成式人工智能正在改变编程方式」，因此该课程将在人工智能聊天机器人的协助下展开，聊天机器人可以帮助学生编写、测试和调试代码，提供即时反馈和个性化指导，让学生持续学习编程技能。

在课程结束时，学生将能够编写与大型语言模型交互的 Python 脚本、分析数据，甚至创建简单的 AI 智能体。

值得注意的是，这门课程是免费课程，感兴趣的读者快去看看吧。

参考链接：https://www.deeplearning.ai/short-courses/ai-python-for-beginners/

....

#杂文

入职一年半，这个AI员工晋升为了国内首位AI架构师

你敢想，AI 已经不满足只做程序员了，如今又向架构师这一进阶职业发起挑战。

随着 AI 在研发领域的不断进化，能提供给工程师的助力越来越多，从原先单纯的编码加速器不断延展到架构理解、质量分析、安全扫描、测试生成等更多领域。同时结合 RAG 技术的不断落地应用，对私域知识、本地场景的深刻理解，AI 代码助手的能力边界正在不断被打破。

年初，英伟达创始人、CEO 黄仁勋的一番话引发了计算机行业内外的热议。他表示：「生成式 AI 的持续发展大大降低了学习编程的意义，未来人人都可以成为程序员。」无独有偶，百度创始人、CEO 李彦宏也在一次访谈中指出，「这波人工智能的改变可能更加彻底和深刻，基本上以后不会再存在程序员这种职业了。只要会说话，人人都会具备程序员的能力。」

两位科技大佬的观点倒不是说未来程序员都会失业，而是在 AI 的帮助下，更多研发行业中非程序员的角色也可以具备基本的开发程序的能力，而具备专业技能的软件工程师们在 AI 助力下将发挥更大的价值。

同时，两位科技大佬的观点一定程度上揭示了一个重要趋势：随着大模型赋能的 AI 代码助手在企业业务场景的应用落地，AI 辅助所占的比重越来越高。Stack Overflow 2024 开发者调查报告显示，76% 的受访者正在或计划在开发过程中使用 AI 工具，有好感或非常有好感的比例达到了 72%。

国内外大厂都在 AI 代码助手这一赛道重兵投入，而率先入局者已经在自身业务中初见成效，比如百度内部已经有 30％的代码由其智能代码助手「文心快码 Baidu Comate」生成。

说到文心快码（Baidu Comate），它还是在 6 月底百度 WAVE SUMMIT 深度学习开发者大会上拥有了自己的中文名，并升级到了 2.5 版本。算起来，自 2023 年 4 月推出以来，文心快码已经是一位「练习时长快一年半」的 AI 程序员了。

在岗这么长时间，文心快码现已支持了 C/C++、Java 等 100 多种编程语言和 VS Code、Jetbrains 系列等 19 款主流 IDE 平台，能够续写已有代码、利用自然语言指令生成代码、根据注释写代码并在代码基础上生成注释。我们观察到，百度内部已经有 80％的工程师在深度使用文心快码。

而随着基础模型能力的持续提升以及 AI 代码助手在工作中越来越驾轻就熟，其自身能力也在不断进化。这不，百度文心快码不满足只干程序员的活了，它表现出来的一些能力正在告诉人们：自己甚至可以胜任架构师的角色了！

不过，在揭秘文心快码的「进阶能力」之前，我们有必要先来了解一下程序员与架构师的区别。

AI 程序员的职业晋升

做专才更要通才

如果说程序员是某一技术领域的专才（如前端、后端、移动应用开发），架构师则可以称得上多个技术领域的通才了，他们要在软件开发、系统架构、网络通信、数据库设计等方面都玩得转。

从职能上看，程序员侧重于在实现层面执行编写代码、调试与测试、维护等具体任务，而架构师主要负责整体系统的设计和规划，包括系统架构、模块划分、技术选型等，还要做出技术决策并指导团队。

因此，程序员晋升为架构师需要全方位的提升。同样地，AI 代码助手要想成功地将自身角色从程序员跨越到架构师，必然要在承担的职责、具备的技能方面更上一个台阶。

文心快码既然宣称升级成为了「互联网首位 AI 架构师」，想必已经掌握了承担相应角色与任务的必备技能。

自落地百度内部以来，文心快码在完成常见编程任务方面自不必多说，代码采纳率也达到了 46％。随着向架构师角色的转变，如今的文心快码更懂业务架构、更懂测试、更懂领域知识、更能解决代码编程中的疑难问题。

首要一点便是能更高效地解决编程中的架构问题，它们往往涉及到系统的层次结构、模块划分、控制流和数据流等方面。人类架构师统筹起来尚且不容易，而文心快码在拥有了架构师的能力后，可以通过代码解释，快速了解函数在「真实业务背景下的含义」。

不仅如此，为了更清楚地洞见编程逻辑框架、项目管理全流程，文心快码还能通过流程图的方式，直观地展示完整的调用逻辑。

其次代码质量也是架构师关注的关键领域，而单元测试（UT）则是保障代码质量的关键举措，以确保系统稳定性和可靠性。文心快码在单元测试生成方面迎来全面强化，不仅 UT 生成效果大幅提升，生成的 UT 用例更是达到了 100% 有效。

做到这些要归功于文心快码自动识别工程所使用的测试框架版本，它能够自动识别被测方法跨文件依赖，并自动参考已有单元测试书写风格，因而可以生成更贴近真实场景、效果更优、可用性更强的单元测试代码。

同时得益于文心快码四层架构的 AI 优化，UT 生成速度同样大幅提升。即使面对复杂的函数，平均 6 秒就能自动生成可用单元测试，缩短了等待加载时间。

在 UT 生成效果和速度得到加强之外，文心快码还支持批量生成 UT，实现了质、速和量的三合一提升。

面对纷繁复杂的变更函数以及堆积成山的历史代码，文心快码可以针对目录、多文件、单文件等多类型一键发起生成，并做到生成、验证和修复同步进行，确保 UT 用例的有效可靠。

此外，对于找到并修复程序中的错误或缺陷，文心快码做到了更好、更快。只需要选中报错的日志，然后交给文心快码进行对比分析和修复，它会自动给出错误原因和错误修复方式，一目了然。同时也可以进行多轮 Debug，只要一句话，便能解决研发过程中遇到的各种疑难问题。

如果以百度自身对架构师的定义来评判文心快码如今的表现，可以说它从业务理解、代码能力、文档编写和技术视野四个维度得到了全方面加强，并提供了一系列相应的自动化服务。

当文心快码这样的 AI 代码助手开始从架构师的角度来思考并解决问题时，势必会对包括提出需求、编写代码、测试与发布、检测潜在 bug 与安全漏洞在内的整个开发流程带来更大增益，进一步提升业务迭代速度。

当然，工欲善其事必先利其器。文心快码进化到拥有架构师的能力并不是一蹴而就，而是各方面因素综合作用的结果。

进化的背后

是多点发力

我们知道，文心快码背后是文心大模型提供动力，前不久刚刚升级到 4.0 Turbo 版本。通过更大训练数据体量、更优数据分布与质量、更强训练算法，文心大模型在理解、逻辑推理层面再次跃升。

可以说，更强大文心大模型为文心快码的又一次「变身」提供了理论上的可能和坚实基础。

在此之外，文心快码在高质量训练数据集、专家参与的知识体系、私域知识增强以及精调和优化方面形成了独有优势。

首先是在数据层面「做深文章」。数据作为 AI 三大要素之一，对模型训练效果的作用举足轻重。文心快码拥有充足且高质量的训练数据集，涵盖了百度内部严格筛选的优秀代码数据集以及 GitHub、GitLab 等外部主流开源代码库资源，最大程度实现预训练数据的多样性和丰富性。

因此，有了更多、更全、更优质的数据支撑，文心快码才能更加深入理解和学习不同的编程语言、框架及真实业务场景下的编码规律。

其次在构建知识体系的过程中做到了双管齐下。不断吸收并学习知识是提升 AI 理解、推理和决策能力，并在实际应用中更加精准和高效的关键因素。

一方面，通过由语言、框架、知识集等多个维度的专家团队的共同努力，整理并构建了由上万个知识集组成的专家知识体系，在覆盖基础语法、数据结构等通用知识之外，还深入到了特定框架、库及业务场景的高级应用，实现通用与专用知识的结合。

另一方面是增强了私域知识。在关注外部客户业务需求的基础上，文心快码为他们提供了基于 RAG 技术的数据检索增强功能，提升在具体业务场景中的生成能力和准确性。同时完善评估与持续优化机制，在上线后也能根据客户反馈及时处理和调整，适应他们可能变化的业务状况和需求，形成数据、效果、产品功能和应用实践一整个链条的快速反馈迭代。

最后是注重精调与优化。这一点在百度内部尤为明显，有了对上万工程师研发实践以及内部用户使用习惯和需求的充分了解，利用类似 DPO（数据驱动优化）的技术手段对内部代码数据进行深入分析，构建了反映用户真实需求的专用数据集。同时在不断迭代和优化过程中形成数据飞轮效应，持续指导模型精调。

至此，在底层模型的加持之外，文心快码进阶到 AI 架构师完成了数据、知识、精调与优化多层面的技术和实践准备。

目前，文心快码已经收获了多领域大量客户的认可，并已在喜马拉雅、数蓬科技、南威软件、华农保险等企业的应用中提升了研发效率，为其业务发展和技术创新注入了新的强大动力。

写在最后

从微软推出 Copilot 编程助手到雨后春笋般涌现的代码大模型及智能代码助手、再到今年首位 AI 软件工程师 Devin 的诞生，AI 进化的速度实在令人惊叹。

这一方面要看到 AI 代码助手的应用潜力。根据《Gartner 2024 年十大战略技术趋势》预测，到 2028 年，75% 的企业软件工程师将使用 AI 编码助手，这一比例在 2023 年初还不足 10%。因此，在需求趋势驱动下，AI 代码助手持续「修炼内功」是必然的。

此次百度文心快码在职能上向架构师的延伸，正是这一趋势的体现，也意味着对编程领域的影响越来越深入，逐渐地从单一的编程任务渗透到整个研发全生命周期并有可能重构研发范式。

可以预见，在未来相当长的一段时间里，AI 代码助手会强势存在并不断进化。对于编程甚至更高层次的架构设计工作而言，助力将会越来越大。到时候，工程师们将不会被繁琐的工作所牵绊，效率加倍，留出更多的时间去享受生活。

这两天冲上热搜的太原理工 2024 软件工程专业招生近 2000 人，也从侧面说明软件工程师这一职业仍有巨大前景。而且我们了解到，该专业所属的软件学院还是首批使用文心快码的机构之一，可见新技术已经与未来的软件研发生力军在建立了联系。

因此，关键在于如何在理念和实践中利用好 AI。正如斯坦福著名学者 Erik Brynjolfsson 所言，企业应该将 AI 视为员工的合作伙伴，而非竞争对手。程序员要让 AI 处理它们擅长的重复、繁琐和机械的事情，自身则专注于那些能够发挥核心价值的创造性工作。

以百度为例，它在开发文心快码的过程中汇集了数万工程师的实践经验，形成三大「人机协同价值观」，包括 AI 不会取代你但会 AI 的人将在职业市场上更具有竞争力，人机协同的关系中人始终处于 Control 的地位和人机协同、共同进化，可以为人机和谐相处提供一定借鉴。

未来，随着 AI 代码助手扮演的角色越来越强大，胜任的任务越来越多，其与人的共存将会是一个长期命题，需要包括百度在内的各方汇聚智慧来正确对待和解决。

....

#ByteCheckpoint

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经成为克服训练故障、保障训练进度和提高训练效率的关键。

近日，字节跳动豆包大模型团队与香港大学联合提出了 ByteCheckpoint。这是一个 PyTorch 原生，兼容多个训练框架，支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统，相比现有方法有显著性能提升和易用性优势。本文介绍了大模型训练提效中 Checkpoint 方向面临的挑战，总结 ByteCheckpoint 的解决思路、系统设计、I/O 性能优化技术，以及在存储性能和读取性能测试的实验结果。

Meta 官方最近披露了在 16384 块 H100 80GB 训练集群上进行 Llama3 405B 训练的故障率 —— 短短 54 天，发生 419 次中断，平均每三小时崩溃一次，引来不少从业者关注。

正如业内一句常言，大型训练系统唯一确定的，便是软硬件故障。随着训练规模与模型大小的日益增长，克服软硬件故障，提高训练效率成为大模型迭代的重要影响要素。

Checkpoint 已成为训练提效关键。在 Llama 训练报告中，技术团队提到，为了对抗高故障率，需要在训练过程中频繁地进行 Checkpoint ，保存训练中的模型、优化器、数据读取器状态，减少训练进度损失。

字节跳动豆包大模型团队与港大近期公开了成果 —— ByteCheckpoint ，一个 PyTorch 原生，兼容多个训练框架，支持 Checkpoint 的高效读写和自动重新切分的大模型 Checkpointing 系统。

与基线方法相比，ByteCheckpoint 在 Checkpoint 保存上性能提升高达 529.22 倍，在加载上，性能提升高达 3.51 倍。极简的用户接口和 Checkpoint 自动重新切分功能，显著降低了用户上手和使用成本，提高了系统的易用性。

目前论文成果已对外公开。

ByteCheckpoint: A Unified Checkpointing System for LLM Development
论文链接：https://team.doubao.com/zh/publication/bytecheckpoint-a-unified-checkpointing-system-for-llm-development?view_from=research

Checkpoint 技术在大模型训练中的技术挑战

当前 Checkpoint 相关技术在支持大模型训练提效中，共面临四个方面挑战：

现有系统设计存在缺陷，显著增加训练额外 I/O 开销

在训练工业级别的大语言模型 (LLM) 的过程中，训练状态需要通过检查点技术 ( Checkpointing ) 进行保存和持久化。通常情况下，一个 Checkpoint 包括 5 个部分 (模型，优化器，数据读取器，随机数和用户自定义配置)。这一过程往往会给训练带来分钟级别的阻塞，严重影响训练效率。

在使用远程持久化存储系统的大规模训练场景下，现有的 Checkpointing 系统没有充分利用 Checkpoint 保存过程中 GPU 到 CPU 内存拷贝 ( D2H 复制)，序列化，本地存盘，上传到存储系统各个阶段的执行独立性。

此外，不同训练进程共同分担 Checkpoint 存取任务的并行处理潜力也没有被充分发掘。这些系统设计上的不足增加了 Checkpoint 训练带来的额外 I/O 开销。

Checkpoint 重新切分困难，手动切分脚本开发维护开销过高

在 LLM 的不同训练阶段 (预训练到 SFT 或者 RLHF ) 以及不同任务 (从训练任务拉取不同阶段的 Checkpoint 进行执行自动评估) 之间进行 Checkpoint 迁移时，通常需要对保存在持久化存储系统中的 Checkpoint 进行重新切分 ( Checkpoint Resharding ) ，以适应下游任务的新并行度配置以及可用 GPU 资源的配额。

现有 Checkpointing 系统 [1, 2, 3, 4] 都假设存储和加载时，并行度配置和 GPU 资源保持不变，无法处理 Checkpoint 重新切分的需求。工业界目前常见的解决办法是 —— 为不同模型定制 Checkpoint 合并或者重新切分脚本。这种方法带来了大量开发与维护开销，可扩展性较差。

不同的训练框架 Checkpoint 模块割裂，为 Checkpoint 统一管理和性能优化带来挑战

在工业界的训练平台上，工程师与科学家往往会根据任务特性，选择合适框架 (Megatron-LM [5], FSDP [6], DeepSpeed [7], veScale [8, 9]) 进行训练，并保存 Checkpoint 到存储系统。然而，这些不同的训练框架都具有自己独立的 Checkpoint 格式以及读写模块。不同训练框架的 Checkpoint 模块设计不尽相同，为底层系统进行统一的 Checkpoint 管理以及性能优化带来了挑战。

分布式训练系统的用户面临多重困扰

从训练系统的用户（ AI 研究科学家或工程师）的角度出发，用户使用分布式训练系统时，在 Checkpoint 方向往往会被三个问题困扰：

1）如何高效地存储 Checkpoint ，在不影响训练效率的情况下保存 Checkpoint。

2）如何重新切分 Checkpoint ，对于在一个并行度下存储的 Checkpoint ，根据新的并行度正确读入。

3）如何把训练得到的产物上传到云存储系统上（ HDFS，S3 等），手动管理多个存储系统，对用户来说学习和使用成本较高。

针对上述问题，字节跳动豆包大模型团队和香港大学吴川教授实验室联合推出了 ByteCheckpoint 。

ByteCheckpoint 是一个多训练框架统一，支持多存储后端，具备自动 Checkpoint 重新切分能力的高性能分布式 Checkpointing 系统。ByteCheckpoint 提供了简单易用的用户接口，实现了大量 I/O 性能优化技术提高了存储和读取 Checkpoint 性能，并支持 Checkpoint 在不同并行度配置的任务中的灵活迁移。

系统设计

存储架构

ByteCheckpoint 采用了元数据 / 张量数据分离的存储架构，实现了 Checkpoint 管理与训练框架和并行度的解耦合。

不同训练框架中的模型以及优化器的张量切片 ( Tensor Shard) 存储在 storage 文件中，元信息 (TensorMeta, ShardMeta, ByteMeta) 存储到全局唯一的 metadata 文件中。

当使用不同的并行度配置读取 Checkpoint 时，如下图所示，每个训练进程只需要根据当前的并行度设置查询元信息，便能够获取进程所需要张量的存储位置，再根据位置直接读取，实现自动 Checkpoint 重新切分。

巧解不规则张量切分

不同训练框架在运行时，往往会把模型或者优化器中张量的形状摊平 ( Flatten ) 成一维，从而提高集合通信性能。这种摊平操作给 Checkpoint 存储带来了不规则张量切分 (Irregular Tensor Sharding) 的挑战。

如下图所示，在 Megatron-LM (由 NVIDIA 研发的分布式大模型训练框架) 和 veScale (由字节跳动研发的 PyTorch 原生分布式大模型训练框架) 中，模型参数对应的优化器状态会被展平为一维后合并，再根据数据并行度切分。这导致张量被不规则地切分到不同进程之中，张量切片的元信息无法使用偏移量和长度元组来表示，给存储和读取带来困难。

不规则张量切分的问题在 FSDP 框架中也同样存在。

为消除不规则切分的张量切片，FSDP 框架在存储 Checkpoint 之前会在所有进程上对一维张量切片进行 all-gather 集合通信以及 D2H 复制操作，以获取完整不规则切分的张量。这种方案带来了极大的通信和频繁的 GPU-CPU 同步开销，严重影响了 Checkpoint 存储的性能。

针对这个问题，ByteCheckpoint 提出了异步张量合并 (Asynchronous Tensor Merging) 技术。

ByteCheckpoint 首先找出不同进程中被不规则切分的张量，之后采用异步的 P2P 通信，把这些不规则的张量分配到不同进程上进行合并。所有针对这些不规则张量的 P2P 通信等待（Wait) 以及张量 D2H 复制操作被推迟到他们即将进入序列化阶段的时候，从而消除了频繁的同步开销，也增加了通信与其他 Checkpoint 存储流程的执行重叠度。

系统架构

下图展示了 ByteCheckpoint 的系统架构：

API 层为不同训练框架提供了简单，易用且统一的读取和写入 ( Save ）和读取（ Load ）接口。

Planner 层会根据存取对象为不同训练进程生成存取方案，交由 Execution 层执行实际的 I/O 任务。

Execution 层执行 I/O 任务并与 Storage 层进行交互，利用各种 I/O 优化技术进行高性能的 Checkpoint 存取。

Storage 层管理不同的存储后端，并在 I/O 任务过程中根据不同存储后端进行相应的优化。

分层设计增强了系统的可扩展性，以便未来支持更多的训练框架和存储后端。

API 用例

ByteCheckpoint 的 API 用例如下：

ByteCheckpoint 提供了极简 API ，降低了用户上手的成本。用户在存储和读取 Checkpoint 时，只需要调用存储和加载函数，传入需要存储和读取的内容，文件系统路径和各种性能优化选项。

I/O 性能优化技术

Checkpoint 存储优化

流水线执行

如下图所示，ByteCheckpoint 设计了全异步的存储流水线（Save Pipeline），将 Checkpoint 存储的不同阶段（P2P 张量传输，D2H 复制，序列化，保存本地和上传文件系统）进行拆分，实现高效的流水线执行。

避免内存重复分配

在 D2H 复制过程，ByteCheckpoint 采用固定内存池（ Pinned Memory Pool ），减少了内存反复分配的时间开销。

除此之外，为了降低高频存储场景中因为同步等待固定内存池回收而带来的额外时间开销，ByteCheckpoint 在固定内存池的基础上加入了 Ping-Pong buffering 的机制。两个独立的内存池交替扮演着读写 buffer 的角色，与 GPU 和执行后续 I/O 操作的 I/O workers 进行交互，进一步提升存储效率。

负载均衡

在数据并行 ( Data-Parallel or DP ) 训练中，模型在不同的数据并行进程组（ DP Group ）之间是冗余的， ByteCheckpoint 采用了负载均衡算法把冗余的模型张量均匀分配到不同进程组中进行存储，有效地提高了 Checkpoint 存储效率。

Checkpoint 读取优化

零冗余加载

如图所示，在改变并行度读取 Checkpoint 时，新的训练进程可能只需要从原来的张量切片中读取其中的一部分。

ByteCheckpoint 采用按需部分文件读取（ Partial File Reading ）技术，直接从远程存储中读取需要的文件片段，避免下载和读取不必要的数据。

在数据并行 (Data-Parallel or DP) 训练中，模型在不同的数据并行进程组（DP Group）之间是冗余的，不同进程组会重复读取同一个张量切片。在大规模训练的场景下，不同进程组同时发给远程持久化存储系统（比如 HDFS ）大量请求，会给存储系统带来巨大压力。

为了消除重复数据读取，减少训练进程发给 HDFS 的请求，优化加载的性能，ByteCheckpoint 把相同的张量切片读取任务均匀分配到不同进程上，并在对远程文件进行读取的同时，利用 GPU 之间闲置的带宽进行张量切片传输。

实验结果

实验配置

团队使用 DenseGPT 与 SparseGPT 模型 (基于 GPT-3 [10] 结构实现)，在不同模型参数量，不同训练框架和不同规模的训练任务中评估了 ByteCheckpoint 的 Checkpoint 存取正确性、存储性能和读取性能。更多实验配置和正确性测试细节请移步完整论文。

存储性能测试

在存储性能测试中，团队比较了不同模型规模和训练框架，在训练过程中每 50 或者 100 步存一次 Checkpoint ， Bytecheckpoint 和基线（ Baseline ）方法给训练带来的总的阻塞时间 ( Checkpoint stalls )。

得益于对写入性能的深度优化，ByteCheckpoint 在各类实验场景中均取得了很高的表现，在 576 卡 SparseGPT 110B - Megatron-LM 训练任务中相比基线存储方法取得了 66.65~74.55 倍的性能提升，在 256 卡 DenseGPT 10B - FSDP 训练任务中甚至能达到 529.22 倍的性能提升。

读取性能测试

在读取性能测试中，团队比较不同方法根据下游任务并行度读取 Checkpoint 的加载时间。ByteCheckpoint 相比基线方法取得了 1.55 ～ 3.37 倍的性能提升。

团队观察到 ByteCheckpoint 相对于 Megatron-LM 基线方法的性能提升更为显著。这是因为 Megatron-LM 在读取 Checkpoint 到新的并行度配置之前，需要运行离线的脚本对分布式 Checkpoint 进行重新分片。相比之下，ByteCheckpoint 能够直接进行自动 Checkpoint 重新切分，无需运行离线脚本，高效完成读取。

最后，关于 ByteCheckpoint 的未来规划，团队希望从两个方面着手：

其一，实现支持超大规模 GPU 集群训练任务高效 Checkpointing 的长远目标。

其二，实现大模型训练全生命周期的 Checkpoint 管理，支持全场景的 Checkpoint ，从预训练（Pre-Training)，到监督微调（ SFT ），再到强化学习（ RLHF ）和评估 (Evaluation) 等场景。

#Fully forward mode training for optical neural networks

清华研究登Nature，首创全前向智能光计算训练架构，戴琼海、方璐领衔

在刚刚过去的一天，来自清华的光电智能技术交叉创新团队突破智能光计算训练难题，相关论文登上 Nature。

论文共同一作是来自清华的薛智威、周天贶，通讯作者是清华的方璐教授、戴琼海院士。此外，清华电子系徐智昊、之江实验室虞绍良也参与了这项研究。

论文地址：https://www.nature.com/articles/s41586-024-07687-4
论文标题：Fully forward mode training for optical neural networks

随着大模型的规模越来越大，算力需求爆发式增长，就拿 Sora 来说，据爆料，训练参数量约为 30 亿，预计使用了 4200-10500 块 H100 训了 1 个月。全球的科技大厂都在高价求购的「卡」，都是硅基的电子芯片。在此之外，还有一种将计算载体从电变为光的光子芯片技术。它们利用光在芯片中的传播进行计算，具有超高的并行度和速度，被认为是未来颠覆性计算架构最有力的竞争方案之一。

光计算领域也在使用 AI 辅助设计系统。然而，AI 也给光计算技术套上了「瓶颈」—— 光神经网络训练严重依赖基于数据对光学系统建模的方法。这导致研究人员难以修正实验误差。更重要的是，不完善的系统加上光传播的复杂性，几乎不可能实现对光学系统的完美建模，离线模型与现实之间总是难以完全同步。

而机器学习常用的「梯度下降」和「反向传播」，来到了光学领域，也不好使了。为了使基于梯度的方法有效，光学系统必须非常精确地校准和对齐，以确保光信号能够正确地在系统中反向传播，离线模型往往很难实现这点。

来自清华大学的研究团队抓住了光子传播具有对称性这一特性，将神经网络训练中的前向与反向传播都等效为光的前向传播。该研究开发了一种称为全前向模式（FFM，fully forward mode）学习的方法，研究人员不再需要在计算机模型中建模，可以直接在物理光学系统上设计和调整光学参数，再根据测量的光场数据和误差，使用梯度下降算法有效地得出最终的模型参数。借助 FFM，大多数机器学习操作都可以有效地并行进行，从而减轻了 AI 对光学系统建模的限制。

FFM 学习表明，训练具有数百万个参数的光神经网络可以达到与理想模型相当的准确率。

此外，该方法还支持通过散射介质进行全光学聚焦，分辨率达到衍射极限；它还可以以超过千赫兹的帧率平行成像隐藏在视线外的物体，并可以在室温下进行光强弱至每像素亚光子的全光处理。

最后，研究证明了 FFM 学习可以在没有分析模型的情况下自动搜索非厄米异常点。FFM 学习不仅有助于将学习过程提高几个数量级，还可以推动深度神经网络、超灵敏感知和拓扑光学等应用和理论领域的发展。

深度 ONN 上的并行 FFM 梯度下降

图 2a 展示了使用 FFM 学习的自由空间 ONN（optical neural networks，光学神经网络）的自我训练过程。为了验证 FFM 学习的有效性，研究者首先使用基准数据集训练了一个单层 ONN 以进行对象分类。

图 2b 可视化了在 MNIST 数据集上的训练结果，可以看到，实验和理论光场之间的结构相似性指数（SSIM）超过了 0.97，这意味着相似度很高（图 2c）。值得注意的是，由于系统不完善的原因，光场和梯度的理论结果并不能精准地代表物理结果。因此，这些理论结果不应被视为基本事实。

接下来，研究者探究了用于 Fashion-MNIST 数据集分类的多层 ONN，具体如图 2d 所示。

通过将层数从 2 层增加到 8 层，他们观察到，计算机训练网络的实验测试结果平均达到了 44.0% (35.1%)、52.4%（8.8%）、58.4%（18.4%）和 58.8%（5.5%）的准确率（两倍标准差）。这些结果低于 92.2%、93.8%、96.0% 和 96.0% 的理论准确率。通过 FFM 学习，准确率数值分别提升到了 86.5%、91.0%、92.3% 和 92.5%，接近理想的计算机准确率。

图 2e 描述了 8 层 ONN 的输出结果。随着层数增加，计算机训练的实验输出逐渐偏离目标输出并最终对对象做出误分类。相比之外，FFM 设计的网络可以准确地进行正确分类。除了计算密集型数据和误传播之外，损失和梯度计算还可以通过现场光学和电子处理来执行。

研究者进一步提出了非线性 FFM 学习，如图 2f 所示。在数据传播中，输出在馈入到下一层之前被非线性地激活，记录非线性激活的输入并计算相关梯度。在误差传播过程中，输入在传播之前与梯度相乘。

利用 FFM 进行全光学成像和处理

图 3a 展示了点扫描散射成像系统的实现原理。一般来说，在自适应光学中，启发式优化方法已经用于焦点优化。

研究者分析了不同的 SOTA 优化方法，并利用粒子群优化（PSO）进行比较，如图 3b 所示。出于评估的目的，这里采用了两种不同类型的散射介质，分别是随机相位板（称为 Scatterer-I）和透明胶带（称为 Scatterer-II）。基于梯度的 FFM 学习表现出更高的效率，在两种散射介质的实验中经过 25 次迭代后收敛，收敛损耗值分别为 1.84 和 2.07。相比之下，PSO 方法需要至少 400 次迭代后才能进行收敛，最终损耗值为 2.01 和 2.15。

图 3c 描述了 FFM 自我设计的演变过程，展示了最开始随机分布的强度逐渐分布图逐渐收敛到一个紧密的点，随后在整个 3.2 毫米 × 3.2 毫米成像区域来学习设计的焦点。

图 3d 比较了使用 FFM 和 PSO 分别优化的焦点的半峰全宽（FWHM）和峰值信噪比（PSNR）指标。使用 FFM，平均 FWHM 为 81.2 µm，平均 PSNR 为 8.46 dB，最低 FWHM 为 65.6 µm。当使用 3.2mm 宽的方形孔径和 0.388m 的传播距离时，通过 FFM 学习设计的焦点尺寸接近衍射极限 64.5 µm。相比之下，PSO 优化产生的 FWHM 为 120.0 µm，PSNR 为 2.29 dB。

在图 4a 中，利用往返隐藏对象的光路之间的空间对称性，FFM 学习可以实现动态隐层对象的全光学现场重建和分析。图 4b 展示了 NLOS 成像，在学习过程中，输入波峰被设计用来将对象中所有网格同步映射到它们的目标位置。

现场光子集成电路与 FFM

FFM 学习方法可以推广到集成光系统的自设计中。图 5a 展示了 FFM 学习实现过程。其中矩阵的对称性允许误差传播矩阵和数据传播矩阵之间对等。因此，数据和误差传播共享相同的传播方向。图 5b 展示了对称核心实现和封装芯片实验的测试设置。

研究者构建的神经网络用于对鸢尾花（Iris）数据进行分类，输入处理为 16 × 1 向量，输出代表三种花的类别之一。训练期间矩阵编程的保真度如图 5c 中所示，三个对称矩阵值的时间漂移分别产生了 0.012%、0.012% 和 0.010% 的标准偏差。

在这种不确定下，研究者将实验梯度与模拟值进行比较。如图 5d 所示，实验梯度与理想模拟值的平均偏差为 3.5%。图 5d 还说明了第 80 次学习迭代时第二层的设计梯度，而整个神经网络的误差在图 5e 中进行了可视化。在第 80 次迭代中，FFM 学习（计算机模拟训练）的梯度误差为 3.50%（5.10%）、3.58%（5.19%）、3.51%（5.24%）、3.56%（5.29%）和 3.46%（5.94%）。设计精度的演变如图 5f 所示。理想模拟和 FFM 实验都需要大约 100 个 epoch 才能收敛。在三种对称率配置下，实验性能与模拟性能相似，网络收敛到 94.7%、89.2% 和 89.0% 的准确率。FFM 方法实现了 94.2%、89.2% 和 88.7% 的准确率。相比之下，计算机设计的网络表现出 71.7%、65.8% 和 55.0% 的实验准确率。

基于这篇论文的成果，研究团队也推出了「太极 - II」光训练芯片。「太极 - II」的研发距离上一代「太极」仅过了 4 个月，相关成果也登上了 Science。

论文链接：https://www.science.org/doi/10.1126/science.adl1203

值得一提的是，作为全球首款大规模干涉衍射异构集成芯片的「太极」，其计算能力可以比肩亿级神经元的芯片。论文的实验结果显示，「太极」的能效是英伟达 H100 的 1000 倍。这种强大的计算能力基于研究团队首创的分布式广度智能光计算架构。

....

#SA-HOI

人物交互图像，现在更懂你的提示词了，北大推出基于语义感知的人物交互图像生成框架

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 MIPL实验室，第一作者为博士生徐铸，通讯作者为博士生导师刘洋。MIPL 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表，多次荣获国内外 CV 领域重量级竞赛的冠军奖项，和国内外知名高校、科研机构广泛开展合作。

人物交互图像生成指生成满足文本描述需求，内容为人与物体交互的图像，并要求图像尽可能真实且符合语义。近年来，文本生成图像模型在生成真实图像方面取得出了显著的进展，但这些模型在生成以人物交互为主体内容的高保真图像生成方面仍然面临挑战。其困难主要源于两个方面：一是人体姿势的复杂性和多样性给合理的人物生成带来挑战；二是交互边界区域（交互语义丰富区域）不可靠的生成可能导致人物交互语义表达的不足。

针对上述问题，来自北京大学的研究团队提出了一种姿势和交互感知的人物交互图像生成框架（SA-HOI）, 利用人体姿势的生成质量和交互边界区域信息作为去噪过程的指导，生成了更合理，更真实的人物交互图像。为了全面测评生成图像的质量，他们还提出了一个全面的人物交互图像生成基准。

论文链接：https://proceedings.mlr.press/v235/xu24e.html
项目主页：https://sites.google.com/view/sa-hoi/
源代码链接：https://github.com/XZPKU/SA-HOI
实验室主页：http://www.wict.pku.edu.cn/mipl

SA-HOI 是一种语义感知的人物交互图像生成方法，从人体姿态和交互语义两方面提升人物交互图像生成的整体质量并减少存在的生成问题。通过结合图像反演的方法，生成了迭代式反演和图像修正流程，可以使生成图像逐步自我修正，提升质量。

研究团队在论文中还提出了第一个涵盖人 - 物体、人 - 动物和人 - 人交互的人物交互图像生成基准，并为人物交互图像生成设计了针对性的评估指标。大量实验表明，该方法在针对人物交互图像生成的评估指标和常规图像生成的评估指标下均优于现有的基于扩散的图像生成方法。

方法介绍

图 1：语义感知的人物交互图像生成方法框架图

论文中提出的方法如图 1 所示，主要由两个设计组成：姿态和交互指导（Pose and Interaction Guidance, PIG）和迭代反演和修正流程（Iterative Inversion and Refinement Pipeline, IIR）。

在 PIG 中，对于给定的人物交互文本描述

和噪声

，首先使用稳定扩散模型（Stable Diffusion [2]）生成

作为初始图像，并使用姿态检测器 [3] 获取人类体关节位置

和相应的置信分数

, 构建姿态掩码

高亮低质量姿态区域。

对于交互指导，利用分割模型定位交互边界区域，得到关键点

和相应的置信分数

, 并在交互掩码

中高亮交互区域，以增强交互边界的语义表达。对于每个去噪步骤，

和

作为约束来对这些高亮的区域进行修正，从而减少这些区域中存在的生成问题。此外， IIR 结合图像反演模型 N，从需要进一步修正的图像中提取噪声 n 和文本描述的嵌入 t，然后使用 PIG 对该图像进行下一次修正，利用质量评估器 Q 对修正后的图像质量进行评估，以 < 反馈、评估、修正 > 的操作来逐步提高图像质量。

姿态和交互指导

图 2：姿势和交互指导采样伪代码

姿势和交互引导采样的伪代码如图 2 所示，在每个去噪步骤中，我们首先按照稳定扩散模型（Stable Diffusion）中的设计获取预测的噪声 ϵt 和中间重构。然后我们在上应用高斯模糊 G 来获得退化的潜在特征和，随后将对应潜在特征中的信息引入去噪过程中。

和

被用于生成

和

，并在

和

中突出低姿势质量区域，指导模型减少这些区域的畸变生成。为了指导模型改进低质量区域，将通过如下公式来高亮低姿势得分区域：

其中

，x、y 是图像的逐像素坐标，H,W 是图像大小，σ 是高斯分布的方差。

表示以第 i 个关节为中心的注意力，通过结合所有关节的注意力，我们可以形成最终的注意力图

，并使用阈值将

转换为一个掩码

。

其中 ϕt 是在时间步 t 生成掩码的阈值。类似地，对于交互指导，论文作者利用分割模型得到物体的外轮廓点 O 以及人体关节点 C，计算人与物体之间的距离矩阵 D，从中采样得到交互边界的关键点

，利用和姿势指导相同的方法生成交互注意力

与掩码

，并应用于计算最终的预测噪声。

迭代式反演和图像修正流程

为了实时获取生成图像的质量评估，论文作者引入质量评估器 Q，用于作为迭代式 < 评估 + 修正 > 操作的指导。对于第 k 轮的图像

，采用评估器 Q 获取其质量分数

，然后基于

生成

。为了在优化后保留

的主要内容，需要相应的噪声作为去噪的初始值。

然而，这样的噪声不是现成可得的，为此引入图像反演方法

来获取其噪声潜在特征

和文本嵌入

，作为 PIG 的输入，生成优化后的结果

。

通过比较前后迭代轮次中的质量分数，可以判断是否要继续进行优化：当

和

之间没有显著差异，即低于阈值 θ，可以认为该流程可能已经对图像做出了充足的修正，因此结束优化并输出质量分数最高的图像。

人物交互图像生成基准

图 3：人物交互图像生成基准（数据集 + 测评指标）

考虑到没有针对人物交互图像生成任务设计的现有模型和基准，论文作者收集并整合了一个人物交互图像生成基准，包括一个含有 150 个人物交互类别的真实人物交互图像数据集，以及若干为人物交互图像生成定制的测评指标。

该数据集从开源人物交互检测数据集 HICO-DET [5] 中筛选得到 150 个人物交互类别，涵盖了人 - 物体、人 - 动物和人 - 人三种不同交互场景。共计收集了 5k 人物交互真实图像作为该论文的参考数据集，用于评估生成人物交互图像的质量。

为了更好地评估生成的人物交互图像质量，论文作者为人物交互生成量身定制了几个测评标准，从可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面评估生成图像。可靠性上，论文作者引入姿势分布距离和人 - 物体距离分布，评估生成结果和真实图像是否接近：生成结果在分布意义上越接近真实图像，就说明质量越好。可行性上，采用计算姿势置信度分数来衡量生成人体关节的可信度和合理性。保真度上，采用人物交互检测任务，以及图文检索任务评估生成图像与输入文本之间的语义一致性。

实验结果

与现有方法的对比实验结果如表 1 和表 2 所示，分别对比了人物交互图像生成指标和常规图像生成指标上的性能。

表 1：与现有方法在人物交互图像生成指标的对比实验结果

表 2：与现有方法在常规图像生成指标的对比实验结果

实验结果表明，该论文中的方法在人体生成质量，交互语义表达，人物交互距离，人体姿态分布，整体图像质量等多个维度的测评上都优于现有模型。

此外，论文作者还进行了主观评测，邀请众多用户从人体质量，物体外观，交互语义和整体质量等多个角度进行评分，实验结果证明 SA-HOI 的方法在各个角度都更符合人类审美。

表 3：与现有方法的主观评测结果

定性实验上，下图展示了不同方法对同一个人物交互类别描述生成结果的对比。在上方的组图中，采用了新方法的模型准确表达了 “亲吻” 的语义，并且生成的人体姿势也更合理。在下方的组图中，论文中的方法也成功缓解了其他方法中存在的人体扭曲和畸变，并且通过在手与手提箱交互的区域生成手提箱的拉杆来增强 “拿手提箱” 这个交互的语义表达，从而得到在人体姿态和交互语义两方面都优于其他方法的结果。

图 4：人物交互图像生成结果可视化

开发板商城天皓智联 TB上有视觉设备哦支持AI相关~

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#xxx

....

#关于端侧大模型芯片化的若干趋势思考......

学校毕业以后一直从事芯片算法行业，中间经历了CNN的如日中天，ViT的异军突起，再到如今LLM/VLM的一片火热，算法层面早已发生了翻天覆地的变化。
未来端侧智能的上限究竟有多高，我们还没有见到天花板；但是可以预见的是，xx智能，手机，音箱，摄像头，各种盒子，各种端侧场景的需求是无限广阔的，这既是历史性的挑战，更是时代赋予的机遇。
目前市场上也有一些端侧的芯片，这里聊的主要是100T算力以内的芯片，例如爱芯元智、算能都相关的芯片，也能支持LLM的推理，但是不管如何，其实还是面向上一代的ViT设计的，其效率在LLM上还没有达到上限。

本文还是主要从算法的角度聊一聊，框架和部署技术对未来芯片设计的影响。

DSA注意力机制

注意力机制的演进

Transformer架构长期以来主导了大模型领域，其自注意力机制的计算复杂度与序列长度呈平方关系，这对prefill阶段的算力需求和decode阶段的带宽（KVcache大幅度增加）需求都提出了巨大的挑战。早在ViT和Transformer时代，关于Transformer的结构就有了一系列的改进，Performer（ICLR'21），Reformer（ICLR'20），lnformer（AAAI'21 best paper），但是没有一个真正广泛应用的。原因只有一个，不是真正的强需求。毕竟即使是在2025年，某些场景用ResNet18（2015）和Yolov3（2018）也是足够的。但是在大模型时代，一切都不一样了。视觉大模型确实相比过去的小模型产生了巨大的性能提升，泛化性也得到了极大的加强。而语言大模型，则打开了智能的天花板。所以Transformer的支持变得势在必行。

为了应对自注意力机制的瓶颈，线性注意力（Linear Attention）机制应运而生，通过将注意力计算分解为核函数近似，将计算复杂度降低至线性水平。类似地，RWKV、Mamba，以及近期的Qwen3-next的DeltaNet等都是类似的思路。还有另一条路线是，则是以DSA为代表的稀疏注意力，如果不能解决的瓶颈，如果将n变小也是可行的，该工作也是今年ACL（2025）的best paper。类似地，kimi的MoBA也是类似的思路，其思想也是非常的优雅。除此以外，还有一条隐含的路线，张祥雨老师提到用多智能体协作解决上下文的问题，一个做全局理解，一个做局部感知，典型的分而治之的思想，大巧不工。那这些对端侧芯片有什么影响呢？其实影响不大，只要不出现奇奇怪怪的算子，能够在NPU上融合成一个大算子，计算效率依然会非常高。反而在这里面是通道数的大小，head数的大小影响更大，SRAM是否能够放下，可能是更关键的瓶颈。

MoE机制

动态稀疏。

过去十年，动态机制对于网络性能的提升是非常大的，例如动态卷积（Dynamic Conv），条件卷积（CondConv），可变形卷积（DCN），动态FPN。稀疏技术，学术界一直探索的比较多，工业界却一直很难用。我们团队在CNN时代和Transformer时代一直也有在研究稀疏技术，例如NeurIPS'22的SAViT；今年尝试联合用稀疏和低秩分解做大模型的压缩，也中了今年的EMNLP，但总体来说，还是非常定制化。

真正给稀疏带来广泛应用的是MoE技术，是动态稀疏，这也是很久前一直想做的动态稀疏，奈何以前芯片一直支持的不好。MoE网络在推理阶段只激活一部分专家。从推理的角度看，MoE非常的有意思，做个对比，14B的稠密模型和30B-A3B的稀疏模型（激活3B），后者性能更好，推理时还省算力，省带宽，小模型不管是量还是价，都“超越”了大模型的性能，标准的以小胜大的典范。只有一个小缺点，内存需求更大。当然这是单batch的理想情况，多batch的时候则非常糟糕，decode阶段的时候带宽几乎等同于30B，这个时候就不如稠密模型了。（插个话，我之前面试的时候，有时会问一道数学题，对于MoE模型，计算多batch下平均激活专家的期望数。）云端推理的时候，MoE又可以非常友好，当所有专家都被选取的时候，其实是可以省算力的。

回到端侧芯片上，最主要的场景可能还是单batch的场景。当下的趋势是，MoE模型的稀疏性进一步加大，例如蚂蚁最近的MoE模型（100B-A6.1B）非常出色，其端侧的模型（16B-A1.4B）也是令人惊艳，这都进一步加到了动态稀疏的趋势，MoE的内存要求会更大。最后总结一下，未来MoE技术对于芯片的影响是巨大的，大内存，中带宽，中算力。更进一步的，工业界当下更要关注moe的压缩后面该怎么压缩，类似今年MoNE的工作（如何降低内存）。

NVFP4

低比特量化。

Deepseek采用FP8训练，打开了低比特量化的新时代。而在推理阶段，端侧大模型对低比特量化（4bit及以下）提出了更加激进的需求，其技术也呈现出了不同的特性：

1）weight-only量化，针对decode阶段的带宽瓶颈，只对权重做压缩，计算还是保持原精度计算，例如GPTQ、AWQ等；

2）低精度浮点vs.定点数，这其实是两条路线，云端GPU从FP16/BF16往下做FP8/FP4，端侧芯片则希望是继续原来的INT8/INT4技术路线，例如后摩的RPTQ工作。在细粒度量化下，其实两者是殊途同归的；

3）细粒度量化，以往的权重是per-channel量化，激活是per-tensor量化，当下则是都拆分成更细的粒度（例如per-group）去做，量化精度显然更高；

4）动态量化vs.静态量化。这里主要是针对激活值的，由于任务的不确定性，像过去直接离线确定一个激活值的范围挑战是比较大的，但是支持动态量化，显然在芯片上有较大的成本，这个是比较头疼的trade-off。

最后，我还觉得混合量化是未来的趋势，大模型天然的层内和层间的数值不平衡就适合混合量化去处理，我们今年也有一篇做混合量化相关的工作被接收EMNLP接受。未来针对MoE模型，混合量化应该还有更大的用武之地，业界应该投入更多的力量去探索和研究。

Token压缩。

这一方向的工作其是Transformer新带来的压缩方向，Token维度天然适合去进行压缩，这极大地降低了端侧大模型的应用门槛。对于标准的VLM（例如1BViT+3BLLM）的模型而言，文本token为数百个，但是视觉token为上千，显然视觉Token带来的计算量是非常庞大的，但其实冗余度非常高。从早期的Fastv（ECCV'24），PyramidDrop（CVPR'25），Holov（NeurIPS'25），LightVLM，SpecPrune-VLA等等，最近这方面的工作是井喷式的。对于芯片的影响，则是多多益善，吃到就是赚到。

以上四个变化，是我觉得这一年以来相对确定性的变化，对未来端侧芯片的设计都有着较大的影响。兵马未动，粮草先行，端侧芯片其实一直严重滞后于大模型的发展，未来希望早日见到可用的高效端侧芯片。

....

#清华、北大、上海交大多位校友获奖

6800万美元，清华、北大、上海交大多位校友获奖，亚马逊AI博士奖学金公布

亚马逊 AI 博士奖学金获得者已经陆续公布了，该计划将资助来自九所大学的 100 多名博士生来研究机器学习、计算机视觉和自然语言处理领域。

九所高校包括 CMU、约翰霍普金斯大学、MIT、斯坦福大学、加州大学伯克利分校、加州大学洛杉矶分校、伊利诺伊大学厄巴纳 - 香槟分校、德克萨斯大学奥斯汀分校和华盛顿大学。

另外，该项目将在 2025–2026 和 2026–2027 两个学年中，向学生提供 1000 万美元的资助，并每年额外提供 2400 万美元的 Amazon Web Services（AWS）云计算额度。这使得该项目在两年内共计提供 6800 万美元。

截止目前，已有多所高校公布了博士生入选名单，接下来，我们看看华人学者有哪些。

MIT

Jenny Huang

Jenny Huang 是 EECS 的博士生。她的研究兴趣包括数据驱动的机器学习、不确定性量化以及高效人工智能的开发。Huang 在杜克大学获得了统计学和计算机科学学士学位。

David Jin

David Jin 是计算科学与工程系的博士生。Jin 对可扩展计算有浓厚兴趣，并致力于通过算法设计和现代硬件推动其发展。在机器人和能源应用方面，他的研究专注于人工智能驱动决策系统中 GPU 加速的大规模优化方法。

Songyuan Zhang（张凇源）

张凇源是航空航天系的博士研究生，本科毕业于清华大学钱学森工程科学实验班（钱班）。他是可靠自主系统实验室的成员。张的研究兴趣集中在安全多智能体系统、强化学习、控制理论和机器人。目前，他的目标是开发真正智能的辅助机器人。

CMU

Yuxiao Qu

Yuxiao Qu 希望为 AI 智能体赋予人类的求知欲，一个像科学家一样寻求知识的 AI 系统 —— 提出假设、进行实验并得出结论 —— 将推动科学研究、药物发现和持续数字辅助领域的探索前沿。他本科毕业于香港中文大学。

Danqing Wang（王丹青）

王丹青正致力于通过建立基准和评估方法、将安全性和功能性整合到训练中，并确保智能体仅共享必要信息以提高效率并降低风险，从而提高基于 LLM 智能体在复杂现实环境中的可靠性和安全性。这项研究将为开发智能、可信且安全的 AI 智能体奠定坚实基础。

她本硕毕业于复旦大学计算机专业，曾在字节跳动研究院 AI 实验室担任研究员，在 Meta AI（FAIR）、阿里巴巴（Qwen 团队）实习。

Mengdi Wu（吴梦迪）

吴梦迪本科毕业于清华大学姚班。她利用机器学习来自动学习和适应计算内核优化策略，以适用于硬件和工作负载。这项工作旨在跨不同平台提供高性能内核，同时减少开发人员的工作量，并实现更快、更具可扩展性的模型训练和推理。

Xinyu Yang

Xinyu Yang 希望通过简化端到端训练系统来使 AI 智能体得到扩展。他的工作引入了一种新的生成模型架构，该架构能够在单个模型运行时实现多智能体工作流程。他本科毕业于上海交通大学 ACM 班。

Zeji Yi

Zeji Yi 希望将生成模型应用于通用机器人平台，例如人形机器人和灵巧手。这项工作可能为下一代人形机器人基础模型铺平道路，其潜在应用包括仓库自动化和配送中心。

他本科毕业于清华大学钱学森工程科学实验班，硕士毕业于清华。

Zichun Yu

Zichun Yu 主要研究 LLM 面临的一些挑战，即有机数据有限及其对模型预训练造成的瓶颈。Zichun Yu 专注于设计和优化合成数据生成系统，以补充稀缺的有机数据，从而提升数据的质量和数量，最终提供更优、更纯净、更丰富的预训练数据。他本科毕业于清华大学。

Xinran Zhao

Xinran Zhao 研究领域之一是增强RAG，一种依赖外部来源的生成式人工智能，这些来源在不确定的来源、不断变化的用户解释和先前的行为方面存在困难。Xinran Zhao的新系统提高了在复杂 RAG 场景中的意识、归因和有效性。他本科毕业于香港科技大学。

UC 伯克利

Dacheng Li

Dacheng Li 的研究目标是高效地开发人工智能和人工世界，他一直从事视觉和文本生成模型以及分布式系统的交叉领域研究。

Hao Wang

Hao Wang 主要研究通过受控安全推理实现实用的安全代码生成。由 Koushik Sen 和 Dawn Song 共同指导。Hao Wang 对安全、软件工程和 LLM 的交叉领域感兴趣，目前专注于安全代码生成。

Melissa Pan

Melissa Pan 导师是 Matei Zaharia 教授，隶属于 Sky Computing 实验室。研究方向是在大规模机器学习和数据中心系统中，将可持续性作为首要优化目标，同时关注效率。Melissa Pan 感兴趣的方向包括：机器学习系统、数据中心计算和分布式系统。

Shiyi Cao（曹诗怡）

曹诗怡导师是 Ion Stoica 和 Joseph Gonzalez，隶属于天空计算实验室和 BAIR。她在上海交通大学获得了计算机科学学士学位，主要感兴趣的方向为在大规模异构系统上加速 / 优化计算（尤其是机器学习工作负载）。

Shuo Yang

Shuo Yang 导师是 Ion Stoica 教授。他在上海交通大学 ACM 荣誉班完成了本科学业。Shuo Yang 的研究方向是高效的机器学习，包括 LLM 推理和 DiT 视频生成。

UT Austin

Haoyu Li

个人主页：https://lihy0529.github.io/

Haoyu Li 导师是 Aditya Akella 和 Venkat Arun。他的研究重点是利用人工智能技术来提升现代系统的性能和可用性，重点关注数据分析流程、LLM 缓存管理以及边缘计算和自动驾驶汽车系统的调度。在此之前，Haoyu Li 于 2023 年在北京大学图灵班获理学学士学位。

Junbo Li

个人主页：https://ljb121002.github.io/

Junbo Li 的导师是 Atlas Wang 和 Qiang Liu。主要研究方向是 agentic 大语言模型和强化学习，重点是构建能够自我演进的流程，该流程能够解释指令，同时动态地利用外部工具、环境和推理来解决复杂的现实问题。

2023 年，Junbo Li 获得加州大学圣克鲁兹分校计算机科学硕士学位，2021 年，获得复旦大学数学与应用数学学士学位。高中期间，他曾学习了一年数学竞赛，并在中国数学奥林匹克（CMO）中获得银牌。

Kaizhao Liang

个人主页：https://kyleliang919.github.io/

Kaizhao Liang 现在的导师是 Qiang Liu，他的研究方向包括高效训练方法、稀疏神经网络以及大语言模型。此前，他在伊利诺伊大学厄巴纳 - 香槟分校获得计算机科学学士学位。

Zeping Liu

Zeping Liu 的导师是 Gengchen Mai。他的研究重点是推进地理空间人工智能研究，重点关注地理基础模型和空间表征学习。他在期刊和会议上发表了 14 篇论文，包括 NeurIPS、RSE、ESSD 和 IEEE TGRS，并担任 8 个期刊的审稿人。

Haoran Xu（徐浩然）

学术主页：https://scholar.google.com/citations?user=iX8AJI0AAAAJ&hl=zh-CN

Haoran Xu 的导师是 Amy Zhang。他的工作重点是扩展强化学习方法并整合生成式人工智能，以推动超越人类的通用人工智能，尤其是在机器人技术和大语言模型领域的应用。他曾在微软研究院担任暑期研究实习生。

Chutong Yang

个人主页：https://chutongyang98.github.io/

Chutong Yang 的导师是 Kevin Tian。他对理论计算机科学和可信机器学习中的算法设计和分析有着广泛的兴趣。他的兴趣包括使用优化和统计工具来解决学习理论、算法公平性等方面的问题。2023 年 Chutong Yang 获得斯坦福大学计算机科学硕士学位。2020 年获得加州大学圣地亚哥分校计算机科学和数学双学士学位。

Xiao Zhang

个人主页：https://timez-zx.github.io/

Xiao Zhang 导师是 Daehyeok Kim。他的研究重点是网络化和分布式系统，目前重点是通过跨层遥测和资源管理实现 5G 边缘可预测的 AI 性能。他的目标是构建实用的系统，以弥合现实世界的部署挑战和核心 AI 基础设施需求。在攻读博士学位之前，Xiao Zhang 在上海交通大学获得了硕士和学士学位。

以上是现已公布的获奖者名单，之后其他学校名单也会陆续公布，大家可以再等等。

....

#ChatGPT解决了一个数学难题

前两天刚被群嘲，ChatGPT转头就解决了一个数学难题

前些天，OpenAI 研究员宣称 GPT-5 「发现」了 10 个悬赏数学难题的解决方法，舆论误以为是 GPT-5 给出了解题方法，结果被发现只是检索到了早已存在的文献，引发了学界大佬的群嘲以及对于 AI 领域夸大宣传和 AI 检索能力的激烈讨论。参阅报道《OpenAI「解决」10 道数学难题？哈萨比斯直呼「尴尬」，LeCun 辛辣点评》。

然而，讽刺的是，当人们还在辩论 AI 是不是一个合格的「文献检索员」时，真正的数学发现已经悄然发生。

AI 取得研究突破

加州大学洛杉矶分校（UCLA）数学教授 Ernest Ryu 发推称：「我使用 ChatGPT 解决了凸优化中的一个未曾被解决的问题。」

随后，他通过一系列推文介绍了自己与 ChatGPT 的联合成果。

首先来看一下他所研究的问题本身：

呃，看不懂，但我们可以让 AI 来帮助我们理解（AI 再立大功！）：

这个数学问题探讨的是一个在最优化理论中非常著名的动态系统，我们可以用一个生动的物理比喻来理解它：一个球在碗里的滚动过程。在这个比喻中，被称为「凸函数」的 f 就代表一个形状完美的碗，它内部光滑，从碗边到碗底的坡度是逐渐下降的，没有任何凹陷或小山丘。这个碗的碗底可能是一个尖锐的点，也可能是一片宽广的平坦区域，这片最低的区域在数学上被称为 argmin f。而 X (t) 则描述了在时间 t 时，一个球在这个碗中所处的位置。截图中的那个核心微分方程，Ẍ(t) + (3/t)Ẋ(t) + ∇f (X (t)) = 0，就是控制这个球如何滚动的「物理定律」。其中，∇f (X (t)) 扮演了「重力」的角色，时刻将球往坡度最陡峭的下方拉扯；而 (3/t)Ẋ(t) 则是一个非常特殊的「摩擦力」，它的奇特之处在于会随着时间的流逝而逐渐减弱。一开始摩擦力很强，能有效减速，但随着时间 t 变得越来越大，这个摩擦效应会变得越来越微弱。整个问题就是从碗壁的某个初始位置 X₀ 将球从静止状态释放，然后观察它在这套独特的物理规则下将如何运动。

这个问题的真正核心与挑战，在于需要严格证明：这个滚动的球最终不仅会到达碗底，而且会完全静止在碗底的某一个确切的点上。表面上看，这似乎是理所当然的，但在数学上却是一个深刻的难题。数学家们早已证明，球的「高度」 f (X (t)) 随着时间的推移，必然会无限趋近于碗底的最低高度。换言之，我们 100% 确定这个球最终会进入碗底的最低区域，而不会停在半山腰。但这仅仅是「函数值收敛」。真正的「悬而未决的难题」在于球的「位置」 X (t) 是否也会收敛。如果碗底是一个宽广的平坦区域，球在到达这个区域后，会不会因为惯性而永无止境地滑行、振荡或者兜圈子，就像一个陀螺在光滑的地面上不停旋转一样？这个问题要求证明，恰恰是由于那个 3/t 的特殊时变摩擦力，它能以一种恰到好处的方式耗尽球的所有动能，最终引导它停泊在一个固定的位置上，而不是在最低能量状态下进行永恒的漂移。这在很长一段时间里都是一个吸引了众多研究的公开问题，因为它触及了优化算法收敛性理论的基石。

下面则是 ChatGPT 的证明，但也经过了 Ernest Ryu 教授的整理：

他也分享了原始的交互记录：https://chatgpt.com/share/68f805f2-b8fc-8010-8df6-20a46bc1df44

从这份记录可以看到，他使用的模型是 GPT-5 Pro，而该模型为该问题执行了 22 分钟的推理。

同样，AI 基于此给出的分析是：Nesterov ODE (常微分方程) 的解 X (t) 最终会收敛到函数 f 的某一个最小值点 X∞。

我们也能在证明中看到 z₁ 和 z₂ 距离为 0，意味着这两者必须是同一个点。这与最初「假设存在两个不同的点」相矛盾。因此，最初的假设是错误的，所以这个球只能停在一个点上。

Ernest Ryu 还介绍了自己的历程和想法：「我的反应：ChatGPT 确实有效地加速了我的进度。这项工作花了大约 12 个小时，分 3 天进行。现在回想起来，证明过程其实很简单。」

他继续介绍说：「但我尝试了许多其他策略，但都没有成功，而 ChatGPT 至关重要地帮助我快速探索并消除了这些死胡同。此外，关键的成功步骤也是由 ChatGPT 提出的。」

不过他也指出，ChatGPT 的成功并不是一蹴而就的：「ChatGPT 并非一次性给出证明。整个过程高度互动。它提出了许多论点，其中大约 80% 都是错误的。但有些想法对我来说确实很新颖。每当我意识到一个新奇的想法，无论正确与否，我都会提炼出其中的关键洞见，并促使 ChatGPT 对其进行进一步的开发。」

Ryu 还总结了自己与 ChatGPT 各自的贡献：

最后，他指出：「在我看来，这个结果已经可以在权威的优化理论期刊上发表。不过，我还想进一步完善它。」未来他还计划将该证明泛化到 r>0 的 ODE 以及尝试「将这个论证转化为证明离散时间对应方法（即 Nesterov 加速梯度法）的收敛性」。

他总结说：「ChatGPT 现在已经处于能解决一些数学研究问题的水平，但确实需要一位专家来指导它。」

有意思的是，他提到自己研究过程中最大的障碍是「用完 ChatGPT Pro 查询」，而他使用的已经是「昂贵的 Pro 计划」，只能等下个月刷新了。

当然，这是个相当不错的宣传机会，已经有 OpenAI 工作人员联系他，并提供了更多积分。

AI 成为论文第一作者

无独有偶，加州大学欧文分校（UCI）数学教授 Paata Ivanisvili 前些时日也宣称 GPT-5 Pro 助其发现了一个命题的反例。

更有趣的是，他刚刚还宣布要将 ChatGPT 列为他这篇论文的合著者，并且还是第一作者！

当然，这早已不是 AI 首次以作者身份登上严肃的学术论文，早在 2023 年 ChatGPT 就已经当作论文第三作者，参阅报道《一位论文作者火了，ChatGPT 等大型语言模型何时能成为论文合著者？》不过，值得注意的是，该论文的最新版本的作者名单中已经没有 ChatGPT 的身影。

2023 年的截图，现如今该论文的作者名单中已经没有 ChatGPT

AI 辅助证明，成为第二作者

而在前些天的所谓「OpenAI『解决〗10 道数学难题？」事件之后，有两位人类研究者遭遇了类似的尴尬。他们在宣布成功解决了 #707 Erdos 问题之后发现这个问题其实 30 年前就已经被解决了！

不过他们也并未止步于此，而是继续让 GPT-5 编写了一个 Lean 形式化证明，并成功进行了验证。当然，他们也强调了专家指导和反馈的重要性。

总之，我们看到，在其论文的作者列表中，ChatGPT 与 Lean 都跻身其中。

当然，将 AI 列为论文作者的做法依然存在巨大争议。

结语

顺带一提，在前述相关推文的评论区，我们也能看到其它一些使用 AI 取得研究进展的信息：

Ernest Ryu 教授的故事，连同其他研究者的经历，共同揭示了一个正在到来的新时代：AI 或许不再仅仅是工具，它正在成为研究伙伴。

这意味着，未来顶尖的科研，或许将不再是单打独斗的英雄主义，而是人类专家与强大 AI 之间的深度对话与协作。

那么，屏幕前的你呢？你有在自己的研究工作中使用 AI 吗？体验如何？欢迎分享你的故事。

参考链接

https://x.com/ErnestRyu/status/1980759528984686715

https://x.com/PI010101/status/1981014478969033156

https://x.com/goldstein_aa/status/1981034927266083203

https://x.com/SebastienBubeck/status/1980804267524116569

....

#Socratic-Zero

仅100种子题，合成数据质量超GPT-5，阿里、上交提出Socratic-Zero框架

本文（共同）第一作者为王少博（上交 AI）、焦政博（上财）。（共同）通讯作者为魏虎（阿里巴巴）和张林峰（上交 AI）。本文其他作者来自阿里巴巴、武大、浙大等。

最近一篇来自阿里巴巴和上交等单位的 Agent 自进化工作得到了推特大佬们的关注。首先是 Rohan Paul 的两次转发：

网友对此也高度评价：

让我们看看这篇工作到底是怎么做的？

引言：从 “数据饥渴” 到 “自给自足”

当前大语言模型在数学推理上的突破，高度依赖海量人工标注数据。以 MetaMath 和 WizardMath 为代表的静态增强方法，虽能通过提示工程合成训练样本，但其生成的问题质量不稳定，且无法动态适配模型能力演进，导致训练信号效率低下。

为突破这一瓶颈，阿里巴巴与上海交通大学 EPIC Lab 联合提出 Socratic-Zero，一个完全无外部数据依赖的自主推理训练框架。该方法仅从 100 个种子问题出发，通过三个智能体的协同进化，自动生成高质量、难度自适应的课程，并持续提升模型推理能力。

论文链接：https://arxiv.org/pdf/2509.24726
GitHub 地址：https://github.com/Frostlinx/Socratic-Zero

苏格拉底的 “助产术”：从哲学对话到智能体协同

两千多年前，苏格拉底在雅典街头与青年对话，从不直接给出答案，而是通过一连串精准的提问，引导对方暴露认知盲区、修正错误信念，最终 “自己生出” 真知。他称这种方法为 “精神助产术”（maieutics）—— 教师不是知识的灌输者，而是思维的接生者。

这一古老智慧在今天的大模型时代焕发出惊人回响。当现代 AI 面临推理能力瓶颈，传统路径依赖海量标注数据 “喂养” 模型，而苏格拉底却启示我们：真正的智能，或许不在于拥有多少答案，而在于能否通过高质量的提问，激发自我修正与持续进化的能力。

受此启发，阿里巴巴与上海交通大学 EPIC Lab 将这一哲学理念转化为可计算的协同机制，提出 Socratic-Zero—— 一个由 Solver（学生）、Teacher（导师）与 Generator（学徒）构成的三智能体自进化系统。在这里，没有外部数据的 “喂养”，只有智能体之间的 “诘问” 与 “反思”；没有静态课程的灌输，只有动态生成的挑战与反馈。正如苏格拉底所言：“我不能教人任何东西，只能让他们思考。” Socratic-Zero 正是在这一精神下，让大模型学会 “自己教自己推理”。

论文 Figure 1 (a) 苏格拉底教学法展现的哲学根基：导师（苏格拉底）如同思想助产士，通过探询式提问引导理解；实践者（亚里士多德）并非被动接受答案，而是循着理性探究之路获得启迪；学徒导师（柏拉图）则通过观察并内化大师的方法来习得教学之道。(b) Socratic-Zero 框架将这一理念付诸实践。在此框架中，教师 —— 一个强大的法律语言模型 —— 引导两个智能体的协同进化。解题器通过生成解决方案并借助教师反馈进行优化而不断改进，生成器则通过策略性地提炼教师行为来进化，从而为解题器生成日益适配的课程体系。

核心突破：在极简启动条件下，合成数据质量全面超越 GPT-5、Gemini-2.5-Pro、Claude-4.1-Opus 等顶级闭源模型作为数据生成器时的表现。

方法详解：三智能体 “苏格拉底铁三角”

Socratic-Zero 的核心是一个受苏格拉底 “助产术” 启发的多智能体系统，包含三个角色：

Solver（学生）：尝试解答问题，并通过偏好学习（DPO）从成功与失败轨迹中自我修正；
Teacher（导师）：基于 Solver 的错误，动态生成更具针对性的新问题，精准暴露其知识盲区；
Generator（学徒）：模仿 Teacher 的出题策略，通过价值加权监督微调（WSFT）蒸馏其 “教学智慧”，实现课程的规模化生成。

三者构成一个闭环自进化系统：Solver 的弱点驱动 Teacher 出题，Teacher 的行为被 Generator 学习，Generator 产出的新问题又反哺 Solver 训练 —— 全程无需人类干预。

1. Solver 的在线偏好优化（Online DPO）

Solver 在当前课程上对每个问题生成 ( k=8 ) 条推理轨迹。Teacher 的验证函数判断每条轨迹是否正确，从而构建偏好对：正确轨迹为 “胜”，错误轨迹为 “负”。

若 Solver 全部失败，则使用课程中的参考答案作为唯一 “胜” 样本，确保偏好信号始终存在。Solver 通过 Direct Preference Optimization (DPO) 更新策略。若 Solver 全部失败，则使用课程中的参考答案作为唯一 “胜” 样本，确保偏好信号始终存在。

2. Teacher 的自适应出题机制

Teacher 是一个固定的大模型（Qwen3-235B-A22B），具备两个确定性函数：

验证函数：判断解法是否正确；
问题精炼函数：基于 Solver 的错误解法，生成一个新问题及其参考答案。

新问题的设计原则是：保留原问题的数学本质，但针对性修复 Solver 的推理漏洞。

关键保障机制：当 Solver 对某问题全错时，Teacher 会启动 Self-Verification Protocol—— 重新求解该问题，验证参考答案是否正确，防止低质量问题污染课程

3. Generator 的价值加权蒸馏（WSFT）

为避免持续调用昂贵的 Teacher，Generator 通过 Weighted Supervised Fine-Tuning (WSFT) 学习其出题策略。关键创新在于引入价值函数：

4. 为何仅需 100 个种子？

论文 Appendix F 详细说明了种子选择协议：

难度对齐：种子来自 MATH 数据集 Level 2–4，确保 Solver 初始成功率 50% 上下，避免 “太易” 或 “全错”；
领域覆盖：100 个问题均匀分布于代数、数论、几何、组合等 7 个数学子领域；
多样性保障：通过嵌入聚类确保解法路径多样，避免同质化；
质量控制：所有种子经 Teacher 多次验证，排除歧义或错误问题。

这一精心设计的启动集，为后续自进化提供了高质量、高信息量的 “引信”。

实验结果：极简启动，极致性能

1. Solver 性能：+20.2 个百分点提升

在 7 个数学推理基准（AMC23、AIME24/25、Olympiad、MATH-500、Minerva、GSM8K）上，Socratic-Solver-8B（基于 Qwen3-8B）平均准确率达 56.1%，相比 MetaMath 和 WizardMath（平均 40.7%），绝对提升 +15.4 个百分点；相比 LLM2LLM 提升 +15.2 个百分点。

在高难度竞赛题上优势更显著：

AIME-24：28.4% vs. 12.3%（+16.1）
Olympiad：55.1% vs. 35.9%（+19.2）

2. Generator 质量：合成数据超越闭源大模型

研究团队用各模型生成 3,000 道数学题，微调 DeepSeek-R1-Distill-Llama-8B 作为学生模型，测试其下游性能：

关键结论：仅用 100 个种子问题启动的 Socratic-Generator-32B，其合成数据质量已超越 GPT-5、Gemini-2.5-Pro 等闭源大模型作为数据生成器时的表现。

此外，Socratic-Generator-32B 的问题有效性达 95.6%，接近 GPT-5（95.8%），远超其基座模型 Qwen3-32B（89.1%）。

工程价值：轻量、可复现、高性价比

Socratic-Zero 的训练流程高度工程友好：

硬件：Solver 训练仅需 8×NVIDIA H20 GPU，Teacher 推理使用 16×AMD MI308X；
评估可靠性：采用 MathRule（规则提取） + LLM Judge（语义验证）双验证机制，确保结果可信；
可迁移性：框架设计通用，可扩展至代码等其他推理领域。

结语

Socratic-Zero 证明：在推理能力构建中，高质量的教学策略可能比模型规模更重要。一个仅用 100 个种子问题启动的 32B Generator，竟能产出优于 GPT-5 的训练数据 —— 这为资源受限的团队提供了新的可能性。

更重要的是，它开启了一条零数据、自进化的新路径：无需人类标注，仅靠智能体之间的协同演化，就能实现推理能力的螺旋式上升。

欢迎社区开发者与研究者试用、拓展，共同探索智能体协同进化的边界。

....

#DreamOmni2

谷歌最强AI，被港科大开源超了？让海外创作者喊出「King Bomb」的P图大杀器来了

「Photoshop is dead」，已经成为最近 AI 创作者圈中讨论最热的话题之一。

随着图像编辑与生成模型进入到了又一个集中爆发期，这个专业创意软件长久以来的王座地位受到了前所未有的冲击。

尤其是引领这波多模态生图技术升级潮流的谷歌 Nano Banana 以及字节 Seedream4.0、阿里 Qwen-Image-Edit-2509，它们涌现出了更多新的能力与玩法，比如 OOTD 穿搭、文字渲染、生成电影分镜。在无需掌握深度修图技能的前提下，这些模型使得创作者开始更多地关注「如何让生图结果更可控、更有创意、更具产品化价值。」

从技术路线来看，以 Nano Banana 为代表的模型通过多模态指令，将语言理解、视觉识别与生成控制等不同的能力融合在一起，实现更自然的创作体验。不过，随着使用场景的不断拓展，这类指令驱动的编辑与生成在实际操作中也逐渐暴露出了一些不容忽视的局限。

比如编辑任务中通常依赖的语言指令有时会描述不清，需要结合参考图像以及额外的文本说明；生成任务对于具体物体表现良好，但处理起抽象概念（发型、妆容、纹理、打光、风格等）来往往力不从心。这些问题需要更优的技术解决方案。

两周前，港科大讲座教授、冯诺依曼研究院院长贾佳亚团队开源了他们的最新成果 DreamOmni2，专门针对当前多模态指令编辑与生成两大方向的短板进行了系统性优化与升级。该系统基于 FLUX-Kontext 训练，保留原有的指令编辑与文生图能力，并拓展出多参考图的生成编辑能力，给予了创作者更高的灵活性与可玩性。

根据团队的说法，不论是具体物体还是抽象概念的编辑与生成，DreamOmni2 都可以取得显著优于当前 SOTA 开源模型的表现，在一些方面甚至比 Nano Banana 效果都要好。我们来一睹效果：

基于指令的多模态编辑：让第一张图像（源图像）中女子的帽子拥有与第二张图像（参考图像）中毛衣相同的配色方案。

基于指令的图像生成：图 1 被挂在卧室的墙上，图 3 中的杯子变成与图 2 中盘子相同的材质，并被放置在桌子上。

DreamOmni2 引起了海外创作者的关注与热议。有人给予了高度评价，认为它将颠覆人们对图像生成与编辑的认知；还有人给它冠上了「King Bomb」的称号，并特别称赞了其抽象概念理解能力。Youtube 还出现了大量的介绍以及使用经验分享视频。

开源两周以来，DreamOmni2 收获了开源社区的大量认可，在 GitHub 上已经积累了 1.6k 的 Star 量。

代码地址：https://github.com/dvlab-research/DreamOmni2

如果说 Nano Banana 开启了多模态 AI 图像编辑生成的新纪元，那么 DreamOmni2 有助于整个行业将这种改图与生图的能力推向深水区，为创作者提供了一个语义理解更全面、创意延展性更强的智能引擎。

接下来，xx进行了一手实测，一起来看看效果如何。

一手实测，看看强在哪里？

我们首先测试了 DreamOmni2 的基于指令的多模态编辑能力。

体验地址：https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit

在这一任务中，我们给模型输入了两张图片和一条提示，提示词为「将图 1 中熊猫的背景替换为图 2，生成证件照（Replace the background of the panda in picture 1 with picture 2 to generate an ID photo）」。

只见 DreamOmni2 思考了很短的时间，一张熊猫证件照就 P 好了。生成的图片背景符合要求，连毛发细节都被保留得恰到好处。以前修一张证件照，得花上好几分钟精调细节；现在只需一句话，DreamOmni2 就能自动完成，而且效果丝毫不输专业修图。

看起来，这类换背景的任务已经难不倒 DreamOmni2 了。既然如此，我们上难度，尝试让模型将一张照片的风格转换为另一种风格。这类任务对模型的理解力与生成控制力要求更高：它不仅需要识别画面内容，还要掌握风格的语义特征，如色彩氛围、笔触质感等。

同样地，我们输入两张图片，外加一句提示「使第一张图片与第二张图片具有相同的图片风格（Make the first image have the same image style as the second image）」。

DreamOmni2 的表现同样令人惊喜，它不仅精准地还原了参考图的色调与氛围，还将那种风格感无缝融入原图。

既然 DreamOmni2 的效果如此能打，不禁让人好奇，它与当前主流的生图模型（比如 GPT-4o 和 Nano Banana）相比，究竟谁更胜一筹？要知道，DreamOmni2 可是开源的，这一点本身就让它在多模态生图领域显得格外特别。

输入如下两张图，提示为「将第一幅图中的夹克替换为第二幅图中的衣服（Replace the jacket in the first image with the clothes in the second image）」。

DreamOmni2 准确识别出了主体与衣服的层级关系，不仅成功替换了衣服，还自然地保留了人物脸部特征与姿态，只有衣领略有出入。

我们再来看看 GPT-4o 的结果，输入同样的图片和提示。GPT-4o 很容易看出是 AI 合成的，尤其是人物的脸部，看起来很不自然，像是被后期磨皮过度。不仅如此，原本插兜的动作也被改动了，人物整体比例显得很不协调。

随后，我们又测试了谷歌 Nano Banana，人物的姿态与五官保持完好，衣物替换后的整体视觉效果自然协调，但衣物颜色和形态发生了变化，logo 也消失了。

对比下来，我们发现 GPT-4o 表现最差，而 DreamOmni2 和 Nano Banana 整体效果明显更胜一筹。

接着，我们又测试了 DreamOmni2 基于指令的多模态生成能力。

测试地址：https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen

输入如下图片，然后要求 DreamOmni2「将第一张图片中的徽标印在第二张图片中的物体上并放置在桌子上（The logo from the first image isprinted on the object from the second image and placed in the desk）」。

DreamOmni2 准确理解了语义，不仅正确提取出第一张图片中的徽标元素，还将其自然地贴合到第二张图片中的物体表面，光影效果非常好。此外，模型自动识别了「桌面」这一场景语境，甚至桌面上出现了杯子倒影。

我们又测试了一个更具挑战性的任务，根据手绘草图，让模型生成一张姿态相同的图片。这类任务考验的不只是模型的图像生成能力，更是对动作识别、空间理解与语义映射的综合考验。

提示：Anime image 1 adopts the pose of image 2

DreamOmni2 在这一测试中依然表现不错，它能够准确捕捉草图中的姿态，将线条信息转化为自然的人物动作。

最后，我们同样对 DreamOmni2 与 GPT-4o、Nano Banana 的生成效果进行对比。输入两张图片，要求是「将图 2 的项链戴在图 1 中的猫的脖子上」。

DreamOmni2 生成的结果如下：

下图左为 GPT-4o 结果，右为 Nano Banana 结果：

三者比较下来，GPT-4o 的生成结果依然带有较强的 AI 痕迹；DreamOmni2 和 Nano Banana 各有其优势，比如 DreamOmni2 色彩氛围表现力更强，Nano Banana 画面呈现更柔和。

这样的表现直接验证了贾佳亚团队的实验结果：DreamOmni2 在基于指令的多模态编辑与生成任务中均实现了新的 SOTA。

基于指令的多模态编辑定量与定性结果。

基于指令的多模态生成的定量与定性结果。

数据、框架与训练三位一体，

打通多模态生成全链路

从前文多场景实测来看，DreamOmni2 在多模态指令编辑与生成任务中展现出了更强的适应性、可控性与可玩性。实现这样的跃升，意味着贾佳亚团队要在数据构建、框架设计与训练策略上做出一些不同于行业其他玩家的东西来。

事实上，贾佳亚团队确实做到了这一点，祭出了三阶段式数据构建范式、多参考图索引编码优化以及 VLM 与生成模型联合训练等在内的一整套技术创新方案。

由于多模态指令编辑与生成算是比较新的 AI 任务，其主要挑战就在于缺乏足够的训练数据。对于编辑，早期（如 Omniedit）的数据构建流程往往通过生成包含指令、源图像与目标图像的三元组来实现，而无法生成以参考图像为编辑条件的数据；对于生成，现有（如 UNO）的数据构建流程依赖分割检测模型来生成参考图像，难以合成涉及抽象属性或被遮挡物体的参考数据。

DreamOmni2 独创了三阶段式数据构建范式，力图突破以往工作的数据桎梏。

第一阶段采用特征混合方案，通过双分支结构同时生成源图像与目标图像。并且利用基础模型的 T2I（文本到图像）能力，创建包含具体物体与抽象属性的高质量数据对。与 UNO 采用的 diptych 数据生成方法相比，特征混合方案表现出了三大优势：不降图像分辨率、不会出现因分割线偏移而导致的内容混叠、数据质量与准确性更高。

第二阶段聚焦于构建基于指令的多模态编辑数据。首先利用 T2I 模型生成的图像和真实图像来创建目标图像；随后利用第一阶段训练得到的特征提取模型来模拟目标图像中的物体或属性，并基于指令生成参考图像；接着使用基于指令的编辑模型修改目标图像中提取的物体或属性，从而创建源图像；最终形成了从参考图像、源图像到目标图像的训练对。

到了第三阶段，则要构建基于指令的多模态生成数据。首先利用第二阶段中训练的特征提取模型，从源图像中提取物体，创建新的参考图像；随后将这些参考图像与第二阶段已有的参考图像结合起来，最终形成由多张参考图像、指令和目标图像组成的训练数据集。

这一范式打通了从具体物体到抽象概念、从编辑到生成的全流程数据构建链路，通过特征混合、真实数据与模型自生数据的结合，弥补了以往多模态训练中抽象概念稀缺以及缺乏参考图像条件的结构性缺陷，降低了数据获取成本。

如此一来，贾佳亚团队从数据层面保证了模型的语义理解与跨模态对齐能力，也为行业带来了一套更高效的数据闭环标准。

DreamOmni2 的框架设计要适应多参考图输入的需求。由于基础模型 FLUX Kontext 无法实现这一点，因此需要进行针对性修改。

在多模态指令任务中，为方便起见，通常会将参考图像标记为「image 1」、「image 2」等。但是，仅依靠位置编码无法准确区分不同参考图像的索引。

为了解决这个问题，贾佳亚团队选择将索引编码添加到位置通道。索引编码虽有助于区分参考图像，但位置编码仍然需要根据先前输入的参考图像的大小进行偏移。因此这个偏移又被添加到了位置编码中，使得复制粘贴现象和参考图像之间的像素混淆现象得到有效缓解。

最后是进一步的训练优化。当前编辑和生成模型的训练指令通常结构化良好，具有固定格式。然而，现实世界中的用户指令往往不规则或逻辑上不一致，这会造成一种鸿沟，影响到模型的理解并降低性能。

针对这一点，贾佳亚团队提出了 VLM 和生成模型联合训练的机制，让 VLM 理解复杂的用户指令，并将其输出为训练中使用的结构化格式，帮助编辑和生成模型更好地理解用户意图。

与此同时，贾佳亚团队使用 LoRA 方法分别训练了编辑与生成模块，使模型按照标准化指令格式执行多模态指令编辑与生成任务。当系统检测到参考图像输入时，LoRA 模块会自动激活，从而在统一模型中无缝融合编辑与生成功能。

更多技术细节请访问原论文。

论文地址：https://arxiv.org/pdf/2510.06679v1

作为一次底层架构的技术升级，DreamOmni2 以系统化的思路贯通了数据、框架与训练三个关键环节，构建起多模态生成的统一体系。

结语

去年 12 月，贾佳亚团队发布 DreamOmni，迈出了探索图像生成与编辑任务大一统的第一步。如今 DreamOmni2 的开源，则是这一方向的深化与延展。

最开始，基于指令的编辑还只能处理简单的添加、删除与替换任务，而现在已经能够理解复杂的语义指令，并利用参考图像实现风格迁移、结构重组、抽象属性编辑等高级任务。

基于指令的生成也不再局限于单一物体的场景构建，而能更灵活地处理多物体与抽象概念的协同组合，实现更高层次的语义协调与创意控制，拓宽了 AI 视觉创作的表现空间。

对于整个行业而言，DreamOmni2 的系统性创新，让模型的多模态理解、编辑与生成能力做到自然衔接与切换，为下一代 AI 视觉创作工具的智能进化提供了参考。

此外，DreamOmni2 是贾佳亚团队过去两年深耕多模态领域的一个缩影与延续。团队在图像、视频与语音等多个方向发力，仅在去年就陆续推出多模态视觉语言模型 Mini-Gemini、AI 图像与视频生成控制工具ControlNeXt 以及 DreamOmni 等多项代表性研究；在语音方向则推出了富有表现力、长时程的语音生成模型 MGM-Omni。

通过这些工作，贾佳亚团队已逐步构建起覆盖感知、理解与生成全链路的多模态技术栈。加之很多模型选择向社区开放，进一步增强了其自身多模态技术的影响力。

随着以 Nano Banana、DreamOmni2 以及 Sora 2 为代表的视觉生成模型持续引爆社区，AI 创作范式正在发生翻天覆地的变化，创作者可以进行更加深入的人模共创。连同 DreamOmni2 在内，贾佳亚团队的一系列开源工作将成为推动全球多模态创作生态演进的重要力量。

....

#10个视频9个看走眼

连真视频都打Sora水印碰瓷，这世界还能信啥？

AI 检测准确率高达 98.9%，也防不住有人给真视频 P 上 Sora 水印。

前段时间刷到一个视频，标题就是「中俄混血女明星回应地下室打婆婆传闻」，试问谁看了这个标题能不燃起熊熊的八卦之心？

，时长00:15

视频来源：B 站 up 主流行音乐研究院

这个一口机车味、白眼翻上天的女星到底是谁？我拿着视频在编辑部问了一圈，都说不出个所以然来。不过有同事看出了端倪，后面的签名板、话筒上媒体 logo 全是鬼画符，又是 AI 的手笔。

这类 AI 造假视频看多了，造成的后果就是在互联网上冲浪，看啥都像 AI 生成的。

上周末在群里刷到一个飞机行李架起火的视频，我的第一反应就是：咦，假的吧？毕竟故意模糊画质一直是 AI 造假视频惯用伎俩。

，时长00:09

直到它登上了微博热搜，脸被打的 piapia 响。

这还只是冰山一角。目前互联网上充斥着各种真假难辨的视频，给我们的生活造成诸多困扰。Tiktok 博主 @tkp..1001 制作了一系列 Real or AI 视频，测测你猜对了几个？

，时长03:43

这里面有些 AI 视频挺好识别，主要看细节，比如 AI 生成的打糕视频木槌多次打到手，或者画质过于高清，抑或是动作没有起伏变化总是不断重复。

不过寿喜火锅、烤面包等视频辨认难度极大，AI 对于细节的把控很精准，而且这还是在有参照物进行比较的情况下，如果是在抖音「为你推荐」页面随机刷到这样的视频，大多数网友不会去质疑它。

以目前 AI 技术的发展速度来看，AI 生成的视频必须得强制打水印，否则一旦滥用，极有可能导致假信息的泛滥，甚至引发社会信任危机。

今年 3 月 14 日，国家网信办、工信部、公安部、广电总局四部门联合发布《人工智能生成合成内容标识办法》，要求所有 AI 合成内容都必须依法打「电子水印」，并已于 2025 年 9 月 1 日开始施行。

此前 OpenAI 推出 Sora2 也采取给生成视频打水印的方式。

但总有些人看热闹不嫌事大。他们开始给真实视频打上 Sora 水印，冒充 AI。（这个世界颠的我无法想象。）

这是一个名为「Sora Maker」的外国免费网站，我们只需要把一段真实的视频上传到该网站，它就能给打上 Sora 的水印，毫无破绽。

比如，我们上传前文中的飞机行李架起火的视频，不到 30 秒就打上了 Sora 水印，是不是相当离谱？

，时长00:09

还有白头鹰俯冲抓鱼的真实视频，一旦打上水印，很容易让人误解成 AI 生成的。

，时长00:22

我们也曾摸索出鉴别 AI 视频和图像的邪修大法，现在大多失效。

比如以往 AI 生成的视频中人的眼睛可能会不自然闪烁、嘴巴和语音不匹配，或者背景细节出现不合常理的扭曲，但经过几个月的技术迭代，这些问题几乎被攻克。

我们有时还会通过时长来判断，一般来说，大多数主流 AI 视频生成模型生成的单条视频最长时长也就 10s，但自从有了首尾帧续写功能，理论上生成的视频可以无限长，因此这也不是特别靠谱的鉴定指标。

魔高一尺，道高一丈，发展 AI 鉴定技术已经迫在眉睫，目前市面上也有不少 AI 鉴定工具，但准确率飘忽不定。我们简单罗列几个。

1. AI or Not

链接：https://www.aiornot.com/dashboard/home

AI or Not 是一款用于检测是否为 AI 生成内容的工具，它通过不同的方法来判断图像、文本、音乐、声音和视频是否由 AI 生成。具体而言：

图像检测：AI or Not 通过分析真实图像和 AI 生成图像之间的像素模式差异来判断图像是否是 AI 生成的。
文本检测：它会分析文本中的单词、词组和句子结构，从而辨别文本是由人类写的还是由 AI 生成的。
音乐和声音检测：AI or Not 会分析音频的频率，并将其与真实的音乐或人声的模式进行对比，从而判断音频是否由 AI 生成。
视频检测：AI or Not 会将视频拆分为单独的帧，分析每一帧及其相关声音，来判断视频内容是否为真实的。

据官方介绍，AI or Not 在一个公开数据集上测试时准确率达到了 98.9%。

该工具可以免费检测 5000 字文本和 10 张 AI 图像及 DeepFake，视频、音乐检测则需要付费。

2. CatchMe

链接： https://catchme-ai.com/

CatchMe 是一款支持图片、视频和音频检测的 AI 生成内容检测工具。其视频检测功能能够分析视频内容，判断是否存在 AI 生成的画面或元素，提供具体的概率值，帮助用户识别 AI 生成的视频。

该工具是免费的，我们上传一个 AI 视频测试了下，但它检测出来的 AI 生成概率为 0%，准确率不太高。

3. Deepware Scanner

链接： https://deepware.ai/

这是一款专注于深度伪造视频检测的工具。用户可以上传可疑视频，系统将分析视频内容，判断其是否经过 AI 合成或篡改。

这款检测工具虽也免费，但时常显示「无法扫描」。

4. Google SynthID Detector

链接：https://deepmind.google/science/synthid/

这款检测工具我们之前介绍过。（查看详情，请移步：「人类飞机上吵架看呆袋鼠」刷屏全网，7000 万人被 AI 耍了）

它是 Google DeepMind 和 Google AI Labs 推出了一款多模态 AI 内容鉴伪工具，用来识别谷歌旗下生成式 AI（如 Gemini、Imagen、Lyria、Veo 等）所「生成」或「编辑」的图片、视频、音频、文本中是否带有 SynthID 水印，帮助用户快速判断内容是否来自谷歌 AI 模型。

换句话说它不是通用 AI 鉴定器，只是帮你确认「是不是用了谷歌 AI」的工具。

总体来说，这些 AI 检测器各有各的局限性，AI 检测技术的发展还任重而道远。

参考链接：

https://www.tiktok.com/@tkp..1001

https://x.com/theo/status/1976096703603458370

https://soramarker.t3.gg/

....

#VAE + Diffusion

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE + Diffusion」的范式在训练与推理效率上也存在显著瓶颈。

清华大学智能视觉团队和快手可灵团队联合推出《Latent Diffusion Model without Variational Autoencoder》与近期爆火的谢赛宁团队 RAE 工作不谋而合，但在总体设计思路与研究重点上有所差异。

本篇文章通过直接结合预训练视觉特征编码器（如 DINO、SigLIP、MAE）结合残差信息学习预训练视觉特征编码器丢失的图片重建信息与专门训练的解码器，有效替代了传统 VAE，提升了表示质量与效率。

本文提出的系统性框架称为 SVG（Self-supervised representation for Visual Generation）。

论文标题：Latent Diffusion Model without Variational Autoencoder
论文链接：https://arxiv.org/abs/2510.15301
项目链接：https://howlin-wang.github.io/svg/
代码地址：https://github.com/shiml20/SVG

该论文同样对传统 VAE + Diffusion 的局限性进行了分析，发现其关键问题在于 VAE 空间存在非常明显的语义纠缠现象。VAE 的 latent 空间缺乏清晰语义结构，不同类别特征高度混合（论文通过 t-SNE 可视化验证，普通 VAE latent 中不同语义类别的特征点严重重叠），导致扩散模型需花费大量步数学习数据分布。

不同特征空间中不同语义类别的 t-SNE 可视化图

这种语义纠缠现象直接导致了两个关键问题：

训练推理效率双低：如下图中例子所示，如果语义纠缠程度高，那么即使给定了不同的语义条件，平均速度仍是难以区分的，模型在训练时就得花更多力气「理清」语义纠缠的特征。并且如果语义区分度较高，在空间中不同位置的速度方向也将更趋于一致，从而有助于减少采样过程的离散误差，支持少步数采样。

特征空间语义纠缠会对生成模型训练推理带来消极影响

通用性差： VAE 依赖于重建损失进行训练，只适合生成任务，在感知理解这些视觉核心任务中的效果远不如专门的特征提取器。

考虑到各类视觉基础模型（如 DINO、SigLIP）已经构建出了具有优良语义结构的空间，研究者认为这类预训练视觉特征空间可能更适合生成模型的训练，同时也具有更强的可通用性。其中 DINO 特征在各种视觉下游任务中已经展现出了良好的性能，并且保留了基础的图像结构信息，具备比较高的重建潜力。

SVG 破局：

靠 DINO 搭地基，残差分支补细节

SVG 自编码器结构示意图

SVG 的核心思路很简单：用更强的语义结构解锁模型生成潜力，基于自监督特征构建统一特征空间。

SVG 自编码器由「冻结的 DINOv3 编码器」、「轻量残差编码器」、「解码器」三部分组成，核心是通过多组件协作同时实现强判别性的语义结构与图像细节补充。

冻结 DINOv3 编码器：作为语义骨架，提供强判别性特征。DINOv3 通过自监督训练（对比学习 + 掩码建模），天然具备清晰的语义类别边界，同时，DINOv3 的特征已在多种视觉任务中验证有效性，为 SVG 的通用性奠定基础；
轻量残差编码器：弥补色差，补充细粒度细节。DINOv3 虽能捕捉全局语义，但会丢失部分细节（如色彩、纹理），导致重建质量差。SVG 设计了基于 ViT 的轻量残差分支，专门学习 DINOv3 未覆盖的高频细节，并通过「通道级拼接」与 DINO 特征融合；
分布对齐机制：避免细节干扰语义。为防止残差特征破坏 DINO 的语义结构，SVG 将残差输出归一化后再根据 DINO 特征的均值和方差进行缩放，使其匹配 DINO 特征的分布，确保拼接后的 latent 空间既具备高保真重建能力，又有利于生成模型训练(消融实验显示，无对齐时生成 FID 从 6.12 升至 9.03，对齐后恢复至 6.11);
SVG 解码器：参考传统 LDM 的 VAE 解码器结构，将融合后的 latent 特征映射回像素空间，确保生成图像的分辨率与细节还原度。

二者结合，构成了一个既有良好语义可区分性，又具有强重建能力的潜在空间。

重建效果展示图：残差编码器修复了图像色差问题，补充了高频细节

SVG 扩散训练：

直接在高维 SVG 特征空间学习

与传统 LDM 在 VAE 的低维（如 16×16×4）latent 空间训练不同，SVG 扩散模型直接在高维特征空间（16×16×392）训练。研究者指出，尽管之前的观点大多认为高维空间训练易导致生成模型收敛不稳定，但实验证明 SVG 空间良好的性质使得在这种高维度情况下，模型训练依旧稳定，甚至效率更高。

论文在 ImageNet 256×256 数据集上进行了全面实验，对比 SiT、DiT、MaskDiT 等主流 LDM，从生成性能、效率、多任务适配性三个维度验证 SVG 的优势，核心结果如下：

生成质量：性能显著优于基线

在训练 80 个 epoch，25 步采样条件下，SVG-XL（675M 参数）的生成性能全面超越同规模基线：

无分类器引导（w/o CFG）时，SVG-XL 的 gFID 为 6.57，而 SiT-XL（SD-VAE）为 22.58、SiT-XL（VA-VAE）为 7.29；

有分类器引导（w/ CFG）时，SVG-XL 的 gFID 降至 3.54，SiT-XL（VA-VAE）为 4.13。

若延长训练至 1400 个 epoch，SVG-XL 的 gFID 可进一步降至 1.92（w/ CFG），接近当前生成模型 SOTA 水平。

训练与推理效率：大幅降低资源消耗

训练效率：在 w/o CFG 设定下，SVG-XL 仅需 80 个 epoch 即可达到 SiT-XL 1400 个 epoch 的生成质量（gFID 6.57 vs 9.35）；

推理效率：消融实验中，5 步采样时，SVG-XL 的 gFID 为 12.26（w/o CFG），而 SiT-XL（SD-VAE）为 69.38、SiT-XL（VA-VAE）为 74.46，展现了良好的少步数推理性能。

多任务通用性：统一特征空间适配多视觉任务

SVG 的 latent 空间继承了 DINOv3 的良好性质，可直接用于分类、分割、深度估计等任务，无需额外微调编码器：

消融实验结果证明 SVG 编码器完全保持了 DINOv3 编码器的性能。这一结果验证了 SVG 作为统一表征空间的可行性。

定性分析：插值平滑性与可编辑性

研究者发现 SVG 空间中的随机噪声在直接线性插值与球面线性插值下均能生成平滑过渡的图像；而传统 VAE 空间中直接线性插值可能产生较差的中间结果。这证明了 SVG 空间的鲁棒性。

研究者还对 SVG 进行了零样本编辑实验，证明基于 SVG 空间的生成模型依然具备 VAE + Diffusion 模型所具备的可编辑性。

总结

SVG 的核心价值并非单纯「弃用 VAE」，而是通过「自监督特征 + 残差细节」的组合，证明了「生成、理解与感知共享统一 latent 空间」的可行性。这一思路不仅解决了传统 LDM 的效率与通用性痛点，更为后续通用视觉模型的研发提供了新的思路。

在总体思路上，该论文关键思路与谢赛宁团队的 RAE 高度相似，都验证了在生成模型训练中用预训练视觉特征编码器替代 VAE 的可行性。RAE 工作更多侧重于如何优化改善扩散模型在这种高维度特征空间的训练，而本文解决了单纯依赖预训练视觉特征编码器带来的重建效果差的问题，从而也为该方法用于统一生成编辑模型初步验证了可行性。

更多细节请参阅原论文。

....

#RE-Searcher

搜索智能体的关键一课：先立目标，再照镜子

随着 AI 能力不断增强，它正日益融入我们的工作与生活。我们也更愿意给予它更多「授权」，让它主动去搜集信息、分析证据、做出判断。搜索智能体正是 AI 触达人类世界迈出的重要一步。

然而，现实世界的搜索环境并不总是「信息增益」的来源；它也可能放大微小偏差、把模型带入错误轨道。如何让搜索智能体在复杂环境中更稳健，成为关键问题。

近期，上海人工智能实验室及合作单位提出了一个简单而有效的思路：让搜索智能体像人一样，先「立目标」，再「照镜子」。具体而言，模型在每一次搜索前都要明确「我想找什么」（goal-oriented planning），搜索后再判断「是否找到」（self-reflection）。

我们将这一思路实现为 RE-Searcher，并在多个开放域问答与多跳推理任务上取得了新 SOTA 表现，同时显著提升了对环境噪声与搜索脆弱性的抵抗力。

论文标题：RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection
论文链接：https://arxiv.org/abs/2509.26048

本文要点：

搜索环境是把双刃剑：既可能带来信息增益，也可能放大误差；
RE-Searcher 通过「目标规划 + 自我反思」显式约束搜索路径，从错误轨迹中自我纠偏；
在 7 个数据集上平均表现达到 SOTA 水平，并在干扰测试中表现出显著的稳健性。

「信息增益」 or 「误差增幅」

现实搜索并非总是「问一得十」。我们的分析表明，搜索环境的复杂性会显著放大模型固有的随机性，导致「同样的问题，跑两次，命运不同」的脆弱现象。

如图 1 所示，在相同数据上重复两次推理，弱一些的基础模型往往出现「随机正确」（random right）比例接近或甚至高于「总是正确」（always right）的情况。这种随机性极大削弱了模型的实际表现。这种不稳定的根源在于搜索过程的脆弱性。

图 1. 模型回答随机性分析

如图 2 所示，只对检索式做细微改动（同义替换、增/删一词），检索结果的语义相似度就可能大幅下降，许多样本跌破 0.6 阈值。一个看似合理却偏离主题的关键词，足以把搜索引向错误分支。

图 2. 搜索结果脆弱性分析

直观理解：如图 3 所示，把检索看作在「关键词图」上行走。一次小小的关键词变化，可能让智能体走进另一条支路；若后续优化都围绕这条错误分支展开，越走越偏，难以回到正确答案。强模型（如 GPT-4o）有时能「自救」，但更普遍、可落地的方式，是让模型从一开始就「立目标」，并在每一步都「照镜子」。

图 3. 搜索脆弱性分析

「立目标」与「照镜子」

为了让 AI 变得更稳健，研究团队提出了 RE-Searcher 框架。其核心思想是模仿人类在处理复杂任务时的两个关键认知行为：

「立目标」（Goal-Oriented Planning）：在每次搜索前，不再是模糊地生成关键词，而是明确地规划出本次搜索想要达成的具体目标。
「照镜子」（Self-Reflection）：在获得搜索结果后，智能体必须进行反思，判断返回的信息是否满足了预设的目标。如果满足，则进入下一步；如果不满足，就需要调整搜索策略（比如修改关键词），重新搜索，直到达成目标为止。

为了实现这一点，如图 4 所示，研究团队设计了一套简单却有效的训练机制。他们通过特定的指令模板（如使用 <goal>、<query>、<reflect> 标签）来规范智能体的思考和行为格式。

特别地，在「照镜子」环节，团队让一个「教师模型」（如 GPT-4o-mini）来评判智能体的反思是否正确，并将评价结果作为奖励信号，从而训练智能体学会如何进行高质量的自我反思。

图 4. 训练 pipeline

小例子：经过训练的模型在一次多跳检索中，搜索引擎曾把关键词误解为同名小说；RE-Searcher 在反思环节判定「未满足目标」，只改了一个限定词就把结果拉回正轨。

实验结果：

更稳健的搜索智能体

为了验证 RE-Searcher 的效果，研究团队进行了一系列详尽的实验。

SOTA 表现与有效的反思行为

在包括 NQ、HotpotQA 在内的 7 个主流搜索问答数据集上，RE-Searcher 取得了领先的表现。无论是在 3B 还是 7B 模型规模上，RE-Searcher 的平均表现都超过了现有的基线模型，达到了新的 SOTA（State-of-the-art）水平。

图 5. 主要性能表现

实验还证明了「反思奖励」的有效性。如果没有这个奖励，模型在反思时的判断准确率仅在 50% 左右（相当于随机猜测）。而加入奖励后，模型的反思能力得到了显著且稳定的提升。

图 7. 反思正确率变化曲线

有效抵抗「搜索脆弱性」

RE-Searcher 能否缓解前面提到的「随机正确」问题？答案是肯定的。

实验数据显示，经过训练后，RE-Searcher 的「随机正确」比例大幅降低。以 7B 模型为例，其「随机正确」率从 SFT（监督微调）模型的 17.09% 降低到了 8.74%，几乎减半，并且非常接近能力更强的 GPT-4o 的水平（8.32%）。这表明，智能体不再是「凭运气」答对，而是真正具备了稳定解决问题的能力。

图 8. 随机性变化效果

面对外部干扰，表现更「淡定」

为了模拟真实世界中更极端的噪声，研究团队设计了一个「压力测试」：在智能体的第一次搜索时，人为地向其搜索查询中引入干扰（如随机增删或替换词语），观察其性能下降程度。

结果显示，RE-Searcher 表现出了极强的鲁棒性。与基线模型 Search-R1 相比，RE-Searcher (7B) 的性能下降幅度要小得多（12.73% vs 21.30%），几乎与 GPT-4o 处于同一水平。这证明了「立目标、照镜子」的策略使其不容易被初期的错误信息带偏，具备更强的纠错和恢复能力。

图 9. 抗干扰实验结果展示

未来展望

RE-Searcher 的研究证明，通过教会 AI 智能体进行目标规划和自我反思，可以显著提升其在复杂环境中的稳健性和可靠性。随着我们给予 AI 越来越多的自主权，它们将不可避免地与更加动态和不可预测的真实世界环境进行交互。如何确保它们在这一过程中行事稳健、值得信赖，是一个需要持续探索的重要课题。这项工作为构建更强大、更负责任的自主智能体迈出了坚实的一步。

....

#Meta AI大裁员

裁到了田渊栋？

Meta 内斗的瓜真是吃不完呐。

上回说到，因不满 Meta 对 FAIR 部门论文发表的限制等一系列问题，Lecun 表示正考虑辞职。（参见Meta 内部混乱持续：FAIR 自由不再，LeCun 考虑辞职）

Meta 这边新的风暴已经出现，据 Axios 与《纽约时报》报道，Meta 已在其人工智能部门裁减约 600 个职位，这次调整波及 FAIR、AI 产品以及基础设施团队。

Meta 发言人 Ana Brekalo 向媒体确认了裁员消息，称公司正「聚焦于提升 AI 产品落地效率」。

而 Lecun 正在和吴恩达共进早餐。

与此同时，已经有科学家在推上开始「在线求职」了，其中甚至包括 FAIR 研究科学家总监田渊栋。不过，目前尚不清楚他是主动离职还是被裁。

AI 战略进入 Wang 时代

据了解，FAIR 的部分研究人员被建议转入由 Alexandr Wang 领导的超级智能实验室，这一团队正成为 Meta 内部最受重视的 AI 战略核心。值得关注的是，此次裁员精准地绕过了由 Wang 领导的、专注于构建「超级智能」的 TBD 团队。

今年 8 月，小扎将 Meta 超级智能实验室拆分为四个小组：FAIR（研究）、超级智能（TBD）、产品和基础设施。他在内部备忘录中指出，重组的目标是「削减层级、加快决策」，也不知这次大规模裁员是否能够实现小扎的战略目标。

据内部人士透露，自重组以来，FAIR 部门的员工早已嗅到风向的转变，他们「争先恐后地试图加入 Wang 的团队」。而那些未能成功上岸的人，如今正面临被裁的命运。

讽刺的是，在对 FAIR 痛下杀手的同时，Meta 却在为新成立的、更核心的超级智能团队大举招聘，此前 Meta 从 OpenAI、谷歌、微软等公司高薪挖角大量顶尖研究员大家也是有目共睹。

这下明眼人都看的明白，Meta 正在将重心从 Lecun 在 FAIR 所倡导的开放式基础研究，彻底转向「超级智能」军备竞赛，FAIR 的研究成果被要求「整合到 TBD Lab 进行的更大规模的模型运行中」。

FAIR 的前任领导者 Joelle Pineau 已于今年早些时候离职。而作为 FAIR 灵魂人物的 Lecun，面对 Meta 与学术自由和开放发表的理念背道而驰的战略方向，他的辞职威胁，似乎正变得越来越真实。

在这场重组风暴的中心，无论 LeCun 最终选择留下还是离开，这一连串变动都标志着 Meta 的 AI 战略已正式进入「Wang 时代」。

当然了，抛开各路媒体脑补的「宫斗大剧」的逻辑，Alexandr Wang 在内部致员工的备忘录中对本次裁员的逻辑有所解释，与小扎的部门重组理念不谋而合。

以下是 Alexandr Wang 在内部备忘录关于裁员事宜的回应全文：

今天早些时候，我们对 MSL 进行了部分调整，旨在让我们成为业内最敏捷、人才密度最高的团队。通过缩减团队规模，我们能够减少决策所需的沟通环节，使每位成员都能承担更关键的职责，拥有更广的影响力和更大的施展空间。

告别同事从来不是一件容易的事。被波及的都是极具才华、为我们的 AI 事业付出巨大努力的伙伴。在北美地区，所有受影响的员工已收到通知；在 EMEA 地区（欧洲、中东和非洲），相关人员也已被告知并正处于协商阶段。

我们正全力支持大部分受影响的同事在公司内部寻找新的岗位。为此，我们成立了一支「虎队」招聘小组，专门帮助这些同事快速匹配其专业领域的合适职位，并通过加速招聘流程协助他们尽快转岗。

这绝不意味着我们在减少投入。事实上，我们将继续招聘业界领先的、具备 AI 原生能力的人才。我们的目标是让 MSL 运转得更快、更高效。

我们依然对正在训练的模型、雄心勃勃的算力规划以及正在打造的产品充满信心与期待，并坚信我们正走在通往超级智能的正确道路上。

FAIR

FAIR 是在 2013 年由 Meta（当时为 Facebook）创建，Yann LeCun 是该组织的重要负责人之一（担任首席科学家 / 领导人角色）。

在 Meta 的「AI 研究」页面，明确提 FAIR 致力于「先进机器智能（AMI）」的目标。

FAIR 为 Meta（原 Facebook）提供了源源不断的核心技术、开源工具和前沿探索。

FAIR 最重要和最具影响力的贡献之一是开发并开源了 PyTorch，PyTorch（2016 年推出）凭借其灵活性、易用性和动态计算图，迅速成为全球学术界和工业界首选的深度学习框架之一。

它不仅是 Meta 所有 AI 产品和研究（从内容审核到 Llama）的底层技术引擎，也为 Meta 吸引了大量 AI 人才，并围绕其工具建立了一个庞大的生态系统。

同时，在当前的生成式 AI 竞赛中，FAIR 通过其 Llama 系列模型为 Meta 确立了独特的战略地位。

从 Llama 1 到 Llama 3，FAIR 开发了行业领先的开源大语言模型。坚持开源策略，使 Meta 成为开放 AI 生态的领导者，对抗了 OpenAI 和 Google 的闭源模型。

这不仅加速了全球 AI 的进步，也让 Meta 能够利用全球开发者的智慧来改进和扩展其模型，同时降低了自身研发成本。

....

#量子计算首次可验证

刚刚，谷歌重大突破！量子计算首次可验证，登《Nature》封面

刚刚，谷歌宣布了一项具有历史意义的研究成果。

他们全新的量子回声（Quantum Echoes ）算法在 Willow 芯片上运行，解决原子相互作用问题的速度比最好的传统超级计算机快 13000 倍，在数小时内完成了需要 Frontier 超级计算机大约 3.2 年才能完成的计算。

更令人称奇的是，其结果是可验证的，可以说这是量子计算机首次能够在真实硬件上成功运行可验证的算法。相关研究登上 Nature 封面。

量子回声核心是测量一种量子可观测量的期望值，这种可观测量被称为 OTOC（out-of-time-order correlator）。

OTOC 及其高阶推广是一类新的可观测量，用于描述量子动力学如何变得混沌。与比特串不同，量子期望值（例如电流、速度、磁化强度和密度）是可验证的计算结果，即使在不同的量子计算机上运行时也保持不变。

其实，这项突破建立在谷歌数十年的技术积累和过去六年的关键进展之上。

早在 2019 年，谷歌就曾展示过量子计算机能够解决一个经典超级计算机需要数千年才能完成的问题。而在去年年底（2024 年），谷歌推出的新一代 Willow 量子芯片展示了如何显著抑制误差，解决了科学家们近 30 年来一直面临的核心难题。如今的这一突破，让谷歌量子计算机朝实用性发展，又迈进了一大步。

这项工作涉及谷歌量子 AI 团队的许多成员，以及谷歌 DeepMind 和加州大学伯克利分校、达特茅斯学院等研究者。值得一提的是，新晋诺奖得主、现任谷歌量子 AI 实验室硬件首席科学家 Michel Devoret 也参与其中。

论文地址：https://www.nature.com/articles/s41586-025-09526-6

谷歌及其母公司 Alphabet 的首席执行官 Sundar Pichai 表示：Willow 芯片首次实现了可验证的量子优势。这项新算法可以利用核磁共振解释分子中原子间的相互作用，为未来在药物研发和材料科学领域的潜在应用铺平了道路。而且，该算法的结果是可验证的，这意味着其结果可以被其他量子计算机重复或通过实验验证。这一突破是迈向量子计算首次实际应用的重要一步。

有网友认为这项研究标志着量子硬件不仅在理论上，而且在实验中都展现出卓越的优势，为实用且可扩展的量子计算铺平了道路！量子计算终于走向实用！

量子回声算法：可验证的量子优势

量子回声可用于研究自然界中各种系统的结构，从分子到磁体再到黑洞。

这是人类历史上第一次，有量子计算机成功运行了一个可验证的算法，并且其性能超越了超级计算机的能力。

所谓量子可验证性，意味着计算结果可以在量子计算机上，或任何同等水平的量子计算机上被重复验证，得到相同的答案，从而确认结果的正确性。

这种可重复、超越经典计算的能力，是实现可扩展验证的基础，也让量子计算机离成为实用科研工具更近了一步。

这次，谷歌新技术的运作方式，就像一个高度精密的回声实验。

研究者向量子系统（即 Willow 芯片上的量子比特）发出经过精心设计的信号，然后轻微扰动其中一个量子比特，接着精确地反转信号的演化过程，以「倾听」返回的那一道量子回声。

这种量子回声的独特之处在于：它会因为相长干涉（constructive interference）而被放大，这是量子波叠加后彼此增强的现象。

正因如此，测量变得极其敏感，需要能够以前所未有的精度捕捉量子信号的变化。

，时长00:41

这张示意图展示了在谷歌的 105 个量子比特阵列上创建量子回声的四个步骤：正向运行操作 → 扰动一个量子比特 → 反向运行操作 → 测量结果。信号的重叠程度揭示了扰动如何在 Willow 芯片上扩散。

这一版量子回声算法的实现，得益于 Willow 芯片在量子硬件方面的进步。

去年，Willow 芯片通过了随机电路采样基准测试，这是一项用于衡量量子系统最大状态复杂度的测试，证明了其强大性能。而量子回声算法则代表着一种全新的挑战类型，因为它模拟的是一个真实的物理实验。

这意味着该算法不仅能处理复杂系统，还要求在最终计算中具备极高的精确度。

这也正是谷歌称之为可验证的量子计算的原因，其结果可以通过其他同等质量的量子计算机进行交叉验证。同时，为了实现高精度与高复杂度，量子硬件必须具备两个关键特性：极低的误差率；高速的运算能力。

走向现实应用

量子计算机将在模拟量子力学现象方面发挥关键作用，例如原子与粒子的相互作用，以及分子的结构（或形状）。科学家们理解化学结构的重要工具之一是核磁共振（NMR），这也是磁共振成像（MRI）技术背后的原理。核磁共振就像一台分子显微镜，强大到能够让我们看到原子之间的相对位置，从而帮助我们理解分子的结构。

模拟分子的形状与动力学是化学、生物学以及材料科学的基础，而在这一方面的进步，则支撑着从生物技术到太阳能再到核聚变等诸多领域的发展。

在与加州大学伯克利分校合作的一项验证性实验中，谷歌在 Willow 量子芯片上运行了量子回声算法，研究了两个分子，一个包含 15 个原子，另一个包含 28 个原子，以验证这一方法。结果表明，量子计算结果与传统 NMR 的结果一致，并揭示了后者通常无法获得的额外信息，这对谷歌提出的方法是一个关键性的验证。

正如望远镜和显微镜曾经打开人类通往未知世界的大门一样，这项实验也是迈向一种新的量子镜（quantum-scope）的重要一步，它有望让人们测量那些过去无法观测到的自然现象。借助量子计算增强的 NMR，未来有望成为药物研发的有力工具，用于研究潜在药物与靶标的结合方式；或在材料科学中，用于表征新型材料（如高分子、电池组件，甚至量子比特构成材料）的分子结构。

....

#Paper2Video

攻克长文档与多模态挑战，Paper2Video实现学术视频的自动化生产

本研究由新加坡国立大学 Show Lab 团队主导完成。共一作者 Zeyu Zhu 祝泽宇（博士生）与 Kevin Qinghong Lin 林庆泓（博士生）均来自 ShowLab@NUS，聚焦于多模态理解以及智能体（Agent）研究。项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

，时长01:19

背景：学术展示视频生成挑战

学术展示视频作为科研交流的重要媒介，制作过程仍高度依赖人工，需要反复进行幻灯片设计、逐页录制和后期剪辑，往往需要数小时才能产出几分钟的视频，效率低下且成本高昂，这凸显了推动学术展示视频自动化生成的必要性。然而，与自然视频生成不同（如 Sora2、Veo3 等扩散模型），学术展示视频面临以下独特挑战：

长文档与高密度输入 (Multi-modal Long-context Input): 来源于完整学术论文，包含大段专业文本、复杂公式、多幅图表，远超自然视频的输入复杂度。

多模态通道的协同生成 (Coordination of Multiple Aligned Channels): 需要同时生成并对齐幻灯片、字幕、语音、光标轨迹与讲者视频，保证多模态之间的语义一致性与时序同步。

缺乏专门的评价标准 (Lacks Well-defined Evaluation Metrics): 现有视频生成指标主要关注画面质量或风格一致性，难以衡量学术展示视频在知识传递、受众理解与学术可用性上的效果。

因此，现有自然视频生成模型和简单的幻灯片 + 语音拼接方法难以胜任，亟需一个系统化的基准和方法来推动自动化、可用的学术视频生成。为了解决以上挑战，本文提出了 Paper2Video 基准对学术展示视频进行评价，并提出一个多智能图框架 PaperTalker，为实现自动化和可用的学术视频生成迈出切实可行的一步:

图 1: Paper2Video 概览

论文链接：https://arxiv.org/abs/2510.05096
项目主页：https://showlab.github.io/Paper2Video/
开源代码：https://github.com/showlab/Paper2Video
开源数据：https://huggingface.co/datasets/ZaynZhu/Paper2Video

，时长05:41

Paper2Video 评价基准

为了评价学术展示视频的质量，本文收集了 101 片论文和对应的作者录制的学术展示视频作为测试基准，并从学术展示视频的用途出发，提出了四个评价指标: Meta Similarity, PresentArena, PresentQuiz 和 IP Memory。

Paper2Video 基准

图 2: Paper2Video 基准统计概览

Paper2Video 基准收集了来自近三年顶会的 101 篇论文及其作者录制的展示视频，涵盖机器学习、计算机视觉与自然语言处理领域。每个样例包含论文 LaTeX 工程、幻灯片、展示视频、讲者肖像与语音样本，其中部分还提供原始 PDF 幻灯片。数据统计显示，论文平均 13.3K 字、44.7 幅图表，展示视频平均 16 页幻灯片、时长 6 分钟。

作为首个系统化的学术展示视频基准，它为多模态长文档输入与多通道输出（幻灯片、字幕、语音、光标、讲者）的生成与评估提供了可靠依据，为推动自动化学术展示视频生成奠定了基础。

Paper2Video 评价指标

图 3: Paper2Video 评价指标设计

本文从学术展示视频的用途出发，认为其质量应从三个核心视角进行衡量：

类人一致性：生成的视频应与作者精心设计的人类版本保持相似，反映人类偏好。
信息传递性：生成的视频应尽可能涵盖论文中的关键信息，并被受众正确理解。
学术影响力：生成的视频应能突出作者的学术身份，并增强观众对该工作的记忆。

基于上述视角，我们设计了四个互补的评价指标：

Meta Similarity — 类人相似度（内容级）: 比较生成的幻灯片、字幕和语音与人类版本的一致性，衡量生成结果在细节和风格上的接近程度。
PresentArena — 类人一致性（观感级）: 使用 VideoLLM 作为代理观众进行成对对比，从清晰度、流畅性与吸引力等维度判断生成视频是否符合人类偏好。
PresentQuiz — 信息传递性：通过基于论文构造选择题，使用 VideoLLM 作为代理观众进行问答，测试生成视频能否覆盖并有效传递论文中的关键信息。
IP Memory — 学术影响力：模拟会议场景，使用 VideoLLM 作为代理观众，评估观众是否能够在观看后将视频与作者身份和研究工作正确关联，反映学术可见性与记忆度。

四个指标共同构建了一个覆盖类人偏好、信息传递与学术记忆的系统化评价框架，为学术展示视频生成的客观测评提供了可靠依据。

PaperTalker 多智体架构

图 4: PaperTalker 流程简介

为解决学术展示视频制作繁琐且难以自动化的问题，本文提出了 PaperTalker —— 首个支持学术展示视频生成的多智能体框架，用于处理这一具有长时依赖的多模态智能体任务（Long-horizon Multi-modal Agentic Task）。该框架以研究论文、讲者图像与语音样本为输入，自动生成包含幻灯片、字幕、语音、光标轨迹和讲者视频 (slide creation, subtitling, speech, cursor highlight, talking head) 的完整展示视频。

PaperTalker 由四个关键构建模块组成：

Slide Builder：基于论文内容生成 LaTeX Beamer 幻灯片，并引入 Tree Search Visual Choice 模块克服大语言模型在细粒度数值调整上的局限，从而优化版面布局，确保幻灯片布局合理设计。
Subtitle Builder：利用视觉语言模型从幻灯片提取关键信息，生成逐句字幕及对应的视觉焦点提示词。
Cursor Builder：结合 UI-Grounding 和 WhisperX 模型，实现光标在时间和空间上的精准对齐，在演讲过程中，引导观众关注关键信息。
Talker Builder：根据讲者肖像与语音样本，合成身份一致、唇形同步的个性化讲者视频，并支持逐页并行生成以提升效率。

由此，PaperTalker 通过模块化的多智能体协作，实现了可控、个性化、学术风格化的展示视频生成。

高效鲁棒的幻灯片生成

在学术展示视频生成任务中，我们测试发现 LaTeX/Beamer 在输出效果与稳定性上显著优于 pptx，能够直接生成学术风格的幻灯片。但在此过程中，即便是闭源 VLM 也难以鲁棒地判断视觉元素（如图片文字大小、排版比例），导致基于多轮交互的参数调优效率极低。

Tree Search Visual Choice 布局优化机制

图 5: Tree Search Visual Choice 模块

为此，本文提出 Tree Search Visual Choice：针对给定的视觉素材，预设一组比例参数，渲染得到多种候选布局，并将这些候选拼接成单张大图，交由 VLM 进行一次性的多选比较，从而将低效的多轮参数搜索转化为高效的单轮视觉判别，实现图像尺寸与布局的自动优化。

空间–时间对齐的光标生成

本文进一步探讨了如何模拟人类在讲解过程中使用鼠标的行为。光标轨迹能够引导观众聚焦于幻灯片的关键区域，但实现这一点需要将幻灯片和演讲内容与光标停留点 — 时间戳 — 屏幕空间坐标 (x, y, t) 建立起对应关系。为此，我们引入 Computer-Use 和 WhisperX 模型分别进行空间和时间的标定，实现了时间与空间的双重对齐。

具体来说，我们首先基于幻灯片内容生成逐句字幕及视觉焦点提示，然后利用 UI-TARS 将提示 grounding 为屏幕坐标 (x, y)，再通过 WhisperX 获取词级时间戳并对齐到对应的字幕句子，从而得到精确的光标轨迹 (x, y, t)。

高效 Talking-head 生成

在学术展示视频生成中，讲者部分对于增强观众参与感和体现研究者的学术身份至关重要。然而，Talking-Head 渲染通常需要数小时才能生成几分钟的视频，而且部分模型甚至无法原生支持长时段视频的生成，这严重限制了方法的可扩展性与实用性。

为此，本文提出一种高效的解决方案：首先，基于每页幻灯片的字幕与讲者的语音样本，利用 F5-TTS 合成逐页的个性化语音；随后，结合 Hallo2（高保真头像驱动）与 FantasyTalking（支持上半身动作）生成对应的讲者视频。受到人类逐页录制习惯的启发，我们进一步将讲者生成过程划分为独立的幻灯片片段，并行化执行每页的语音合成与视频渲染。由于幻灯片间存在自然的硬切换，且无需保持跨页的动作连续性，这种设计既保证了身份一致性与唇形同步，又显著提升了整体效率，实验证明这种方式实现了超过 6 倍的加速。

基于 Paper2Video 基准的实验与评估

在实验中，本文对比了三类方法：

(i) 端到端方法（如 Wan2.2、Veo3），直接从文本或提示生成视频；

(ii) 多智能体框架（如 PresentAgent、PPTAgent），将论文内容转化为幻灯片并结合文本转语音生成展示视频；

(iii) 本文提出的 PaperTalker，通过幻灯片生成与布局优化、字幕与光标对齐以及个性化讲者合成来生成的学术展示视频。

学术演示视频性能比较

图 6: 学术演示视频性能比较

Meta Similarity（相似度）
PaperTalker 在幻灯片、字幕和语音的相似度上均取得最高分，说明其生成结果与人类作品最为接近。
个性化 Text-to-Speech 模型与基于 Beamer 的幻灯片生成设计显著提升了相似度表现。
PresentArena（观感质量对比）
在与人类视频的成对对比中，PaperTalker 获得最高的胜率，说明 PaperTalker 视频观感质量最高。
同时，相比去掉讲者和光标的变体，完整的 PaperTalker 视频更受偏好，表明讲者与光标均有贡献。
PresentQuiz（知识传递）
PaperTalker 在问答准确率上超过了其他基线方法，能够更好地覆盖论文信息。
缺少讲者和光标的版本会导致性能下降，表明这些模块有助于增强信息传递。
IP Memory（学术记忆度）
PaperTalker 在观众识别作者与作品的一致性上表现最佳
引入讲者视频（面孔与声音）显著提升了记忆效果。
人类主观评价
人类评价结果显示，人类录制视频得分最高，PaperTalker 次之，且显著优于其他方法，接近人类水平。

实验结果表明，本文提出的 PaperTalker 在 Meta Similarity、PresentArena、PresentQuiz 和 IP Memory 四个维度均取得最佳表现：其生成的幻灯片、字幕与语音更接近人类作品，整体观感更受偏好，知识传递更完整，且在学术身份记忆方面更具优势；同时，人类主观评价也显示 PaperTalker 的视频质量接近人工录制水平。

模型效率比较

图 7: 模型效率比较

PaperTalker 在生成成本上最低。其效率主要来自三个方面：(i) 基于 Beamer 的幻灯片生成显著减少了 token 消耗；(ii) 引入轻量化的 tree search visual choice 作为幻灯片的后处理；(iii) 采用并行的 talking-head 生成机制缩短了整体运行时间。相比之下，PresentAgent 由于在幻灯片编辑过程中频繁依赖大模型查询，导致成本更高。

消融实验

光标提示对信息定位与理解的贡献

Screenshot 2025-10-09 at 4.01.20 PM.png

图 8: 光标提示消融实验

光标提示通过提供显式空间线索，帮助观众和 VLM 更好地定位幻灯片中的关键信息。为验证这一点，本文设计了定位问答任务，比较有无光标情况下的答题准确率。结果显示，带光标的视频准确率显著更高，证明了光标在增强学术展示视频的视觉定位与内容可达性方面的重要作用。

Tree Search Visual Choice 在幻灯片质量提升中的作用

Screenshot 2025-10-09 at 4.03.05 PM.png

图 9: Tree Search Visual Choice 消融实验

为评估 Tree Search Visual Choice 模块的贡献，本文进行了消融实验（表 5），利用 VLM 从内容、设计与连贯性三个维度对生成的幻灯片进行 1–5 分评价。结果显示，当去除该模块时，幻灯片的设计质量明显下降，说明该方法在解决版面溢出问题、提升整体设计质量方面发挥了关键作用。图 9 展示了该模块的性能。