每日AI观察 | 多模态编辑、研究Agent、云端智能体一览
过去24小时内,Runway推出多任务视频编辑模型Aleph,支持对象增删、风格转换与镜头迁移;微软为Edge浏览器引入Copilot模式,升级为“AI原生”浏览器;阶跃星辰发布AI研究助手“深研”,可十分钟生成专业报告;阿里云推出AgentBay,三行代码接入云端AI能力;昆仑万维开源多模态模型Skywork UniPic;OpenAI上线ChatGPT Study学习模式,强调引导式学习与批判
AI的发展速度仍在加快。过去我们还在讨论Prompt调优、模型微调,而现在,多模态编辑、嵌入式Agent、实时研究助手等能力已逐步落地。每天的信息密度正在提升,对技术更新保持整理和关注已成常态。
作为AI技术爱好者,我整理了过去24小时内发布的重点动态,聚焦实际功能、技术突破与潜在应用场景,供参考。
【1】Runway发布Aleph:多任务视频生成与编辑迈入新时代
Runway 推出全新多任务模型 Aleph,将视频生成与编辑能力提升至全新维度。该模型支持视频中对象的添加、移除、替换操作,同时能够重建任意角度的三维场景、改变光照与风格,甚至进行时空级别的转换编辑。Aleph 展现出强大的泛化能力与理解能力,为内容创作者提供了前所未有的灵活性,也将视频内容制作推向“AI导演”时代。
核心突破:推出基于上下文的AI视频编辑模型,实现视频元素增删、风格转换、环境变换、镜头运动迁移四大核心能力。
技术亮点:
- 支持360p分辨率/5 - 30秒视频编辑,精准识别移除玻璃反光、背景杂物,或添加动态元素;
- 环境氛围自由切换(晴天转雨天、白天变夜景);
- 镜头运动迁移技术保留原始运镜逻辑,生成新视角画面;
- 内置绿幕抠像与智能灯光优化功能。
应用场景:短视频创作(移除路人/杂物)、影视后期(生成新机位/视角)、风格化视频制作(现实转卡通/油画)。
延伸信息:需访问官网上传视频并输入文本指令操作,生成内容无版权限制。
🔗 链接:Runway Research | Introducing Runway Aleph
【2】微软Edge引入Copilot模式:打造“AI原生”浏览器
微软在Edge浏览器中上线“Copilot模式”,将其从传统浏览工具升级为“浏览智能体”。该模式不仅能理解所有打开的网页标签,还可协助用户总结对比信息,未来甚至可预订机票、处理邮件等琐事。Copilot的目标是打造“主动型助手”,让用户在浏览过程中获得类GPT的实时交互体验,逐步走向AI驱动的工作流核
核心突破:将Edge改造为“浏览智能体”,Copilot模式深度集成于地址栏左侧,重构人机交互逻辑。
技术亮点:
- 全局上下文感知:授权后扫描并分析所有打开标签页内容;
- Action操作能力:支持语音/文本指令执行任务(如“对比所有酒店价格”);
- 极简交互界面:新标签页变为AI入口,替代传统搜索框;
- 企业级安全架构:数据加密传输+权限严格隔离。
应用场景:旅行规划(多网站比价)、资料研究(跨标签页总结对比)、在线协作(自动整理会议纪要)。
延伸信息:目前为实验性功能免费开放,未来可能推出订阅制。
🔗 链接:Edge标签页就是 AI 入口
【3】阶跃深研登场:十分钟内生成深度研究报告
阶跃星辰推出AI研究助手“阶跃深研”,主打复杂任务的快速调研和结构化输出,覆盖金融、咨询、医疗、法律等多个行业。该工具结合大模型推理与自动检索,可在10分钟内生成高质量研究报告。在xbench-DeepSearch和OpenAI BrowseComp等权威基准中表现领先,成为通用认知任务中值得关注的新星。
核心突破:推出强化学习+多Agent架构的AI研究工具,10分钟内完成复杂任务并生成专业报告。
技术亮点:
- 在红杉中国xbench - DeepSearch评测中通过率70%排名第一;
- OpenAI BrowseComp基准测试达行业领先水平;
- 自主规划研究路径:自动调用搜索、代码、可视化工具;
- 深度核查机制:交叉验证信息源,确保数据真实性。
应用场景:金融分析(行业研报生成)、学术研究(论文综述)、政策咨询(法规影响评估)。
延伸信息:支持导出PDF/Word/链接,生成网页HTML便于分享。
🔗 链接:阶跃AI
【4】阿里云发布AgentBay:AI Agent云端“超级大脑”
在世界人工智能大会上,阿里云重磅发布无影AgentBay,一款集视觉理解与自然语言控制于一体的AI Agent平台。该产品被称为“超级大脑”,通过三行代码即可完成多系统接入,背靠云端算力实现动态智能体调用。AgentBay意图打造下一代通用智能基础设施,打通硬件、算力与AI能力之间的隔阂。
核心突破:发布专为AI开发者打造的云电脑平台,实现多系统兼容+云端算力调用一体化。
技术亮点:
- 跨系统支持:Windows/Linux/Android无缝切换;
- 内置MCP工具链:代码运行、网页浏览、数据分析等一键调用;
- 数据持久化:跨平台数据漫游系统确保任务连续性;
- 企业级安全:沙箱环境+权限隔离实现“本地零侵入”。
应用场景:AI开发(高并发任务处理)、程序测试(多环境兼容性验证)、数据分析(大规模数据集处理)。
延伸信息:三行代码即可接入,提供100小时免费使用时长。
🔗 链接:无影AgentBay
【5】昆仑万维开源Skywork UniPic:统一多模态的轻量级巨兽
昆仑万维推出并开源了Skywork UniPic模型,融合图像理解、文本生成图像与图像编辑三大核心任务。该模型采用自回归结构,具备良好的指令遵循能力与多模态任务泛化性能,仅1.5B参数即实现轻量与高性能的平衡。在“图文一体”任务越来越重要的当下,UniPic是国产模型打入主流开源圈的又一尝试。
核心突破:采用自回归范式融合图像理解、文生图、图像编辑三大能力的多模态模型。
技术亮点:
- 1.5B轻量参数实现SOTA性能:GenEval指令遵循0.86分,DPG - Bench复杂指令85.5分;
- 端到端优化:理解、生成、编辑协同训练突破能力权衡瓶颈;
- 部署友好:支持RTX 4090消费级显卡运行;
- 高级搜索功能:聚焦搜索/自选信源/知识库构建个性化研究路径。
应用场景:艺术创作(风格转绘/卡通化)、设计优化(图像细节编辑)、内容生产(图文匹配内容生成)。
延伸信息:开源模型权重、技术报告、代码仓库全公开。
🔗 链接:SkyworkAI/UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
【6】OpenAI发布ChatGPT Study模式:为教育打造的AI助教
OpenAI 正式推出“ChatGPT Study”学习模式,为教育场景量身定制。该模式支持交互式提示、引导式思考、分步讲解、个性化学习方案等功能,帮助学生理解知识点、构建思维路径、提升自主学习能力。这不仅是ChatGPT在教育领域的重要落子,也展现其逐步从“答题助手”进化为“认知引导者”的战略意图。
核心突破:推出“研究导向型”学习模式,聚焦深度思考引导而非直接给答案。
技术亮点:
- 苏格拉底式提问:通过引导性问题培养批判性思维;
- 支架式响应:分解复杂概念为可理解模块;
- 个性化记忆:基于用户技能水平和历史对话调整教学;
- 知识点核查:测验+开放式问题+反馈闭环。
应用场景:学术学习(复杂概念理解)、语言学习(互动对话练习)、职业技能培训(编程/数据分析)。
延伸信息:支持免费版、Plus、Pro、Team及未来Edu用户使用。
🔗 链接:https://chatgpt.com/
新模型、新接口、新范式不断涌现,不同厂商正在从生成式AI迈向多模态融合与Agent化平台构建。无论结果如何,这种快速演进本身就值得被观察和记录。
如果你也在关注AI演进的技术脉络,欢迎持续交流。
更多推荐
所有评论(0)