Kimi Code 突然能看视频了？视频理解能力超过 Codex 和 Claude

cjm_success

299人浏览 · 2026-06-26 11:04:49

cjm_success · 2026-06-26 11:04:49 发布

前两天我朋友问我一件事。他说他最近试了几个 AI coding 工具，突然发现 Kimi Code 看视频的能力变得特别强，强到他觉得有点不可思议。

他去查了一圈官方文档和更新日志，发现了一个很有意思的东西 —— 这背后不是某一个版本的魔法，而是一场三管齐下的 quietly stacked upgrade。

一、优化视频理解是框架层

你如果只看 kimi-code@0.18.0 这个最新版的 release note，headline 写的是 AgentSwarm 并发上限、web session 搜索、OAuth 登录流程这些东西。跟视频半毛钱关系都没有。

但如果你去翻 kimi-code 的源码，会发现一个被 release note 完全忽略的东西——框架层其实早就搭好了视频理解的通路。

ReadMediaFile 这个内置工具，在 packages/agent-core/src/tools/builtin/file/read-media.ts 里，负责做三件事：

1. 读取视频文件，base64 编码
2. 检查模型是否有 video_in 能力，没有就直接报错退出
3. 把视频内容包装成 <video> tag + video_url part，塞进模型的 multimodal input

这个工具不是 K2.7 才有的。 它一直都在框架里。区别在于，之前没有人引导 agent 用它。

GitHub 上 PR [#816](javascript:😉 做的事情，就是在 read-media.md 的提示词里加了一句话：“分析视频文件时，优先使用 ReadMediaFile，不要自己写 Python 切帧。”

就这么一句话，改变了 agent 的默认行为路径。

你以为这是模型能力的升级。实际上这是框架层的一次 quietly stacked 推进——工具早就有了，缺的是一个 prompt 引导 agent 走对的路径。

模型给了能力，框架决定了你能不能用上。

二、K2.6 也有 ReadMediaFile，区别在哪？

这里有一个很多人会忽略的事实：K2.6 时代，ReadMediaFile 工具就已经在框架里了。

我去翻了 K2.6 的官方 quickstart 文档，里面明明就有：

• Video Understanding Code Example
• Multimodal Tool Capability Example
• 一个叫 watch_video_clip 的工具，还支持 start_time 和 end_time 做片段分析

那为什么大家之前没什么感觉？

因为 K2.6 时代的视频能力，更像是一个"也支持"的备注，不是一个一等公民。

而 K2.7 Code 时代，框架层做了三件不一样的事：

第一件事，prompt 引导到位了。PR [#816](javascript:😉 在 read-media.md 和 read.md 里都加了提示词，告诉 agent：别自己切帧了，用内置工具。

第二件事，plumbing 修好了。6 月 10 号的 0.14.0 修复了图片输出丢失，6 月 12 号的 0.14.1 修复了音视频附件静默消失。之前你发了一个视频，agent 可能自己切帧然后丢掉了，现在至少会变成一个占位文本，然后把媒体重新挂回对话。

第三件事，产品叙事变了。README 把 Video input 从角落里搬到了核心的位置。

不过要澄清一点：ReadMediaFile 不是随便哪个模型都能用的。 源码里明确 gated on video_in capability，不支持视频输入的模型调用它会直接报错。所以框架提供了通路，但模型得有对应的能力。这两者缺一不可。

三、那些看不见的工程补课，决定了你的体感

很多时候，让你觉得"变强了"的，不是 benchmark 上的数字，而是那些 nobody cares 的 plumbing 修复。

• 6 月 10 号，0.14.0：修复了 Preserve image outputs from tools——之前工具返回的图片输出会丢，现在保留了。
• 6 月 12 号，0.14.1：修复了 Degrade unsupported audio/video to placeholder text and reattach tool result media——之前音视频附件如果模型不支持，会静默消失；现在至少会变成一个占位文本，然后把媒体重新挂回对话。

这串更新看起来不起眼，但体感影响巨大。

什么意思呢？想象一下，你之前给 Kimi Code 发了一段屏幕录制，想让它帮你还原一个 UI 交互。结果它看完了视频，返回的代码里缺少动画效果，因为你发给它的视频附件被静默丢弃了。你很崩溃。

现在？附件不会被丢了。工具返回的图片、音视频，至少会出现在对话里。

这类 plumbing 改善，用户体感往往比任何 benchmark 都重要。

四、为什么这件事对开发者有意义

好，我们来聊聊核心问题：视频理解进入 coding agent 的主路径，到底打开了哪些新场景？

根据 Kimi Code 官方文档和 README，至少有三个方向值得注意：

第一个，UI 复刻。

把一个产品的 demo 录屏直接丢给 agent，让它还原前端交互和细节。以前你可能需要截十几张图、写几百字描述"这个按钮点击后有个下拉菜单，菜单里有三个选项，颜色分别是…"。现在？一段录屏就够了。

第二个，Bug 诊断。

你遇到一个偶发的界面 bug，复现过程很复杂。与其写长篇大论的文字说明，不如录一段 30 秒的视频——agent 先看现象，再读代码，再定位原因。

视频正在从"额外附件"，变成一种更高带宽的需求输入。

什么意思呢？就是你描述一个动态行为、一个交互流程、一个时序问题的时候，视频的带宽远高于文字。以前你被迫用文字描述视频才能交给 AI，现在这个障碍消失了。

第三个，自动化剪辑和生成。

官方 README 里直接举了例子：把 reference clip 转成 LUT（调色预设）、把长视频压缩成短视频。这些任务横跨代码生成和媒体处理。

第四个，视频风格复刻——这可能是最性感的场景。

现在有很多视频是基于 HyperFrames、HTML + CSS 动画、Remotion 这类工具生成的。以前你要复现一个视频的风格，需要逐帧截图、手动调整参数、反复调试。现在？你把参考视频丢给 Kimi Code，让它看一遍动态效果，然后在本地用代码复现出来。

不是简单的 UI 还原，而是真正的视觉语言转译——动画节奏、转场方式、色彩搭配、粒子效果，甚至逐帧的细节。agent 看了视频之后，输出的不是文字描述，而是可执行的 Remotion 代码或者 HTML/CSS 动画。

这意味着什么？意味着"参考视频 -> 可执行代码"这个闭环，终于被打通了。

五、但先别急着下结论

这里有一个非常重要的冷静环节。

我检索了一圈 Claude Code、OpenAI Codex 的官方文档，发现一个有意思的现象：它们当前的公开路线，明显更偏"图像 / 截图 / 抽帧"。

Anthropic 的官方 Vision 文档，主标题和正文都围绕 images 展开。更关键的是，他们的 prompt guidance 里直接写到：你也可以让 Claude 分析视频，方法是把视频拆成 frames。

这几乎就是公开文档层面的明示：Claude 现阶段公开的视频分析标准路径，不是原生整段视频输入，而是 frame-based workflow。

OpenAI 那边也类似。他们的官方 cookbook 里有一篇示例叫 Processing and narrating a video with GPT-4.1-mini's visual capabilities，明确说模型 doesn’t take videos as input directly，做法是把整段视频变成 static frames。