大家好,我是程序员鱼皮。

最近,Codex 上线了一个新功能叫 Record & Replay,翻译过来就是「录制与回放」。

很多 AI 圈儿的博主把这个功能吹上天了,搞的我也是心痒难耐,对这个功能期待值拉满了。

这篇我带大家体验一下这个新功能,然后聊聊它的适用场景和背后的原理。

Record & Replay 有什么用?

以前让 AI 帮你干活,你得写一段提示词,把每个步骤描述清楚。

步骤少还行,可如果流程比较复杂,写提示词得花很多时间,而且总有细节会漏。

Record & Replay 的思路是:先开启 录制,你在电脑上正常操作一遍工作流,Codex 通过 Computer Use 分析你的录制,自动把你的操作提炼成一个可复用的 Skill 技能。之后,你就可以用这个技能来 回放 整个流程了。

比如 Codex 官方演示了利用这个功能自动上传发布视频:

有点儿像那什么,比如我想教自己的小孩怎么搭好一套积木,我很难用语言给他讲清楚,于是亲自搭一遍积木让他在边上看着,他就会了。

可惜的是我没有自己的小孩儿,只能把 Codex 当做赛博小孩养着。。

下面咱们来实战一下。

Record & Replay 实战

开始之前要注意,这个功能目前只支持 macOS,Windows 暂时还用不了。而且你需要把 Codex App 更新到最新版,并且提前安装好 Computer Use 插件。

之前我写过一篇 Codex 桌面 APP 保姆级教程,从安装到实战都讲过了,不熟悉的同学可以先看看。

首先安装 Record & Replay 插件:

准备工作做好了,我来录一个试试。

想一想,平时我有哪些重复执行的操作呢?

有了,我平时做视频经常要找一些能直接下载使用的 BGM,每次都得手动打开网抑云音乐、搜索曲风、下载文件、再检查格式能否使用。

正好拿这个场景来测试,让 Codex 学会从网抑云音乐下载 FLAC 格式的指定风格音乐。

第一步、输入提示词

进入 Record & Replay 插件页面,点击「在对话中试用」:

Codex 会自动跳转到新对话页面,对话框里会默认填好一句提示词「Record my workflow and turn it into a reusable skill」,意思是录制我的工作流并生成一个可复用的技能。

我在下面追加了一句自己的需求:我要自动下载 FLAC 格式的特定音乐。

然后提交。

第二步、演示操作

AI 读取技能后,会请求屏幕录制权限,批准之后,就可以开始演示了。

录制期间,Codex 会观察你的操作行为和窗口内容,一直持续到你手动停止录制。

接下来我只需要像平时一样操作就好:打开网易云音乐,搜索想要的音乐风格,找到目标歌曲并下载,然后检查一下格式是否符合自己的预期,不符合就删掉。。。

第三步、停止录制,生成 Skill

操作完成后,点击停止录制按钮。

Codex 会分析我刚才录制的操作,自动生成一个「音乐下载」 Skill 文件。

这个 Skill 包含了几个关键信息:什么时候使用这个技能、需要哪些输入参数、具体的执行步骤、以及怎么验证任务完成了。

第四步、回放

Skill 生成好了,接下来就可以愉快地使用了。

新开一个对话,使用刚才生成的 Skill,描述需求就好,比如我让 AI 自主下载 3 首逗比音乐。

Codex 会按照之前演示的操作路径,自动完成整个流程。

什么场景适合用 Record & Replay

试了一圈之后,我个人的感受是,这个功能对我来说用处不大,华而不实。

一方面目前只支持 macOS、有些应用 AI 还操作不了,速度也慢、而且时不时搞错操作。

另一方面,Record & Replay 底层用的就是 Computer Use,而 Computer Use 本身已经能通过提示词来操控你的电脑了。所以如果你能用一两句话就把操作描述清楚,直接写提示词让 AI 干就行,没必要录制。

那什么时候 Record & Replay 才真正有价值呢?

我认为是:当你的操作流程「说不清楚、但做得出」的时候。

比如公司内部的 OA 系统、报销平台这种 AI 从没见过的界面,你没法用提示词描述清楚,但录制一遍它就学会了。

再比如整理数据报表时你会下意识选某种排序、调某种配色、跳过某些字段,这些隐性偏好你自己可能列举不全,但通过录制能全部捕获。还有那种横跨好几个应用、每个应用点好几层菜单的长链路流程,写几百字的提示词,不如录制 2 分钟。

不过可惜的是,我个人基本没有这些场景。大多数的操作通过让 AI 操作 CLI 命令行就能搞定,不比操作界面快多了?

而且还有一个坑,我估计大多数同学很难一次性把自己的工作流录制清楚,难免会有一些误操作,比如点错按钮了之类的。但 AI 可能无法分辨,导致最后生成的技能也有多余的操作。

所以总结一下,Record & Replay 改变的不是 AI 能做什么,而是你告诉 AI 怎么做的方式。 像我们程序员,写提示词本来就是强项,很多场景自己写 Prompt 就能搞定。但如果你身边有不太会写提示词的同事,比如运营、HR、行政,这个功能对他们可能更实用。

Record & Replay 的原理

最后聊聊 Record & Replay 底层是怎么实现的,做 AI 应用开发方向的同学最好了解一下,万一面试被问到呢?

不知道大家有没有用过按键精灵?我小时候拿它做自动打怪脚本来着。

按键精灵录制的是死板的鼠标轨迹,比如坐标 (320, 450) 点击一下、等 500 毫秒、坐标 (180, 600) 再点一下。窗口位置稍微挪一下就全废了。

Record & Replay 和这种传统宏录制有本质区别。

录制阶段,Codex 其实只是在观察和采集,并不会实时分析你的操作意图。等你停止录制之后,它才会对捕获到的完整工作流进行检查和提炼。

前面大家已经看到了,Codex 生成的是一个 SKILL.md 文件,本质上就是一份人类可读的 Markdown 文档,里面记录的是「在搜索框中输入关键词」、「点击下载按钮」、「选择 FLAC 格式」这样的 语义化步骤,而不是像素级的坐标。

回放的时候也不是在机械地重放轨迹。Codex 会把 Skill 作为上下文加载,然后结合 Computer Use、浏览器操作、已安装的插件这些工具来执行。因为理解的是语义而不是坐标,所以理论上同一个 Skill 可以在不同的环境和工具组合下复用。

另外,生成的 Skill 是可以编辑的,你可以手动改 SKILL.md,也可以让 Codex 帮你进一步优化,调整到满意为止。


OK 就分享到这里,本文会收录到我免费开源的 《Vibe Coding 零基础入门教程》,上千张图、几十万字,带你从 0 开始快速学会 AI 编程,做出自己的产品、跑通变现全流程,一次拿捏。

开源指路:https://github.com/liyupi/ai-guide

我是鱼皮,持续分享 AI 编程干货。觉得有用的话记得点赞收藏和关注,也欢迎在评论区聊聊:你日常有哪些重复性的电脑操作?觉得 AI 能帮你自动化哪些工作流?

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐