Codex「复读机」实战:手把手教 AI 录制与复现你的日常工作流

在日常工作中,你是否经常遇到一些繁琐、重复,但又很难用几句话跟 AI 解释清楚的操作?

比如每周固定的报销审批、特定格式的周报整理,或者往系统里录入一堆格式零散的数据。

Codex 近期推出的 Record & Replay(录制与复现) 功能,正是为了解决这类“说不清楚,但做一遍就能懂”的复杂工作流。

简单来说,你只需要在电脑上完整演示一遍操作,Codex 就会在后台观察并学习,自动将整套流程打包成一个可复用的“技能(Skill)”。

下次遇到同样的任务,你只需一键调用这个技能,剩下的工作全部交给 AI 自动执行。

---

一、 什么是 Record & Replay?核心适用场景分析

传统的自动化工具(如 Zapier 或 Python 脚本)通常高度依赖软件开放的 API。如果某个系统没有 API,或者操作步骤因人而异,自动化就会直接卡壳。

Record & Replay 另辟蹊径,它让 AI 直接通过图形界面(GUI)学习人类的操作逻辑。

这种“学徒模式”特别适合以下几类场景:

  • 规则复杂的日常报销:需要根据不同发票类型填入不同的系统字段,且伴随个人偏好。
  • 周期性报表拉取:每周登录后台,筛选特定日期,下载 CSV 并重新命名归档。
  • 特定格式的 Issue 创建:在 GitHub 或 Jira 中,根据特定模板和标签规范创建任务。
  • 多平台内容分发:将视频或文章手动上传至多个平台,并配置不同的封面和标签。

这些任务的共同点在于:步骤繁琐,且包含大量只有你才知道的“隐性规则”(如命名规范、默认勾选项)。

与其花时间写几百字的操作文档给 AI,不如直接在它面前演示一遍。

---

二、 手把手教程:如何录制你的第一个 AI 技能

录制一个可用的工作流技能并不复杂,整个过程可以拆分为以下几个标准步骤:

第一步:启用插件

在 Codex 客户端中打开 Plugins(插件) 页面,搜索并添加 Record & Replay 插件。

第二步:授权录制

点击插件后,系统会弹出权限请求窗口,允许 Codex 观察你的屏幕操作。准备就绪后点击同意。

第三步:开始演示

在你的 Mac 电脑上正常执行一次完整的任务。

在此期间,Codex 会在后台静默观察,记录你点击了哪些按钮、切换了哪些窗口、输入了哪些文本。

第四步:结束录制

任务完成后,通过菜单栏、悬浮窗的停止按钮,或者直接在对话框中对 Codex 说“录制完成”,即可结束。

第五步:生成与微调技能

录制结束后,Codex 会自动复盘捕捉到的步骤,并起草一份技能说明书。

这份说明书会明确:

  • 该技能的触发场景。
  • 需要用户提供哪些变量输入。
  • 具体的执行步骤与预期结果。

如果生成的步骤有偏差,你可以通过对话直接让它修改和打磨。

---

三、 进阶配置:多模型服务与本地环境接入

许多开发者不知道的是,Codex 客户端不仅支持官方模型,还支持通过修改配置文件来接入第三方模型服务。

如果你需要更灵活的模型选择,可以在 config.toml 文件中配置 model_providers,将其指向本地模型(如 Ollama、LM Studio)或符合标准接口的第三方模型服务。

在配置自定义模型服务时,我们需要关注 API Key、Base URL 以及模型名称的正确填写。

为了方便演示,本文采用 iThinkAPI 作为 OpenAI Compatible API 的配置环境。

在实际部署时,你可以参考以下配置块进行环境设置:

Base URL:https://token.ithinkai.cn/v1
API Key:YOUR_API_KEY
Model:以服务文档为准,最新模型 gpt-5.5、claude-opus-4-8、gpt-image-2 等可按文档查看;涉及图片生成时,以 0.05¥/图起、2k/4k 支持等服务文档说明为准。

为了让自定义模型顺利运行,我们需要完成以下两个配置步骤:

第二步:挑选模型与确定分组

首先,登录你的多模型聚合平台控制台,进入模型广场

在搜索栏中输入 gptclaudeimage 等关键词,筛选出适合你当前自动化任务的模型。

由于不同任务对推理能力的要求不同,你需要确认所选模型对应的分组或线路

请注意,同一模型在不同分组下的响应速度、调用额度和可用状态可能会有所不同,具体选择应以平台服务文档的实时说明为准。

第三步:创建 API 令牌

确定好模型和分组后,进入控制台的令牌管理页面,点击“添加令牌”。

在创建令牌时,将其与你在上一步中选定的模型分组进行绑定。

如果你不确定后续会使用哪些具体的模型限制,可以先不限制模型范围,直接创建。

生成令牌后,复制系统提供的 API Key,回到 Codex 的 config.toml 或客户端设置界面,填入对应的 Base URL 和 Key,即可完成环境配置并开始测试。

---

四、 深度解析:Codex 到底是如何控制电脑的?

要让录制下来的技能稳定复现,Codex 依赖于其底层的三大“电脑操作”机制。

这三种机制相辅相成,覆盖了不同的应用场景:

1. Computer Use(系统级控制)

这是覆盖面最广的控制方式。AI 可以直接“看”到 macOS 或 Windows 的屏幕,并通过模拟鼠标点击、键盘输入和剪贴板操作来控制软件。

  • 优势:即使应用没有提供任何 API(如本地的系统设置、Xcode、甚至通过镜像连接的 iPhone),AI 也能正常操作。
  • 劣势:执行速度较慢。因为 AI 需要“看一眼、想一下、动一下”,一步一回头地确认状态。
  • 安全建议:涉及支付、敏感账户权限的操作,建议人类全程在场监督。

2. Chrome 扩展(浏览器接管)

该机制直接接管你已经登录的 Chrome 浏览器,非常适合处理基于 Web 的任务(如 Gmail、Salesforce 或企业内部后台)。

  • 优势:可以直接利用你已有的登录态和 Cookie,支持多标签页协同操作。
  • 限制:由于代表的是你本人的身份,涉及“发送”、“发布”或“购买”等关键动作时,通常需要你手动确认。

3. 应用内浏览器(沙箱隔离)

这是活在 Codex 对话内部的独立浏览器,与你的日常浏览器配置、Cookie 完全隔离。

  • 优势:非常适合网页开发与调试。AI 可以在这个干净的沙箱里修改代码、刷新页面、截图并直接排错,形成高效的反馈闭环。

此外,Codex 还配备了 Appshot 机制。

在 Mac 上连按两下 CMD 键,AI 就会自动截取当前最前端的窗口,并将其作为上下文读入对话。

用一句话总结:Appshot 负责指明方向,而 Computer Use 和浏览器扩展则负责具体动手干活。

---

五、 实战避坑指南与管理员配置限制

在正式上手 Record & Replay 之前,有几个关键的配置细节和限制需要提前了解,避免踩坑。

1. 录制时的实用建议

  • 保持流程短而完整:不要一次性录制过于冗长的跨天任务,尽量拆解为单一目标的短流程。
  • 明确输入变量:在录制前,先明确告诉 Codex 哪些数据是每次都会变的(例如“这次要上传的文件是 A.mp4”)。
  • 保护隐私安全:录制过程中,切勿输入密码、验证码或敏感的个人隐私数据。

2. 组织管理员配置限制

如果你在企业环境中使用 Codex,并且发现客户端里找不到 Record & Replay 功能,这通常是因为管理员在全局配置文件中关闭了相关权限。

在企业统一管理的 requirements.toml 文件中,[features].computer_use 这一项是与 Record & Replay 绑定的。

如果管理员将该项设为了 false

[features]
computer_use = false

那么 Computer Use 和 Record & Replay 功能将会同时被禁用。遇到此问题,需要联系系统管理员开启对应权限。

---

六、 结语:人正在从“软件操作者”变成“AI 训练者”

Record & Replay 的出现,标志着人机交互方式正在发生本质的变化。

在过去,自动化的边界取决于软件厂商愿意开放多少 API。

而现在,AI 开始直接学习人类使用图形界面的方式。

操作系统不再仅仅是人类操作各种独立软件的平台,而是逐渐演变为 AI 理解和执行任务的介质。

未来,我们或许不再需要花大量时间去学习各种复杂软件的琐碎操作,而是需要学会如何把自己的行业经验,高效地“录制”并传授给 AI

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐