一、结论

先说结论,L站大佬提供的缓解降智方案 将这句话放到 AGENTS.md 文件中可以缓解 Codex 降智:

DO NOT send optional commentary
516 概率 80% 降低到 20%

下面是实测数据:
在这里插入图片描述
说明:

  • 只能缓解,不能根除,降智的根因不是这个
  • 副作用会导致 Codex 不描述中间步骤,但不影响任务执行

二、补充测试

另一位 @dskdkj 佬对上述 AGENTS.md 是否真的能够缓解 Codex 降智提出了质疑。为了回应该质疑,博主又进行了另一个测试。

该测试采用一个降智的 Pro 20x 账号,Codex 直接登录。测试时采用两个不同的 project 目录,temp1 和 temp2,其中 temp1 为空,temp2 中包含上述缓解降智的 AGENTS.md。为了排除时间差造成的影响,两个 project 的测试交替进行,每个 project 测试 10 次。结果如下:
在这里插入图片描述
可以看到包含 AGENTS.md 的 temp2 正确率为 60%,显著高于 temp1 10%。这个测试结果至少证明,在我的测试环境中,该 AGENTS.md 的确能缓解降智。但是仍然只是缓解,并不能彻底解决。


三、原理

其原理来自于另一位 @neteroster 佬的调查结果,该调查发现屏蔽 commentary 可以缓解 Codex 降智。原文链接:

https://linux.do/t/topic/2489646

相较于 @neteroster 佬直接修改 Codex system prompt 的方法,在 AGENTS.md 中添加一句话更加简单,并且同样能达到缓解效果。

测试脚本链接:
https://github.com/haowang02/codex-candy-eval

3.1 Codex 降智测试

用本地 Codex CLI 批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。

在这里插入图片描述

3.2 用法

该脚本无任何第三方依赖,只需要您已安装并登录 Codex CLI

python codex_candy_eval.py -m gpt-5.5 -r high -n 5

3.3 一键运行

以下任选其一

wget -qO- "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5
curl -fsSL "https://raw.githubusercontent.com/haowang02/codex-candy-eval/main/codex_candy_eval.py" | python3 - -m gpt-5.5 -r high -n 5

参数:

  • -m, --model:codex 模型名,省略则用本地默认
  • -r, --reasoning-effortlow/medium/high/xhigh(默认 medium
  • -n, --tests:测试次数(默认 1)

正确答案为 21,脚本直接判断回答中是否出现独立的 21

这一篇文章目前已经突破 6K 的浏览量,在外网获得了相当不错的反响:
在这里插入图片描述
在推特上面也有大量的大佬去进行了测试:
在这里插入图片描述
各位试用完可以在评论区讨论一下结果。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐