腾讯面试官问：你的 Agent 越跑越偏，Claude Code 为什么不会？

Python_金钱豹

16人浏览 · 2026-06-29 20:46:23

Python_金钱豹 · 2026-06-29 20:46:23 发布

agent 短任务很漂亮，一上长任务就翻车、越跑越偏：跑到一半丢了前面的约束，要么卡住打转、白白重复劳动，要么漏掉关键一步，做过 agent 的工程师几乎都在生产里踩过这个坑。同样跑长任务，Claude Code 为什么不会？这课拆开它的规划层，看它怎么把主线钉住、不让跑偏。

先把术语翻成人话

TodoWrite 待办列表 ：agent 维护的一张可见任务清单，标进行中/已完成

Plan Mode 计划模式 ：只读模式下先出计划、人确认了再动手

工作记忆 ：帮 agent 锚住在干嘛、干到哪的外置状态

显式计划层 ：把计划从模型脑子里挪到可见、可更新的地方

一、面试现场

面试官提问

“你的 agent 长任务越跑越偏，Claude Code 为什么不会？”

腾讯 Agent 平台终面。面试官：你让 agent 干一个 10 步的活，跑到第 6 步它忘了第 2 步的约束，怎么办？候选人：让模型记着点……

面试官：靠记？上下文一压缩它就忘了。——这题看似问可靠性，实考你能不能区分「模型脑子里记着」和「外置的显式计划层」：前者会被压缩冲掉，后者是稳定可见、不随历史压缩丢失的状态。长任务跑偏的根因，是缺了显式计划层。

**直接回答：**给它一个外置、会更新的计划，让它每步对着计划走。

二、大多数人怎么答的

典型翻车回答

“让模型自己记着步骤就行，写待办是给人看的花架子。”

模型的「记着」会被上下文压缩冲掉。长任务跑到后半程，前面的步骤和约束早被压成一句摘要、甚至丢了。你让它记着第 2 步的约束，到第 6 步那条约束可能根本不在它眼前了。

待办列表不是装饰，是给 agent 自己的锚：计划项作为结构化状态稳定存在、每步都能看见，不随对话历史一起被压掉。我认为，长任务的可靠性，七成靠的不是模型更聪明，是有没有一个外置的、它每步都对照的计划。

三、拆开 Claude Code 的规划层：TodoWrite + Plan Mode 怎么防跑偏

那 Claude Code 里这套是怎么落地的？不是玄学，是两个你能直接在它工具列表里看到的真机制：TodoWrite 当执行中的工作记忆，Plan Mode 当开工前的对齐门。拆开看它们各防什么。

① TodoWrite = agent 的外置工作记忆

Claude Code 里这是一个真工具 TodoWrite：把任务拆成可见的待办列表，每条带 pending / in_progress / completed 三态，每步对照更新。它不是给人看好看——是给 agent 自己锚主线。

可观察的关键机制：每次它改完待办，Claude Code 立刻回灌一条 system-reminder（「继续用 todo 清单跟踪进度」），逼模型每步对着清单走、别跑。这些计划项作为稳定状态存在，不会因上下文压缩被冲掉。

**违反后果：**不维护待办、全靠模型短期记忆，10 步任务跑到第 6 步，前面的约束被压缩丢了，开始重复劳动或漏步。

② Plan Mode = 开工前的对齐门

Claude Code 里这是 EnterPlanMode / ExitPlanMode 两个真工具：进 Plan Mode 后 agent 转只读、先把完整计划写出来，靠 ExitPlanMode 把计划交给你批准、批了才动手。

它把「想清楚」和「动手」分开——避免 agent 一上来就朝错方向改了一堆文件。关键在于：方向错的返工，远比先花两分钟对齐计划贵。

**违反后果：**跳过对齐、让 agent 直接动手干大改，方向一错，改完一堆才发现做的不是用户要的，全部返工。

③ 计划是活的：发现偏差要重规划

计划赶不上变化时，agent 该更新待办而不是硬走到底。但每次改要留痕（哪步为什么变），别反复横跳。规划层的价值不是「定死一个计划」，是「始终有一个当前可信的计划」——执行中不断对照、必要时修订。

**违反后果：**发现计划错了还硬执行到底，或者反复推翻重来不留痕，要么做错、要么在原地打转。

**我的优先顺序：**先判断「这任务值不值得上计划层」（三两步的小活上了是负担），值得就先 Plan Mode 对齐方向、再用 TodoWrite 维持执行不漂。颗粒度要匹配复杂度——计划过细本身也会变成另一种噪声。

四、面试官追问链

追问 1

“待办列表对模型可靠性到底起什么作用？删了会怎样？”

它是抗遗忘的外置状态锚。模型每轮只看当前上下文，长任务里早期目标会被压缩冲淡；待办列表作为稳定结构每步注入，让模型始终对得上主线。删了它，长任务就只能靠模型短期记忆，压缩一发生必偏——这也是为什么很多 agent demo 短任务很漂亮、一上长任务就散。

追问 2

“Plan Mode 让 agent 先出计划再干，不是更慢吗？什么任务值得？”

短期看慢，长期看快。方向错的返工成本，远高于先对齐的两分钟。高风险、多步骤、不可逆（改生产、大重构）的活值得先 Plan Mode；改个错别字、加一行日志这种不值得。我认为：Plan Mode 的本质是把贵的错误挡在动手之前，它省的不是时间，是返工。

追问 3

“计划赶不上变化，跑到一半发现计划错了，agent 该硬执行还是改计划？”

改计划，但要留痕。计划是活的——发现偏差就更新待办，记下为什么从 A 改成 B。怕的是两个极端：一是发现错了还硬走到底，二是反复推翻重来、不留记录（在原地打转、用户也看不懂它在干嘛）。好的规划层支持动态重规划，但每次修订可追溯。

五、给你的 agent 加一个计划层

自造 agent 要跑可靠的长任务，计划层是必加件。下面四步给你一个最小实现。

STEP 1 · 复杂任务先出计划

多步/高风险的活，先让 agent 在只读模式产出完整计划，必要时让人确认再动手。

↳ 关键：方向对齐挡在动手前，省的是返工。

STEP 2 · 拆成可见待办

把计划拆成一条条 todo，带状态字段（待办/进行中/已完成）。

↳ 关键：可见、结构化，才不被压缩冲掉。

STEP 3 · 每步更新状态并回灌

每完成一步就更新对应 todo，并把当前 todos 注入上下文，让模型始终看见主线。

↳ 关键：todos 是 agent 的工作记忆，每轮都要在场。

STEP 4 · 发现偏差就重规划、留痕

计划错了就改 todo 并记下原因，别硬执行、也别无记录地反复推翻。

↳ 关键：计划是活的，但修订要可追溯。

**↳ 一句话验收：**判断计划层有没有用，问一句——**跑到第 8 步时，agent 还说得清最初的目标和剩下没干的事吗？**说得清（对着待办走），长任务才稳；说不清，它就是在凭短期记忆裸奔，压缩一来必偏。

六、本课总结

一句话总结

长任务跑偏的根因是缺了显式计划层——模型脑子里记着的会被压缩冲掉。TodoWrite 是 agent 的外置工作记忆（可见、每步对照、不被压缩丢），Plan Mode 是开工前的对齐门（把贵的错误挡在动手前）。

面试锦囊

**先说：**先定根因：长任务跑偏是因为缺显式计划层。模型脑子里记着的会被上下文压缩冲掉，必须把计划挪到外置、可见、可更新的地方。

**再说：**两件事：TodoWrite 是执行中的工作记忆（可见待办、每步注入、抗压缩遗忘），Plan Mode 是开工前的对齐门（只读出计划、人确认、把贵的返工挡在动手前）。

**最后补：**关键在于：计划是活的，发现偏差要重规划且留痕；颗粒度匹配复杂度，小任务别上计划层（过度设计）。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～