一、核心总览

LLM 融入软件架构核心后,软件从被动工具升级为主动智能体,人机交互从 “命令 - 控制” 转向 “意图 - 协作”,Agent 是具备感知、记忆、推理、行动能力的数字新物种

二、Agent 的本质:从工具到伙伴

1. 交互范式升维

  • CLI/GUI 时代:人机交互单元是指令 / 点击,人负责 “怎么做”,机器仅执行。
  • Agent 时代:交互单元是对话 / 意图,机器理解意图、自主处理,降低用户认知负荷。

2. 核心能力:意图理解

Agent 是意图编译器,搭建人类模糊语言与机器精确指令的桥梁,分 4 层:

  1. 语义理解:提取动作、对象、范围、约束。
  2. 目的识别:洞察显性指令背后的隐性目标。
  3. 上下文关联:结合代码、目录、偏好、历史等环境信息。
  4. 风险澄清:意图模糊时主动提问,避免误操作。

3. 记忆与身份:自我连续性

  • LLM 无状态,Agent 通过上下文工程实现 “记忆幻觉”。
  • 短期记忆:保持会话上下文,支持多轮一致推理。
  • 长期记忆:沉淀用户偏好、历史行为,形成持续身份。

三、Agent 核心工程能力

1. 上下文工程:Agent 的 “数字感官”

  • 本质:将现实世界状态序列化、结构化投射给模型,决定 Agent 判断质量。
  • 三大来源:
    1. 用户上下文:开发风格、技术栈、工作内容。
    2. 环境上下文:文件结构、代码、日志、运行状态。
    3. 任务上下文:任务进度、依赖、工具调用历史。
  • 技术趋势:选择性上下文、结构化摘要、图结构上下文、优先级排序。

2. 任务分解:目标→计划→执行

  • 核心:把模糊目标拆解为可执行步骤,是 Agent 智能化关键指标。
  • 三步法:理解目标→确定路径→管理执行。
  • 关键特性:动态规划 + 自我审查,执行中可调整计划,提前校验合理性。

3. 工具、技能与行动策略:影响真实世界

(1)工具调用:Agent 的 “数字具身性”
  • 工具需包含:功能描述、参数约束、副作用声明。
  • 标准协议:MCP、Function Calling、LangChain Tools。
(2)技能:工具 + 领域知识 + 标准流程
  • 工具:原子化操作(执行 SQL、读写文件)。
  • 技能:业务化能力(生成财报、代码审查),封装企业知识与安全规范。
(3)核心循环:ReAct 范式

思考→行动→观察,形成动态闭环推理,支持试错与自我修正。

(4)行动安全:三道防线
  1. 只读沙箱:探索阶段仅允许无副作用操作。
  2. 人类介入(HITL):高风险操作需人工批准。
  3. 确定性护栏:底层嵌入硬性安全规则(禁止删系统文件)。

四、人机关系变革:从 Copilot 到 Autopilot

  • Copilot:人主导,AI 辅助。
  • Autopilot:AI 主导,人监督(设定目标、审查计划、关键决策)。
  • 人从操作员变为监督者 + 评估者

五、Agent 心智架构:感知 - 推理 - 行动循环

  1. 感知:上下文映射,获取外部世界状态。
  2. 推理:任务拆解、思维链推理。
  3. 行动:工具调用,产生环境副作用。
  • 核心:非线性管道,而是持续循环进程,实现自主智能。

六、关键总结

  1. Agent 不是脚本,是有记忆、能思考、会行动的数字伙伴。
  2. 两大核心工程:上下文工程(看得清)+任务分解(做得对)。
  3. 安全底线:工具调用必须搭配行动策略 + 人类介入
  4. 终极价值:从 “设计系统” 变为 “培育智能物种”。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐