从零构建一个 AI Agent：分享我做 PulseBot 的全过程

人工智能AI技术

371人浏览 · 2026-04-06 13:42:58

人工智能AI技术 · 2026-04-06 13:42:58 发布

文章目录

前言

朋友们，如果你还在为"AI Agent"和"ChatGPT"傻傻分不清楚，那这篇文章就是为你准备的。

2025年3月，OpenAI发布了Agents SDK，标志着AI从"聊天工具"正式进化为"行动系统"。与此同时，字节跳动的M3-Agent-Memorization研究也让Agent的记忆能力实现了300%的保存周期提升。看着这些技术爆发，我手痒难耐，决定从零开始构建一个属于自己的AI Agent——PulseBot。

这篇文章，我会把PulseBot的架构设计、踩坑实录、以及2025年最新的工程实践全盘托出。读完之后，你不仅能理解Agent的底层原理，还能自己动手写出一个具备"真智能"的助手。

一、Agent 不是 API 的简单堆砌

很多朋友问我：“我用OpenAI的API做了个小助手，能聊天能问答，这是不是就是Agent了？”

我说：“这不是Agent，这是’人工智障’。”

为什么这么说？因为传统的API调用就像一个只会背诵标准答案的书呆子。你问它"今天北京天气怎么样"，它调用天气API给你结果；但你让它"帮我规划下周去上海的行程，要考虑天气、机票价格和会议安排"，它就懵了。

真正的AI Agent必须具备四个能力：感知（Perception）、规划（Planning）、记忆（Memory）、工具使用（Tools）。

这就像我们人类的大脑。感知是眼睛耳朵，规划是前额叶皮层的思考能力，记忆是海马体，工具使用则是我们学会用手机、用电脑的技能。只有这四者结合，才能产生"真智能"——一个能自主思考、持续学习、调用外部工具解决复杂问题的系统。

PulseBot的设计目标很简单：做一个能持续记住用户偏好、自主分解任务、调用多种工具的个人助理。比如，你上周告诉它"我对花生过敏"，下周你让它推荐餐厅时，它应该自动排除含花生的菜品，而不是让你反复提醒。

二、PulseBot 的四大核心架构

2.1 感知层：不只是"听"，还要"看懂"

2025年的多模态模型已经相当成熟。PulseBot的感知层基于GPT-4o和Claude 3.5，不仅能处理文本，还能理解图像输入。

我给它设计了一个特殊的"文件感知"能力。当你扔给它一份PDF时，它不会简单地做RAG检索，而是先理解文档结构——识别标题、段落、表格、图片的关系。这得益于2025年流行的"文档智能"技术，比如阿里云的文档解析引擎和开源的Unstructured库。

2.2 规划层：ReAct 框架的实战落地

规划是Agent的"大脑"。PulseBot采用的是ReAct框架（Reason + Act），这是2025年最主流的Agent推理范式。

简单来说，ReAct让Agent像人类一样"边想边做"。它不会一口气给出答案，而是交替输出：

Thought（思考）：“用户要我安排上海行程，我需要先查天气，再查机票，最后查酒店。”
Action（行动）：调用天气工具查询上海下周天气。
Observation（观察）：“上海下周三有雨，不适合户外活动。”
Thought（再思考）：“那我把户外活动安排在晴天，雨天安排室内会议。”

这种循环直到任务完成。我在PulseBot中设置了一个max_steps=15的限制，防止它陷入死循环。

2.3 记忆层：从"金鱼记忆"到"长期记忆"

这是PulseBot最复杂的部分，也是2025年AI Agent的技术分水岭。

传统的大模型就像金鱼——每次对话结束就清空记忆。PulseBot实现了四层记忆架构：

工作记忆（Working Memory）

当前对话的上下文，比如正在进行的任务进度、刚拿到的工具返回结果。这部分直接放在模型的上下文窗口里，速度快但容量有限。

短期记忆（Short-term Memory）

最近N轮对话的摘要。我使用了一个轻量级的摘要模型，每5轮对话自动生成一段摘要，提示关键信息。这样即使上下文窗口满了，重要的近期信息也不会丢失。

长期记忆（Long-term Memory）

用户的持久偏好、历史任务模式。这里我采用了Mem0方案——一个2025年非常流行的开源记忆框架。Mem0使用混合检索策略：向量检索（语义相似度）+ 知识图谱（结构化关系）。当你说"我喜欢川菜但不吃辣"，这条信息会被向量化存储，同时与"用户偏好"、"饮食禁忌"等知识节点建立图谱关系。

程序记忆（Procedural Memory）

这是PulseBot的"肌肉记忆"——固化在系统提示词（System Prompt）里的行为规则。比如"每次推荐餐厅前必须检查用户的过敏史"。

2.4 工具层：Agent 的"手"和"脚"

工具让Agent能与外部世界交互。PulseBot目前集成了五类工具：

搜索工具：接入Tavily API，获取实时信息
代码执行器：Python沙箱，用于数据分析
浏览器自动化：基于Playwright，能自动操作网页
文件系统：读写本地文档
日历API：Google Calendar集成

工具调用的实现依赖Function Calling机制。当模型判断需要调用工具时，它会输出一个JSON格式的函数调用指令，程序执行后将结果返回给模型。

三、从零手写 ReAct 循环：PulseBot 的核心代码

为了彻底理解Agent原理，我没有直接使用LangChain或OpenAI Agents SDK，而是从零手写了ReAct循环。这也是我推荐给所有初学者的第一步。

核心逻辑其实很简单：

def react_loop(user_input):
    messages = [{"role": "system", "content": system_prompt}]
    messages.append({"role": "user", "content": user_input})
    for step in range(max_steps):
        # 1. 模型思考并决定行动
        response = llm.chat(messages)
        
        # 2. 如果模型决定调用工具
        if response.tool_calls:
            tool_result = execute_tool(response.tool_calls[0])
            messages.append({"role": "tool", "content": tool_result})
        else:
            # 3. 模型直接给出最终答案
            return response.content

    return "任务超时，未能完成"

关键设计点：

tool_map将工具名映射到实际函数，避免使用eval带来的安全风险
每次工具调用结果以role: tool格式追加到messages，确保模型下一轮能看到历史结果
max_steps防止死循环，生产环境建议设为15-20步

当你手写一遍这个循环，你就会明白：所谓的"AI Agent"，本质上就是一个带着历史记忆、会自己决定调用什么函数的while循环。

四、记忆系统的工程实践：踩坑与优化

记忆系统是PulseBot开发中最棘手的部分。我踩过几个大坑，分享给你们：

4.1 记忆膨胀问题

刚开始时，我把所有历史对话都存进向量数据库。结果运行30天后，数据库膨胀到12k tokens，检索准确率下降了47%。这就是"记忆膨胀"——未经筛选的记忆体迅速积累低价值信息。

解决方案是记忆重要性评估。我实现了一个简单的评分机制：只有被用户明确纠正过、或者涉及关键偏好（如过敏史、密码、重要日期）的信息，才会进入长期记忆。普通闲聊只保留7天。

4.2 检索漂移问题

早期使用纯向量检索时，经常出现"答非所问"的情况。比如用户问"我上周提到的那个项目"，向量检索会返回一堆包含"项目"关键词但无关的文档。

2025年的最佳实践是混合检索：向量检索（语义相似度）+ 关键词检索（BM25算法）+ 时间衰减（越新的记忆权重越高）。这样召回的准确率提升了约26%。

4.3 记忆冲突处理

用户昨天说"我喜欢深色模式"，今天又说"换成浅色模式吧"。这时候Agent需要更新记忆而不是追加记忆。

我在Mem0基础上增加了记忆去重和更新机制：当新记忆与旧记忆的相似度超过阈值（0.85），且时间戳较新时，自动覆盖旧记忆。同时保留一个"记忆版本历史"，方便用户查看变更记录。

五、多 Agent 协作：当 PulseBot 变成"团队"

单个Agent的能力总是有限的。2025年的趋势是Multi-Agent系统——让多个专业Agent像团队成员一样协作。

我在PulseBot中实现了两种协作模式：

模式一：分层调度（Orchestrator + Workers）

有一个"调度Agent"负责理解用户需求，然后分配给专门的子Agent：

ResearchAgent：负责信息搜集和整理
CodeAgent：负责代码编写和调试
CreativeAgent：负责文案创作

OpenAI Agents SDK的handoffs机制非常适合这种场景。调度Agent在合适时机将控制权移交给专门Agent，各Agent有独立的工具集和系统提示。

模式二：流水线（Pipeline）

适合有明确步骤的任务。比如"写一篇技术博客"：

OutlineAgent生成大纲
DraftAgent撰写初稿
ReviewAgent审核修改
FormatAgent排版输出

每个Agent的输出作为下一个Agent的输入，像流水线一样运转。

六、生产环境的最佳实践

把PulseBot部署到生产环境后，我总结了几条血泪经验：

1. 调试与可观测性

Agent调试最大的痛苦是"黑盒"——你不知道它为什么做出了某个决策。我集成了LangSmith进行追踪，记录每一步的Thought、Action、Observation。这就像是给Agent装上了"行车记录仪"，出了问题可以回放复盘。

2. 成本控制

Agent的token消耗是惊人的，特别是带长期记忆的系统。我的优化策略：

对长期记忆进行摘要压缩，存储时保留核心信息，丢弃闲聊废话
设置token上限，单轮对话超过4000token就触发记忆归档
使用本地小模型做初步筛选（如用7B模型判断是否需要调用大模型）

3. 安全防护

Agent能调用工具，这意味着它有可能被 Prompt Injection 攻击。我实现了两层防护：

输入护栏（Guardrail）：检查用户输入是否包含恶意指令
输出审核：对Agent生成的工具调用参数进行敏感词过滤

结语：Agent 工程的本质

做完PulseBot，我对AI Agent有了更深的理解：Agent工程的本质不是框架选择，而是对任务边界的清晰定义和对工具调用失败的鲁棒处理。

2025年，我们有了OpenAI Agents SDK、LangGraph、Mem0等优秀工具，但技术始终在快速迭代。比学会某个框架更重要的是理解ReAct循环、记忆分层、工具抽象这些底层原理。

PulseBot目前还只是个"个人项目"级别的玩具，但它让我看到了AI从"对话"走向"行动"的无限可能。也许再过两年，我们每个人都会拥有这样一个真正懂我们、能帮我们干活的数字助手。

朋友们，如果你觉得这篇文章有帮助，欢迎点赞、收藏、转发。有任何问题，咱们评论区见！

目前国内还是很缺AI人才的，希望更多人能真正加入到AI行业，共同促进行业进步，增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow，教程通俗易懂，高中生都能看懂，还有各种段子风趣幽默，从深度学习基础原理到各领域实战应用都有讲解，我22年的AI积累全在里面了。注意，教程仅限真正想入门AI的朋友，否则看看零散的博文就够了。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

爆改增强 Codex App，API 用户不再尴尬

用 API 跑 Codex 的人，最烦的往往不是模型不够强，而是桌面体验少一块。官方账号的插件、Goal、Computer Use 是完整的，你走 API 或第三方模型，胜在自由，但很多体验不一定都有。Codex++ 火起来，就是因为它盯上了这个缝。先别误会，因为 Codex App 本来就有官方插件、集成和 MCP。Codex++ 这个项目不是 OpenAI 官方功能，也不是官方插件商店。它是玩

AI编程社区

React Page组件化开发：掌握Facebook推荐的组件组织架构

React Page是Facebook官方推出的React应用开发框架，专为组件化开发而设计。这个强大的工具让您能够轻松构建服务器端渲染的React应用，实现快速页面加载和优秀的SEO效果。React Page组件化开发的核心思想是将整个页面视为可组合的组件，这正是Facebook推荐的现代化前端架构模式。## 为什么选择React Page组件化开发？ 🚀React Page提供了一个