【智能体进化论】一文掌握从RAG到Deep Research,构建你的“AI未来”知识体系!
过去一年多,智能体(Agent)概念经历了从狂热到冷静的“极速”市场周期。大量产品以“Agent”为名,但真正能“自主运行”的寥寥无几(自主化程度较高的包括:信息认知领域有各家推出的Deep Research,代码开发领域有Github推出的Copilot、会计领域有Leapfin 推出的Luca)。可控性差、算力成本高、幻觉问题、偶尔会给人“增加工作负担”,自主智能体产品不时地在收获负面反馈。
过去一年多,智能体(Agent)概念经历了从狂热到冷静的“极速”市场周期。大量产品以“Agent”为名,但真正能“自主运行”的寥寥无几(自主化程度较高的包括:信息认知领域有各家推出的Deep Research,代码开发领域有Github推出的Copilot、会计领域有Leapfin 推出的Luca)。可控性差、算力成本高、幻觉问题、偶尔会给人“增加工作负担”,自主智能体产品不时地在收获负面反馈。
自主智能体的未来难道就是如此吗?作为一个技术从业者,我认为这些现状只是暂时的,在不久的将来,自主智能体会是未来,更是产品化落地的大势所趋。
在截至目前为止,已落地的多样智能体形态中,Deep Research的表现让人眼前一亮。作为第一批在“认知任务”上展现出弱自治能力的产品,它能自己拆解复杂问题、规划检索路径、跨多轮收集证据、处理冲突、最终形成完整报告。这恰恰才是“自主智能体”的本质,能理解目标 、自主任务规划 、 使用工具、 根据结果自我修正 , 直到达成目标的系统。
虽然我个人对于Deep Research的评价颇高,但是相较于上一代的 RAG,Deep Research并非是一个革新性的技术,这中间并不存在非常明显的技术增量,更多的优化,体现在产品力和落地价值的方面。可以说,从RAG发展到Deep Research的发展是一个必然,更是一个透镜,能帮助我们更好地理解自主智能体产品的演化之路。
01 当RAG撞上“产品力”的墙
从技术视角看,RAG的提出,是为了解决LLM知识容量有限、知识时效性不足、幻觉、知识溯源、私域数据安全性等问题。为此,RAG给LLM打了个补丁,接入了一个“外挂知识库”:
一个最简单的RAG框架可以被抽象为上图所示。离线阶段,我们将文档切片,抽取向量表征,构建向量数据库。在线阶段,用户发起的请求被转化为向量,请求向量数据库进行检索,我们将其返回的top K最相关(相似度分数最高)的文档切片作为LLM提示词的一部分,供LLM参考并生成答案。
从2023年中火热到2024年底,RAG 的演化大致沿着三条主线:
1)提升recall:例如query改写、混合索引(传统文本倒排+多向量)、GraphRAG等。
2)提升relevance,例如reranker的引入
3)控制成本,例如上下文压缩、过滤等技术
于是乎,RAG进化成了下图的这个形态:
我这里将这些RAG的“优化手段”总结为“旧瓶装新酒”。这是因为,从我们做大型搜索引擎优化的从业者视角来看,尽管这些“新技术”都被写到最近两年发表的论文中,但实际上都是大搜行业这二十年来早已固化的优化手段,除了最后一步“生成”外,并没有什么新东西。
尽管经过了深度优化,RAG最后还是没能突破“产品力的天花板”。RAG作为一种技术解决方案,其标的是知识密集型工具产品,也就是要重塑“大搜”的产品形态。然而,产品形态的更迭,需要的是产品力“质的飞跃”。所以我们再来看看RAG还有哪些问题?遇到了什么瓶颈?
02 RAG的瓶颈:静态pipeline
无法处理复杂信息认知任务
首先,RAG解决不了“大问题”。当用户提问“帮我调研2025年稳定币市场如何发展”的时候,RAG就会失效,原因是数据库内极可能不存在与这个问题“完美相关”的文档片段。传统的query改写解决不了这个问题,这是因为传统的query改写技术主要集中在保持语义不变条件下的词句变换,以及强化关键词的匹配概率。而这里需要的能力是类人思考的一种问题拆解的能力。
其次,当问题涵盖私域知识和公域知识的混合时,简单的RAG系统不能解决这一问题,还需要公开网络搜索引擎的加持。这就设计到了工具的调用。此外,有些知识也许不需要进行检索就可以让LLM直接回答,例如“牛顿提出的力学定律包含哪些?”,一些常见知识已经有效地被压缩到了模型参数中,那就不需要额外浪费检索的算力。
接下来,传统的RAG,即便是配备了reranker,它也只能感知知识和query的“相关性”,但并不能判断知识的“可用性”。现实世界的知识常常互相矛盾:同一法规,不同律师给不同解读;不同机构对同一市场做不同预测;不同媒体对同一事件给不同立场。RAG 只能判断相关性,不能判断:哪一个“更可靠”?哪一个“更一致”?哪一个“更能满足调研目标”?这需要 论据选择、冲突消解、立场认知——而 RAG 没有这些能力。
最后,传统的RAG是一个“固化”的链路,整个执行过程依赖人工经验,无法自适应调整。一个典型的case就是,当单次执行收集到的信息,只能部分回答问题,如果要没有漏洞地完整回答,可能还需要修改问题,进一步进行检索,甚至循环。这就需要系统具备判断任务完成进度、自适应规划任务路径、并能够学会“停止”的能力。
因此RAG 是强工具,但不是强产品。它能完成查询,却不能完成任务。
03 智能体化是必然结果
回看RAG框架面对的种种问题,恰恰催生了“自主智能体化”的需求。Deep Research相比RAG没有技术增量。它不追求“一发入魂”:一次检索就能完成任务;而是利用大模型的推理能力,把一个困难且复杂的任务拆解为一个个简单又相互关联、依赖,最终可以达成目标的可行“任务路径”。
如果要一句话总结Deep Research,我们会得到:Deep Research = Planning + ReAct + Multi-Tool Execution + Multi-hop Retrieval + Evidence Selection + Memory + Long-Horizon Control
应用上面的公式,我们可以把Deep Research拆解成一个个任务简化、标准化的agent实体。而其中的轴心,源自ReAct框架的“Think-Act-Observation”循环。
“Think”的角色,主要与任务的规划、信息的理解相关。例如,智能体系统应该如何设计任务执行路径,判断当前任务的执行状态,也是对LLM推理能力的主要应用位置。
“Act”的角色,就是直接执行think给出的任务,通常是外部工具的调用。
“Observation”的角色,就是收集Act执行任务所获的结果,可以进行一定的信息预处理,担起“上下文工程”的主要责任,产出输入给think的内容,推进下一次迭代。
对应Deep Research这个use case,think的角色可以处理query理解、任务拆解、执行路径规划、停止条件判断等问题。Act的角色可以处理各种工具的使用,例如各种检索模式、信息压缩、甚至输出答案,都可以被定义为一种Act(行为)。而Observation角色可以处理各种工具的反馈,包揽了reranker、事实检测、冲突检测等能力。不同的任务可以交给不同的“智能体”来执行。
这里的智能体的“角色”定义,其本质就是提示词的设计。通过高效的提示词工程和任务边界的定义,我们大大简化了LLM的“单任务负载”。有些任务,即便是7B的小模型,也可以完成的很好,从而有助于我们实现算力的合理分配。所谓agentic scaling law,其本质是任务的简化和智能体数量的增长,有助于整体任务完成精度的提升。从RAG到Deep Research的演化,其实就是信息处理过程中各个环节智能体化的过程。
04 Memory 智能体真正的“认知界面”
Deep Research相比于RAG,产品力产生了一次越迁,然而,Memory 是 Deep Research 和所有 agent 产品进一步满足“期望”的核心瓶颈。
随着任务的复杂化、智能体执行流程的扩展,检索的信息和模型生成的信息会充斥“上下文”。哪些信息需要保留、哪些信息需要删除、以及哪些智能体角色需要依赖哪些信息片段完成任务,成了新的问题。一个简单的ReAct框架已经不能应对如此庞杂的工作,上下文管理是智能体时代亟待解决的新课题。
为了正确、高效地完成任务,智能体需要:
1)记住任务状态
2)保留上下文知识
3)存储冲突/证据链
4)在不同阶段写入/读取记忆
5)对记忆进行归档和遗忘
换句话说:
Memory 是智能体的“工作记忆(working memory)”,也是未来 agent 技术的“数据库系统”。
其本质是模拟人的工作流程,实现了一个新的“动态”数据库。这个数据库的“动态”生命周期仅限定于当下正在执行的任务,需要有增删改查的能力。而一旦任务结束,这段“记忆”就会被整理归档,转化为一段静态的数据以备未来review。
05 从ROI视角看: 自主智能体技术未来产品化趋势
作为自主智能体产品的先锋,各家推出的Deep Research功能已经展现出令人惊艳的效果,虽然还有一些不足,但在解决“主动信息获取”的需求上,其产品力已经远超传统搜索引擎。用户不用再花费大量时间在“搜索——筛选——理解——再搜索”的循环中,编写一段明确的调研要求,Deep Research产品可以自动化地产出完整的分析报告。
虽然令人兴奋,但Deep Research距离一个合格的“产品”,还有不短的距离。目前Deep Research所展现的状态,更接近于“demo”。合格产品需要考虑的,永远是ROI。聊ROI,就需要分析产品需要哪些投入、又贡献了哪些价值?
首先,Deep Research 类型产品的核心价值基石是“信任”。作为一类以信息搜集与综合分析为主的智能体,其最终价值完全取决于输出结果的质量,包括:指令理解的准确性、论证的完整性、内容的深度与新颖度,以及最关键的——可信度。如果用户无法充分信任系统提供的分析,他们自然不会为订阅费用买单,更不会在工作决策中依赖这类工具。在未来的商业化路径里,无论是订阅模式还是广告收入,“可信体系”都是 Deep Research 产品的前提条件。
其次,用户高度关注的另一类因素是时间成本与稳定性。理想的 Deep Research 应具备可预期的执行速度,以及较低的失败率。然而在现实中,调研任务往往是长链路、多步骤的复杂流程,其系统稳定性比普通对话式 LLM 面临更高挑战。许多早期版本的 Deep Research 在运行过程中会出现中断、超时、工具调用失败等情况,严重影响用户体验。因此,构建稳定性与可预期性,是建立信任的另一个核心支柱。
然而,为了支撑高质量、高可信度的调研结果,Deep Research 的算力成本极高。此类系统需要多轮检索、多次调用模型、反复进行信息过滤、交叉验证与综合整理,每一步都伴随着大量 token 消耗。对服务商而言,这意味着显著的推理成本;对用户而言,即代表昂贵的使用费用。同时,Deep Research 要优化这些能力,还需要投入大量专业数据、工具集成数据、评测数据与系统级的 pipeline 训练,进一步推高了数据成本与工程成本。
因此,提升 Deep Research 的 ROI 成为行业的共同诉求。从商业逻辑上看,这只有两条路径:要么在用户价值端“进一步延伸价值”(例如深度集成到更多工作流、提供更高价值的可行动洞察),要么在成本端“系统性降低消耗”(例如模型小型化、智能体任务拆分、上下文压缩、工具调用优化、缓存与 Memory 设计等)。
从这一视角来看,以Deep Research 为代表的自主智能体产品,未来的发展方向已相当清晰:
构建更可信的系统、更稳定的执行、更高效的算力结构,以及更深入的行业集成,将成为提升 ROI 的关键驱动力。
06 下一阶段自主智能体的五大关键方向
第一、标准化
Agent 网络的“边”与“节点”双重标准化正在形成。
从 agent 交互图的视角看,标准化涉及两个维度:“边”与“节点”。
“边”的维度指的是数据如何在 agent 系统的各个组件之间流动。无论是检索结果、工具返回值、上下文片段、运行状态,最终都需要以统一的格式被读取、加工与传递。
在这一维度上,MCP(Model Context Protocol)正在成为事实上的标准化基础设施。有了 MCP,文件系统、应用 API、数据库、工具链等,都能被封装成统一的“上下文来源”。换句话说,任何可被接入 MCP 的资源,都可以成为 agent 的可用上下文,极大扩展了智能体可访问的世界边界。
“节点”的维度指的是 agent 网络中的执行单元。节点可以是一类工具(search、OCR、retrieval),也可以是一类模型(reranker、小模型特化器),甚至是一个独立的 agent。随着生态成熟,越来越多的节点功能会被标准化。例如,RAG 管线中的检索、排序、压缩等模块,都在逐渐形成通用接口;文生图、多模态理解、OCR(如 DeepSeek-OCR)等能力也会发展为可插拔的“标准节点”。
随着“边”与“节点”共同标准化,一个由多 agent、多工具、多模型构成的统一运行环境才真正有可能实现。
第二、深度集成
让智能体真正进入行业级工作流
目前 Deep Research 能覆盖的范围,仍停留在用户工作流中最前端的“信息获取与分析”阶段。例如,在互联网产品迭代中,它能协助完成 竞品研究,而 Cursor 的 agent 模式能协助 需求开发与单元测试。但是,一个完整的产品迭代链路还包括:
1)PRD(产品需求文档)产出
2)TD(技术设计文档)产出
3)集成测试
4)线上实验设计
5)数据分析
6)下一轮迭代 insight 发掘(Launch Review)
7)这些环节尚未被智能体系统有效接管。
原因很简单:LLM 缺乏“真实上下文”。
例如,在不了解代码库结构、性能瓶颈、历史架构决策的前提下,让 LLM 直接从 PRD 生成 TD 基本不可能。人类开发者依赖大量隐性知识,而当前 agent 尚未深入到这种“隐式上下文”的获取中。
因此,要让智能体在工作流中真正创造更高价值,关键在于:让 agent 触达行业系统的数据、流程、工具与历史沉淀,让它“站在职业者的视角”。
这不仅能扩展 agent 的任务边界,还能在不断的执行过程中,让 agent 获得更强的场景理解能力。当然,这一切的前提仍然是:MCP 与工具标准化的全面落地,否则深度集成无法实现。
第三、模型小型化
从“大模型万能”走向“技能原子化”的必然趋势
模型小型化不仅是为了降低算力成本,也是智能体标准化后自然形成的技术趋势。
随着任务边界被更清晰地切分,智能体系统中的模型分工会变得越来越细:大模型负责规划、推理、全局理解;小模型负责特定能力,例如排序、信息抽取、OCR、结构化解析
任务被简化、标准化后,小模型常常能在单项任务上达到更高的性价比。例如,Reranker 模型本质上就是一种“特异化的小 LM”,负责从大量召回候选中找到最相关的内容,对大模型的 context 需求进行有效压缩,在 RAG 系统中已经成为标配。
未来的 agent 系统会呈现这样的算力格局:大模型负责“脑”,小模型负责“手”。通过合理组合模型规模,实现整体 ROI 的最大化。
第四、合成数据
满足智能体训练需求的有效规模化路径
智能体系统的任务维度越复杂、工具种类越多、任务执行深度越深,对数据的需求就越呈指数级增长。这里的“数据”不仅包括文本样本,还包括:
1)工具调用示例
2)多步推理链
3)任务规划模板
4)决策分支结构
5)长链路任务轨迹(trajectory)
…
集成深度越深入,数据的匮乏性越高,这也是阻碍自主智能体加速推进的绊脚石。大型agent网络所需要的数据,仅依靠人工标注远远不够。行业实践已经证明:LLM + 少量人工监督形成的 human-in-the-loop 金字塔,是智能体数据构建的最优路径。
第五、Memory机制
将演化为“新型数据库系统”
随着智能体任务的复杂度上升,Memory 机制的重要性急剧增加。智能体必须回答一系列问题:
1)Memory 的存储结构如何设计?
2)如何管理短期记忆、中期记忆与长期记忆?
3)Memory 需要哪些 API?
4)如何平衡柔性(基于模型)和硬性(基于规则)的记忆机制?
5)哪些信息应写入 Memory?哪些不应?哪些应该逐步遗忘?
6)如何防止污染、错误性遗忘、冲突与冗余?
7)Memory 如何在任务结束后归档,沉淀行业知识库?
当前业界仍没有统一答案,但趋势非常明确:当 Memory 的结构化、索引化、生命周期管理体系逐步成熟后,它将成为类数据库的新物种。未来 Memory 很可能包含:
1)Working memory(任务状态记忆):存储当前上下文、动作执行、推理思考等短时信息。
2)Episodic memory(事件记忆):存储任务运行起点至今的规划路径、执行历史,每一次循环的反思总结。
3)Semantic memory(知识记忆):知识库、代码库等静态、问题知识储备(旧RAG那一套)
4)Procedural Memory :工具使用技能、策略模板
5)Value / Preference Memory : 个体偏好、组织偏好、安全对齐
从某种意义上讲,Memory 会成为智能体“一致性认知”的核心基础设施。
07
从智能体时代的真正拐点:
不在 Demo,而在基础设施
回顾当下的智能体技术热,我们能看到一个清晰的趋势:真正决定智能体未来形态的,不是某一次模型升级,也不是某个“更聪明的 Agent Demo”,而是底层基础设施的成型速度。当边与节点标准化(MCP)、工具深度集成、模型颗粒化、小模型生态与数据闭环逐步完善后,智能体的能力将从“任务助手”跃迁为“流程运行时(runtime)”。
届时,Deep Research 只会被视为智能体时代的第一个成熟用例,而非终点。
真正的行业拐点会出现在——当智能体能够动态维护上下文(记忆)、长时间执行任务、与企业系统稳定交互,并在连续学习中逐步形成“组织级智能”之时。
那将标志着智能体从“工具”进入“系统”的时代,也将是下一轮生产关系与生产力重构的起点。
那么,如何系统的去学习大模型LLM?
作为一名深耕行业的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。

👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!
更多推荐




所有评论(0)