AI Agent是一种无需持续人类干预的智能系统,由感知、决策和行动三部分构成。其核心是大语言模型加上记忆、规划和工具使用能力。Agent可分为单Agent、多Agent和混合模式,优势在于任务导向、自然交互和灵活适应,但存在可靠性和成本问题。企业和个人可通过AI Agent提升效率,主要应用于知识助手、数据分析、工具助手和自定义流程场景。


1、AI Agent的概念

AI Agent(智能体)是一种不需要持续人类干预的AI系统,可以基于环境和背景信息,自主分析各种问题,做出逻辑决策,并且在没有持续人类输入的情况下处理多种任务。

  • Perception(输入): AI Agent通过文字输入、传感器、摄像头、麦克风等等,建立起对外部世界或环境的感知。
  • Brain(大脑): 大脑是AI Agent最重要的部分,包括信息存储、记忆、知识库、规划决策系统。
  • Action(行动): 基于Brain给出的决策进行下一步行动,主要包括对外部工具的API 调用,或者对物理控制组件的信号输出。

2、AI Agent的构成

目前在大模型热潮的背景下,媒体上所讲的AI Agent,更严格意义上来说应该叫LLM Agent,因为整个Agent最重要的控制中枢Brain,其底层是LLM大模型。AI Agent = 大语言模型+记忆+规划+工具使用

2.1、AI Agent - Planning

Planning是整个AI Agent中最核心最关键的部分,Agent会把大型任务分解为子任务,并规划执行任务的流程。同时Agent还会对任务执行的过程进行思考和反思,从而决定是继续执行任务,还是判断任务完结并终止运行。

子任务分解:

1、思维链(COT)推理

思维链是指一系列有逻辑关系的思考步骤,形成一个完整的思考过程。把推导过程写出来提供给大模型,大模型就可以做相对复杂的推理任务。

2、 思维树TOT是对思维链CoT的进一步扩展,在思维链的每一步,推理出多个分支,拓扑展开成一棵思维树。

3、COT-SC一个CoT出现错误的概率比较大,我们可以让Agent进行发散,尝试通过多种思路来解决问题,然后投票选择出最佳答案4、思维图GOT 思维树ToT 的方式也存在一些缺陷,对于需要分解后再整合的问题,比如排序问题,排序需要分解和排序,然后再merge,可以引入思维图GOT来解决反思和完善:****1、ReAct全称是Reasoning-Action,这种模式是让大模型先进行思考,思考完再进行行动,然后根据行动的结果再进行观察,再进行思考,这样一步一步循环下去。2、Reflexion

是一个为 Agent 配备了动态记忆和自我反思能力的框架,能够提高 Agent 的推理能力。Reflexion 具有标准的强化学习机制,其奖励模型提供了一个简单的二进制奖励机制,执行空间则遵循 ReAct 中的设置

3、Basic Reflection

本质是利用左右互搏来实现协同进化。比如设计一个帮助用户完成市场调研报告的Agent系统,其中Generator负责输出,Reflector负责检查,通过两个角色之间不断的协同,来实现整个任务的反思和完善

2.2、AI Agent - Memory

感官记忆是对原始输入的嵌入表征的理解,包括文本、图像或其他模式,比如图片的纹理和风格。短时记忆即上下文学习,由于受到Transformer上下文窗口长度的限制,它是短暂的和有限的。长期记忆则可对应为外部的向量数据存储,Agent 可在查询时引用,并可通过快速检索进行访问。

感官记忆: 这是记忆的最早阶段,能够在原始刺激结束后保留对感官信息(视觉、听觉等)的印象,通常只能持续几秒钟。包括图标记忆、回声记忆和触觉记忆三种类型。

短期记忆: 短时记忆(STM)或工作记忆: 指的是我们当前意识到的信息,或者在学习和推理等复杂认知任务中所需要的信息。

长期记忆: 长时记忆指的是能够存储很长时间,从几天到几十年不等的信息,它的存储容量基本上是无限的。长时记忆又包括显性记忆和隐性记忆

2.3、AI Agent - Tool

为AI Agent配备工具API,比如计算器、搜索工具、代码执行器、数据库查询等工具,AI Agent就可以和物理世界交互,来解决更加实际的问题。

1、TALM&Toolformer

TALM和ToolFormer都是对 LLM 进行微调,以学习使用外部工具API。该数据集根据新增的 API 调用注释是否能够提高模型输出的质量而进行扩展。

2、HuggingGPTHuggingGPT是一个使用ChatGPT作为任务规划器的框架,ChatGPT 可根据模型的描述选择 HuggingFace 平台中可用的模型,并根据执行结果总结响应结果

3、API Bank它包含 53 种常用的 API 工具、完整的工具增强的 LLM 工作流程。API 的选择相当多样化,包括搜索引擎、计算器、日历查询、智能家居控制、日程管理、健康数据管理、账户认证工作流程等

4、Function Calling通过API调用LLM时,调用方可以描述函数,包括函数的功能描述、请求参数说明、响应参数说明,让LLM根据用户的输入,合适地选择调用哪个函数

3、AI Agent的分类

按工作模式分类:

  • 单Agent:即通过单一的Agent来解决问题,不需要与其他Agent进行交互
  • 多Agent:这种模式侧重于多个Agent之间的互动和信息共享,多个Agent协同工作,相互交流信息,共同完成更复杂的任务或目标
  • 混合Agent:这种模式中,Agent系统和人类共同参与决策过程,交互合作完成任务,强调的是人机协作的重要性和互补性

按决策方式分类

  • 简单反射型Agent:基于“如果-那么”规则直接响应当的环境状态,不存储任何历史数据或状态。
  • 基于模型的反射型Agent:拥有环境的内部模型,能够基于对环境的理解和过去的经验做出更复杂的决策。
  • 基于目标的Agent:这类Agent的决策方式,从根本上不同于前面描述的条件-动作规则,因为它涉及对未来的考虑。
  • 基于效用的Agent:基于效用的Agent旨在最大化效用功能或价值,精心挑选具有最高预期效用的行动,以衡量结果的有利程度
  • 学习型Agent:这些Agent设计用于在未知环境中运行,从自己的经历中学习,并随着时间的推移调整自己的行动。
  • 基于逻辑的Agent:通常基于一系列逻辑规则,通过推理来解决问题,适合需要高度逻辑判断的场景

4、AI Agent的产生原因

从技术发展的局限性考虑:

LLM大模型出来之前

规则方法:把复杂的自然语言问题转化为规则符号,往往 需要行业专家的介入,缺乏容错能力,一个小的错误就可 能导致整个系统的失败

强化学习方法:构建策略网络或奖励模型,需要大量样本 进行训练,但是收集数据往往成本很高,所以这种方法可 行性不大,很难推广开来

LLM大模型出来之后

LLM大模型:LLM大语言模型在逻辑推理、工具应用、策 略规划、指令遵循等方面都有非常不错的表现,工程师们 开始意识到,将大语言模型作为Agent应用的核心认知系 统,可以极大的提高Agent的规划能力

从人与AI互动的角度考虑

  • Embedding模式:人类完成大多数工作,AI只是作为某些单点能力,嵌入在人类完成工作的某些节点
  • Copilot模式:AI作为人类的坚实助手,随时辅助人类的工作,比如Notion AI、微软Copilot
  • Agent模式:人类只是提出任务和目标,然后由AI自主完成大多数工作

5、AI Agent的优势和局限

优势:

  • 以任务为导向:脱离了传统Chatbot闲聊的交互模式,自动进行后续的推理和行动,可以大幅提升工作效率。
  • 自然的交互方式:由于AI Agent本身以LLM大语言模型为底座,固有的语言理解和语言生成能力,确保了自然无缝的用户交互。
  • 进化的决策能力:虽然目前LLM大模型的决策能力还远远不如人类,但这项能力在持续不断的进化。
  • 灵活的适应性:在RAG和Function Calling等技术的支撑下,AIAgent可以快速适应各种不同的行业和应用场景

局限:

  • 可靠性不足:LLM大模型容易出现幻觉和不一致性,将多个步骤连起来会进一步加剧可靠性问题,从而难以获得用户信任,这会大大限制AI Agent在一些Critical场景下的应用。
  • 法律问题:对于企业对外输出的AI Agent,企业可能要对其产生的错误负责。比如,最近一位客户因为被加拿大航空公司的聊天机器人误导而延误航班,最终由加拿大航空予以赔偿。
  • 性能和成本:GPT-4、Gemini-1.5在推理和function calling的表现不错,但仍然较慢且成本高,特别是需要进行循环调用和自动重试时

6、AI Agent对企业和个人的意义

未来可能只有两种人,驱动AI Agent的人,和被AI Agent驱动的人

  1. 企业用户通常面临更加复杂的业务需求,有更明确的业务场景、业务逻辑以及更多行业数据和行业知识的积累,非常适配 Agent 自主性、决策与执行、工具使用等特点,这让企业端领域成为 Agent 施展能力的绝佳舞台。
  2. AI Agent可以用工程化的思想对抗个体工作的不确定性,过往的SOP、PDCA、OKR等管理方法可以与AI Agent进行适配,完成管理工作的科学升级。
  3. 个人作为企业端的工作者,AI Agent对个人在工作效率上带来的提升,也是显而易见的。利用AI Agent武装自己,让工作和学习效率更上一级台阶。

7、AI Agent的主要应用类型

1. 企业知识助手在企业应用中,通过“外挂”私有知识库来扩充大模型的知识储备,以提供基于自然语言的、对话式的企业私有知识访问

2. 数据分析助手在企业应用中通过将自然语言转换成数据分析的语言或代码,比如对API的调用、对数据库的访问、甚至编写数据分析代码,来达到获取数据、分析数据与可视化结果的目的。

3. 应用/工具助手把自然语言转换成对企业应用或者互联网开放API调用,比如财务分析、市场研究、信息检索等等4. 自定义流程助手由于企业知识、应用、业务需求的千差万别,以及大模型自身的不确定性,Agents项目要强调可控性的原因,来让AI按照人类确认过的工作流程来完成任务。
读者福利大放送:如果你对大模型感兴趣,想更加深入的学习大模型**,那么这份精心整理的大模型学习资料,绝对能帮你少走弯路、快速入门**

如果你是零基础小白,别担心——大模型入门真的没那么难,你完全可以学得会

👉 不用你懂任何算法和数学知识,公式推导、复杂原理这些都不用操心;
👉 也不挑电脑配置,普通家用电脑完全能 hold 住,不用额外花钱升级设备;
👉 更不用你提前学 Python 之类的编程语言,零基础照样能上手。

你要做的特别简单:跟着我的讲解走,照着教程里的步骤一步步操作就行。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

现在这份资料免费分享给大家,有需要的小伙伴,直接VX扫描下方二维码就能领取啦😝↓↓↓
在这里插入图片描述

为什么要学习大模型?

数据显示,2023 年我国大模型相关人才缺口已突破百万,这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代,产业对专业人才的需求将呈爆发式增长,据预测,到 2025 年这一缺口将急剧扩大至 400 万!!
在这里插入图片描述

大模型学习路线汇总

整体的学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战,跟着学习路线一步步打卡,小白也能轻松学会!
在这里插入图片描述

大模型实战项目&配套源码

光学理论可不够,这套学习资料还包含了丰富的实战案例,让你在实战中检验成果巩固所学知识
在这里插入图片描述

大模型学习必看书籍PDF

我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

大模型超全面试题汇总

在面试过程中可能遇到的问题,我都给大家汇总好了,能让你们在面试中游刃有余
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
👉获取方式

😝有需要的小伙伴,可以保存图片到VX扫描下方二维码免费领取【保证100%免费】
在这里插入图片描述
相信我,这套大模型系统教程将会是全网最齐全 最适合零基础的!!

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐