Agentic时代,我们需要什么样的数据工程(一)
从“Copilot”到“Agent”,我们正站在一个新时代的黎明。在这个由AI Agent驱动的未来,AI将不再仅仅是人类的僚机或被动的工具,而是能够深度融入企业核心业务流程、自主感知、决策并执行复杂任务的“数字员工”。然而,Agent的智能水平和效率表现,完全取决于它能获取和理解的数据质量。通用大模型是基于海量互联网公开数据训练出的“通才”,知识广博但缺乏行业深度;若要解决企业特定的、高价值的业
从“Copilot”到“Agent”,我们正站在一个新时代的黎明。在这个由AI Agent驱动的未来,AI将不再仅仅是人类的僚机或被动的工具,而是能够深度融入企业核心业务流程、自主感知、决策并执行复杂任务的“数字员工”。然而,Agent的智能水平和效率表现,完全取决于它能获取和理解的数据质量。通用大模型是基于海量互联网公开数据训练出的“通才”,知识广博但缺乏行业深度;若要解决企业特定的、高价值的业务问题,则必须依赖企业内部日积月累的、充满独特业务洞见的私域数据。
这便引出了一个直击要害的核心问题:我们沿用至今、主要为BI报表和人类分析师服务的数据工程体系,其设计理念和技术架构,能否满足这些高阶AI Agent对数据广度、深度、实时性和准确性的极致需求?如果答案是否定的,那么未来的数据工程又该演化成何种形态?
我们认为要想成功驾驭这一变革,我们必须对数据根基进行彻底的重塑,迈向一个统一、智能、超融合的全新平台。本文将深入剖析这一挑战,并为Agentic时代的数据工程勾勒一幅新的蓝图。
Agentic革命:超越生成,是什么让AI具备“智能体”特性
Agentic AI,或称智能体AI,是一个能够在有限的人工监督下完成特定目标的系统 。它超越了生成式AI的内容创作范畴,进入了自主行动和任务执行的全新领域 。其核心“智能体”特性体现在以下几个关键维度:
-
自主性:这是Agentic AI最核心的特征,即在没有持续人类监督的情况下,自主执行复杂、多步骤任务的能力 。它能够设定长期目标,并持续追踪进展。
-
推理与规划:智能体能够将一个高层次的、模糊的目标(例如,“为我规划一次日本之旅”)分解成一系列具体的、可执行的步骤(搜索航班、预订酒店、安排行程等)。
-
感知与环境理解:智能体通过传感器、API、数据库或用户交互等方式,从其所处的环境中持续收集和解读数据,以形成对当前状态的实时、全面的认知 。
-
行动与工具使用:智能体不仅能思考,更能行动。它通过调用外部系统、API和各类软件工具来执行其规划好的任务。这些工具构成了智能体技术栈中的“执行器”层 。
-
适应与学习:智能体能够根据行动的反馈和结果,持续地优化其策略和决策模型,这使其非常适合在动态多变的环境中工作 。
而且,单个智能体并非孤立存在。先进的Agentic系统通过一个“编排层”进行协同工作。在这个层次中,一个“元智能体”或监督者可以协调多个具备不同专业能力的智能体,共同完成一个极其复杂的宏大目标,从而形成一个多智能体系统。这预示着企业可以组成由AI构成的“虚拟员工队伍”的未来。
Agentic时代为什么传统数据工程已力不从心?
Agentic AI所描绘的自主企业愿景,其成败悬于一线——即智能体能否访问并理解高质量、实时、全面的数据。然而,绝大多数企业现存的、陈旧的数据技术栈,已成为实现这一愿景的根本瓶颈。Gartner的报告也指出,30%生成式AI项目在PoC阶段后便宣告失败,其主要原因正是数据质量、风险管理或成本问题。
其核心的数据挑战有以下六点:
再次出现的数据孤岛问题
智能体的“感知”能力,完全依赖于其数据访问能力。在大多数企业中,数据被严重割裂,分散在数十个甚至上百个独立的系统中:关系型数据库、NoSQL数据库、各类SaaS应用(如飞书、企业微信等)、云对象存储以及本地文件系统等。即便是一些已经通过构建所谓“数据中台”来打破业务系统烟囱的企业,其整合的重点也大多集中在结构化数据上。然而,对于Agentic AI至关重要的海量多模态非结构化数据——文档、图片、音视频等,其来源依旧分散,随意散落在内部通讯工具、个人云盘和各个业务系统的附件里,缺乏统一管理,并未被有效整合进统一的视图中。这种碎片化对智能体而言是致命的。它无法形成一个完整、连贯的环境认知,因而无法做出最优决策。
多模态数据处理加工的挑战
数十年来,传统数据工程的核心一直围绕着结构化和半结构化数据展开。然而,企业中80%到90%的数据都是非结构化的——包括海量的文本文档、图片、音频、视频和PDF文件。生成式AI,以及作为其延伸的Agentic AI,其革命性之一就在于它们能够理解并释放这部分“暗数据”的巨大价值。
问题在于,现有的传统数据管道并非为此而生。它们普遍缺乏处理多样化非结构化数据的连接器、解析能力和存储模型。将这些格式各异的数据进行整合,是一项巨大的技术挑战 ,往往需要为每一种数据类型构建复杂、脆弱且难以维护的定制化处理流程。
反馈及评估链路的缺失
Agentic AI的核心特质之一是其从交互中学习和适应的能力。一个真正智能的系统,必须能够评估其行动的后果,并利用这些反馈来持续优化未来的决策 。这要求数据基础设施不仅要提供数据,还要能构建一个完整的、闭环的反馈链路。
然而,传统的数据工程,尤其是以ETL/ELT为核心的数据管道,其设计理念是单向的:数据从源系统被抽取、转换,最终加载到目标仓库或数据湖中,以供下游分析 。这些管道擅长“告知”系统当前的状态,但它们缺乏捕获和处理“行动结果”的机制。当一个智能体根据管道提供的数据执行了某个操作(例如,调整了营销活动的预算),这个操作所产生的结果(例如,点击率的变化)通常不会被系统性地回传到数据管道中,形成一个可供学习的闭环。这种单向流动的数据架构,从根本上阻碍了智能体实现其最重要的能力之一——通过经验进行迭代和自我完善,使其无法从成功和失败中吸取教训。
从demo到production的规模化瓶颈
构建一个处理几十份文档的RAG的demo相对简单,但这与在真实生产环境中规模化部署Agentic AI系统之间存在着巨大的鸿沟。在大型企业中,系统需要处理的往往是TB甚至PB级别的数据,并进行复杂的模型训练与微调,以及Agent工程。这种规模化带来了严峻的挑战:
-
基础设施的压力:支撑如此庞大的数据量和计算需求,需要大量高性能的CPU和GPU算力、大容量存储以及高带宽、低延迟的网络架构 。任何在原型阶段看似可行的方案,在规模化部署时都可能因基础设施瓶颈而失败。
-
数据管道的脆弱性:随着数据源和数据量的指数级增长,手动构建和维护的数据管道变得极其脆弱和复杂。当企业从实验阶段转向工业化、可扩展的交付模式时,僵化的数据管道将成为敏捷迭代和可靠运营的主要障碍。
数据安全管理和治理挑战
当智能体需要访问企业内部海量的、来源各异的新型数据(尤其是文档、音视频等多模态数据)时,传统的安全和权限管理体系便显得力不从心。智能体的自主性使其能够跨越系统边界执行任务,但这也使其成为一个潜在的巨大安全风险点。一个没有受到严格、精细化权限控制的智能体,可能会在执行任务时访问其权限之外的敏感数据,例如财务报表、员工个人信息或核心商业机密。更危险的是,它在调用外部工具或API时,可能会无意中将这些内部敏感信息泄露给第三方,造成无法挽回的损失和合规风险。因此,为应对这些新型数据源带来的挑战,建立强大的数据安全和权限管理体系,不再是锦上添花的“功能”,而是保障系统安全、合规运行的“生存必需品”。
技术栈的复杂性与人才缺失
构建一个面向Agentic AI的现代化数据管道,本质上是一个极其复杂的系统集成工程。企业需要将一系列独立的“点解决方案”粘合在一起:用于数据接入的连接器、用于多模态数据解析的工具、用于向量化的Embedding模型、用于存储的多种数据库(关系型、NoSQL、向量数据库),以及用于任务调度的编排框架和用于监控的系统。这种拼凑式的“RAG技术栈”不仅维护成本高昂,而且极其脆弱。
这一挑战的核心在于,绝大多数公司并不具备自建并维护如此复杂的全链路数据管道所需的深厚研发能力 。这需要一支跨越数据工程、AI工程和MLOps等多个领域的专业团队,持续投入大量资源进行开发、集成和迭代 。对于绝大多数非科技巨头企业而言,这是一个难以逾越的能力鸿沟,严重阻碍了Agentic AI从原型验证走向规模化生产的进程 。
更多推荐
所有评论(0)