【AI编程】微软GraphRAG全解析:小白也能上手的AI知识图谱构建神器! GraphRAG是微
软开源的结构化分层RAG方法,通过构建实体知识图和预生成社区摘要,解决传统RAG无法处理全局性问题。它整合结构化与非结构化知识,利用图结构表达知识节点及关系。工作流程包括索引(文本分块、图提取、图增强、社区总结)和查询(本地搜索和全局搜索)。GraphRAG能更好地处理复杂问题,但面临计算资源需求高、长距离依赖和过平滑等挑战。
一.什么是GraphRAG
GraphRAG 是在 7 月 2 日由微软开源的一种结构化、分层的 RAG 方法。通过构建实体知识图和预生成社区摘要(community summary)的方式,能够更好地处理和回答全局性的问题。它利用图结构表达知识节点及其关系,将结构化知识(如知识图谱)与非结构化知识(如文档、网页)整合到生成任务中 ,通过知识检索获取相关信息后,利用图的连接性来扩展语义信息,并最终生成与上下文高度相关的答案 。
二.和传统rag的区别
在实施过程中还面临歧义查询或需要深入理解上下文的查询方面的困难。传统RAG在设计上是将文档分块以便进行检索,然而这种方法忽略了这些块之间的上下文关系。如果意义或上下文跨越多个块,就很难准确回答复杂的问题。全局问题和局部片段之间的匹配度低。

例子:传统rag无法推理出出现了几次西瓜

三.知识图谱的引入
知识图谱(Knowledge Graph)是一种以结构化形式描述现实世界实体及其关系的技术,通过将数据组织为“节点-边-节点”的三元组,构建出语义关联的网络。
核心组成:
实体(Entities):表示具体或抽象的事物,如“李白”“北京”。
关系(Relationships):连接实体的边,定义交互方式,如“出生于”“首都”。
属性(Attributes):描述实体的特征,如“李白-字太白”“北京-人口2170万”。
本体(Ontology):领域内的概念体系与关系约束,如“城市-国家”间的“首都”关系。

知识图谱构建核心:将非结构化文本转化为结构化知识网络**。**
GraphRAG会利用实体关系图、社区层级结构,以及它们的sumamry、source chunk等各种维度的信息,以向量和结构化的方式进行存储。Query分两种类型,分别为Local Search和Global Search。
四.工作原理
GraphRAG 建立在微软之前使用图机器学习的研究和工具的基础上。GraphRAG 流程的基本步骤包含索引和查询两部分。

索引
l将输入语料库切分为一系列 TextUnit,这些 TextUnit 作为其余过程的可分析单元,并在我们的输出中提供细粒度的参考。
l使用 LLM 从 TextUnits 中提取所有实体、关系和关键声明。
l使用莱顿算法对图表进行层次聚类。
l自下而上地生成每个社区及其组成部分的摘要。这有助于整体理解数据集。
查询
在查询时,这些结构用于在回答问题时为 LLM 上下文窗口提供材料。主要查询模式包括:
l利用社区摘要对语料库的整体问题进行全局搜索推理。
l本地搜索通过向邻居和相关概念展开来推理特定实体。
步骤 1:处理文本块
将输入文档转换为 TextUnits。使用文本分段技术将文档进行分块,文本块还作为实体和关系的来源被提取的图引用,便于追溯到原始文本。

步骤 2:图提取
在此阶段,分析每个文本单元并提取图元素:实体、关系和协变量。

步骤 3:图增强
现在我们有了可用的实体和关系图,我们希望了解它们的社区结构,并用其他信息扩充该图。这分为两个步骤:社区检测和图嵌入。这为我们提供了显式(社区)和隐式(嵌入)方法来理解图的拓扑结构。

-
社区检测
在此步骤中,我们使用分层莱顿算法生成实体社区的层次结构。此方法将对我们的图应用递归社区聚类,直到达到社区规模阈值。这将使我们能够了解图的社区结构,并提供一种在不同粒度级别上导航和总结图的方法。
-
图嵌入
在此步骤中,我们使用 Node2Vec 算法生成图中节点的向量表示。这将使我们能够理解图的隐式结构,并提供额外的向量空间,以便在查询阶段搜索相关概念。
步骤 4:社区总结
我们希望基于社区数据并为每个社区生成报告。这让我们可以从多个粒度点对图表有一个高层次的了解。例如,如果社区 A 是顶级社区,我们将获得有关整个图表的报告。如果社区是较低级别的,我们将获得有关本地集群的报告。
-
生成社区报告
在此步骤中,我们使用 LLM 生成每个社区的摘要。这将使我们能够了解每个社区中包含的独特信息,并从高级或低级角度提供对图表的范围理解。这些报告包含执行概述,并引用社区子结构中的关键实体、关系和声明
-
总结社区报告
在此步骤中,每个社区报告都会通过 LLM 进行总结,以供摘要使用。
-
社区嵌入
在此步骤中,我们通过生成社区报告、社区报告摘要和社区报告标题的文本嵌入来生成我们社区的向量表示。
步骤 5:文件处理
在工作流程的这个阶段,开始处理文档图谱核心步骤包括文本块图谱的创建和文档的向量化表示。将每个文档链接到第一阶段创建的文本单元,创建文本块之间的上下文关系。这使我们能够了解哪些文档与哪些文本单元相关。使用文档切片的平均嵌入来生成文档的向量表示,使我们能够理解文档之间的隐式关系,并帮助我们生成文档的网络表示。

步骤 6:网络可视化
实体关系图和文档图。
查询过程深入解析
- 本地搜索:
基于实体的推理。本地搜索方法通过将LLM 提取的知识图谱中的相关数据与原始文档的文本块相结合来生成答案。此方法适用于需要了解文档中提到的特定实体的问题。

从知识图谱中识别出一组与用户输入在语义上相关的实体。这些实体可作为知识图谱的访问点,从而提取更多相关详细信息,例如连接实体、关系、实体协变量和社区报告。此外,它还会从与已识别实体相关的原始输入文档中提取相关文本块。然后对这些候选数据源进行优先排序和筛选,以适应预定义大小的单个上下文窗口,该窗口用于生成对用户查询的响应。
- 全局搜索:
全局搜索方法通过以 map-reduce 方式搜索所有 AI 生成的社区报告来生成答案。这是一种资源密集型方法,但通常可以很好地回答需要了解整个数据集的问题(例如,本笔记本中提到的药材最重要的价值是什么?)。

上图是一个经典的 MapReduce 原理图结构,包含以下主要步骤(包含全局 GraphRAG 流程的简单注解)。
- 将 input 的文件拆分成 splits,由于测试用的文件较小,所以每个文件作为一个 split,并将文件按行分割。这一步由 mapreduce 框架自动完成。(通过向量检索语义相关的社区)
- 将分割好的文件交给用户定义的 map 方法进行处理,生成<key,value>对。(生成社区和用户问题相关程度的分值,和社区节点本身组成 MAP)
- 得到 map 方法输出的<key,value>对后,shuffle 过程,会把相同 key 值相同的放到一起。(社区结果基于与问题的相关度做 Shuffle,可以理解成分组)
- Reduce 过程,把 key 值相同 value 值累加,得到新的<key,value>对,并作为 word count 的输出结果。(组内综合打分后排序过滤 0 分的结果,然后由 LLM 生成回复)
五.样例
基于文本《林黛玉初进荣国府》构建图谱,解析 Graph RAG 的技术原理。
- 5.1 构建索引第一步:拆分文本块(来源文档→ 文本块)
先把文档 token 化,按照 token 数进行切分。具体 chunk 规格可以自定义更改。
- 5.2 解析出元素实例(文本块→ 元素实例)-依赖LLM

- 5.3 构建索引第三步:总结元素摘要–依赖LLM
- 5.4 检测出图社区(community)(元素摘要 → 图社区)
- 5.5 构建索引第五步:总结社区摘要(图社区 → 社区摘要)—通过 LLM 完成

-
5.6 索引查询:全局搜索(社区摘要 → 社区答案 → 全局答案)
将社区摘要转化为回答用户查询的全局答案。该过程包括准备社区摘要、生成中间答案以及将最有帮助的答案整合成全局答案。社区摘要首先被随机打乱和分块,然后通过映射步骤生成中间答案,再通过归约步骤生成最终的全局答案。
-
5.7索引查询:本地搜索(社区摘要 → 社区答案 → 全局答案)
系统会将所有实体的描述进行 embedding,也就是转换成向量存储。当执行本地搜索时,系统会将查询文本同样转换成向量表示。通过计算相似性,找到与查询最接近的实体。找到相关实体后,系统会通过图遍历来从这些实体出发,进一步获取相关的关系(如实体之间的连接)和社区。
六.GraphRAG的局限性
- 计算资源需求高:处理大规模图数据需要大量的计算资源。特别是在训练过程中,需要存储和处理大量的节点特征以及它们之间的边信息,这可能导致内存和计算能力的瓶颈。
- 长距离依赖问题:虽然注意力机制可以在一定程度上缓解这一问题,但是图中的长距离依赖关系仍然难以完全捕捉到,特别是对于那些跨越多个跳数(hop)的间接关系。
- 过平滑(Over-smoothing):随着图神经网络层数的增加,节点表示可能会变得越来越相似,导致难以区分邻近节点。这对于分类任务来说尤其不利,因为模型可能无法正确地将不同类别的节点区分开来。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

更多推荐




所有评论(0)