【AI编程时代】：RAG技术详解

RAG（Retrieval-Augmented Generation）是一种结合信息检索与文本生成的技术框架，通过动态检索外部知识库来增强大语言模型的输出准确性和事实性。RAG技术通过结合检索与生成，有效解决了传统大语言模型的知识更新滞后和幻觉问题。Spring AI等框架提供了Java生态下实现RAG系统的基础组件，开发者可以基于此构建企业级的知识增强应用。根据业务需求设计合适的分块策略选择合适

晔子yy

1722人浏览 · 2026-02-27 15:25:04

晔子yy · 2026-02-27 15:25:04 发布

一、RAG的基本概念

核心定义

RAG（Retrieval-Augmented Generation）是一种结合信息检索与文本生成的技术框架，通过动态检索外部知识库来增强大语言模型的输出准确性和事实性。

核心组件

检索模块：负责从知识库中查找相关文档片段
生成模块：基于检索结果生成最终回答
知识库：结构化的外部知识存储

二、RAG的工作流程

RAG工作流程是一个精心设计的管道系统，包含六个核心阶段：

用户查询 → 预处理 → 检索 → 重排序 → 上下文构建 → 生成 → 后处理 → 最终答案

查询预处理

核心功能

对用户原始查询进行清洗、分析和优化，为后续检索做准备。

关键技术实现

public class QueryPreprocessor {
    public ProcessedQuery preprocess(String query) {
        // 1. 文本清洗
        String cleaned = cleanText(query);
        
        // 2. 意图识别
        QueryIntent intent = identifyIntent(cleaned);
        
        // 3. 查询扩展
        List<String> expanded = expandQuery(cleaned);
        
        return new ProcessedQuery(cleaned, intent, expanded);
    }
}

主要处理步骤

文本规范化：去除特殊字符、统一大小写、标准化格式
意图识别：分析查询类型（问答、定义、比较等）
查询扩展：添加同义词、相关术语
查询分解：复杂查询拆分为子查询

检索模块

核心功能

对用户的提问进行向量化检索，在检索阶段返回匹配度最高的前k个数据，采用不同的检索策略配合可以降低幻觉出现率

检索策略

向量检索：将查询和文档编码为向量，计算相似度
混合检索：结合向量搜索与传统关键词搜索（BM25）
多路检索：并行执行多种检索策略，合并结果

索引优化

public List<Document> hybridRetrieve(String query, int topK) {
    // 向量检索
    List<Document> vectorResults = vectorSearch(query, topK);
    
    // 关键词检索
    List<Document> keywordResults = keywordSearch(query, topK);
    
    // 结果融合与去重
    return mergeAndDeduplicate(vectorResults, keywordResults);
}

上下文构建

对于检索生成后的结果，我们一般不能直接作为prompt传给大模型，此时我们可以采用构建上下文的方式进行优化

上下文组织策略

窗口管理：控制输入token数量
优先级排序：相关度高的文档放在前面
格式标准化：统一文档表示格式

提示工程

public String buildPrompt(String context, String query) {
    return String.format("""
        基于以下上下文回答问题：
        
        上下文：
        %s
        
        问题：%s
        
        回答要求：
        1. 基于上下文准确回答
        2. 如信息不足请说明
        3. 引用相关文档编号
        """, context, query);
}

生成模块

生成策略

标准生成：基于构建的上下文直接生成答案
多步生成：先提取信息，再推理，最后合成答案
自我验证：生成多个候选答案，选择最一致的结果

温度控制

低温度（0.1-0.3）：确定性回答，适合事实性查询
高温度（0.7-1.0）：创造性回答，适合开放性问题

反馈优化

通过评估输出质量，调整检索策略和模型参数

处理步骤

1.答案格式化：添加结构、标题、列表

2.引用标注：标明信息来源

3.置信度计算：评估答案可靠性

4.缓存管理：存储高频查询结果

质量评估

public double evaluateAnswer(String answer, List<Document> sources) {
    // 计算多个质量指标
    double relevance = calculateRelevance(answer, sources);
    double consistency = checkInternalConsistency(answer);
    double completeness = evaluateCompleteness(answer);
    
    return 0.4 * relevance + 0.3 * consistency + 0.3 * completeness;
}

三、RAG关键技术实现

检索模块设计

向量化方法

核心思想：将文本转换为数值向量，便于相似度计算

public class TextEmbeddingService {
    
    // 使用Sentence-BERT模型生成嵌入向量
    public float[] generateEmbedding(String text) {
        // 实际应用中会调用预训练模型
        // 这里简化为返回固定维度向量
        return embeddingModel.encode(text);
    }
    
    // 批量向量化提高效率
    public List<float[]> batchEmbed(List<String> texts) {
        return texts.stream()
            .map(this::generateEmbedding)
            .toList();
    }
}

技术要点：

选择适合领域的嵌入模型
向量维度通常为384、768或1024
考虑语义相似度而非字面匹配

相似度计算

常用方法：

余弦相似度：最常用，衡量向量方向相似度
点积相似度：计算简单，适合归一化后的向量
欧氏距离：衡量向量空间距离

public class SimilarityCalculator {
    // 余弦相似度计算
    public double cosineSimilarity(float[] vec1, float[] vec2) {
        double dot = 0.0, norm1 = 0.0, norm2 = 0.0;
        
        for (int i = 0; i < vec1.length; i++) {
            dot += vec1[i] * vec2[i];
            norm1 += vec1[i] * vec1[i];
            norm2 += vec2[i] * vec2[i];
        }
        
        return dot / (Math.sqrt(norm1) * Math.sqrt(norm2));
    }
}

生成模块优化

除了上述所说的对基础模板进行上下文构建外，我们还可以从其他方面入手

高级提示技巧

Few-shot提示：提供示例答案引导模型
思维链提示：要求模型展示推理过程
系统指令：设定回答风格和限制

模型微调策略

针对性微调方法：

领域适应：使用领域数据继续训练
指令微调：优化模型遵循指令的能力
偏好对齐：基于人类反馈强化学习

@Configuration
public class GenerationConfig {
    
    @Bean
    public ChatOptions generationOptions() {
        return ChatOptions.builder()
            .temperature(0.1)        // 低温度提高确定性
            .maxTokens(500)          // 限制回答长度
            .topP(0.9)               // 核采样参数
            .frequencyPenalty(0.1)   // 减少重复
            .presencePenalty(0.1)    // 鼓励多样性
            .build();
    }
}