LangChain4j 高级特性：QueryTransformer 与问题增强实战

linge_sun

206人浏览 · 2026-06-02 12:24:01

linge_sun · 2026-06-02 12:24:01 发布

1. 引言

在上一篇《LangChain4j Embedding与向量数据库实战：构建智能客服知识库》中，我们学习了如何利用 LangChain4j 将文档向量化并存储到向量数据库，从而构建一个基础的 RAG（检索增强生成）应用。然而，在实际生产环境中，用户的问题往往复杂多变，直接检索可能无法命中最佳答案。

本文将深入 LangChain4j 的高级组件：QueryTransformer（查询转换器）、QueryRouter（查询路由器） 和 ContentAggregator（内容聚合器）。这些组件构成了 LangChain4j 的“问题增强”体系，能够显著提升大模型回答的准确性和相关性。

2. 为什么需要问题增强？

大模型虽然使用门槛极低，会打字就能聊天，但要想在业务中发挥其全部能力，还需要一些精细化的工程工作。用户原始提问通常存在以下问题：

表述模糊：例如用户问“它怎么用？”，但“它”指代不明。
缺乏上下文：多轮对话中，用户可能只说“那第二个方案呢？”，需要结合历史才能理解。
关键词不匹配：用户用口语化表达，而知识库中的文档使用专业术语。

LangChain4j 的 QueryTransformer、QueryRouter 和 ContentAggregator 正是为了解决这些问题而设计的。

3. QueryTransformer：智能改写用户问题

QueryTransformer 的核心作用是在将用户问题送入检索系统之前，对其进行改写和优化，使其更易于被检索系统理解和匹配。

3.1 工作原理

QueryTransformer 通常利用一个轻量级的大模型（LLM）来执行改写任务。它会接收原始用户问题，并输出一个或多个经过优化的查询。

3.2 常见策略

扩展（Expansion）：将缩写或简称扩展为全称。例如：“JDK 17 的新特性” -> “Java Development Kit 17 的新特性”。
重写（Rewriting）：将口语化问题改写为更正式的查询语句。例如：“怎么装这个库？” -> “如何安装 LangChain4j 库？”。
分解（Decomposition）：将复杂问题拆解为多个子问题。例如：“Spring Boot 和 Quarkus 的区别是什么？” -> 拆解为“Spring Boot 的特点是什么？”和“Quarkus 的特点是什么？”。

3.3 代码示例

// 假设我们有一个 QueryTransformer 的实现
QueryTransformer queryTransformer = new MyQueryTransformer();

// 原始用户问题
String originalQuery = "它怎么集成到Spring里？";

// 进行转换
List<String> transformedQueries = queryTransformer.transform(originalQuery);

// 输出转换后的查询
transformedQueries.forEach(System.out::println);
// 输出可能为：
// "如何将 LangChain4j 集成到 Spring Boot 项目中？"
// "LangChain4j Spring Boot 集成步骤"

4. QueryRouter：智能路由查询

QueryRouter 负责根据问题的内容和意图，将查询路由到最合适的处理模块或知识库。这在拥有多个数据源或多种处理逻辑的复杂系统中非常有用。

4.1 应用场景

多知识库路由：公司内部有“技术文档库”、“产品手册库”、“FAQ 库”，QueryRouter 可以根据问题内容判断应该去哪个库检索。
处理方式路由：简单问题直接由 LLM 回答，复杂问题走 RAG 流程，需要计算的问题调用专门的 API。

4.2 代码示例

// 定义不同的内容检索器
ContentRetriever techDocRetriever = new TechDocRetriever();
ContentRetriever faqRetriever = new FaqRetriever();

// 创建 QueryRouter
QueryRouter router = new MyQueryRouter();

// 用户问题
String query = "如何重置密码？";

// 路由决策
ContentRetriever selectedRetriever = router.route(query);
// 假设路由到 FAQ 检索器
List<Content> results = selectedRetriever.retrieve(query);

5. ContentAggregator：聚合多源结果

当 QueryRouter 将同一个问题路由到多个数据源，或者 QueryTransformer 生成了多个子查询时，ContentAggregator 负责将这些来自不同来源的检索结果进行合并、去重、排序，最终形成一份高质量的上下文供大模型生成答案。

5.1 聚合策略

去重：移除内容高度相似的片段。
排序：根据相关性得分对结果进行排序。
摘要：对过长的内容进行摘要，保留核心信息。

5.2 代码示例

// 假设从多个检索器获得了结果
List<Content> resultsFromTechDoc = ...;
List<Content> resultsFromFaq = ...;

// 创建 ContentAggregator
ContentAggregator aggregator = new MyContentAggregator();

// 聚合所有结果
List<Content> aggregatedResults = aggregator.aggregate(
    List.of(resultsFromTechDoc, resultsFromFaq)
);

// 将聚合后的结果作为上下文提供给 LLM
String context = aggregatedResults.stream()
    .map(Content::text)
    .collect(Collectors.joining("\n"));

6. 实战：构建一个增强型智能客服

现在，我们将上述三个组件整合起来，构建一个更强大的智能客服系统。

6.1 系统架构

6.2 核心代码

// 1. 配置 LLM
ChatLanguageModel model = OpenAiChatModel.builder()
    .apiKey("your-api-key")
    .modelName("gpt-4")
    .build();

// 2. 配置 QueryTransformer
QueryTransformer transformer = QueryTransformer.builder()
    .chatLanguageModel(model)
    .build();

// 3. 配置 QueryRouter
QueryRouter router = QueryRouter.builder()
    .chatLanguageModel(model)
    .build();

// 4. 配置 ContentAggregator
ContentAggregator aggregator = ContentAggregator.builder()
    .build();

// 5. 构建增强型 RAG 流程
String userQuery = "我的订单怎么还没到？";

// 步骤1：转换问题
List<String> enhancedQueries = transformer.transform(userQuery);

// 步骤2：路由并检索
List<Content> allResults = new ArrayList<>();
for (String query : enhancedQueries) {
    ContentRetriever retriever = router.route(query);
    allResults.addAll(retriever.retrieve(query));
}

// 步骤3：聚合结果
List<Content> finalContext = aggregator.aggregate(allResults);

// 步骤4：生成答案
String answer = model.generate(
    SystemMessage.from("你是一个智能客服助手，请根据以下上下文回答用户问题。"),
    UserMessage.from("上下文：" + finalContext + "\n\n用户问题：" + userQuery)
);

System.out.println(answer);