ERNIE-4.5-0.3B-PT与LangChain集成指南

本文介绍了如何在星图GPU平台上一键自动化部署【vllm】ERNIE-4.5-0.3B-PT镜像，并实现与LangChain框架的集成，构建基于RAG的智能问答系统。该方案能让轻量级ERNIE模型具备专业文档的问答能力，适用于企业知识库、技术文档查询等应用场景，提升信息检索与对话的准确性。

逆光的白羊

141人浏览 · 2026-03-29 05:55:58

逆光的白羊 · 2026-03-29 05:55:58 发布

ERNIE-4.5-0.3B-PT与LangChain集成指南

1. 引言

如果你正在寻找一种简单的方法，让小型语言模型ERNIE-4.5-0.3B-PT变得更智能、更有用，那么你来对地方了。今天我要分享的是如何将这个轻量级模型与LangChain框架完美结合，让它不仅能回答一般问题，还能从你自己的文档中查找信息，实现真正的智能对话。

想象一下，你有一个专门的知识库——可能是公司内部文档、技术手册或者个人笔记。传统的大模型可能对这些特定内容一无所知，但通过我们今天要介绍的方法，你的ERNIE模型就能成为这个领域的专家，准确回答基于这些文档的问题。

2. 环境准备与快速部署

2.1 安装必要的库

首先，我们需要准备好运行环境。打开你的终端，运行以下命令来安装必需的Python包：

pip install langchain langchain-community transformers sentence-transformers faiss-cpu

这些库各自有不同的作用：LangChain是核心框架，transformers用于加载ERNIE模型，sentence-transformers处理文本嵌入，faiss-cpu则是高效的向量检索库。

2.2 下载模型文件

ERNIE-4.5-0.3B-PT可以在Hugging Face模型库中找到。如果你在国内访问速度较慢，可以考虑使用镜像源或者提前下载到本地：

from transformers import AutoTokenizer, AutoModelForCausalLM

# 加载ERNIE模型和分词器
model_name = "baidu/ERNIE-4.5-0.3B-PT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

第一次运行时会自动下载模型文件，大约需要1-2GB的存储空间。如果下载速度不理想，可以考虑先下载到本地再指定本地路径。

3. 基础概念快速入门

3.1 什么是RAG

RAG（Retrieval-Augmented Generation）是现在很流行的一种技术，中文叫做"检索增强生成"。它的核心思想很简单：当模型需要回答问题时，不是仅凭自己记忆中的知识，而是先从一个知识库中查找相关信息，然后基于这些信息来生成答案。

这就好比一个学生在考试时，不是全靠记忆答题，而是允许他先查阅教科书的相关章节，然后再组织答案。这样得到的答案显然更准确、更有依据。

3.2 LangChain的作用

LangChain就像一个智能助手的工作台，它提供了各种工具和组件，让我们能够轻松地构建复杂的AI应用。通过LangChain，我们可以：

连接不同的数据源和知识库
管理对话历史和上下文
集成各种AI模型和工具
构建复杂的工作流程

最重要的是，它让所有这些复杂的技术变得简单易用，即使你不是AI专家也能上手。

4. 构建知识库与检索器

4.1 准备你的文档

首先，你需要准备要喂给模型的知识文档。这些可以是TXT文件、PDF文档、Word文件或者网页内容。LangChain提供了各种文档加载器来处理不同格式的文件。

from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 加载文档
loader = TextLoader("你的文档.txt")
documents = loader.load()

# 分割文档为小块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
docs = text_splitter.split_documents(documents)

文档分割很重要，因为太大的文本块可能包含太多无关信息，太小的又可能信息不完整。500字左右的大小通常是个不错的选择。

4.2 创建向量数据库

接下来，我们需要将文本转换为数值向量，并建立检索索引：

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

# 初始化嵌入模型
embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

# 创建向量数据库
vectorstore = FAISS.from_documents(docs, embeddings)
vectorstore.save_local("my_faiss_index")

这里我们选择了一个轻量级的多语言嵌入模型，它能够很好地处理中文文本。FAISS是Facebook开发的高效相似度搜索库，非常适合我们的需求。

5. 集成ERNIE模型与LangChain

5.1 创建LangChain的ERNIE接口

现在我们来创建ERNIE模型的LangChain包装器：

from langchain.llms import HuggingFacePipeline
from transformers import pipeline

# 创建文本生成管道
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    do_sample=True
)

# 创建LangChain可调用的模型对象
llm = HuggingFacePipeline(pipeline=pipe)

这里的参数调节很重要：temperature控制生成文本的创造性（0.7是个不错的平衡点），max_new_tokens限制生成长度避免跑题。

5.2 构建完整的RAG流程

最后，我们把所有组件组装起来：

from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 自定义提示模板
prompt_template = """基于以下上下文信息，请回答问题。如果你不知道答案，就说不知道，不要编造信息。

上下文：
{context}

问题：{question}
回答："""

PROMPT = PromptTemplate(
    template=prompt_template,
    input_variables=["context", "question"]
)

# 创建检索增强生成链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
    chain_type_kwargs={"prompt": PROMPT},
    return_source_documents=True
)

这个设置让系统每次检索3个最相关的文档片段，然后基于这些信息来生成答案。prompt模板指导模型如何利用上下文信息，避免胡编乱造。

6. 实际使用示例

6.1 简单问答测试

让我们试试这个系统的效果：

# 提出问题
question = "你们公司的主要产品是什么？"
result = qa_chain({"query": question})

print(f"问题：{question}")
print(f"回答：{result['result']}")
print("参考来源：")
for doc in result['source_documents']:
    print(f"- {doc.metadata.get('source', '未知')}")

系统会先从向量数据库中查找与问题最相关的文档片段，然后ERNIE模型基于这些信息生成回答，最后还会显示答案的来源文档，方便你验证准确性。

6.2 处理复杂查询

对于更复杂的问题，系统同样能很好地处理：

# 多轮对话示例
questions = [
    "介绍一下产品的核心功能",
    "这些功能有什么技术优势？",
    "客户反馈怎么样？"
]

for q in questions:
    result = qa_chain({"query": q})
    print(f"Q: {q}")
    print(f"A: {result['result'][:200]}...")  # 显示前200字符
    print("---")

由于检索器每次都会实时查找最新信息，所以即使问题涉及不同方面，系统也能找到相关的信息来生成答案。

7. 实用技巧与进阶功能

7.1 优化检索效果

如果发现检索结果不准确，可以调整检索参数：

# 调整检索器配置
retriever = vectorstore.as_retriever(
    search_type="mmr",  # 使用最大边际相关算法，兼顾相关性和多样性
    search_kwargs={"k": 5, "fetch_k": 10}
)

MMR算法不仅考虑相关性，还确保检索结果的多样性，避免返回太多重复内容。

7.2 添加对话记忆

为了让系统能处理多轮对话，可以添加对话记忆功能：

from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

# 创建带记忆的对话链
conversational_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=retriever,
    memory=memory,
    chain_type_kwargs={"prompt": PROMPT}
)

这样系统就能记住之前的对话上下文，实现更自然的连续对话。