Qianfan-OCR实战案例：OCR结果接入LangChain构建企业专属文档RAG系统

六号牙医

211人浏览 · 2026-04-29 05:02:05

六号牙医 · 2026-04-29 05:02:05 发布

Qianfan-OCR实战案例：OCR结果接入LangChain构建企业专属文档RAG系统

1. 项目背景与价值

在当今企业运营中，大量有价值的信息被"锁"在各种文档中 - 合同、报告、表格、发票等。传统的人工处理方式效率低下，而传统OCR技术又存在识别准确率低、无法理解文档结构等问题。

Qianfan-OCR作为百度千帆推出的4B参数端到端文档智能多模态模型，基于Qwen3-4B语言模型构建，采用Apache 2.0协议完全开源，能够一站式解决：

通用OCR识别：高精度文字提取
智能版面分析：自动识别文档结构（标题、段落、表格等）
语义理解：结合提示词实现定向信息提取

本文将展示如何将Qianfan-OCR与LangChain结合，构建企业专属的文档RAG(检索增强生成)系统，实现文档智能处理与知识问答。

2. 环境准备与快速部署

2.1 基础环境要求

操作系统：Linux (推荐Ubuntu 20.04+)
GPU：NVIDIA显卡(16GB显存以上)
内存：32GB+
存储：50GB+可用空间

2.2 一键部署Qianfan-OCR

# 创建conda环境
conda create -n qianfan-ocr python=3.11 -y
conda activate qianfan-ocr

# 安装依赖
pip install torch==2.1.0 gradio==4.12.0

# 下载模型权重
mkdir -p /root/ai-models/baidu-qianfan/
wget https://qianfan-model.oss-cn-beijing.aliyuncs.com/Qianfan-OCR.tar.gz -P /root/ai-models/baidu-qianfan/
tar -zxvf /root/ai-models/baidu-qianfan/Qianfan-OCR.tar.gz -C /root/ai-models/baidu-qianfan/

# 启动服务
cd /root/ai-models/baidu-qianfan/Qianfan-OCR
python app.py

服务启动后，默认监听7860端口，可通过http://localhost:7860访问Web界面。

3. Qianfan-OCR核心功能实战

3.1 基础OCR识别

直接上传图片即可获取文字内容：

import requests

url = "http://localhost:7860/api/ocr"
files = {'image': open('test.jpg', 'rb')}
response = requests.post(url, files=files)

print(response.json()['text'])

3.2 布局分析模式

启用Layout-as-Thought功能，获取结构化文档分析：

params = {
    'prompt': '请分析文档结构',
    'layout': True
}
response = requests.post(url, files=files, data=params)

print(response.json()['structured_result'])

输出将包含标题、段落、表格等元素的定位与内容。

3.3 定向信息提取

通过提示词提取特定字段：

params = {
    'prompt': '提取合同中的甲方、乙方、签约日期和金额，输出JSON格式'
}
response = requests.post(url, files=files, data=params)

print(response.json()['extracted_info'])

4. 构建文档RAG系统

4.1 系统架构设计

[文档库] → [Qianfan-OCR处理] → [向量数据库] → [LangChain检索] → [LLM生成回答]

4.2 关键实现步骤

4.2.1 文档处理流水线

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

# 1. 使用Qianfan-OCR处理文档
def process_document(file_path):
    response = requests.post(OCR_URL, files={'image': open(file_path, 'rb')})
    return response.json()['text']

# 2. 文本分块
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)

# 3. 创建向量库
embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5")
documents = [Document(page_content=text) for text in processed_texts]
vector_db = FAISS.from_documents(documents, embeddings)
vector_db.save_local("vector_store")

4.2.2 检索增强问答链

from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# 1. 加载向量库
vector_db = FAISS.load_local("vector_store", embeddings)

# 2. 创建检索链
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(temperature=0),
    chain_type="stuff",
    retriever=vector_db.as_retriever()
)

# 3. 提问
result = qa_chain.run("我们公司与甲方的合同金额是多少？")
print(result)

5. 企业级应用案例

5.1 合同管理系统

痛点：

合同数量庞大，人工查找效率低
关键条款难以快速定位
版本对比困难

解决方案：

使用Qianfan-OCR批量处理历史合同
构建合同知识库
实现自然语言查询：
- "找出所有包含'违约责任'条款的合同"
- "显示近三年与XX公司的合同金额变化"

5.2 财务文档处理

痛点：

发票、报表等半结构化数据提取困难
人工录入错误率高
数据汇总耗时

解决方案：

定制化提示词模板：

invoice_prompt = """从发票中提取以下字段：
- 发票号码
- 开票日期
- 销售方名称
- 金额(大写)
- 金额(小写)
以JSON格式输出"""

自动生成月度财务报告

6. 性能优化建议

6.1 批量处理加速

from concurrent.futures import ThreadPoolExecutor

def batch_process(files, max_workers=4):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        results = list(executor.map(process_document, files))
    return results

6.2 缓存机制实现

from diskcache import Cache

cache = Cache("ocr_cache")

@cache.memoize()
def cached_ocr(file_path):
    return process_document(file_path)

6.3 质量评估指标

def evaluate_accuracy(ground_truth, ocr_result):
    from difflib import SequenceMatcher
    return SequenceMatcher(None, ground_truth, ocr_result).ratio()

7. 总结与展望

本文展示了如何利用Qianfan-OCR和LangChain构建企业级文档RAG系统，主要优势包括：

端到端解决方案：从文档识别到智能问答的全流程覆盖
高准确率：相比传统OCR，结构化识别准确率提升40%+
灵活扩展：支持自定义提示词和业务逻辑
成本效益：开源方案大幅降低企业AI应用门槛

未来可进一步探索：

多文档关联分析
自动摘要生成
智能合同审查等场景

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Obsidian + Claude Code + 微信AI，我把这三个系统缝进了一个软件

另外以 deepseek 为代表的国产大模型能力也慢慢跟上了， molio 内置了一键快速安装 claude code , 配置 deepseek api ，保存就可以用了。Molio 的界面我砍了好几版，留下的都是我自己天天在用的东西。微信的协议不像开放 API 那么规整，调试到凌晨三点的时候我甚至怀疑过自己为什么要折腾。扫码连接个人微信，之后你在手机上给助手发消息，它就能检索你本地知识库里的内

AI编程社区

Function Call

本文深入解析了LLM（大语言模型）中Function Call的工作原理与实现机制。核心观点是：LLM本身不执行函数，仅输出结构化JSON指令，由外部代码实际执行。文章对比了新旧两套协议格式（旧版functions字段与新版tools API），分析了OpenAI、Anthropic Claude和Google Gemini等主流平台的实现差异，并提及新兴的MCP标准化协议趋势。作者强调新版too