Qwen2-VL-2B多模态向量服务实战：与LangChain集成实现多模态RAG问答

本文介绍了如何在星图GPU平台上自动化部署GME多模态向量-Qwen2-VL-2B镜像，以构建多模态RAG问答系统。该平台简化了部署流程，用户可快速搭建服务，实现图文混合检索，例如通过上传设备故障图片自动查找相关维修手册等智能客服场景。

高杉峻

197人浏览 · 2026-03-21 00:10:30

高杉峻 · 2026-03-21 00:10:30 发布

Qwen2-VL-2B多模态向量服务实战：与LangChain集成实现多模态RAG问答

你是不是遇到过这样的场景？想从一堆产品手册、技术文档里快速找到某个配件的图片和说明，或者想用一张截图去搜索相关的解决方案。传统的文本搜索已经不够用了，我们需要的是能同时理解文字和图片的“智能搜索”。

今天，我们就来聊聊如何用GME多模态向量模型Qwen2-VL-2B，搭建一个能看懂图片、理解文字的智能搜索服务，并把它和LangChain这个强大的AI应用框架结合起来，打造一个真正的多模态RAG（检索增强生成）问答系统。

简单来说，这个系统能让你：

用文字搜图片（比如输入“红色跑车”，找到相关图片）
用图片搜文字（比如上传一张电路图，找到相关技术文档）
用图文混合的方式提问（比如“这张图片里的设备，它的使用手册在哪里？”）

听起来很酷吧？接下来，我就带你一步步实现它。

1. 为什么需要多模态RAG？

在开始动手之前，我们先搞清楚为什么要做这件事。

传统RAG的局限性 你可能用过基于文本的RAG系统，它们确实很强大，能从大量文档中快速找到相关信息。但现实世界的信息不只是文字——还有大量的图片、图表、截图。当你想搜索“某个产品的安装示意图”或者“某张财务报表的分析”时，纯文本搜索就力不从心了。

多模态RAG的价值 多模态RAG能同时处理文本和图像信息。想象一下这些场景：

技术支持：用户上传一张设备故障的图片，系统能自动找到相关的维修手册
电商搜索：用户描述“我想要一个带木质把手的咖啡杯”，系统能匹配商品图片
学术研究：研究人员上传一张图表，系统能找到相关的论文和解释
内容管理：从海量的图文内容中，快速定位到特定的信息片段

GME多模态向量模型Qwen2-VL-2B就是为解决这些问题而生的。它能把文本、图像、甚至图文对都转换成统一的向量表示，让你可以用任何一种形式去搜索另一种形式的内容。

2. 快速部署GME多模态向量服务

2.1 环境准备

首先，我们需要搭建基础环境。我推荐使用Python 3.9或更高版本，并准备好以下依赖：

# 创建虚拟环境（可选但推荐）
python -m venv gme_env
source gme_env/bin/activate  # Linux/Mac
# 或 gme_env\Scripts\activate  # Windows

# 安装核心依赖
pip install sentence-transformers gradio torch torchvision pillow

如果你有GPU，建议安装对应的CUDA版本以加速推理：

# 根据你的CUDA版本选择
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118  # CUDA 11.8

2.2 基于Sentence Transformers构建服务

Sentence Transformers是一个非常好用的文本嵌入模型框架，幸运的是，它现在也支持多模态模型了。我们来创建一个简单的向量服务：

# gme_vector_service.py
from sentence_transformers import SentenceTransformer
import gradio as gr
import numpy as np
from PIL import Image
import io
import base64

class GMEVectorService:
    def __init__(self, model_name="Alibaba-NLP/gte-multimodal-embedding-v1.5-2b"):
        """
        初始化GME多模态向量服务
        这里使用gte-multimodal作为示例，实际使用时替换为Qwen2-VL-2B
        """
        print("正在加载多模态向量模型...")
        self.model = SentenceTransformer(model_name)
        print("模型加载完成！")
        
        # 存储向量和元数据的简单内存数据库
        self.vectors = []
        self.metadata = []
    
    def encode_text(self, text):
        """编码文本为向量"""
        return self.model.encode(text, normalize_embeddings=True)
    
    def encode_image(self, image):
        """编码图像为向量"""
        if isinstance(image, str):
            # 如果是文件路径
            image = Image.open(image)
        elif isinstance(image, bytes):
            # 如果是字节数据
            image = Image.open(io.BytesIO(image))
        
        return self.model.encode(image, normalize_embeddings=True)
    
    def encode_multimodal(self, text, image):
        """编码图文对为向量"""
        # 这里可以根据实际模型支持的方式处理
        # 有些模型支持直接输入图文对
        return self.model.encode([text], images=[image], normalize_embeddings=True)[0]
    
    def add_document(self, content, content_type="text", metadata=None):
        """添加文档到向量库"""
        if content_type == "text":
            vector = self.encode_text(content)
        elif content_type == "image":
            vector = self.encode_image(content)
        else:
            raise ValueError(f"不支持的content_type: {content_type}")
        
        self.vectors.append(vector)
        self.metadata.append({
            "content": content,
            "type": content_type,
            "metadata": metadata or {}
        })
        
        return len(self.vectors) - 1  # 返回文档ID
    
    def search(self, query, query_type="text", top_k=5):
        """搜索相似内容"""
        if query_type == "text":
            query_vector = self.encode_text(query)
        elif query_type == "image":
            query_vector = self.encode_image(query)
        else:
            raise ValueError(f"不支持的query_type: {query_type}")
        
        # 计算余弦相似度
        similarities = []
        for vec in self.vectors:
            sim = np.dot(query_vector, vec)  # 因为向量已经归一化，点积就是余弦相似度
            similarities.append(sim)
        
        # 获取最相似的top_k个结果
        indices = np.argsort(similarities)[-top_k:][::-1]
        
        results = []
        for idx in indices:
            results.append({
                "id": idx,
                "similarity": float(similarities[idx]),
                **self.metadata[idx]
            })
        
        return results

# 创建服务实例
vector_service = GMEVectorService()

2.3 使用Gradio构建Web界面

有了核心服务，我们再用Gradio快速搭建一个Web界面，方便测试和演示：

# gradio_app.py
import gradio as gr
from gme_vector_service import vector_service
import pandas as pd

def search_interface(query_text=None, query_image=None, top_k=5):
    """搜索界面"""
    results = []
    
    if query_text:
        # 文本搜索
        search_results = vector_service.search(query_text, "text", top_k)
        for r in search_results:
            results.append({
                "类型": "文本" if r["type"] == "text" else "图片",
                "内容": r["content"][:100] + "..." if r["type"] == "text" else "[图片]",
                "相似度": f"{r['similarity']:.4f}",
                "元数据": str(r.get("metadata", {}))
            })
    elif query_image:
        # 图片搜索
        search_results = vector_service.search(query_image, "image", top_k)
        for r in search_results:
            results.append({
                "类型": "文本" if r["type"] == "text" else "图片",
                "内容": r["content"][:100] + "..." if r["type"] == "text" else "[图片]",
                "相似度": f"{r['similarity']:.4f}",
                "元数据": str(r.get("metadata", {}))
            })
    
    if results:
        df = pd.DataFrame(results)
        return df
    else:
        return pd.DataFrame(columns=["类型", "内容", "相似度", "元数据"])

def add_document_interface(content, content_type, metadata_str=""):
    """添加文档界面"""
    try:
        metadata = eval(metadata_str) if metadata_str else {}
    except:
        metadata = {"raw_metadata": metadata_str}
    
    doc_id = vector_service.add_document(content, content_type, metadata)
    return f"文档添加成功！ID: {doc_id}"

# 创建Gradio界面
with gr.Blocks(title="GME多模态向量搜索服务") as demo:
    gr.Markdown("# 🎯 GME多模态向量搜索服务")
    gr.Markdown("基于Qwen2-VL-2B的多模态向量检索系统")
    
    with gr.Tab("🔍 搜索"):
        with gr.Row():
            with gr.Column():
                query_text = gr.Textbox(label="文本查询", placeholder="输入要搜索的文本...")
                query_image = gr.Image(label="图片查询", type="filepath")
                top_k = gr.Slider(minimum=1, maximum=20, value=5, label="返回结果数量")
                search_btn = gr.Button("开始搜索", variant="primary")
            
            with gr.Column():
                results_table = gr.Dataframe(label="搜索结果", headers=["类型", "内容", "相似度", "元数据"])
        
        search_btn.click(
            search_interface,
            inputs=[query_text, query_image, top_k],
            outputs=results_table
        )
    
    with gr.Tab("📁 添加文档"):
        with gr.Row():
            with gr.Column():
                content_type = gr.Radio(["text", "image"], label="内容类型", value="text")
                content_text = gr.Textbox(label="文本内容", visible=True, lines=5)
                content_image = gr.Image(label="图片内容", visible=False, type="filepath")
                metadata = gr.Textbox(label="元数据（JSON格式）", placeholder='{"source": "manual", "category": "tech"}')
                add_btn = gr.Button("添加文档", variant="primary")
            
            with gr.Column():
                result_output = gr.Textbox(label="添加结果", interactive=False)
        
        def toggle_content(choice):
            return {
                content_text: gr.update(visible=(choice == "text")),
                content_image: gr.update(visible=(choice == "image"))
            }
        
        content_type.change(
            toggle_content,
            inputs=content_type,
            outputs=[content_text, content_image]
        )
        
        def add_document_wrapper(content_type_val, content_text_val, content_image_val, metadata_val):
            content = content_text_val if content_type_val == "text" else content_image_val
            return add_document_interface(content, content_type_val, metadata_val)
        
        add_btn.click(
            add_document_wrapper,
            inputs=[content_type, content_text, content_image, metadata],
            outputs=result_output
        )
    
    with gr.Tab("ℹ️ 使用说明"):
        gr.Markdown("""
        ## 使用指南
        
        ### 1. 搜索功能
        - **文本搜索**：在文本查询框中输入文字，点击搜索
        - **图片搜索**：上传图片，系统会查找相似的图片或相关文本
        - **混合搜索**：未来版本将支持图文混合查询
        
        ### 2. 添加文档
        - 选择内容类型（文本或图片）
        - 输入或上传内容
        - 可选的元数据（JSON格式）
        - 点击添加文档
        
        ### 3. 示例用途
        - 技术文档检索
        - 产品图片搜索
        - 学术论文查找
        - 内容管理系统
        """)

# 添加一些示例数据
def add_example_data():
    """添加示例数据"""
    examples = [
        ("人工智能是计算机科学的一个分支", "text", {"category": "technology", "source": "wikipedia"}),
        ("机器学习是人工智能的实现方式", "text", {"category": "technology", "source": "wikipedia"}),
        ("深度学习基于神经网络", "text", {"category": "technology", "source": "textbook"}),
    ]
    
    for content, ctype, metadata in examples:
        vector_service.add_document(content, ctype, metadata)
    
    print(f"已添加 {len(examples)} 个示例文档")

if __name__ == "__main__":
    # 添加示例数据
    add_example_data()
    
    # 启动服务
    demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

运行这个服务：

python gradio_app.py

然后在浏览器中打开 http://localhost:7860，你就能看到一个完整的多模态向量搜索服务了。

3. 与LangChain深度集成

现在我们已经有了多模态向量服务，接下来把它集成到LangChain中，构建真正的多模态RAG系统。

3.1 创建多模态向量存储

首先，我们需要创建一个LangChain兼容的向量存储：

# langchain_integration.py
from langchain.vectorstores import VectorStore
from langchain.schema import Document
from typing import List, Optional, Tuple, Any
import numpy as np

class GMEVectorStore(VectorStore):
    """基于GME的多模态向量存储"""
    
    def __init__(self, vector_service):
        self.vector_service = vector_service
    
    def add_texts(
        self,
        texts: List[str],
        metadatas: Optional[List[dict]] = None,
        **kwargs: Any,
    ) -> List[str]:
        """添加文本到向量存储"""
        ids = []
        for i, text in enumerate(texts):
            metadata = metadatas[i] if metadatas and i < len(metadatas) else {}
            doc_id = self.vector_service.add_document(
                text, "text", metadata
            )
            ids.append(str(doc_id))
        return ids
    
    def add_images(
        self,
        image_paths: List[str],
        metadatas: Optional[List[dict]] = None,
        **kwargs: Any,
    ) -> List[str]:
        """添加图片到向量存储"""
        ids = []
        for i, image_path in enumerate(image_paths):
            metadata = metadatas[i] if metadatas and i < len(metadatas) else {}
            doc_id = self.vector_service.add_document(
                image_path, "image", metadata
            )
            ids.append(str(doc_id))
        return ids
    
    def similarity_search(
        self,
        query: str,
        k: int = 4,
        **kwargs: Any,
    ) -> List[Document]:
        """文本相似度搜索"""
        results = self.vector_service.search(query, "text", k)
        return self._results_to_documents(results)
    
    def similarity_search_by_image(
        self,
        image_path: str,
        k: int = 4,
        **kwargs: Any,
    ) -> List[Document]:
        """图片相似度搜索"""
        results = self.vector_service.search(image_path, "image", k)
        return self._results_to_documents(results)
    
    def _results_to_documents(self, results: List[dict]) -> List[Document]:
        """将搜索结果转换为LangChain Document格式"""
        documents = []
        for result in results:
            doc = Document(
                page_content=result["content"] if result["type"] == "text" else f"[图片: {result.get('metadata', {}).get('path', 'unknown')}]",
                metadata={
                    "id": result["id"],
                    "type": result["type"],
                    "similarity": result["similarity"],
                    **result.get("metadata", {})
                }
            )
            documents.append(doc)
        return documents
    
    @classmethod
    def from_texts(
        cls,
        texts: List[str],
        vector_service,
        metadatas: Optional[List[dict]] = None,
        **kwargs: Any,
    ):
        """从文本列表创建向量存储"""
        store = cls(vector_service)
        store.add_texts(texts, metadatas)
        return store
    
    @classmethod
    def from_images(
        cls,
        image_paths: List[str],
        vector_service,
        metadatas: Optional[List[dict]] = None,
        **kwargs: Any,
    ):
        """从图片列表创建向量存储"""
        store = cls(vector_service)
        store.add_images(image_paths, metadatas)
        return store

3.2 构建多模态RAG链

现在我们来创建一个完整的RAG链，支持多模态输入：

# multimodal_rag_chain.py
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.chat_models import ChatOpenAI
import os

class MultimodalRAGChain:
    """多模态RAG链"""
    
    def __init__(self, vector_store, llm=None):
        """
        初始化多模态RAG链
        
        Args:
            vector_store: GMEVectorStore实例
            llm: 语言模型，默认使用OpenAI GPT
        """
        self.vector_store = vector_store
        
        # 初始化语言模型
        if llm is None:
            # 这里使用OpenAI作为示例，你可以替换为其他模型
            api_key = os.getenv("OPENAI_API_KEY")
            if not api_key:
                print("警告：未设置OPENAI_API_KEY环境变量")
                # 可以使用本地模型替代
                self.llm = None
            else:
                self.llm = ChatOpenAI(
                    model="gpt-3.5-turbo",
                    temperature=0.1,
                    api_key=api_key
                )
        else:
            self.llm = llm
        
        # 定义多模态提示模板
        self.multimodal_prompt = PromptTemplate(
            input_variables=["context", "question", "image_context"],
            template="""你是一个多模态AI助手，可以同时处理文本和图像信息。

根据以下上下文信息回答问题。上下文可能包含文本和图像描述。

相关文本上下文：
{context}

相关图像上下文：
{image_context}

用户问题：{question}

请根据以上信息给出准确、有用的回答。如果信息不足，请如实说明。

回答："""
        )
    
    def query_with_text(self, question: str, k: int = 4) -> str:
        """基于文本查询的RAG"""
        if self.llm is None:
            return "错误：未配置语言模型"
        
        # 检索相关文档
        docs = self.vector_store.similarity_search(question, k)
        
        # 分离文本和图像文档
        text_docs = [doc for doc in docs if doc.metadata.get("type") == "text"]
        image_docs = [doc for doc in docs if doc.metadata.get("type") == "image"]
        
        # 准备上下文
        text_context = "\n".join([doc.page_content for doc in text_docs])
        image_context = "\n".join([
            f"图像 {i+1}: {doc.metadata.get('description', '相关图像')}"
            for i, doc in enumerate(image_docs)
        ])
        
        # 构建提示
        prompt = self.multimodal_prompt.format(
            context=text_context,
            image_context=image_context,
            question=question
        )
        
        # 生成回答
        response = self.llm.predict(prompt)
        return response
    
    def query_with_image(self, image_path: str, question: str = "描述这张图片", k: int = 4) -> str:
        """基于图像查询的RAG"""
        if self.llm is None:
            return "错误：未配置语言模型"
        
        # 检索相似图像和相关文本
        image_docs = self.vector_store.similarity_search_by_image(image_path, k)
        
        # 对于每个找到的图像，查找相关的文本
        text_docs = []
        for doc in image_docs:
            if doc.metadata.get("type") == "image":
                # 这里可以添加基于图像元数据查找相关文本的逻辑
                # 例如，根据图像标签或描述搜索相关文本
                pass
        
        # 准备上下文
        image_context = "\n".join([
            f"查询图像与图像 {i+1} 相似（相似度: {doc.metadata.get('similarity', 0):.2f})"
            for i, doc in enumerate(image_docs)
        ])
        
        # 如果有相关的文本文档，也加入上下文
        if text_docs:
            text_context = "\n".join([doc.page_content for doc in text_docs])
        else:
            text_context = "未找到相关的文本信息"
        
        # 构建提示
        prompt = self.multimodal_prompt.format(
            context=text_context,
            image_context=image_context,
            question=question
        )
        
        # 生成回答
        response = self.llm.predict(prompt)
        return response
    
    def add_document(self, content, content_type="text", metadata=None):
        """添加文档到向量存储"""
        if content_type == "text":
            return self.vector_store.add_texts([content], [metadata or {}])
        elif content_type == "image":
            return self.vector_store.add_images([content], [metadata or {}])
        else:
            raise ValueError(f"不支持的内容类型: {content_type}")

3.3 完整示例：构建多模态知识库

让我们用一个完整的例子来演示如何使用这个系统：

# example_usage.py
from gme_vector_service import GMEVectorService
from langchain_integration import GMEVectorStore
from multimodal_rag_chain import MultimodalRAGChain
import os

def build_multimodal_knowledge_base():
    """构建多模态知识库示例"""
    
    # 1. 初始化向量服务
    print("初始化GME向量服务...")
    vector_service = GMEVectorService()
    
    # 2. 创建LangChain向量存储
    print("创建向量存储...")
    vector_store = GMEVectorStore(vector_service)
    
    # 3. 添加多模态文档
    print("添加文档到知识库...")
    
    # 添加文本文档
    text_documents = [
        {
            "content": "Qwen2-VL-2B是阿里巴巴通义千问团队开发的多模态大语言模型，支持图像和文本的联合理解。",
            "metadata": {"category": "AI模型", "source": "技术文档"}
        },
        {
            "content": "多模态检索增强生成（RAG）结合了检索系统和生成模型，能够提供更准确、更相关的回答。",
            "metadata": {"category": "技术概念", "source": "论文"}
        },
        {
            "content": "LangChain是一个用于开发大语言模型应用的框架，提供了链、代理、记忆等高级抽象。",
            "metadata": {"category": "开发框架", "source": "官方文档"}
        },
        {
            "content": "GME（General Multimodal Embedding）是多模态嵌入模型，能够将文本、图像等不同模态的数据映射到统一的向量空间。",
            "metadata": {"category": "嵌入模型", "source": "研究论文"}
        }
    ]
    
    for doc in text_documents:
        vector_store.add_texts([doc["content"]], [doc["metadata"]])
    
    # 注意：实际使用时需要真实的图片路径
    # 这里用文本描述代替图片内容
    image_descriptions = [
        {
            "path": "/path/to/ai_architecture.png",
            "description": "多模态AI系统架构图，展示了文本和图像处理的流程",
            "metadata": {"category": "系统架构", "type": "示意图"}
        },
        {
            "path": "/path/to/rag_workflow.jpg", 
            "description": "RAG系统工作流程图，包含检索、增强、生成三个步骤",
            "metadata": {"category": "工作流程", "type": "流程图"}
        }
    ]
    
    for img in image_descriptions:
        # 在实际应用中，这里应该添加真实的图片
        # 为了示例，我们添加文本描述作为替代
        vector_store.add_texts(
            [f"[图片描述] {img['description']}"],
            [{"original_type": "image", **img["metadata"]}]
        )
    
    print(f"知识库构建完成，共添加 {len(text_documents) + len(image_descriptions)} 个文档")
    
    # 4. 创建多模态RAG链
    print("创建多模态RAG链...")
    
    # 设置OpenAI API密钥（如果需要）
    # os.environ["OPENAI_API_KEY"] = "your-api-key-here"
    
    rag_chain = MultimodalRAGChain(vector_store)
    
    # 5. 示例查询
    print("\n=== 示例查询 ===")
    
    # 文本查询示例
    print("\n1. 文本查询：什么是多模态RAG？")
    response = rag_chain.query_with_text("什么是多模态RAG？")
    print(f"回答：{response}")
    
    # 模拟图像查询（实际应用中需要真实图片）
    print("\n2. 图像相关查询：多模态系统如何处理图像？")
    response = rag_chain.query_with_text("多模态系统如何处理图像？")
    print(f"回答：{response}")
    
    # 混合查询
    print("\n3. 混合查询：Qwen2-VL-2B和LangChain如何结合使用？")
    response = rag_chain.query_with_text("Qwen2-VL-2B和LangChain如何结合使用？")
    print(f"回答：{response}")
    
    return rag_chain

if __name__ == "__main__":
    # 构建并测试知识库
    rag_chain = build_multimodal_knowledge_base()
    
    # 交互式查询
    print("\n=== 交互式查询 ===")
    print("输入 'quit' 退出")
    
    while True:
        query = input("\n请输入查询：")
        if query.lower() == 'quit':
            break
        
        response = rag_chain.query_with_text(query)
        print(f"\n回答：{response}")

4. 实际应用场景与优化建议

4.1 实际应用场景

这个多模态RAG系统可以在很多实际场景中发挥作用：

1. 智能客服系统

用户上传产品故障图片，系统自动检索维修手册
用户描述问题，系统找到相关的解决方案和示意图

2. 教育辅助工具

学生上传数学题图片，系统找到类似的例题和解析
教师上传教学素材，系统推荐相关的教学资源

3. 内容管理系统

自动为图片添加标签和描述
根据内容相似度推荐相关文章和图片
快速查找历史资料中的特定图表

4. 电商平台

用户上传心仪商品图片，找到相似商品
根据文字描述匹配商品图片
生成商品的多模态描述

4.2 性能优化建议

在实际使用中，你可能需要考虑以下优化：

1. 向量索引优化

# 使用专业向量数据库替代内存存储
# 例如：FAISS、Chroma、Weaviate等

import faiss
import numpy as np

class FAISSVectorStore:
    """使用FAISS加速向量检索"""
    
    def __init__(self, dimension=1024):
        self.index = faiss.IndexFlatIP(dimension)  # 内积索引，适用于余弦相似度
        self.metadata = []
    
    def add_vectors(self, vectors, metadata_list):
        """添加向量到索引"""
        vectors_np = np.array(vectors).astype('float32')
        faiss.normalize_L2(vectors_np)  # L2归一化
        self.index.add(vectors_np)
        self.metadata.extend(metadata_list)
    
    def search(self, query_vector, k=5):
        """搜索相似向量"""
        query_np = np.array([query_vector]).astype('float32')
        faiss.normalize_L2(query_np)
        
        distances, indices = self.index.search(query_np, k)
        
        results = []
        for i, idx in enumerate(indices[0]):
            if idx != -1:  # FAISS返回-1表示没有足够的结果
                results.append({
                    "metadata": self.metadata[idx],
                    "similarity": float(distances[0][i])
                })
        
        return results

2. 批量处理优化

# 批量编码提高效率
def batch_encode(self, texts=None, images=None, batch_size=32):
    """批量编码文本和图像"""
    if texts:
        # 批量编码文本
        text_vectors = self.model.encode(
            texts, 
            batch_size=batch_size,
            show_progress_bar=True,
            normalize_embeddings=True
        )
    
    if images:
        # 批量编码图像
        image_vectors = self.model.encode(
            images,
            batch_size=batch_size,
            show_progress_bar=True,
            normalize_embeddings=True
        )
    
    return text_vectors, image_vectors

3. 缓存机制

# 实现向量缓存，避免重复计算
import hashlib
import pickle
import os

class VectorCache:
    """向量缓存系统"""
    
    def __init__(self, cache_dir="./vector_cache"):
        self.cache_dir = cache_dir
        os.makedirs(cache_dir, exist_ok=True)
    
    def get_cache_key(self, content, content_type):
        """生成缓存键"""
        content_str = str(content)
        if content_type == "image" and hasattr(content, "filename"):
            content_str = content.filename
        
        key = f"{content_type}_{hashlib.md5(content_str.encode()).hexdigest()}"
        return key
    
    def get(self, key):
        """获取缓存"""
        cache_path = os.path.join(self.cache_dir, f"{key}.pkl")
        if os.path.exists(cache_path):
            with open(cache_path, 'rb') as f:
                return pickle.load(f)
        return None
    
    def set(self, key, vector):
        """设置缓存"""
        cache_path = os.path.join(self.cache_dir, f"{key}.pkl")
        with open(cache_path, 'wb') as f:
            pickle.dump(vector, f)

4.3 部署建议

1. 服务化部署

# 使用FastAPI构建REST API服务
from fastapi import FastAPI, UploadFile, File
from pydantic import BaseModel
import uvicorn

app = FastAPI(title="GME多模态向量服务")

class SearchRequest(BaseModel):
    query: str
    query_type: str = "text"
    top_k: int = 5

@app.post("/search")
async def search(request: SearchRequest):
    """搜索接口"""
    results = vector_service.search(
        request.query, 
        request.query_type, 
        request.top_k
    )
    return {"results": results}

@app.post("/upload")
async def upload_file(file: UploadFile = File(...)):
    """文件上传接口"""
    content = await file.read()
    # 处理文件内容...
    return {"filename": file.filename, "size": len(content)}

if __name__ == "__main__":
    uvicorn.run(app, host="0.0.0.0", port=8000)

2. 容器化部署

# Dockerfile
FROM python:3.9-slim

WORKDIR /app

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    gcc \
    g++ \
    && rm -rf /var/lib/apt/lists/*

# 复制依赖文件
COPY requirements.txt .

# 安装Python依赖
RUN pip install --no-cache-dir -r requirements.txt

# 复制应用代码
COPY . .

# 下载模型（如果需要）
# RUN python -c "from sentence_transformers import SentenceTransformer; SentenceTransformer('Alibaba-NLP/gte-multimodal-embedding-v1.5-2b')"

# 暴露端口
EXPOSE 7860 8000

# 启动命令
CMD ["python", "gradio_app.py"]