Ollama本身不直接支持Rerank模型(它专注于LLM部署,没有内置Rerank功能),但可以通过「Ollama+第三方Rerank服务(如BGE-Reranker)」的组合,在Dify中实现检索结果的重排序。以下是适配qwen3的Rerank方案:

方案:Ollama(qwen3:8b)+ BGE-Reranker(独立服务)

步骤1:部署BGE-Rerank模型(作为独立Rerank服务)

推荐用Docker快速启动BGE-Reranker(多语言最优Rerank模型):

# 拉取并启动BGE-Reranker服务(端口1234)
docker run -d -p 1234:80 -e MODEL_ID=BAAI/bge-reranker-v2-m3 \
  ghcr.io/huggingface/text-generation-inference:latest
  • 服务地址:http://host.docker.internal:1234(本地Docker环境)
  • 验证启动:执行curl http://host.docker.internal:1234/health,返回{"status":"healthy"}则正常。
步骤2:在Dify中配置Rerank服务
  1. 进入Dify后台 → 设置模型供应商 → 搜索并安装「Hugging Face」;
  2. 添加Rerank模型:
    配置项 填写内容
    名称 BGE-Reranker
    API Key 留空(若用本地服务)
    模型名称映射 自定义模型名:bge-reranker-v2-m3;实际模型名:http://host.docker.internal:1234
    任务类型 选择rerank
步骤3:在知识库中启用Rerank
  1. 进入Dify的知识库 → 选择目标知识库 → 设置
  2. 在「检索配置」中:
    • 勾选「启用Rerank」;
    • 选择Rerank模型为bge-reranker-v2-m3
    • 设置「Top-K」(如5)和「Rerank Top-N」(如3)。
步骤4:工作流中关联Rerank与qwen3:8b

在Dify工作流的「知识库检索」节点中,确保已绑定上述Rerank模型,检索结果会先经过BGE-Rerank重排序,再传递给qwen3:8b生成回答。

替代方案:用Xinference统一管理LLM+Rerank

如果需要更简化的部署,可使用Xinference同时启动qwen3:8b和Rerank模型:

# 启动Xinference服务
xinference -H 0.0.0.0

# 部署qwen3:8b
xinference launch --model-name qwen3-8b --model-format pytorch

# 部署BGE-Rerank
xinference launch --model-name bge-reranker-v2-m3 --model-type rerank

之后在Dify中配置Xinference供应商,即可同时调用LLM和Rerank模型。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐