Xinference项目中的流式Tool Call返回体规范问题解析

韶连玮Bettina

448人浏览 · 2025-08-12 09:04:46

韶连玮Bettina · 2025-08-12 09:04:46 发布

Xinference项目中的流式Tool Call返回体规范问题解析

【免费下载链接】inference 通过更改一行代码，您可以在应用程序中用另一个大型语言模型（LLM）替换OpenAI GPT。Xinference赋予您使用任何所需LLM的自由。借助Xinference，您能够在云端、本地、甚至笔记本电脑上运行任何开源语言模型、语音识别模型和多模态模型的推理。项目地址: https://gitcode.com/xorbits/inference

背景介绍

在Xinference项目（一个高性能推理框架）的最新版本1.7.0.post1中，用户在使用qwen2.5-instruct模型进行流式工具调用(tool call)时发现了一个与标准接口规范不完全兼容的问题。具体表现为流式返回的tool_call对象中缺少index字段，这导致某些客户端（如langchain4j）在处理响应时出现空指针异常。

问题现象

当用户通过流式接口请求工具调用时，Xinference返回的JSON数据中，tool_calls数组内的每个工具调用对象缺少了index字段。而在标准的流式响应中，每个tool_call对象都应包含一个index字段，用于标识工具调用的顺序。

Xinference的返回示例：

{
  "choices": [
    {
      "index": 0,
      "delta": {
        "tool_calls": [
          {
            "id": "call_...",
            "type": "function",
            "function": {
              "name": "uber_ride",
              "arguments": "..."
            }
          }
        ]
      }
    }
  ]
}

而标准返回示例：

{
  "choices": [
    {
      "index": 0,
      "delta": {
        "tool_calls": [
          {
            "index": 0,
            "id": "call_...",
            "type": "function",
            "function": {
              "arguments": "..."
            }
          }
        ]
      }
    }
  ]
}