参考:

https://discuss.vllm.ai/t/deployment-example-for-a-qwen3-model-with-hybrid-thinking/1462/7

https://unsloth.ai/docs/zh/mo-xing/qwen3.6#qwen3.5-35b-a3b

https://github.com/vllm-project/vllm/pull/17369

依赖:

langchain-qwq==0.2.0

openai==2.37.0

qwen3.6-35-a3b

关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}

原本qwen3-32b是可直接通过enable_thinking=False参数关闭的,但qwen3.5后好像就不行了。

在官网中并没有及时更新文档说明该参数的使用(https://github.com/yigit353/langchain-qwq

vllm

docker run -d --gpus all --network=host --ipc=host --rm --name qwen3.6 \
  -v /home/vllm-models/Qwen3___6-35B-A3B:/home/vllm-models/Qwen3___6-35B-A3B \
  -v /etc/localtime:/etc/localtime:ro \
  vllm/vllm-openai \
	/home/vllm-models/Qwen3___6-35B-A3B \
	--served-model-name Qwen3.6-35B-A3B \
	--tensor-parallel-size 1 \
	--max-model-len 262144 \
	--reasoning-parser qwen3 \
	--enable-auto-tool-choice \
	--tool-call-parser qwen3_coder \
	--enable-prefix-caching \
	--gpu-memory-utilization 0.95 \
	--default-chat-template-kwargs '{"enable_thinking": false}'

sdk

from langchain_qwq import ChatQwen

llm = ChatQwen(
            model=self.llm_model,
            base_url=self.api_url,
            api_key=self.api_key,
            temperature=temperature,
            enable_thinking=enable_thinking,    # qwen3-32b
            extra_body={"chat_template_kwargs": {"enable_thinking": enable_thinking}}, # qwen3.6-35b-a3b
            # max_tokens=self.max_tokens
        )
        return llm
from openai import OpenAI

client = OpenAI(
    api_key="admin#@123",
    base_url="http://10.26.22.73:8000/v1",
)

messages = [{"role": "user", "content": "你是谁"}]

completion = client.chat.completions.create(
    model="Qwen3.6-35B-A3B",  # 您可以按需更换为其它深度思考模型
    messages=messages,
    extra_body={"chat_template_kwargs": {"enable_thinking": False},},
    stream=True
)

api

def request_json_body(model: str, messages: List[Dict[str, Any]], enable_thinking: bool = False, stream: bool = False, **kwargs) -> Dict[str, str]:
        return {
            "model": model,
            "messages": messages,
            "enable_thinking": enable_thinking, # qwen3-32b
            "chat_template_kwargs": {"enable_thinking": enable_thinking}, # qwen3.6-35b-a3b
            "stream": stream,
            **kwargs
        }     

存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。

经网络调研,该思考开关好像只是模板开关 而非 推理路径开关。开源 MoE 模型默认走混合推理管线,参数仅抑制显式标签,无法完全抹除训练期注入的推理倾向。

关闭思考模式,偶尔出现思考过程的样例(可能界面没有思考框就是不思考模式吧,虽然内容看起来是思考的过程):

对应的打开思考模式

打开思考模式,回答中偶尔出现思考过程的样例

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐