qwen3.6-35-a3b关闭思考

bloglin99999

553人浏览 · 2026-05-21 13:37:51

bloglin99999 · 2026-05-21 13:37:51 发布

参考：

https://discuss.vllm.ai/t/deployment-example-for-a-qwen3-model-with-hybrid-thinking/1462/7

https://unsloth.ai/docs/zh/mo-xing/qwen3.6#qwen3.5-35b-a3b

https://github.com/vllm-project/vllm/pull/17369

依赖：

langchain-qwq==0.2.0

openai==2.37.0

qwen3.6-35-a3b

关键参数：extra_body={"chat_template_kwargs": {"enable_thinking": False}}

原本qwen3-32b是可直接通过enable_thinking=False参数关闭的，但qwen3.5后好像就不行了。

在官网中并没有及时更新文档说明该参数的使用（https://github.com/yigit353/langchain-qwq）

vllm

docker run -d --gpus all --network=host --ipc=host --rm --name qwen3.6 \
  -v /home/vllm-models/Qwen3___6-35B-A3B:/home/vllm-models/Qwen3___6-35B-A3B \
  -v /etc/localtime:/etc/localtime:ro \
  vllm/vllm-openai \
	/home/vllm-models/Qwen3___6-35B-A3B \
	--served-model-name Qwen3.6-35B-A3B \
	--tensor-parallel-size 1 \
	--max-model-len 262144 \
	--reasoning-parser qwen3 \
	--enable-auto-tool-choice \
	--tool-call-parser qwen3_coder \
	--enable-prefix-caching \
	--gpu-memory-utilization 0.95 \
	--default-chat-template-kwargs '{"enable_thinking": false}'

sdk

from langchain_qwq import ChatQwen

llm = ChatQwen(
            model=self.llm_model,
            base_url=self.api_url,
            api_key=self.api_key,
            temperature=temperature,
            enable_thinking=enable_thinking,    # qwen3-32b
            extra_body={"chat_template_kwargs": {"enable_thinking": enable_thinking}}, # qwen3.6-35b-a3b
            # max_tokens=self.max_tokens
        )
        return llm

from openai import OpenAI

client = OpenAI(
    api_key="admin#@123",
    base_url="http://10.26.22.73:8000/v1",
)

messages = [{"role": "user", "content": "你是谁"}]

completion = client.chat.completions.create(
    model="Qwen3.6-35B-A3B",  # 您可以按需更换为其它深度思考模型
    messages=messages,
    extra_body={"chat_template_kwargs": {"enable_thinking": False},},
    stream=True
)

api

def request_json_body(model: str, messages: List[Dict[str, Any]], enable_thinking: bool = False, stream: bool = False, **kwargs) -> Dict[str, str]:
        return {
            "model": model,
            "messages": messages,
            "enable_thinking": enable_thinking, # qwen3-32b
            "chat_template_kwargs": {"enable_thinking": enable_thinking}, # qwen3.6-35b-a3b
            "stream": stream,
            **kwargs
        }

存在问题：不管打开或关闭思考模式，偶尔还是会输出小片段的思考过程在回答中，即思考过程并不会100%不输出，甚至会填充至content字段中。按设计，思考过程应该只填充至reasoning_content字段中的。

经网络调研，该思考开关好像只是模板开关 而非 推理路径开关。开源 MoE 模型默认走混合推理管线，参数仅抑制显式标签，无法完全抹除训练期注入的推理倾向。

关闭思考模式，偶尔出现思考过程的样例（可能界面没有思考框就是不思考模式吧，虽然内容看起来是思考的过程）：