qwen3.6-35-a3b关闭思考
·
参考:
https://discuss.vllm.ai/t/deployment-example-for-a-qwen3-model-with-hybrid-thinking/1462/7
https://unsloth.ai/docs/zh/mo-xing/qwen3.6#qwen3.5-35b-a3b
https://github.com/vllm-project/vllm/pull/17369
依赖:
langchain-qwq==0.2.0
openai==2.37.0
qwen3.6-35-a3b
关键参数:extra_body={"chat_template_kwargs": {"enable_thinking": False}}
原本qwen3-32b是可直接通过enable_thinking=False参数关闭的,但qwen3.5后好像就不行了。
在官网中并没有及时更新文档说明该参数的使用(https://github.com/yigit353/langchain-qwq)
vllm
docker run -d --gpus all --network=host --ipc=host --rm --name qwen3.6 \
-v /home/vllm-models/Qwen3___6-35B-A3B:/home/vllm-models/Qwen3___6-35B-A3B \
-v /etc/localtime:/etc/localtime:ro \
vllm/vllm-openai \
/home/vllm-models/Qwen3___6-35B-A3B \
--served-model-name Qwen3.6-35B-A3B \
--tensor-parallel-size 1 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--enable-prefix-caching \
--gpu-memory-utilization 0.95 \
--default-chat-template-kwargs '{"enable_thinking": false}'
sdk
from langchain_qwq import ChatQwen
llm = ChatQwen(
model=self.llm_model,
base_url=self.api_url,
api_key=self.api_key,
temperature=temperature,
enable_thinking=enable_thinking, # qwen3-32b
extra_body={"chat_template_kwargs": {"enable_thinking": enable_thinking}}, # qwen3.6-35b-a3b
# max_tokens=self.max_tokens
)
return llm
from openai import OpenAI
client = OpenAI(
api_key="admin#@123",
base_url="http://10.26.22.73:8000/v1",
)
messages = [{"role": "user", "content": "你是谁"}]
completion = client.chat.completions.create(
model="Qwen3.6-35B-A3B", # 您可以按需更换为其它深度思考模型
messages=messages,
extra_body={"chat_template_kwargs": {"enable_thinking": False},},
stream=True
)
api
def request_json_body(model: str, messages: List[Dict[str, Any]], enable_thinking: bool = False, stream: bool = False, **kwargs) -> Dict[str, str]:
return {
"model": model,
"messages": messages,
"enable_thinking": enable_thinking, # qwen3-32b
"chat_template_kwargs": {"enable_thinking": enable_thinking}, # qwen3.6-35b-a3b
"stream": stream,
**kwargs
}
存在问题:不管打开或关闭思考模式,偶尔还是会输出小片段的思考过程在回答中,即思考过程并不会100%不输出,甚至会填充至content字段中。按设计,思考过程应该只填充至reasoning_content字段中的。
经网络调研,该思考开关好像只是模板开关 而非 推理路径开关。开源 MoE 模型默认走混合推理管线,参数仅抑制显式标签,无法完全抹除训练期注入的推理倾向。
关闭思考模式,偶尔出现思考过程的样例(可能界面没有思考框就是不思考模式吧,虽然内容看起来是思考的过程):

对应的打开思考模式

打开思考模式,回答中偶尔出现思考过程的样例

更多推荐




所有评论(0)