为什么选择Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled:MoE架构与推理能力的完美平衡
Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled是一款基于Qwen3.6-35B-A3B的推理蒸馏变体模型,它被训练来模仿Anthropic的前沿推理模型Claude Opus 4.7的思维链风格。该模型旨在将Claude级别的推理行为移植到一个具有宽松许可的混合专家(Mixture-of-Experts)模型中,使个人用户也能实际运行。#
为什么选择Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled:MoE架构与推理能力的完美平衡
Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled是一款基于Qwen3.6-35B-A3B的推理蒸馏变体模型,它被训练来模仿Anthropic的前沿推理模型Claude Opus 4.7的思维链风格。该模型旨在将Claude级别的推理行为移植到一个具有宽松许可的混合专家(Mixture-of-Experts)模型中,使个人用户也能实际运行。
🚀 选择该模型的四大核心优势
1️⃣ Claude风格推理,开源可用
Claude Opus 4.7是目前可用的最强推理模型之一,但仅通过专有API提供。而Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled模型则在约8k个由Opus 4.7生成的高质量推理轨迹上进行了微调,教导基础模型在回答之前进行"思考"——使用明确的</think>…</RichMediaReference>块——采用Claude的结构和节奏。
2️⃣ 稀疏激活,知识密集
该模型的基础是一个拥有350亿参数的MoE模型,具有256个专家,8个路由专家+1个共享专家,每个令牌只有约30亿参数处于活动状态。这意味着你可以以小型密集模型的推理成本获得350亿模型的能力。全质量bf16推理可在单个80GB A100或H100上运行。
3️⃣ 支持长思考
该模型支持64k令牌上下文。在解决难题时,模型通常会在给出最终答案之前发出5–30k令牌的</think>推理内容——这正是推理模型的关键所在,也是为什么这个模型经过专门训练,上游教师也进行了明确推理。
4️⃣ 可扩展的基础
LoRA适配器也单独发布(…-adapter),因此你可以将蒸馏应用于同一基础的其他检查点,或叠加进一步的微调。
🧠 适用场景
Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled专为解决复杂推理问题而构建:研究生级别的STEM、竞赛数学(AIME/MATH)、带有明确步骤的代码推理、多步骤逻辑谜题,以及需要显式</think>帮助确保正确性的智能体规划。
对于短对话、延迟敏感的工作负载,思考预算可能很大;如果在生产中只需要最终答案,可以限制max_new_tokens或后处理以去除<RichMediaReference>…superscript:块。
💻 快速开始使用
Python代码示例
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
repo = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled"
tok = AutoTokenizer.from_pretrained(repo)
model = AutoModelForCausalLM.from_pretrained(
repo, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True,
)
messages = [{"role": "user", "content": "How many positive integers less than 1000 have digits that sum to 20?"}]
inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(inputs, max_new_tokens=32768, do_sample=False)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))
使用vLLM服务
推荐后端:vLLM用于服务——MoE路由+KV缓存从连续批处理中显著受益。
vllm serve lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \
--dtype bfloat16 --max-model-len 65536 --gpu-memory-utilization 0.9
GGUF格式(LM Studio / llama.cpp)
量化的GGUF权重可用于llama.cpp和LM Studio:
- IQ4_XS (18.9 GB) — 最小,LM Studio的默认选择
- Q5_K_M (~25 GB) — 平衡质量/大小
- Q8_0 (~35 GB) — 近乎无损
一旦HF索引了GGUF仓库(通常在发布后一小时内),在LM Studio的模型浏览器中搜索lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled即可。
📊 模型评估表现
该模型通过lm-evaluation-harness(v0.4.9)使用vLLM后端在64k上下文中以bf16精度进行评估。自定义评估路径在过滤管道之前从生成中去除<RichMediaReference>…superscript:,使用每个任务的常规fewshot计数,并以fewshot_as_multiturn=True运行,因此few-shot示例是适当的聊天轮次,而不是连接的提示文本。原始结果JSON是公开的:lordx64/qwen3-6-distill-evals。
| 基准测试 | 设置 | 分数 |
|---|---|---|
| GSM8K CoT | 8-shot多轮,限制300 | 84.3% (灵活提取) / 76.7% (严格匹配) |
| MMLU-Pro | 5-shot多轮,限制500 | 74.9% |
| AIME 2024 | 0-shot,完整(30) | 提取修复进行中 — 模型生成答案但格式不被AIME提取器识别(\boxed{} vs 纯文本) |
| AIME 2025 | 0-shot,完整(30) | 同上 — 待处理 |
| GPQA Diamond | 0-shot CoT,完整(198) | 同上 — 待处理 |
| MATH-500 | 0-shot,限制100 | 待重新运行(首次运行中缺少sympy/math_verify依赖) |
MMLU-Pro科目细分
标准推理模型配置:STEM方面表现强劲,法律/工程方面较弱。所有科目均以限制500、5-shot多轮评估。
| 科目 | 准确率 | 科目 | 准确率 |
|---|---|---|---|
| 生物学 | 86.0% | 化学 | 78.8% |
| 心理学 | 83.4% | 健康 | 73.8% |
| 数学 | 83.6% | 商业 | 74.4% |
| 经济学 | 83.0% | 其他 | 72.6% |
| 物理学 | 81.0% | 哲学 | 71.3% |
| 计算机科学 | 79.0% | 历史 | 70.9% |
| 工程学 | 54.8% | ||
| 法律 | 55.6% |
完整的每个任务JSON与stderr、过滤器配置和时间安排位于评估数据集中。在诊断性重新运行确定为什么AIME/GPQA提取在生成的输出上返回不匹配后,其余任务将添加到此表中。
⚠️ 局限性
-
推理≠知识。蒸馏转移的是"如何推理",而不是新事实。任何基础Qwen3.6-35B-A3B不 already知道的内容,这个模型仍然不知道。
-
仅注意力LoRA。专家FFN与基础模型保持不变——Claude和Qwen3.6在事实先验上存在分歧的领域可能会看到不均衡的改进。
-
长生成。该模型在难题上确实会使用数万个令牌。相应地预算你的
max_new_tokens,并在推理时提供max_model_len ≥ 32k。 -
蒸馏来源。训练数据是通过API使用Anthropic的Claude Opus 4.7生成的。下游用户应确认其特定用例是否符合Anthropic的使用政策。
📚 如何获取模型
要获取Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled模型,请使用以下命令克隆仓库:
git clone https://gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled
📄 引用
如果使用此模型,请引用基础模型和蒸馏版本:
@misc{qwen36_a3b_2026,
title = {Qwen3.6-35B-A3B},
author = {Qwen Team},
year = {2026},
howpublished = {\url{https://huggingface.co/Qwen/Qwen3.6-35B-A3B}},
}
@misc{lordx64_qwen36_distill_2026,
title = {Qwen3.6-35B-A3B distilled from Claude Opus 4.7 reasoning},
author = {lordx64},
year = {2026},
howpublished = {\url{https://huggingface.co/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled}},
}
🙏 致谢
-
Unsloth — 大型MoE LoRA的2倍速训练;我们遇到并修复的错误在他们的
unsloth-zoo补丁中(感谢PR #601的快速审核)。 -
Anthropic — 提供教师模型。
-
Qwen团队 — 发布具有宽松Apache-2.0许可证的Qwen3.6,使此类工作成为可能。
-
lm-evaluation-harness (EleutherAI) — 评估方法。
更多推荐



所有评论(0)