为什么选择Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled：MoE架构与推理能力的完美平衡

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled是一款基于Qwen3.6-35B-A3B的推理蒸馏变体模型，它被训练来模仿Anthropic的前沿推理模型Claude Opus 4.7的思维链风格。该模型旨在将Claude级别的推理行为移植到一个具有宽松许可的混合专家（Mixture-of-Experts）模型中，使个人用户也能实际运行。#

黄桥壮Quinn

913人浏览 · 2026-05-28 09:16:04

黄桥壮Quinn · 2026-05-28 09:16:04 发布

为什么选择Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled：MoE架构与推理能力的完美平衡

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled 项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

🚀 选择该模型的四大核心优势

1️⃣ Claude风格推理，开源可用

Claude Opus 4.7是目前可用的最强推理模型之一，但仅通过专有API提供。而Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled模型则在约8k个由Opus 4.7生成的高质量推理轨迹上进行了微调，教导基础模型在回答之前进行"思考"——使用明确的</think>…</RichMediaReference>块——采用Claude的结构和节奏。

2️⃣ 稀疏激活，知识密集

该模型的基础是一个拥有350亿参数的MoE模型，具有256个专家，8个路由专家+1个共享专家，每个令牌只有约30亿参数处于活动状态。这意味着你可以以小型密集模型的推理成本获得350亿模型的能力。全质量bf16推理可在单个80GB A100或H100上运行。

3️⃣ 支持长思考

该模型支持64k令牌上下文。在解决难题时，模型通常会在给出最终答案之前发出5–30k令牌的</think>推理内容——这正是推理模型的关键所在，也是为什么这个模型经过专门训练，上游教师也进行了明确推理。

4️⃣ 可扩展的基础

LoRA适配器也单独发布（…-adapter），因此你可以将蒸馏应用于同一基础的其他检查点，或叠加进一步的微调。

🧠 适用场景

Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled专为解决复杂推理问题而构建：研究生级别的STEM、竞赛数学（AIME/MATH）、带有明确步骤的代码推理、多步骤逻辑谜题，以及需要显式</think>帮助确保正确性的智能体规划。

对于短对话、延迟敏感的工作负载，思考预算可能很大；如果在生产中只需要最终答案，可以限制max_new_tokens或后处理以去除<RichMediaReference>…superscript:块。

💻 快速开始使用

Python代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

repo = "lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled"
tok = AutoTokenizer.from_pretrained(repo)
model = AutoModelForCausalLM.from_pretrained(
    repo, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True,
)

messages = [{"role": "user", "content": "How many positive integers less than 1000 have digits that sum to 20?"}]
inputs = tok.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
out = model.generate(inputs, max_new_tokens=32768, do_sample=False)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))

使用vLLM服务

推荐后端：vLLM用于服务——MoE路由+KV缓存从连续批处理中显著受益。

vllm serve lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled \
  --dtype bfloat16 --max-model-len 65536 --gpu-memory-utilization 0.9

GGUF格式（LM Studio / llama.cpp）

量化的GGUF权重可用于llama.cpp和LM Studio：

IQ4_XS (18.9 GB) — 最小，LM Studio的默认选择
Q5_K_M (~25 GB) — 平衡质量/大小
Q8_0 (~35 GB) — 近乎无损

一旦HF索引了GGUF仓库（通常在发布后一小时内），在LM Studio的模型浏览器中搜索lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled即可。

📊 模型评估表现

该模型通过lm-evaluation-harness（v0.4.9）使用vLLM后端在64k上下文中以bf16精度进行评估。自定义评估路径在过滤管道之前从生成中去除<RichMediaReference>…superscript:，使用每个任务的常规fewshot计数，并以fewshot_as_multiturn=True运行，因此few-shot示例是适当的聊天轮次，而不是连接的提示文本。原始结果JSON是公开的：lordx64/qwen3-6-distill-evals。

基准测试	设置	分数
GSM8K CoT	8-shot多轮，限制300	84.3% (灵活提取) / 76.7% (严格匹配)
MMLU-Pro	5-shot多轮，限制500	74.9%
AIME 2024	0-shot，完整(30)	提取修复进行中 — 模型生成答案但格式不被AIME提取器识别（`\boxed{}` vs 纯文本）
AIME 2025	0-shot，完整(30)	同上 — 待处理
GPQA Diamond	0-shot CoT，完整(198)	同上 — 待处理
MATH-500	0-shot，限制100	待重新运行（首次运行中缺少`sympy`/`math_verify`依赖）

MMLU-Pro科目细分

标准推理模型配置：STEM方面表现强劲，法律/工程方面较弱。所有科目均以限制500、5-shot多轮评估。

科目	准确率	科目	准确率
生物学	86.0%	化学	78.8%
心理学	83.4%	健康	73.8%
数学	83.6%	商业	74.4%
经济学	83.0%	其他	72.6%
物理学	81.0%	哲学	71.3%
计算机科学	79.0%	历史	70.9%
		工程学	54.8%
		法律	55.6%

完整的每个任务JSON与stderr、过滤器配置和时间安排位于评估数据集中。在诊断性重新运行确定为什么AIME/GPQA提取在生成的输出上返回不匹配后，其余任务将添加到此表中。

⚠️ 局限性

推理≠知识。蒸馏转移的是"如何推理"，而不是新事实。任何基础Qwen3.6-35B-A3B不 already知道的内容，这个模型仍然不知道。
仅注意力LoRA。专家FFN与基础模型保持不变——Claude和Qwen3.6在事实先验上存在分歧的领域可能会看到不均衡的改进。
长生成。该模型在难题上确实会使用数万个令牌。相应地预算你的max_new_tokens，并在推理时提供max_model_len ≥ 32k。
蒸馏来源。训练数据是通过API使用Anthropic的Claude Opus 4.7生成的。下游用户应确认其特定用例是否符合Anthropic的使用政策。

📚 如何获取模型

要获取Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled模型，请使用以下命令克隆仓库：

git clone https://gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

📄 引用

如果使用此模型，请引用基础模型和蒸馏版本：

@misc{qwen36_a3b_2026,
  title  = {Qwen3.6-35B-A3B},
  author = {Qwen Team},
  year   = {2026},
  howpublished = {\url{https://huggingface.co/Qwen/Qwen3.6-35B-A3B}},
}

@misc{lordx64_qwen36_distill_2026,
  title  = {Qwen3.6-35B-A3B distilled from Claude Opus 4.7 reasoning},
  author = {lordx64},
  year   = {2026},
  howpublished = {\url{https://huggingface.co/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled}},
}

🙏 致谢

Unsloth — 大型MoE LoRA的2倍速训练；我们遇到并修复的错误在他们的unsloth-zoo补丁中（感谢PR #601的快速审核）。
Anthropic — 提供教师模型。
Qwen团队 — 发布具有宽松Apache-2.0许可证的Qwen3.6，使此类工作成为可能。
lm-evaluation-harness (EleutherAI) — 评估方法。

【免费下载链接】Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled 项目地址: https://ai.gitcode.com/hf_mirrors/lordx64/Qwen3.6-35B-A3B-Claude-4.7-Opus-Reasoning-Distilled

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

本周 GitHub 热门项目推荐：Headroom 和 CC Switch

AI编程社区

我用Codex开发的第一个朋友圈九宫格素材小程序上线啦

AI编程社区

“聊天已死”！ChatGPT史上最大改版：告别纯聊天，转型“超级应用“押注AI智能体

特征说明一站式聊天+编程+图像+智能体+第三方应用主动执行不是等你提问，而是主动帮你完成任务生态开放接入外部应用，构建平台企业级面向企业客户提供任务自动化方案持续运行不是一问一答，而是7×24持续工作“聊天已死”：AI只用来聊天的时代结束了，未来是执行任务的智能体Codex上位：编程工具从附属功能升级为核心引擎超级应用：对标微信/支付宝的AI超级应用范式IPO驱动：8500亿估值+年内上市→必须证