【qwen3-coder-next】NVFP4量化版在vLLM本地部署成功后要点实录

Boxsc_midnight

1400人浏览 · 2026-02-05 09:32:00

Boxsc_midnight · 2026-02-05 09:32:00 发布

【qwen3-coder-next】NVFP4量化版在vLLM本地部署成功后要点实录

##【安装windows 11的WSL2虚拟机】

按 Ctrl+Shift+Esc 打开任务管理器 → 性能 → CPU，确认右下角 “虚拟化” 为已启用。若显示禁用，需重启进入 BIOS/UEFI 开启 Intel VT‑x 或 AMD‑V。
打开 Windows 功能：在 “相关设置” 下点击 “更多 Windows 功能”，打开 “启用或关闭 Windows 功能” 窗口。
勾选核心组件：
勾选 “虚拟机平台”
勾选 “适用于 Linux 的 Windows 子系统”
应用更改：点击 “确定”，等待系统下载并安装文件，完成后按提示重启计算机。
重启后，以管理员身份打开终端（Win+X 选择 “终端 (管理员)”）。
执行 wsl --set-default-version 2 提示需要更新 WSL，且执行 wsl.exe --update 后下载
最终验证：wsl --status 确认 WSL2 设置成功
PS C:\Users\Administrator> wsl --list --verbose
  NAME            STATE           VERSION
* Ubuntu-24.04    Running         2
安装目标发行版（如 Ubuntu）：wsl --install -d Ubuntu
也可以手动下载安装：ubuntu-24.04.3-wsl-amd64.wsl（361MB）国内下载很快的地址：https://mirrors.ustc.edu.cn/ubuntu-releases/24.04.3/
然后已下载的ubuntu-24.04.3-wsl-amd64.wsl在 D 盘，用管理员 PowerShell执行以下命令安装（直接指定文件路径）：
wsl --import Ubuntu-24.04 D:\WSL-Ubuntu D:\ubuntu-24.04.3-wsl-amd64.wsl --version 2
或者
wsl --import Ubuntu-24.04 C:\WSL-Ubuntu D:\ubuntu-24.04.3-wsl-amd64.wsl --version 2
弹窗是 WSL 的欢迎引导界面，不是配置对话框， ** 关闭按钮（×）** 关掉这个页面，然后回到之前的管理员 PowerShell 终端，执行wsl -d Ubuntu-24.04就能启动你刚安装的 Ubuntu 24.04 系统

第一步：创建普通用户（推荐操作）： adduser ubuntu
第二步：给新用户授予管理员权限 ： usermod -aG sudo ubuntu
第三步：设置默认登录用户（下次启动直接进普通用户）： wsl -d Ubuntu-24.04 -u ubuntu

关闭了所有终端窗口。如何再次进入ubuntu?
Windows 终端 / CMD/PowerShell 直接启动： wsl -d Ubuntu-24.04
想临时以指定普通用户启动，在 Windows 终端执行：
wsl -d Ubuntu-24.04 -u 你的普通用户名
wsl -d Ubuntu-24.04 -u root
nvidia-smi
检查cuda版本

【安装pip3】

安装pip3：
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev
pip3 --version
pip3 config get global.index-url
#一键切换 pip3 到国内源（推荐清华源，加速 vLLM / 模型相关包下载）
pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
 sudo apt update && sudo apt install -y python3-venv python3-full
 # 创建虚拟环境（目录名可自定义，比如vllm-env）
python3 -m venv ~/wsl-minimax
# 激活虚拟环境（关键！激活后终端前缀会显示(vllm-env)）
source ~/wsl-minimax/bin/activate
#OK
# 升级pip到最新版本（WSL Ubuntu环境通用）
pip install --upgrade pip
pip install uv -i https://pypi.tuna.tsinghua.edu.cn/simple
# 先终止Ubuntu-24.04实例（安全关闭进程）
wsl --terminate Ubuntu-24.04
# 重新启动该实例
wsl -d Ubuntu-24.04 -u ubuntu
重启后，清空一下缓存，节省空间
pip cache purge
# 在你的虚拟环境中安装
uv pip install modelscope>=1.18.1 -i https://pypi.tuna.tsinghua.edu.cn/simple

【快速启动】

#vllm Serving
VLLM_USE_MODELSCOPE=true vllm serve GadflyII/Qwen3-Coder-Next-NVFP4 \
    --tensor-parallel-size 2 \
    --max-model-len 131072 \
    --kv-cache-dtype fp8

然后用新的PowerShell窗口，进入wsl

wsl -d Ubuntu-24.04 -u ubuntu

监控 GPU 使用情况（WSL2新终端）

watch -n 1 nvidia-smi

【启动脚本】其它模型: Minimax-M2.1-NVFP4

export OMP_NUM_THREADS=4
export TORCH_CUDNN_ALLOW_TF32=1

VLLM_USE_MODELSCOPE=false vllm serve \
    ~/FP4_Minimax \
    --served-model-name MiniMax-M2.1-NVFP4 \
    --host 0.0.0.0 \
    --port 7988 \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.95 \
    --max-model-len 32768 \
    --max-num-seqs 32 \
    --max-num-batched-tokens 32768 \
    --swap-space 16 \
    --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2_append_think \
    --trust-remote-code \
    --disable-log-stats \
	--enforce-eager \

#start_minimax.sh
export VLLM_USE_DEEP_GEMM=0
export OMP_NUM_THREADS=4
export TORCH_CUDNN_ALLOW_TF32=1

VLLM_USE_MODELSCOPE=false vllm serve \
    ~/Minimax_Model \
    --served-model-name MiniMax-M2.1-AWQ \
    --host 0.0.0.0 \
    --port 7988 \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.95 \
    --max-model-len 32768 \
    --max-num-seqs 32 \
    --max-num-batched-tokens 32768 \
    --swap-space 16 \
    --tool-call-parser minimax_m2 \
    --reasoning-parser minimax_m2_append_think \
    --trust-remote-code \
    --disable-log-stats \
	--attention-backend flashinfer \
	--quantization awq_marlin

优化部分：

#%USERPROFILE%.wslconfig
[wsl2]
memory=64GB # 至少 32GB，推荐 64GB+
processors=16 # 分配足够 CPU 核心
swap=16GB
localhostForwarding=true
然后 wsl --shutdown 重启。命令查看状态 wsl -l -v 显示Stopped即可。

针对NVIDIA Blackwell GPU 的显卡，更应该选择这个模型：
https://modelscope.cn/models/hf/GadflyII-MiniMax-M2.1-NVFP4
libncurses5 和libtinfo5 不安装也不怕
最好安装好: cuda-toolkit-12-4
可以忽略的警告：
(APIServer pid=9959) The tokenizer you are loading from ‘/home/ubuntu/Qwen3-Coder-Next_NVFP4’ with an incorrect regex pattern: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503/discussions/84#69121093e8b480e709447d5e. This will lead to incorrect tokenization. You should set the fix_mistral_regex=True flag when loading this tokenizer to fix this issue.
–kv-cache-dtype auto
rm -rf ～/.cache/{huggingface/modules,vllm,flashinfer}
额外参阅网址：https://unsloth.ai/docs/models/qwen3-coder-next