【qwen3-coder-next】NVFP4量化版在vLLM本地部署成功后要点实录
·
【qwen3-coder-next】NVFP4量化版在vLLM本地部署成功后要点实录
##【安装windows 11的WSL2虚拟机】
按 Ctrl+Shift+Esc 打开任务管理器 → 性能 → CPU,确认右下角 “虚拟化” 为已启用。若显示禁用,需重启进入 BIOS/UEFI 开启 Intel VT‑x 或 AMD‑V。
打开 Windows 功能:在 “相关设置” 下点击 “更多 Windows 功能”,打开 “启用或关闭 Windows 功能” 窗口。
勾选核心组件:
勾选 “虚拟机平台”
勾选 “适用于 Linux 的 Windows 子系统”
应用更改:点击 “确定”,等待系统下载并安装文件,完成后按提示重启计算机。
重启后,以管理员身份打开终端(Win+X 选择 “终端 (管理员)”)。
执行 wsl --set-default-version 2 提示需要更新 WSL,且执行 wsl.exe --update 后下载
最终验证:wsl --status 确认 WSL2 设置成功
PS C:\Users\Administrator> wsl --list --verbose
NAME STATE VERSION
* Ubuntu-24.04 Running 2
安装目标发行版(如 Ubuntu):wsl --install -d Ubuntu
也可以手动下载安装:ubuntu-24.04.3-wsl-amd64.wsl(361MB)国内下载很快的地址:https://mirrors.ustc.edu.cn/ubuntu-releases/24.04.3/
然后已下载的ubuntu-24.04.3-wsl-amd64.wsl在 D 盘,用管理员 PowerShell执行以下命令安装(直接指定文件路径):
wsl --import Ubuntu-24.04 D:\WSL-Ubuntu D:\ubuntu-24.04.3-wsl-amd64.wsl --version 2
或者
wsl --import Ubuntu-24.04 C:\WSL-Ubuntu D:\ubuntu-24.04.3-wsl-amd64.wsl --version 2
弹窗是 WSL 的欢迎引导界面,不是配置对话框, ** 关闭按钮(×)** 关掉这个页面,然后回到之前的管理员 PowerShell 终端,执行wsl -d Ubuntu-24.04就能启动你刚安装的 Ubuntu 24.04 系统
第一步:创建普通用户(推荐操作): adduser ubuntu
第二步:给新用户授予管理员权限 : usermod -aG sudo ubuntu
第三步:设置默认登录用户(下次启动直接进普通用户): wsl -d Ubuntu-24.04 -u ubuntu
关闭了所有终端窗口。如何再次进入ubuntu?
Windows 终端 / CMD/PowerShell 直接启动: wsl -d Ubuntu-24.04
想临时以指定普通用户启动,在 Windows 终端执行:
wsl -d Ubuntu-24.04 -u 你的普通用户名
wsl -d Ubuntu-24.04 -u root
nvidia-smi
检查cuda版本
【安装pip3】
安装pip3:
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev
pip3 --version
pip3 config get global.index-url
#一键切换 pip3 到国内源(推荐清华源,加速 vLLM / 模型相关包下载)
pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
sudo apt update && sudo apt install -y python3-venv python3-full
# 创建虚拟环境(目录名可自定义,比如vllm-env)
python3 -m venv ~/wsl-minimax
# 激活虚拟环境(关键!激活后终端前缀会显示(vllm-env))
source ~/wsl-minimax/bin/activate
#OK
# 升级pip到最新版本(WSL Ubuntu环境通用)
pip install --upgrade pip
pip install uv -i https://pypi.tuna.tsinghua.edu.cn/simple
# 先终止Ubuntu-24.04实例(安全关闭进程)
wsl --terminate Ubuntu-24.04
# 重新启动该实例
wsl -d Ubuntu-24.04 -u ubuntu
重启后,清空一下缓存,节省空间
pip cache purge
# 在你的虚拟环境中安装
uv pip install modelscope>=1.18.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
【快速启动】
#vllm Serving
VLLM_USE_MODELSCOPE=true vllm serve GadflyII/Qwen3-Coder-Next-NVFP4 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--kv-cache-dtype fp8
然后用新的PowerShell窗口,进入wsl
wsl -d Ubuntu-24.04 -u ubuntu
监控 GPU 使用情况(WSL2新终端)
watch -n 1 nvidia-smi
【启动脚本】其它模型: Minimax-M2.1-NVFP4
export OMP_NUM_THREADS=4
export TORCH_CUDNN_ALLOW_TF32=1
VLLM_USE_MODELSCOPE=false vllm serve \
~/FP4_Minimax \
--served-model-name MiniMax-M2.1-NVFP4 \
--host 0.0.0.0 \
--port 7988 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len 32768 \
--max-num-seqs 32 \
--max-num-batched-tokens 32768 \
--swap-space 16 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think \
--trust-remote-code \
--disable-log-stats \
--enforce-eager \
#start_minimax.sh
export VLLM_USE_DEEP_GEMM=0
export OMP_NUM_THREADS=4
export TORCH_CUDNN_ALLOW_TF32=1
VLLM_USE_MODELSCOPE=false vllm serve \
~/Minimax_Model \
--served-model-name MiniMax-M2.1-AWQ \
--host 0.0.0.0 \
--port 7988 \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.95 \
--max-model-len 32768 \
--max-num-seqs 32 \
--max-num-batched-tokens 32768 \
--swap-space 16 \
--tool-call-parser minimax_m2 \
--reasoning-parser minimax_m2_append_think \
--trust-remote-code \
--disable-log-stats \
--attention-backend flashinfer \
--quantization awq_marlin
优化部分:
#%USERPROFILE%.wslconfig
[wsl2]
memory=64GB # 至少 32GB,推荐 64GB+
processors=16 # 分配足够 CPU 核心
swap=16GB
localhostForwarding=true
然后 wsl --shutdown 重启。命令查看状态 wsl -l -v 显示Stopped即可。
- 针对NVIDIA Blackwell GPU 的显卡,更应该选择这个模型:
https://modelscope.cn/models/hf/GadflyII-MiniMax-M2.1-NVFP4 - libncurses5 和libtinfo5 不安装也不怕
- 最好安装好: cuda-toolkit-12-4
- 可以忽略的警告:
(APIServer pid=9959) The tokenizer you are loading from ‘/home/ubuntu/Qwen3-Coder-Next_NVFP4’ with an incorrect regex pattern: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503/discussions/84#69121093e8b480e709447d5e. This will lead to incorrect tokenization. You should set thefix_mistral_regex=Trueflag when loading this tokenizer to fix this issue. - –kv-cache-dtype auto
- rm -rf ~/.cache/{huggingface/modules,vllm,flashinfer}
- 额外参阅网址:https://unsloth.ai/docs/models/qwen3-coder-next
成功启动后画面:qwen3-coder-next-NVFP4的资源占用情况
我另外设置了并发数12,没设swap,


更多推荐




所有评论(0)