Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill教程：在VMware虚拟机中搭建完整的AI模型开发与测试环境

我就是夏迎春

403人浏览 · 2026-04-29 05:06:54

我就是夏迎春 · 2026-04-29 05:06:54 发布

Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill教程：在VMware虚拟机中搭建完整的AI模型开发与测试环境

1. 准备工作与环境搭建

在开始之前，我们需要准备好必要的软件和硬件资源。首先确保你的主机满足以下基本要求：

硬件配置：建议至少16GB内存（32GB更佳），100GB以上可用磁盘空间，支持虚拟化的CPU（Intel VT-x或AMD-V）
软件准备：最新版VMware Workstation Pro（16或17版本均可），Ubuntu 22.04 LTS镜像文件

安装VMware Workstation的过程相对简单，只需按照安装向导一步步操作即可。这里我们重点讲解虚拟机的创建和配置：

打开VMware Workstation，点击"创建新的虚拟机"
选择"自定义(高级)"配置
虚拟机硬件兼容性选择Workstation 16.x或17.x
选择"稍后安装操作系统"
客户机操作系统选择Linux，版本选择Ubuntu 64位
为虚拟机命名并选择存储位置（建议放在SSD上）
处理器配置：至少2个核心（4个更佳）
内存分配：建议8GB起步（16GB更佳）
网络类型选择NAT（便于联网）
I/O控制器类型保持默认
磁盘类型选择SCSI
创建新虚拟磁盘，大小建议80GB以上，选择"将虚拟磁盘存储为单个文件"
完成创建后，在虚拟机设置中加载Ubuntu ISO镜像

2. Ubuntu系统安装与基础配置

启动虚拟机后，按照以下步骤完成Ubuntu系统的安装：

选择"Install Ubuntu"
语言选择English（或其他你熟悉的语言）
键盘布局保持默认
网络连接建议跳过（安装完成后再配置）
安装类型选择"Normal installation"，并勾选"Install third-party software"
分区选择"Erase disk and install Ubuntu"（这是虚拟机，可以放心操作）
设置时区（选择你所在的地区）
创建用户账户（记住你设置的用户名和密码）
等待安装完成，重启虚拟机

系统安装完成后，首先进行基础配置：

# 更新软件源
sudo apt update && sudo apt upgrade -y

# 安装常用工具
sudo apt install -y git curl wget build-essential cmake

# 安装SSH服务（可选）
sudo apt install -y openssh-server
sudo systemctl enable --now ssh

3. GPU驱动与CUDA环境配置

如果你的主机有NVIDIA GPU，可以在虚拟机中启用直通功能（需要BIOS中开启VT-d/AMD-Vi支持）。不过更常见的方式是在虚拟机内安装CUDA工具包：

首先检查虚拟机是否识别到了GPU：

lspci | grep -i nvidia

安装NVIDIA驱动（如果使用直通模式）：

# 添加官方PPA
sudo add-apt-repository ppa:graphics-drivers/ppa -y
sudo apt update

# 查找推荐的驱动版本
ubuntu-drivers devices

# 安装推荐驱动
sudo apt install -y nvidia-driver-535

安装CUDA Toolkit 12.1：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

配置环境变量：

echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

4. Python环境与依赖安装

建议使用conda管理Python环境：

安装Miniconda：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 按照提示完成安装
source ~/.bashrc

创建专用环境：

conda create -n qwen python=3.10 -y
conda activate qwen

安装PyTorch与相关依赖：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate sentencepiece einops tiktoken

5. Qwen3-4B-Thinking模型部署

现在我们可以开始部署Qwen3-4B-Thinking模型了：

克隆模型仓库：

git clone https://github.com/QwenLM/Qwen-7B.git
cd Qwen-7B

下载模型权重（确保你有足够的磁盘空间）：

# 使用huggingface-cli下载（需要先登录）
pip install huggingface-hub
huggingface-cli login
huggingface-cli download Qwen/Qwen-7B --local-dir ./model

创建测试脚本inference.py：

from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda"  # 使用GPU

tokenizer = AutoTokenizer.from_pretrained("./model", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "./model",
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好，介绍一下你自己", history=[])
print(response)

运行测试：

python inference.py

6. 常见问题与解决方案

在搭建过程中可能会遇到以下问题：

虚拟机性能问题：如果感觉虚拟机运行缓慢，可以尝试以下优化：
- 在VMware设置中启用3D加速
- 分配更多CPU核心和内存
- 使用SSD存储
- 关闭不必要的图形效果
CUDA安装失败：确保安装了正确版本的驱动和CUDA工具包，检查gcc版本是否兼容
模型加载内存不足：Qwen3-4B-Thinking需要较大内存，可以尝试：
- 增加虚拟机内存分配
- 使用量化版本的模型
- 调整模型加载参数（如device_map="auto"）
网络连接问题：确保虚拟机网络设置正确，可以尝试：
- 检查NAT网络配置
- 临时关闭防火墙测试
- 使用桥接模式（如果网络环境允许）

7. 总结与下一步建议

通过本教程，我们成功在VMware虚拟机中搭建了一个完整的AI模型开发环境，从Ubuntu系统安装到Qwen3-4B-Thinking模型的部署运行。这个环境非常适合学习和实验，因为它与主机系统隔离，不会影响你的日常工作环境。

实际使用下来，虚拟机的性能虽然不如物理机直接运行，但对于学习和测试目的已经足够。特别是在内存分配足够的情况下，运行7B规模的模型还是可以接受的。如果你需要更高性能，可以考虑直接在物理机上安装双系统，或者使用云服务器。

下一步，你可以尝试在这个环境中：

测试模型的不同参数设置
尝试微调模型以适应特定任务
开发基于Qwen的应用程序
探索与其他AI工具的集成

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Codex助力Java+Vue构建B/S系统

是的，Codex 完全可以辅助你使用 Java 和 Vue 从零开发一个 B/S 架构的管理系统。其核心价值在于根据你的自然语言描述，生成符合前后端技术栈规范的代码片段、文件结构甚至配置，从而大幅提升开发效率。以下是结合 Codex 进行开发的核心流程、关键提示词（Prompt）技巧和实战示例。

AI编程社区

Lemo-AI大模型：记忆驱动全能执行

AI编程社区

16个Claude智能体写的Rust版C编译器：能编译Linux内核却卡在“Hello World”？

16个Claude智能体协作开发的Rust版C编译器（以下简称“RustCC”）出现了一个看似矛盾的现象：能够成功编译Linux内核这样的复杂项目，却在处理简单的“Hello World”程序时失败。这种反直觉的现象可能由多种因素导致，需要从编译器架构、测试用例覆盖率和语言特性支持等角度分析。该案例也展示了Rust实现系统软件的潜力——既能处理底层细节（如内联汇编），又需要完善工具链生态的全面性。