Qwen3.5-4B-AWQ快速上手:Qwen3.5-4B-AWQ在Ollama中的适配尝试

1. 模型概述

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型,经过4bit AWQ量化后,显存占用仅约3GB,可以在RTX 3060/4060等消费级显卡上流畅运行。

1.1 核心优势

  • 极致低资源:4bit量化技术大幅降低显存需求
  • 性能均衡:MMLU-Pro得分接近Qwen3-30B-A3B,OmniDocBench表现优异
  • 全能力覆盖:支持201种语言、原生多模态、长上下文和工具调用
  • 部署友好:适配llama.cpp、Ollama等多种推理框架

2. 环境准备

2.1 硬件要求

  • 显卡:NVIDIA RTX 3060/4060或更高
  • 显存:至少4GB(推荐6GB以上)
  • 内存:16GB或更高

2.2 软件依赖

# 基础环境
conda create -n qwen python=3.10
conda activate qwen

# 安装依赖
pip install torch torchvision torchaudio
pip install vllm transformers

3. 快速部署

3.1 模型下载

模型路径为/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit,确保该目录下有完整的模型文件。

3.2 服务启动

cd /root/Qwen3.5-4B-AWQ-4bit
/opt/miniconda3/envs/torch28/bin/python webui.py

4. 服务管理

4.1 使用Supervisor管理

# 查看服务状态
supervisorctl status

# 启动服务
supervisorctl start qwen35-4b-awq

# 停止服务
supervisorctl stop qwen35-4b-awq

# 重启服务
supervisorctl restart qwen35-4b-awq

4.2 日志查看

# 实时查看运行日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log

# 查看错误日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

5. 访问WebUI

服务启动后,通过浏览器访问:

http://localhost:7860

6. 常见问题解决

6.1 GPU显存问题

如果服务启动失败并提示显存不足:

# 查看GPU显存占用
nvidia-smi

# 查找残留进程
ps aux | grep VLLM

# 终止残留进程
kill -9 <PID>

# 重新启动服务
supervisorctl start qwen35-4b-awq

6.2 开机自启

项目已配置supervisor开机自启:

  • autostart=true:开机自动启动
  • autorestart=true:崩溃后自动重启

7. 项目结构

/root/Qwen3.5-4B-AWQ-4bit/
├── webui.py              # 主程序
├── supervisor.conf       # supervisor配置
└── logs/
    ├── webui.log         # 运行日志
    └── webui.err.log     # 错误日志

8. 总结

Qwen3.5-4B-AWQ-4bit是一款非常适合个人开发者和中小团队使用的轻量级大模型,通过4bit量化技术实现了在消费级显卡上的高效运行。本文介绍了从环境准备到服务管理的完整流程,帮助开发者快速上手使用该模型。

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐