Qwen3.5-4B-AWQ快速上手：Qwen3.5-4B-AWQ在Ollama中的适配尝试

永远的12

396人浏览 · 2026-05-06 04:23:01

永远的12 · 2026-05-06 04:23:01 发布

Qwen3.5-4B-AWQ快速上手：Qwen3.5-4B-AWQ在Ollama中的适配尝试

1. 模型概述

Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型，经过4bit AWQ量化后，显存占用仅约3GB，可以在RTX 3060/4060等消费级显卡上流畅运行。

1.1 核心优势

极致低资源：4bit量化技术大幅降低显存需求
性能均衡：MMLU-Pro得分接近Qwen3-30B-A3B，OmniDocBench表现优异
全能力覆盖：支持201种语言、原生多模态、长上下文和工具调用
部署友好：适配llama.cpp、Ollama等多种推理框架

2. 环境准备

2.1 硬件要求

显卡：NVIDIA RTX 3060/4060或更高
显存：至少4GB（推荐6GB以上）
内存：16GB或更高

2.2 软件依赖

# 基础环境
conda create -n qwen python=3.10
conda activate qwen

# 安装依赖
pip install torch torchvision torchaudio
pip install vllm transformers

3. 快速部署

3.1 模型下载

模型路径为/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit，确保该目录下有完整的模型文件。

3.2 服务启动

cd /root/Qwen3.5-4B-AWQ-4bit
/opt/miniconda3/envs/torch28/bin/python webui.py

4. 服务管理

4.1 使用Supervisor管理

# 查看服务状态
supervisorctl status

# 启动服务
supervisorctl start qwen35-4b-awq

# 停止服务
supervisorctl stop qwen35-4b-awq

# 重启服务
supervisorctl restart qwen35-4b-awq

4.2 日志查看

# 实时查看运行日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log

# 查看错误日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log

5. 访问WebUI

服务启动后，通过浏览器访问：

http://localhost:7860

6. 常见问题解决

6.1 GPU显存问题

如果服务启动失败并提示显存不足：

# 查看GPU显存占用
nvidia-smi

# 查找残留进程
ps aux | grep VLLM

# 终止残留进程
kill -9 <PID>

# 重新启动服务
supervisorctl start qwen35-4b-awq

6.2 开机自启

项目已配置supervisor开机自启：

autostart=true：开机自动启动
autorestart=true：崩溃后自动重启

7. 项目结构

/root/Qwen3.5-4B-AWQ-4bit/
├── webui.py              # 主程序
├── supervisor.conf       # supervisor配置
└── logs/
    ├── webui.log         # 运行日志
    └── webui.err.log     # 错误日志