Qwen3.5-4B-AWQ快速上手:Qwen3.5-4B-AWQ在Ollama中的适配尝试
·
Qwen3.5-4B-AWQ快速上手:Qwen3.5-4B-AWQ在Ollama中的适配尝试
1. 模型概述
Qwen3.5-4B-AWQ-4bit是阿里云通义千问团队推出的轻量级稠密模型,经过4bit AWQ量化后,显存占用仅约3GB,可以在RTX 3060/4060等消费级显卡上流畅运行。
1.1 核心优势
- 极致低资源:4bit量化技术大幅降低显存需求
- 性能均衡:MMLU-Pro得分接近Qwen3-30B-A3B,OmniDocBench表现优异
- 全能力覆盖:支持201种语言、原生多模态、长上下文和工具调用
- 部署友好:适配llama.cpp、Ollama等多种推理框架
2. 环境准备
2.1 硬件要求
- 显卡:NVIDIA RTX 3060/4060或更高
- 显存:至少4GB(推荐6GB以上)
- 内存:16GB或更高
2.2 软件依赖
# 基础环境
conda create -n qwen python=3.10
conda activate qwen
# 安装依赖
pip install torch torchvision torchaudio
pip install vllm transformers
3. 快速部署
3.1 模型下载
模型路径为/root/ai-models/cyankiwi/Qwen3___5-4B-AWQ-4bit,确保该目录下有完整的模型文件。
3.2 服务启动
cd /root/Qwen3.5-4B-AWQ-4bit
/opt/miniconda3/envs/torch28/bin/python webui.py
4. 服务管理
4.1 使用Supervisor管理
# 查看服务状态
supervisorctl status
# 启动服务
supervisorctl start qwen35-4b-awq
# 停止服务
supervisorctl stop qwen35-4b-awq
# 重启服务
supervisorctl restart qwen35-4b-awq
4.2 日志查看
# 实时查看运行日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.log
# 查看错误日志
tail -f /root/Qwen3.5-4B-AWQ-4bit/logs/webui.err.log
5. 访问WebUI
服务启动后,通过浏览器访问:
http://localhost:7860
6. 常见问题解决
6.1 GPU显存问题
如果服务启动失败并提示显存不足:
# 查看GPU显存占用
nvidia-smi
# 查找残留进程
ps aux | grep VLLM
# 终止残留进程
kill -9 <PID>
# 重新启动服务
supervisorctl start qwen35-4b-awq
6.2 开机自启
项目已配置supervisor开机自启:
autostart=true:开机自动启动autorestart=true:崩溃后自动重启
7. 项目结构
/root/Qwen3.5-4B-AWQ-4bit/
├── webui.py # 主程序
├── supervisor.conf # supervisor配置
└── logs/
├── webui.log # 运行日志
└── webui.err.log # 错误日志
8. 总结
Qwen3.5-4B-AWQ-4bit是一款非常适合个人开发者和中小团队使用的轻量级大模型,通过4bit量化技术实现了在消费级显卡上的高效运行。本文介绍了从环境准备到服务管理的完整流程,帮助开发者快速上手使用该模型。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
更多推荐




所有评论(0)