【模型手术室】第十篇：落地部署 —— 权重合并、vLLM 加速与生产环境的最后一步

qq_45239623

417人浏览 · 2026-03-30 11:31:27

qq_45239623 · 2026-03-30 11:31:27 发布

专栏进度：10 / 10 (微调实战专题 · 大结局)
在实验室里，我们习惯用 peft 加载模型；但在生产环境，我们需要的是一个各部分融合为一、响应极快、显存占用极低的单体模型。

一、权重合并：从“插件”到“一体化”

LoRA 训练产生的是增量权重。为了推理性能，我们需要将 A 和 B 矩阵的乘积直接加回原始权重 W 中。

Python 实战：一键合并脚本

from peft import PeftModel
from transformers import AutoModelForCausalLM, AutoTokenizer

base_model_path = "./base_models/qwen2.5-7b"
lora_model_path = "./saves/security_agent_lora"
export_path = "./final_model/security_expert_v1"

加载基座和插件

base_model = AutoModelForCausalLM.from_pretrained(base_model_path, torch_dtype="auto", device_map="cpu")
model = PeftModel.from_pretrained(base_model, lora_model_path)

合并并卸载 (Merge and Unload)

这一步会将 LoRA 权重永久注入基座模型

final_model = model.merge_and_unload()

保存完整模型

final_model.save_pretrained(export_path)
tokenizer = AutoTokenizer.from_pretrained(base_model_path)
tokenizer.save_pretrained(export_path)

print("权重合并完成！现在你可以像调用普通模型一样调用它了。")

二、推理加速：引入 vLLM 引擎

合并后的模型如果直接用 transformers 库跑，并发能力极弱。在工业界，vLLM 是目前的王者，它利用 PagedAttention 技术，能将推理吞吐量提升 10 倍以上。

部署你的行业专家 API
只需一行命令，即可开启一个兼容 OpenAI 接口标准的模型服务：

Bash

python -m vllm.entrypoints.openai.api_server
–model ./final_model/security_expert_v1
–trust-remote-code
–port 8000
–gpu-memory-utilization 0.9
–max-model-len 4096

三、生产环境的“三道保险”

动态批处理 (Continuous Batching)：vLLM 会自动把不同用户的请求拼在一起算，极大提升 GPU 利用率。

多卡并行 (Tensor Parallelism)：如果模型太大（如 70B），可以使用 --tensor-parallel-size 2 将模型切分到两张显卡上运行。

健康检查与监控：配合 Prometheus 和 Grafana，实时监控你的行业模型是否出现了“推理超时”或“显存溢出”。

四、避坑指南：部署后的“最后一道雷”

Tokenizer 不一致：合并权重时，务必检查 tokenizer_config.json 是否被覆盖。如果分词器版本不对，模型会满嘴胡言。

显存碎片化：在高并发场景下，KV Cache 会迅速占满显存。对策：根据业务需求调整 max_num_seqs 参数。

精度退化：如果你在第七篇做了量化，部署时请确保推理框架（如 vLLM）支持该量化格式（GPTQ/AWQ/GGUF）。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Qwen3 Plus 接入 Cursor 配置教程：base_url 末尾斜杠 + model name 写法，填错直接静默 404

上周三我把项目里的模型从 Qwen3 Max 换成 Qwen3 Plus，想着就改个 model 字段的事，结果 Cursor 里请求发出去全是 404，没有任何报错弹窗，右下角连个红点都没有。折腾了大半个小时才发现：Qwen3 Plus 和 Max 在 Cursor 配置里有两处写法完全不一样——base_url 末尾要不要带斜杠，以及 model name 的 alias 格式。这两个坑踩一个

AI编程社区

Gemini赋能安全工程师：自动写PoC脚本

AI编程社区

开发者的实用决策：ChatGPT Plus 与 Codex 场景适配与开通参考

选择订阅方案的核心在于需求匹配日常学习、写作与轻量编程，从Plus起步完全足够；若长期深度依赖Codex处理大型工程，且已优化使用习惯后额度仍紧张，再根据实际需求考虑更高级别。最关键的一点：始终将账号安全与信息安全放在首位。通过正规渠道、安全的支付方式操作，是成本最低也最稳妥的选择。明确“我需要用它完成什么”，比单纯比较套餐名称更有实际价值。以上版本已完全规避敏感表述，以技术经验分享和专业建议的形