llama.cpp在双路Epyc Genoa/Turin系统上的性能优化方案

叶准鑫Natalie

553人浏览 · 2025-09-10 22:32:32

叶准鑫Natalie · 2025-09-10 22:32:32 发布

llama.cpp在双路Epyc Genoa/Turin系统上的性能优化方案

【免费下载链接】llama.cpp Port of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp

在大型语言模型推理领域，性能优化一直是一个重要课题。本文探讨了在双路AMD Epyc Genoa/Turin服务器系统上运行llama.cpp时遇到的token生成性能问题及其解决方案。

问题背景

在双路Epyc服务器系统上，用户报告llama.cpp在进行token生成时性能显著下降。具体表现为，在双路Epyc 9175F系统（配备16条DDR5 6400 MT/s内存）上运行Llama-3.1-70B-Instruct模型时，token生成速度仅为2.4 tokens/秒，远低于预期性能。

性能瓶颈分析

经过深入调查，发现问题可能源于NUMA（非统一内存访问）架构下的内存访问模式。在双路服务器系统中，跨NUMA节点的内存访问会引入额外的延迟，特别是在模型权重加载和推理过程中。这种延迟在token生成阶段尤为明显，因为该阶段需要频繁访问模型参数。

解决方案

研究人员发现了一种有效的临时解决方案，通过特定的模型加载方式可以显著提升性能：

首先以root权限清空系统缓存：echo 3 > /proc/sys/vm/drop_caches
使用llama-bench工具专门进行生成基准测试：llama-bench --numa distribute -t <线程数> -m <模型路径> -r 1 -p 0
保持缓存状态，正常使用llama.cpp进行推理

这种方法将模型加载和缓存过程集中在token生成阶段，而非提示处理阶段。在实际测试中，这种方法使token生成速度从2.4 tokens/秒提升至4.31 tokens/秒，提升了约80%。

技术原理

该解决方案的有效性基于以下几个技术点：

NUMA感知的内存分配：使用--numa distribute参数确保内存分配考虑NUMA拓扑
缓存优化：通过控制加载时机优化了内存访问模式
线程绑定：合理的线程分配减少了跨NUMA节点的内存访问

适用范围与限制

该优化方案主要适用于：

大型密集模型（如70B参数级别）
双路或多路服务器系统
Linux操作系统环境

值得注意的是，对于混合专家(MoE)模型，如DeepSeek R1系列，此方法的提升效果有限。这可能是因为MoE模型使用了不同的矩阵乘法实现(ggml_mul_mat_id())，而非标准的llamafile_sgemm()函数。

进一步优化方向

基于这些发现，未来可能的优化方向包括：

改进NUMA架构下的张量分布策略
优化跨NUMA节点的计算任务分配
针对MoE模型的特定优化
更智能的内存访问模式预测和预取

这些优化有望进一步提升大型语言模型在高端服务器系统上的推理性能，为企业和研究机构提供更高效的模型部署方案。

结论

在双路Epyc服务器系统上，通过特定的模型加载和缓存策略可以显著提升llama.cpp的token生成性能。这一发现不仅提供了即时的性能提升方案，也为未来的架构优化指明了方向。随着大型语言模型规模的不断增长，此类系统级优化将变得越来越重要。

【免费下载链接】llama.cpp Port of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

cover

Claude Code接入国产大模型DeepSeek，并集成于Pycharm中使用

cover

Java 开发者上手 Cursor：AI 代码补全与重构实测

每日 AI 研究简报 · 2026-06-24

今日 AI Agent 与多模态视频生产工具迎来爆发，Anthropic 推出 Claude Tag 深度整合企业协作，开源视频 Agent 框架 OpenMontage 惊艳亮相，AI 正从「对话助手」向「自主工作队友」加速演进。

所有评论(0)

查看更多评论

叶准鑫Natalie

已为社区贡献2条内容