11.DeepSeek-DualPath 202602
·
DeepSeek-DualPath 202602
思想:解决大模型推理PE分离架构下 PE的SNIC(存储网卡)紧张 ,将DE中摸鱼的SNIC帮忙从远端SSD中拉KVcache 存到DE显存中,等PE阶段需要再用gpu集群的计算网卡将KVcache传给PE。
实验结果:在离线推理场景中,dualpath 相比传统PE分离架构 吞吐量最高提升 1.87倍。在线推理场景中(大模型api服务)平均吞吐量提升1.96倍。 最关键的是这个方案 完全兼容现有的PE分离架构 (不需要换硬件 不需要改模型,只需要修改推理框架的调度逻辑 就能拿到近两倍的性能提升)
学习视频:https://www.bilibili.com/video/BV18pNKz8Ee5/?spm_id_from=333.1007.tianma.1-1-1.click&vd_source=5afc56aaa0d4664e2b8f364e5e347a45
论文链接:https://arxiv.org/abs/2602.21548
更多推荐



所有评论(0)