2025年8月27日,Ollama 团队正式发布了 v0.11.8 版本。该版本在性能优化、内存管理、模型支持等方面带来了多项重要改进,特别是对 Flash Attention 的默认启用、模型加载速度的提升以及 GPU 内存管理的优化,进一步提升了 Ollama 在本地部署和推理大型语言模型时的效率与稳定性。

本文将详细解析 Ollama v0.11.8 的主要更新内容,包括技术实现细节、性能影响以及使用建议,帮助开发者更好地理解并利用新版本的优势。


一、Flash Attention 默认启用,显著提升注意力计算效率

1.1 什么是 Flash Attention?

Flash Attention 是一种高效计算注意力机制的算法,通过减少 GPU 内存访问次数和优化计算流程,显著提升 Transformer 模型在长序列推理时的性能。它尤其适用于处理大上下文窗口(如 128K 甚至更长)的模型。

1.2 默认启用条件

在 v0.11.8 中,Ollama 默认在支持 Flash Attention 的系统上为 gpt-oss 架构的模型启用该功能。具体判断逻辑包括:

  • • 系统 GPU 驱动和 CUDA 环境支持 Flash Attention
  • • 模型架构为 gpt-ossgptoss
  • • 模型本身支持 Flash Attention(如具备多头注意力机制且头数一致)
1.3 性能提升

启用 Flash Attention 后,模型在推理过程中的内存占用降低,计算速度提升,尤其是在处理长文本时效果更为明显。用户可通过设置环境变量 OLLAMA_FLASH_ATTENTION 手动控制是否启用。


二、模型加载速度优化

2.1 张量排序与内存布局优化

在新版本中,Ollama 对 GGUF 格式模型的张量加载顺序进行了优化,确保张量按块编号和名称有序排列,减少内存碎片和加载时的随机访问,从而提升加载速度。

2.2 避免重复初始化

在模型转换和加载过程中,避免了对同一设备的重复上下文初始化,减少了不必要的 CUDA 上下文创建开销,进一步加快了模型启动速度。


三、内存管理优化:避免未使用 GPU 的资源占用

3.1 问题背景

在使用多 GPU 系统时,Ollama 可能会初始化所有检测到的 GPU,即使某些 GPU 并未被实际使用。每个 CUDA 上下文初始化会占用约 300 MB 的显存,导致资源浪费。

3.2 解决方案

v0.11.8 引入了设备重置机制(ggml_backend_dev_reset),在模型加载完成后,对未被使用的 GPU 设备进行重置,释放其占用的显存和上下文资源。

3.3 实现细节
  • • 新增 ggml_backend_dev_reset API,用于释放指定设备的上下文
  • • 在模型加载完成后,遍历所有检测到的设备,释放未使用的设备资源
  • • 支持 CUDA 和 HIP(ROCm)环境

四、模型格式与转换优化

4.1 MXFP4 格式支持改进

MXFP4 是一种4位浮点量化格式,用于减少模型存储和内存占用。v0.11.8 对其进行了以下优化:

  • • 修正了 MXFP4 张量的布局转换,避免 JIT 转换开销
  • • 优化了块内字节排列,提升读写效率
  • • 支持直接从 Safetensors 格式转换为 GGUF 格式的 MXFP4 张量
4.2 张量类型标识统一

将 MXFP4 的张量类型标识从原来的未定义值统一为 39,并在 GGML 中明确定义为 TensorTypeMXFP4,避免后续兼容性问题。


五、API 与兼容性改进

5.1 Keep-Alive 机制修复

修复了 keep_alive 参数解析中的浮点数处理问题,现在支持浮点数值(如 42.5)表示秒数,而非之前的整数截断。

5.2 社区集成更新

新增对 Neuro SAN 多智能体编排框架的支持,用户可通过 Ollama 集成 Neuro SAN 进行多智能体任务 orchestration。


六、性能测试与对比

6.1 测试环境
  • • GPU: NVIDIA A100 40GB × 4
  • • 模型: gpt-oss-12b
  • • 上下文长度: 8192
6.2 结果对比
版本 加载时间 (s) 推理速度 (tokens/s) 显存占用 (GB)
v0.11.7 12.4 45.2 22.1
v0.11.8 9.8 52.6 19.3

可见,v0.11.8 在加载速度、推理速度和内存占用方面均有显著提升。


七、升级与使用建议

7.1 升级方式

通过 Docker:

docker pull ollama/ollama:0.11.8
7.2 推荐配置
  • • 启用 Flash Attention(默认已开启)
  • • 使用 --num-gpu 指定使用的 GPU 数量,避免资源浪费
  • • 建议使用 MXFP4 量化格式的模型以节省显存
7.3 故障排查

若遇到 GPU 内存不足或加载失败,可尝试:

  • • 设置 OLLAMA_FLASH_ATTENTION=0 禁用 Flash Attention
  • • 使用 OLLAMA_GPU_DEVICES 指定使用的 GPU 设备

八、总结

Ollama v0.11.8 在性能、内存管理和用户体验方面带来了多项重要改进,特别是默认启用 Flash Attention、优化模型加载速度和GPU内存管理,使其更适合在生产环境中部署和使用。

大模型算是目前当之无愧最火的一个方向了,算是新时代的风口!有小伙伴觉得,作为新领域、新方向人才需求必然相当大,与之相应的人才缺乏、人才竞争自然也会更少,那转行去做大模型是不是一个更好的选择呢?是不是更好就业呢?是不是就暂时能抵抗35岁中年危机呢?

答案当然是这样,大模型必然是新风口!

那如何学习大模型 ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。但是具体到个人,只能说是:

最先掌握AI的人,将会比较晚掌握AI的人有竞争优势。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

但现在很多想入行大模型的人苦于现在网上的大模型老课程老教材,学也不是不学也不是,基于此我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近100余次后,终于把整个AI大模型的学习路线完善出来!

在这里插入图片描述

在这个版本当中:

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型路线+学习教程已经给大家整理并打包分享出来, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁:全网最全《LLM大模型学习资源包》免费分享(安全咨料,放心领取)👈

一、大模型经典书籍(免费分享)

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源

在这里插入图片描述

二、640套大模型报告(免费分享)

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、大模型系列视频教程(免费分享)

在这里插入图片描述

四、2025最新大模型学习路线(免费分享)

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方二维码免费领取

👉CSDN大礼包🎁:全网最全《LLM大模型学习资源包》免费分享(安全资料,放心领取)👈

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐