使用pytorch时报错：OSError: [Errno 12] Cannot allocate memory

问题描述在使用Pytorch跑模型时，虽然用了GPU，但随着训练的进行，后台占用内存（不是显存）越来越多，直到内存不足，程序崩溃：OSError: [Errno 12] Cannot allocate memory解决办法造成这个问题的原因是我在使用循环计算一个epoch内所有batch的loss之和时，直接累加了tensor，导致梯度信息一直保持，内存占用不断增加：for ep...

涛O_O

3391人浏览 · 2019-10-17 12:20:47

涛O_O · 2019-10-17 12:20:47 发布

问题描述

在使用Pytorch跑模型时，虽然用了GPU，但随着训练的进行，后台占用内存（不是显存）越来越多，直到内存不足，程序崩溃：

OSError: [Errno 12] Cannot allocate memory

解决办法

造成这个问题的原因是我在使用循环计算一个epoch内所有batch的loss之和时，直接累加了tensor，导致梯度信息一直保持，内存占用不断增加：

   for epoch in range(1, n_epoch+1):
        loss_epoch = 0
        model.train()
        for batch in loader:
            ......
            loss = criterion(......)
            loss.backward()
            optimizer.step()
            loss_epoch += loss # All loss in a batch

修改方法是，loss先转成浮点数，再累加：

   for epoch in range(1, n_epoch+1):
        loss_epoch = 0
        model.train()
        for batch in loader:
            ......
            loss = criterion(......)
            loss.backward()
            optimizer.step()
            loss_epoch += loss.item() # All loss in a batch

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

揭秘与评测 30K+ Star 的 Graphify：企业存量系统 AI 编码的“第二大脑“。

AI编程社区

GPT-5.5 Codex 国内使用教程：Windows / macOS / Linux 配置

本文介绍了在国内环境下配置和使用GPT-5.5 Codex的详细方法。主要内容包括： Codex是OpenAI的AI编程助手，能够理解项目上下文、修改代码、执行测试等复杂任务国内使用需要准备API访问入口，通过API Key方式配置详细说明了Windows、macOS和Linux三大系统的配置步骤：安装Node.js和Codex CLI 创建.codex目录和配置文件配置auth.json

AI编程社区

Claude Code 完全使用指南：从入门到精通的终端AI编程助手

本文介绍了ClaudeCode是一款基于Claude4系列模型的终端原生AI编程工具，可直接在终端中实现代码生成、调试和自动化任务处理。其核心优势包括200k超长上下文支持、直接文件操作能力和Unix哲学集成。文章详细介绍了安装方法、核心功能（斜杠命令、快捷键、高效技巧）、CLAUDE.md配置的重要性以及进阶玩法（MCP服务器、PlanMode、并行工作流）。最新桌面版新增多会话管理、SSH远程