DeepSeek-OCR-2部署故障排查手册：常见OSError/OutOfMemoryError解决方案汇总

本文介绍了在星图GPU平台上自动化部署🏮 DeepSeek-OCR · 万象识界镜像的常见故障排查方案。针对部署中可能遇到的OSError与OutOfMemoryError问题，提供了从环境检查到内存优化的系统性解决方案，帮助用户快速搭建稳定的文档解析与表格识别应用环境。

Fisch FLeisch

110人浏览 · 2026-03-22 00:52:42

Fisch FLeisch · 2026-03-22 00:52:42 发布

DeepSeek-OCR-2部署故障排查手册：常见OSError/OutOfMemoryError解决方案汇总

1. 引言：当“万象识界”遇到阻碍

想象一下，你满怀期待地部署了DeepSeek-OCR-2这个强大的文档解析工具，准备体验它“见微知著，析墨成理”的神奇能力。你上传了一张复杂的表格图片，点击运行按钮，然后……程序崩溃了。

屏幕上弹出一堆你看不懂的错误信息：OSError、OutOfMemoryError、CUDA out of memory。你尝试重新启动，问题依旧。原本应该流畅的“经纬重构”过程，现在卡在了第一步。

这种情况太常见了。DeepSeek-OCR-2作为一个重量级视觉模型，对硬件和软件环境都有特定要求。很多用户在部署时都会遇到各种问题，特别是内存相关的错误。好消息是，绝大多数问题都有明确的解决方案。

本文将带你系统性地排查和解决DeepSeek-OCR-2部署中最常见的两类问题：OSError（操作系统错误）和OutOfMemoryError（内存不足错误）。无论你是刚接触这个项目的新手，还是已经使用了一段时间但遇到新问题的用户，都能在这里找到答案。

2. 问题诊断：先搞清楚“病”在哪里

在开始解决问题之前，我们需要先准确诊断问题。不同类型的错误需要不同的解决方案，盲目尝试只会浪费时间。

2.1 如何识别错误类型

当你看到错误信息时，首先要做的是仔细阅读错误信息。虽然错误信息看起来可能很复杂，但通常包含几个关键部分：

OSError的典型表现：

错误信息中包含“No such file or directory”（文件或目录不存在）
出现“Permission denied”（权限被拒绝）
显示“CUDA error”（CUDA相关错误）
提示“RuntimeError”但内容涉及文件操作或系统调用

OutOfMemoryError的典型表现：

明确显示“CUDA out of memory”
出现“RuntimeError: CUDA error: out of memory”
程序运行一段时间后突然崩溃，日志显示内存不足
模型加载过程中卡住，然后报错

2.2 收集关键信息

在寻求帮助或进一步排查前，请收集以下信息：

# 查看Python和关键库版本
python --version
pip list | grep -E "(torch|cuda|streamlit|transformers)"

# 查看GPU信息（Linux/Mac）
nvidia-smi

# 查看系统内存
free -h  # Linux
# 或
top  # 查看内存使用情况

需要记录的信息包括：

操作系统版本（Windows/Linux/Mac，具体版本号）
Python版本（3.8、3.9、3.10等）
PyTorch版本和CUDA版本
显卡型号和显存大小
系统内存大小
完整的错误信息（复制粘贴，不要截图）

3. OSError问题排查与解决

OSError通常与文件路径、权限、依赖库或环境配置有关。下面我们按问题类型逐一解决。

3.1 模型文件路径错误

这是最常见的OSError之一。DeepSeek-OCR-2需要从指定路径加载模型权重文件，如果路径不正确或文件缺失，就会报错。

问题表现：

OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_model.msgpack found in directory /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

解决方案：

检查模型文件是否存在

# 进入模型目录查看文件
cd /root/ai-models/deepseek-ai/DeepSeek-OCR-2/
ls -la

# 应该能看到类似这样的文件结构
# -rw-r--r-- 1 user user  2.3G Mar 10 10:00 pytorch_model-00001-of-00002.bin
# -rw-r--r-- 1 user user  2.1G Mar 10 10:00 pytorch_model-00002-of-00002.bin
# -rw-r--r-- 1 user user   15K Mar 10 10:00 config.json
# -rw-r--r-- 1 user user  501B Mar 10 10:00 generation_config.json

如果文件缺失，重新下载模型

# 方法1：使用huggingface-cli（推荐）
pip install huggingface-hub
huggingface-cli download deepseek-ai/DeepSeek-OCR-2 --local-dir /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

# 方法2：在代码中指定正确的模型名称
# 修改app.py中的模型加载代码
from transformers import AutoModelForCausalLM, AutoTokenizer

# 原来的代码可能是这样的
# model = AutoModelForCausalLM.from_pretrained("/root/ai-models/deepseek-ai/DeepSeek-OCR-2/")

# 改为从huggingface直接加载（需要网络）
model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-OCR-2",
    cache_dir="/root/ai-models/deepseek-ai/DeepSeek-OCR-2/"
)

检查并修正文件权限

# 确保你有读取权限
chmod -R 755 /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

# 如果使用Docker，确保卷挂载正确
# docker run -v /本地模型路径:/root/ai-models/deepseek-ai/DeepSeek-OCR-2/ ...

3.2 权限问题

权限问题通常发生在Linux系统或Docker环境中，当程序试图访问没有权限的文件或目录时发生。

问题表现：

PermissionError: [Errno 13] Permission denied: '/root/ai-models/deepseek-ai/DeepSeek-OCR-2/pytorch_model.bin'

解决方案：

更改文件所有权

# 查看当前文件权限
ls -la /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

# 更改文件所有者为当前用户
sudo chown -R $USER:$USER /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

放宽文件权限

# 给所有用户读取权限
chmod -R a+r /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

# 如果需要写入临时文件，给目录写入权限
chmod -R a+w /root/ai-models/deepseek-ai/DeepSeek-OCR-2/

以正确用户身份运行

# 不要用root运行（除非必要）
# 错误的做法
sudo python app.py

# 正确的做法
python app.py

# 或者在Docker中指定用户
# docker run --user $(id -u):$(id -g) ...

3.3 CUDA相关错误

CUDA错误通常是因为PyTorch版本与CUDA版本不匹配，或者CUDA没有正确安装。

问题表现：

OSError: CUDA error: no kernel image is available for execution on the device

解决方案：

检查CUDA和PyTorch版本兼容性

import torch
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA可用: {torch.cuda.is_available()}")
print(f"CUDA版本: {torch.version.cuda}")
print(f"显卡数量: {torch.cuda.device_count()}")
print(f"当前显卡: {torch.cuda.current_device()}")
print(f"显卡名称: {torch.cuda.get_device_name(0)}")

重新安装匹配的PyTorch

# 查看你的CUDA版本
nvcc --version

# 根据CUDA版本安装对应的PyTorch
# CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# CUDA 12.1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 如果没有CUDA，安装CPU版本
pip install torch torchvision torchaudio

验证CUDA安装

# 运行一个简单的CUDA测试
import torch

# 创建一个张量并移动到GPU
x = torch.randn(3, 3)
if torch.cuda.is_available():
    x = x.cuda()
    print("CUDA工作正常")
else:
    print("CUDA不可用，将使用CPU模式运行")

4. OutOfMemoryError问题排查与解决

内存不足是运行大型模型时最常见的问题。DeepSeek-OCR-2作为重量级视觉模型，对显存要求较高，但通过一些优化技巧，我们可以在有限资源下运行它。

4.1 显存不足问题

这是最典型的OutOfMemoryError，通常发生在显存小于24GB的显卡上。

问题表现：

RuntimeError: CUDA out of memory. Tried to allocate 2.00 GiB...

解决方案：

减少批量大小

# 在模型推理时减少batch_size
# 修改app.py中的相关代码

# 原来的代码可能没有指定batch_size
# result = model.generate(**inputs)

# 改为小批量处理
result = model.generate(
    **inputs,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
    # 关键：减少批量大小
    batch_size=1  # 根据你的显存调整
)

使用内存优化技术

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 使用更节省内存的加载方式
model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-OCR-2",
    torch_dtype=torch.float16,  # 使用半精度，减少内存占用
    low_cpu_mem_usage=True,     # 减少CPU内存使用
    device_map="auto"           # 自动分配设备
)

# 启用梯度检查点（用时间换空间）
model.gradient_checkpointing_enable()

# 如果显存仍然不足，使用CPU卸载
model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-OCR-2",
    torch_dtype=torch.float16,
    device_map="auto",
    offload_folder="offload",  # 临时卸载文件夹
    offload_state_dict=True    # 卸载状态字典
)

分块处理大图像

# 如果处理大图像导致内存不足，可以分块处理
from PIL import Image
import numpy as np

def process_large_image(image_path, chunk_size=1024):
    """分块处理大图像"""
    image = Image.open(image_path)
    width, height = image.size
    
    results = []
    # 将图像分成多个块
    for y in range(0, height, chunk_size):
        for x in range(0, width, chunk_size):
            # 计算当前块的范围
            box = (x, y, min(x+chunk_size, width), min(y+chunk_size, height))
            chunk = image.crop(box)
            
            # 处理当前块
            chunk_result = process_image_chunk(chunk)
            results.append(chunk_result)
            
            # 清理内存
            del chunk
            torch.cuda.empty_cache() if torch.cuda.is_available() else None
    
    # 合并结果
    return merge_results(results)

def process_image_chunk(image_chunk):
    """处理单个图像块"""
    # 这里调用OCR处理逻辑
    # ...
    return result

4.2 系统内存不足

即使显存足够，系统内存不足也会导致问题，特别是在处理大图像或使用CPU模式时。

问题表现：

MemoryError: Unable to allocate array with shape...

解决方案：

监控内存使用

import psutil
import os

def check_memory_usage():
    """检查内存使用情况"""
    process = psutil.Process(os.getpid())
    memory_info = process.memory_info()
    
    print(f"当前进程内存使用: {memory_info.rss / 1024 / 1024:.2f} MB")
    print(f"系统总内存: {psutil.virtual_memory().total / 1024 / 1024 / 1024:.2f} GB")
    print(f"系统可用内存: {psutil.virtual_memory().available / 1024 / 1024 / 1024:.2f} GB")
    
    return memory_info.rss

# 在关键位置调用
check_memory_usage()

优化图像处理

from PIL import Image
import io

def optimize_image_processing(image_path, max_size=2048):
    """优化图像处理，减少内存占用"""
    # 1. 调整图像大小
    image = Image.open(image_path)
    
    # 如果图像太大，调整大小
    if max(image.size) > max_size:
        ratio = max_size / max(image.size)
        new_size = tuple(int(dim * ratio) for dim in image.size)
        image = image.resize(new_size, Image.Resampling.LANCZOS)
    
    # 2. 使用更节省内存的格式
    # 将图像转换为字节流，避免在内存中保存多个副本
    img_byte_arr = io.BytesIO()
    image.save(img_byte_arr, format='JPEG', quality=85, optimize=True)
    img_byte_arr.seek(0)
    
    return img_byte_arr

# 使用优化后的图像
optimized_image = optimize_image_processing("large_document.jpg")

及时清理内存

import gc
import torch

def cleanup_memory():
    """清理内存"""
    # 强制垃圾回收
    gc.collect()
    
    # 清理CUDA缓存（如果有GPU）
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.ipc_collect()
    
    print("内存清理完成")

# 在处理完每个图像后调用
cleanup_memory()

4.3 交换空间不足

在Linux系统中，当物理内存不足时，系统会使用交换空间。如果交换空间也不足，程序会崩溃。

解决方案：

检查交换空间

# 查看当前交换空间
free -h
swapon --show

# 查看交换空间使用情况
cat /proc/sys/vm/swappiness

增加交换空间

# 创建交换文件（如果需要）
sudo fallocate -l 8G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

# 永久生效
echo '/swapfile none swap sw 0 0' | sudo tee -a /etc/fstab

优化交换设置

# 调整交换倾向（0-100，值越高越倾向于使用交换）
sudo sysctl vm.swappiness=10

# 永久设置
echo 'vm.swappiness=10' | sudo tee -a /etc/sysctl.conf

5. 高级优化技巧

如果你已经解决了基本的错误，但还想进一步提升性能或解决更复杂的问题，可以尝试以下高级技巧。

5.1 混合精度推理

混合精度推理可以显著减少内存使用并提高速度。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from torch.cuda.amp import autocast

# 使用自动混合精度
model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-OCR-2",
    torch_dtype=torch.float16,  # 使用半精度
    device_map="auto"
)

# 在推理时使用autocast
@torch.no_grad()
def inference_with_amp(image, prompt):
    inputs = processor(images=image, text=prompt, return_tensors="pt")
    
    # 将输入移动到GPU
    if torch.cuda.is_available():
        inputs = {k: v.cuda() for k, v in inputs.items()}
    
    # 使用混合精度推理
    with autocast():
        outputs = model.generate(**inputs)
    
    return processor.decode(outputs[0], skip_special_tokens=True)

5.2 模型量化

模型量化可以进一步减少内存使用，但可能会稍微降低精度。

from transformers import BitsAndBytesConfig
import torch

# 配置4位量化
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

# 使用量化加载模型
model = AutoModelForCausalLM.from_pretrained(
    "deepseek-ai/DeepSeek-OCR-2",
    quantization_config=bnb_config,
    device_map="auto"
)

print(f"模型内存占用: {model.get_memory_footprint() / 1024 / 1024 / 1024:.2f} GB")

5.3 流式处理

对于大量文档处理，可以使用流式处理来避免内存累积。

import os
from pathlib import Path

def batch_process_documents(doc_folder, output_folder, batch_size=5):
    """批量处理文档，避免内存累积"""
    doc_folder = Path(doc_folder)
    output_folder = Path(output_folder)
    output_folder.mkdir(exist_ok=True)
    
    # 获取所有文档
    documents = list(doc_folder.glob("*.jpg")) + list(doc_folder.glob("*.png"))
    
    for i in range(0, len(documents), batch_size):
        batch = documents[i:i+batch_size]
        print(f"处理批次 {i//batch_size + 1}/{(len(documents)+batch_size-1)//batch_size}")
        
        for doc_path in batch:
            try:
                # 处理单个文档
                result = process_single_document(doc_path)
                
                # 保存结果
                output_path = output_folder / f"{doc_path.stem}.md"
                with open(output_path, 'w', encoding='utf-8') as f:
                    f.write(result)
                
                print(f"  完成: {doc_path.name}")
                
            except Exception as e:
                print(f"  处理失败 {doc_path.name}: {str(e)}")
            
            # 每个文档处理后清理内存
            cleanup_memory()
        
        print(f"批次完成，已处理 {min(i+batch_size, len(documents))}/{len(documents)} 个文档\n")

5.4 监控与日志

建立完善的监控和日志系统，帮助诊断复杂问题。

import logging
from datetime import datetime

def setup_logging():
    """设置日志系统"""
    log_dir = "logs"
    os.makedirs(log_dir, exist_ok=True)
    
    # 创建日志文件，按日期命名
    log_file = os.path.join(log_dir, f"deepskeek_ocr_{datetime.now().strftime('%Y%m%d')}.log")
    
    # 配置日志
    logging.basicConfig(
        level=logging.INFO,
        format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
        handlers=[
            logging.FileHandler(log_file),
            logging.StreamHandler()
        ]
    )
    
    return logging.getLogger(__name__)

# 使用日志
logger = setup_logging()

def process_with_logging(image_path):
    """带日志的处理函数"""
    logger.info(f"开始处理图像: {image_path}")
    
    try:
        # 记录内存使用
        import psutil
        process = psutil.Process()
        logger.info(f"处理前内存: {process.memory_info().rss / 1024 / 1024:.2f} MB")
        
        # 处理图像
        result = process_image(image_path)
        
        logger.info(f"处理完成: {image_path}")
        logger.info(f"处理后内存: {process.memory_info().rss / 1024 / 1024:.2f} MB")
        
        return result
        
    except Exception as e:
        logger.error(f"处理失败 {image_path}: {str(e)}", exc_info=True)
        raise

6. 预防措施与最佳实践

预防胜于治疗。通过遵循一些最佳实践，可以避免大多数部署问题。

6.1 环境配置检查清单

在部署前，运行这个检查清单：

def check_environment():
    """检查环境配置"""
    checks = []
    
    # 1. 检查Python版本
    import sys
    python_version = sys.version_info
    checks.append(("Python版本", f"{python_version.major}.{python_version.minor}.{python_version.micro}", ">=3.8"))
    
    # 2. 检查PyTorch
    import torch
    checks.append(("PyTorch版本", torch.__version__, ">=2.0.0"))
    
    # 3. 检查CUDA
    cuda_available = torch.cuda.is_available()
    checks.append(("CUDA可用", cuda_available, True))
    
    if cuda_available:
        checks.append(("CUDA版本", torch.version.cuda, ">=11.8"))
        checks.append(("显卡数量", torch.cuda.device_count(), ">=1"))
        checks.append(("当前显卡", torch.cuda.get_device_name(0), "有名称"))
    
    # 4. 检查内存
    import psutil
    memory = psutil.virtual_memory()
    checks.append(("系统内存", f"{memory.total / 1024 / 1024 / 1024:.1f} GB", ">=16 GB"))
    
    if cuda_available:
        gpu_memory = torch.cuda.get_device_properties(0).total_memory
        checks.append(("显存", f"{gpu_memory / 1024 / 1024 / 1024:.1f} GB", ">=24 GB"))
    
    # 5. 检查磁盘空间
    import shutil
    disk = shutil.disk_usage("/")
    checks.append(("磁盘空间", f"{disk.free / 1024 / 1024 / 1024:.1f} GB", ">=50 GB"))
    
    # 打印检查结果
    print("=" * 60)
    print("环境配置检查")
    print("=" * 60)
    
    all_passed = True
    for name, actual, expected in checks:
        if isinstance(expected, bool):
            passed = actual == expected
        elif isinstance(expected, str) and expected.startswith(">="):
            try:
                # 尝试比较版本
                passed = float(actual.split('.')[0]) >= float(expected[2:])
            except:
                passed = str(actual) >= expected
        else:
            passed = str(actual) == str(expected)
        
        status = "✅ 通过" if passed else "❌ 失败"
        all_passed = all_passed and passed
        
        print(f"{name:20} {actual:20} {expected:15} {status}")
    
    print("=" * 60)
    
    if all_passed:
        print("所有检查通过！环境配置符合要求。")
    else:
        print("部分检查未通过，请根据上述提示调整环境配置。")
    
    return all_passed

# 运行检查
check_environment()

6.2 部署前测试

在正式部署前，运行一个简单的测试：

def run_smoke_test():
    """运行冒烟测试，验证基本功能"""
    print("开始DeepSeek-OCR-2冒烟测试...")
    
    try:
        # 1. 测试导入
        from transformers import AutoModelForCausalLM, AutoTokenizer
        from PIL import Image
        import torch
        print("✅ 依赖库导入成功")
        
        # 2. 测试CUDA
        if torch.cuda.is_available():
            print(f"✅ CUDA可用，版本: {torch.version.cuda}")
            print(f"✅ 显卡: {torch.cuda.get_device_name(0)}")
            print(f"✅ 显存: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
        else:
            print("⚠️  CUDA不可用，将使用CPU模式")
        
        # 3. 测试模型加载（小模型或部分加载）
        print("测试模型加载...")
        # 这里可以使用一个小模型进行测试，避免加载完整的大模型
        test_model_name = "bert-base-uncased"  # 小模型用于测试
        
        try:
            tokenizer = AutoTokenizer.from_pretrained(test_model_name)
            model = AutoModelForCausalLM.from_pretrained(
                test_model_name,
                torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
                device_map="auto" if torch.cuda.is_available() else None
            )
            print("✅ 模型加载测试通过")
        except Exception as e:
            print(f"❌ 模型加载失败: {e}")
            return False
        
        # 4. 测试图像处理
        print("测试图像处理...")
        try:
            # 创建一个测试图像
            from PIL import Image
            import numpy as np
            
            test_image = Image.fromarray(np.random.randint(0, 255, (100, 100, 3), dtype=np.uint8))
            test_image.save("test_image.jpg")
            print("✅ 图像处理测试通过")
        except Exception as e:
            print(f"❌ 图像处理失败: {e}")
            return False
        
        # 5. 清理测试文件
        import os
        if os.path.exists("test_image.jpg"):
            os.remove("test_image.jpg")
        
        print("\n" + "=" * 60)
        print("冒烟测试全部通过！")
        print("=" * 60)
        return True
        
    except Exception as e:
        print(f"\n❌ 冒烟测试失败: {e}")
        return False

# 运行测试
if run_smoke_test():
    print("可以开始正式部署DeepSeek-OCR-2了！")
else:
    print("请先解决测试中发现的问题。")

6.3 性能监控脚本

创建一个性能监控脚本，实时监控资源使用：

import time
import psutil
import torch
from threading import Thread
import matplotlib.pyplot as plt
from collections import deque

class PerformanceMonitor:
    """性能监控器"""
    
    def __init__(self, interval=1.0, max_points=100):
        self.interval = interval
        self.max_points = max_points
        self.running = False
        
        # 数据存储
        self.timestamps = deque(maxlen=max_points)
        self.cpu_percent = deque(maxlen=max_points)
        self.memory_percent = deque(maxlen=max_points)
        self.gpu_memory = deque(maxlen=max_points)
        
    def start(self):
        """启动监控"""
        self.running = True
        self.thread = Thread(target=self._monitor_loop)
        self.thread.daemon = True
        self.thread.start()
        
    def stop(self):
        """停止监控"""
        self.running = False
        if hasattr(self, 'thread'):
            self.thread.join(timeout=2)
    
    def _monitor_loop(self):
        """监控循环"""
        while self.running:
            # 记录时间
            self.timestamps.append(time.time())
            
            # CPU使用率
            self.cpu_percent.append(psutil.cpu_percent())
            
            # 内存使用率
            memory = psutil.virtual_memory()
            self.memory_percent.append(memory.percent)
            
            # GPU内存使用（如果可用）
            if torch.cuda.is_available():
                gpu_mem = torch.cuda.memory_allocated() / torch.cuda.get_device_properties(0).total_memory * 100
                self.gpu_memory.append(gpu_mem)
            else:
                self.gpu_memory.append(0)
            
            time.sleep(self.interval)
    
    def plot(self):
        """绘制性能图表"""
        fig, axes = plt.subplots(2, 2, figsize=(12, 8))
        
        # 转换时间为相对时间
        if self.timestamps:
            rel_times = [t - self.timestamps[0] for t in self.timestamps]
            
            # CPU使用率
            axes[0, 0].plot(rel_times, list(self.cpu_percent), 'b-')
            axes[0, 0].set_title('CPU使用率 (%)')
            axes[0, 0].set_xlabel('时间 (秒)')
            axes[0, 0].grid(True)
            
            # 内存使用率
            axes[0, 1].plot(rel_times, list(self.memory_percent), 'r-')
            axes[0, 1].set_title('内存使用率 (%)')
            axes[0, 1].set_xlabel('时间 (秒)')
            axes[0, 1].grid(True)
            
            # GPU内存使用
            axes[1, 0].plot(rel_times, list(self.gpu_memory), 'g-')
            axes[1, 0].set_title('GPU内存使用率 (%)')
            axes[1, 0].set_xlabel('时间 (秒)')
            axes[1, 0].grid(True)
            
            # 资源使用总结
            axes[1, 1].axis('off')
            summary_text = f"""
            性能监控报告
            ============
            监控时长: {rel_times[-1]:.1f} 秒
            平均CPU使用率: {sum(self.cpu_percent)/len(self.cpu_percent):.1f}%
            峰值CPU使用率: {max(self.cpu_percent):.1f}%
            平均内存使用率: {sum(self.memory_percent)/len(self.memory_percent):.1f}%
            峰值内存使用率: {max(self.memory_percent):.1f}%
            """
            if torch.cuda.is_available():
                summary_text += f"""
            平均GPU内存使用率: {sum(self.gpu_memory)/len(self.gpu_memory):.1f}%
            峰值GPU内存使用率: {max(self.gpu_memory):.1f}%
            """
            axes[1, 1].text(0.1, 0.5, summary_text, fontsize=10, verticalalignment='center')
        
        plt.tight_layout()
        plt.savefig('performance_report.png', dpi=150, bbox_inches='tight')
        plt.show()

# 使用示例
monitor = PerformanceMonitor()
monitor.start()

# 在这里运行你的OCR处理代码
# process_documents(...)

monitor.stop()
monitor.plot()