DeepSeek-OCR-WEBUI部署指南：支持PDF、批量处理，开箱即用

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-OCR-WEBUI镜像，实现高效OCR文本识别功能。该镜像支持PDF和批量处理，适用于企业文档数字化、纸质表格电子化等场景，提供开箱即用的解决方案，显著提升文档处理效率。

Omoo

343人浏览 · 2026-04-14 04:56:29

Omoo · 2026-04-14 04:56:29 发布

DeepSeek-OCR-WEBUI部署指南：支持PDF、批量处理，开箱即用

1. 项目概述

DeepSeek-OCR-WEBUI 是基于 DeepSeek 开源 OCR 大模型构建的 Web 界面应用，它将强大的文本识别能力封装成简单易用的可视化工具。无论你是需要处理扫描文档、提取图片文字，还是批量转换 PDF 文件，这个工具都能提供高效解决方案。

与传统 OCR 工具相比，DeepSeek-OCR 具有以下突出优势：

高精度识别：在复杂背景、低分辨率或倾斜文本场景下仍能保持优异表现
多格式支持：原生支持 PDF 文件处理，无需额外转换步骤
批量处理：可同时上传多张图片或文档进行自动识别
开箱即用：预置 Docker 镜像，无需复杂环境配置

2. 部署准备

2.1 硬件要求

组件	最低配置	推荐配置
GPU	NVIDIA GTX 1080 (8GB)	RTX 4090 (24GB)
CPU	4核	8核及以上
内存	16GB	32GB
存储	50GB可用空间	100GB SSD

2.2 软件依赖

确保系统已安装以下组件：

Docker 20.10+
NVIDIA Container Toolkit
docker-compose 1.29+

3. 一键部署指南

3.1 获取镜像

通过以下命令拉取最新镜像：

docker pull registry.cn-hangzhou.aliyuncs.com/deepseek-ai/ocr-webui:latest

3.2 启动容器

使用 docker-compose 启动服务：

mkdir -p ~/deepseek-ocr && cd ~/deepseek-ocr
cat > docker-compose.yml <<EOF
version: '3.8'
services:
  ocr-webui:
    image: registry.cn-hangzhou.aliyuncs.com/deepseek-ai/ocr-webui:latest
    container_name: deepseek-ocr
    runtime: nvidia
    ports:
      - "8000:8000"
    volumes:
      - ./models:/app/models
      - ./data:/app/data
    environment:
      - NVIDIA_VISIBLE_DEVICES=all
    restart: unless-stopped
EOF

docker-compose up -d

3.3 验证部署

检查服务状态：

docker logs -f deepseek-ocr

当看到以下输出时，表示服务已就绪：

INFO:     Uvicorn running on http://0.0.0.0:8000

4. 功能使用详解

4.1 Web界面概览

访问 http://<服务器IP>:8000 将看到以下功能区域：

文件上传区：支持拖放或点击选择文件
处理模式选择：
- 标准OCR：通用文本识别
- 文档模式：优化文档排版识别
- 表格识别：提取表格数据
输出设置：
- 文本格式（纯文本/保留换行）
- 语言选择（自动/指定语言）
- 输出文件类型（TXT/JSON）

4.2 单文件处理示例

处理单个PDF文件的完整流程：

点击"上传"按钮选择PDF文件
选择"文档模式"
设置输出格式为"保留换行的纯文本"
点击"开始识别"按钮
等待处理完成后，可：
- 直接复制识别文本
- 下载TXT文件
- 查看每页识别结果

4.3 批量处理技巧

要批量处理多个文件：

按住Ctrl键选择多个文件（或直接拖放文件夹）
勾选"批量模式"选项
设置输出文件命名规则（如按原文件名+时间戳）
处理完成后会自动打包为ZIP下载

批量处理建议：

同类文档批量处理可提升效率
100页以上PDF建议分批次处理
混合图片和PDF时，系统会自动分类处理

5. 高级配置

5.1 性能优化

修改 docker-compose.yml 添加资源限制：

services:
  ocr-webui:
    deploy:
      resources:
        limits:
          cpus: '8'
          memory: 16G
          gpus:
            capabilities: [gpu]

重启服务使配置生效：

docker-compose up -d --force-recreate

5.2 自定义模型

如需使用自定义训练的OCR模型：

将模型文件放入 ./models 目录
修改环境变量指定模型路径：

environment:
  - MODEL_PATH=/app/models/custom

5.3 API调用

服务提供RESTful API接口，示例调用：

import requests

url = "http://localhost:8000/api/ocr"
files = {'file': open('document.pdf', 'rb')}
params = {'mode': 'document', 'lang': 'zh'}

response = requests.post(url, files=files, params=params)
print(response.json())

API响应格式：

{
  "status": "success",
  "results": [
    {
      "page": 1,
      "text": "识别文本内容...",
      "confidence": 0.97
    }
  ]
}

6. 常见问题解决

6.1 部署问题排查

问题1：GPU未正确识别

解决方案：

# 验证NVIDIA驱动
nvidia-smi

# 检查容器内GPU可见性
docker exec -it deepseek-ocr nvidia-smi

问题2：模型下载缓慢

解决方案：

# 进入容器手动下载
docker exec -it deepseek-ocr bash
python -c "from transformers import AutoModel; AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR', cache_dir='/app/models')"