别再乱配@Options了！MyBatis Cursor处理百万数据的正确姿势（附MySQL驱动源码分析）

weixin_30530339

344人浏览 · 2026-05-25 15:22:50

weixin_30530339 · 2026-05-25 15:22:50 发布

深入解析MyBatis Cursor处理海量数据的底层机制与实战优化

在处理百万级甚至更大规模的数据集时，传统的一次性加载方式往往会引发内存溢出（OOM）问题。许多开发者虽然知道MyBatis提供了Cursor游标机制，但在实际应用中却发现效果不尽如人意。本文将深入剖析Cursor的工作原理，揭示那些被广泛传播却实际无效的配置误区，并通过MySQL驱动源码分析，展示真正有效的流式处理方案。

1. 流式查询的本质与常见误区

流式查询的核心思想是"按需获取"，而非一次性加载全部结果集。这种机制特别适合处理大数据量场景，它能显著降低内存消耗，避免OOM错误。然而，许多开发者在使用MyBatis Cursor时存在以下典型误区：

过度依赖 resultSetType=FORWARD_ONLY ：网上大量文章推荐此配置，但实际测试表明它几乎不影响内存使用
忽视数据库驱动的差异性 ：不同数据库(MySQL、Oracle等)对流式查询的支持机制各不相同
错误理解fetchSize参数 ：将其设置为正数反而可能导致性能下降

通过JVisualVM监控对比测试，我们可以清晰看到不同配置下的内存使用差异：

查询方式	耗时(ms)	GC次数	内存占用(MB)
普通List查询	7833	21	885
无配置Cursor	5908	21	428
FORWARD_ONLY Cursor	6313	22	454
fetchSize=MIN_VALUE	4735	12	206

2. MySQL驱动源码层面的关键解析

真正让Cursor发挥流式处理魔力的关键配置是 fetchSize=Integer.MIN_VALUE 。这看似奇怪的设定背后，是MySQL JDBC驱动的特殊设计。在 com.mysql.cj.jdbc.StatementImpl 类中，我们可以找到答案：

protected boolean createStreamingResultSet() {
    return ((this.query.getResultType() == Type.FORWARD_ONLY) 
        && (this.resultSetConcurrency == ResultSet.CONCUR_READ_ONLY) 
        && (this.query.getResultFetchSize() == Integer.MIN_VALUE));
}

这段源码揭示了MySQL启用流式传输的三个必要条件：

结果集类型为FORWARD_ONLY（默认已满足）
结果集并发模式为READ_ONLY（默认已满足）
fetchSize设置为Integer.MIN_VALUE（需要显式配置）

注意：虽然前两个条件通常已默认满足，但显式设置可以确保代码在不同环境下的行为一致性。

3. 实战中的性能调优与陷阱规避

3.1 内存限制下的性能表现

通过设置不同的JVM堆内存上限，我们观察到 fetchSize=Integer.MIN_VALUE 在不同内存场景下的表现：

50MB内存限制 ：
- 内存占用：16MB
- GC次数：142次
- GC耗时：231ms
- 查询耗时：4676ms
10MB内存限制 ：
- 内存占用：7.8MB
- GC次数：1894次
- GC耗时：34s
- 查询耗时：38.7s

这表明，虽然流式查询可以大幅降低内存需求，但过小的堆内存会导致频繁GC，反而降低整体吞吐量。建议在生产环境中：

根据数据量合理设置JVM堆大小
监控GC频率，保持GC时间占比低于10%
在内存和吞吐量之间寻找平衡点

3.2 多数据库兼容方案

不同数据库对流式查询的支持差异较大，以下是主流数据库的适配建议：

MySQL ：

@Options(fetchSize = Integer.MIN_VALUE)
Cursor<Entity> selectLargeData();

Oracle ：

@Options(fetchSize = 1000)
Cursor<Entity> selectLargeData();

PostgreSQL ：

@Options(fetchSize = 1000, resultSetType = ResultSetType.FORWARD_ONLY)
Cursor<Entity> selectLargeData();

4. 生产环境最佳实践

在实际项目中应用Cursor时，建议遵循以下模式：

资源管理 ：确保使用try-with-resources语句自动关闭Cursor

try (Cursor<Entity> cursor = mapper.selectLargeData()) {
    cursor.forEach(entity -> process(entity));
}

批处理优化 ：即使使用流式查询，也应考虑分批处理以降低单次操作开销

int batchSize = 1000;
List<Entity> buffer = new ArrayList<>(batchSize);

try (Cursor<Entity> cursor = mapper.selectLargeData()) {
    for (Entity entity : cursor) {
        buffer.add(entity);
        if (buffer.size() >= batchSize) {
            processBatch(buffer);
            buffer.clear();
        }
    }
    if (!buffer.isEmpty()) {
        processBatch(buffer);
    }
}