记一次 Java 服务导出报表 OOM 的排查过程

最近生产环境出了个 OOM 问题，场景虽然经典，但排查过程中还是有一些值得记录的细节。这里简单复盘一下整个排查流程。

1. 案发现场：生产环境 OOM

事情的起因是业务反馈 导出报表 功能挂了。看了一下背景数据和环境配置：

按理说 4G 堆内存处理 50万数据，只要不是把所有对象一次性全加载到内存里，流式处理或者分页处理应该问题不大。但现实是服务直接崩了。

为了不影响生产，我转到 UAT 环境 进行复现和观测。

观测现象： 在导出过程中，肉眼可见堆内存一直在疯涨。

初步结论： 这明显不是简单的流量突发，而是代码层面存在内存泄漏或者持有大对象无法释放。

既然确认是内存问题，下一步就是拿 Dump 文件分析了。

使用 Arthas 的 heapdump 命令导出仅存活的对象（去除垃圾对象干扰）：

heapdump --live /app/log/heap_dump.hprof

这里有个经验之谈：生产导出的 Dump 文件通常巨大（接近 4G），直接下载非常慢，而且容易断。 建议在宿主机上先压缩再下载：

# 压缩后体积通常能缩小到原来的 1/10 左右
tar -zcvf heap_dump.tar.gz heap_dump.hprof

下载到本地后，解压准备分析。

我直接把 Dump 文件拖进了 IntelliJ IDEA（现在 IDEA 自带的 Profiler 已经很好用了，或者用 MAT 也可以）。

分析思路：

发现异常：

从图中可以清晰地看到：

17-23-35-42-96jSeK 经过计算和代码确认：由于导出涉及复杂的动态 SQL 拼接，系统使用的 ORM 框架对解析后的 SQL 进行了缓存。

这就解释了为什么 4G 的堆内存会被瞬间吃光。看似不起眼的默认缓存配置，配合上超大的复杂 SQL 对象，直接撑爆了老年代。

总结： 这次排查其实并不复杂，关键在于在此类大数据量导出场景下，不要忽视框架层面的默认缓存策略。后续优化方案主要是针对该 SQL 解析缓存进行限制，过长的SQL不进入缓存列表。