基于arthas的一次提升定时任务TPS总结

1. 问题描述

后台服务班次转换通过定时任务，每五分钟执行一次，每日1000班次，要跑将近4，5小时，平均下来1分钟仅能跑几个班次。单个班次执行约20-30s。班次转换速率严重滞后，月底重跑多天报表，可能严重拖慢报表生成进度。

定时任务跑批次期间，通过top命令查看服务负载情况，CPU负载仅23.3%，内存负载13.2GB约56%，并不存在瓶颈情况。

使用Arthas工具（dashboard），查看cms服务班次跑批期间的jvm负载情况，具体情况如下：（备注：原默认垃圾回收器ps_survivor占用98%，切换g1gc，由jvm自行分配eden和s区的大小，以及对象晋升的次数） Heap情况:

Gc情况：

根据Arthas工具dashboard实时打印的结果，JVM的总体负载不高，不存在瓶颈情况。

使用Arthas工具对定时任务代码分析：

trace com.hkl.pos.service.impl.AtsConvertServiceImpl convertSuccessionByLock

以下捞出关键的几种类型：

以上截图trace结果可以得出结论：
1. 大量耗时存在于班次的转换的方法内；
2. 约一半的方法执行失败，获取jdbc连接超时；
3. trace因为性能关系只统计一个层架，需要往下再定位详细方法的执行耗时；
trace -E com.hkl.pos.service.impl.AtsConvertServiceImpl convertSuccessionByLock|convertSuccession|convertOrder -n 1000

以上trace结果可以得出结论：主要执行耗时代码在ats_bb表执行插入数据耗时过长；

markdown 复制代码

定位bb表插入慢的主要原因：
1.  数据量过大或者索引过多，锁或者外键，触发器导致插入慢；
2.  插入数据需要写数据文件、redo日志文件、undo表空间配置问题导致插入慢；

bb表历史数据先归档处理，大大提升入库时间。

将大事务拆分成小事务，查询和转换方法执行后，再进行数据库事务操作，防止大事务长时间持有占用JDBC连接。具体操作如下：

耗时统计

后续走直接生成，暂不需要进一步优化......