阿里云服务器迁移实战(一)——Mysql平滑迁移

一、背景

问题背景：这个接口是提供给管理中台调用的，用来管理平台账号
问题分析：504异常比较少见，是Gateway Timeout，即接口响应超时，链路比较长，要逐步排查
具体排查 ：
- 项目error日志：项目中未见相关error日志
- Controller层日志：未见到Controller层日志，(这里有个坑，实际是应该有的，但是AOP切面只抓public方法，这个方法没有用public修饰)
- nginx日志：项目是通过nginx反向代理的，找access.log，可以看到请求确实到了nginx
- 看nginx超时时间：并未配超时时间，默认的超时时间是60秒。这里接口报504只用了10秒，基本确定了是管理中台的网关报超时了
- 排查接口性能：没有错误日志，那就是单纯的超时了，因为迁移前数据库在同一个阿里云的内网，迁移后需要走公网到另一个阿里云服务器，重点排查多次数据库请求
- 定位原因：在循环中写了SQL查询，115个账号查了300多次SQL，同时走公网导致性能变慢，从1100毫秒到18秒，导致接口超时
解决方案：优化SQL，改为批量查询

紧急止损：数据库执行回滚操作
初步分析 ：
- 可能是数据库本身性能问题
- 也可能是多次公网数据库查询导致接口响应变慢，导致超时
排查数据库性能 ：在小高峰期切回新库调整参数
- 增大sort_buffer_size：参考旧数据库参数，调大了排序缓存，积压情况并未缓解
- 开启change_buffer：服务写入操作相对较多，开启change_buffer想提升写入性能，但执行命令查看数据库状态，innodb并未使用change_buffer，可能是因为change_buffer使用条件较为苛刻，写入并未用到二级非唯一索引
- 调整innodb_buffer_pool_size：先稍微调小缓冲池，再调大，发现innodb_buffer_use_ratio(缓冲池使用率)仅有75%，但innodb_buffer_read_hit(缓冲池命中率)为99.99%，缓冲池大小已经完全足够了，不是缓冲池的大小问题
结论：基本排除数据库性能问题，排查到部分核心接口也有循环内SQL查询，基本确定是多次公网查询导致
解决方案：新项目部署到新服务器上，走内网连接新数据库。小流量验证功能后，全量切换，未再出现线程池积压异常