Cassandra 批量插入性能探索:从线上问题到优化策略

背景

  • 线上需要将 MySQL 7 亿数据的表迁移到 Cassandra 中,由于数据量很大,所以我们使用 Cassandra 批量插入数据功能插入数据
  • 线上只要开启批量跑数据任务,Cassandra 读/写 p99 延迟飙升,只要停止跑批任务延迟立马下降,如下图所示
  • 根据这个现象我们提出猜想,Cassandra 批量插入数据会造成其它请求堵塞,并且一次批量插入的数据分区数越多,批量插入性能越差,于是我们在开发环境进行压测

压测

实验环境

  • cassandra 单节点
  • cassandra concurrent_writes 64/128

批量插入不同分区数据(100 / 批)

concurrent_writes = 64

  • 500 TPS ,写延迟 p99 达到了 300ms

单条插入

concurrent_writes = 64

  • 1200 TPS ,写延迟 p99 只有 250us

增加写并发配置批量插入不同分区数据(100 / 批)

concurrent_writes = 128

  • 500 TPS ,写延迟 p99 只有 150ms

增加写并发配置批量插入相同分区数据(100 / 批)

concurrent_writes = 128

  • 700 TPS ,写延迟 p99 只有 125ms

压测结论

  • 性能对比: 单条插入 > 批量插入相同分区数据 > 批量插入不同分区数据
  • 批量插入相同分区数据性能比批量插入不同分区数据性能好一些,但是随着 TPS 增加,写入 p99 仍然增加明显
  • 批量插入数据 TPS 超过一定阈值,写入 p99 延迟会指数增长,同时影响查询速度
  • 单条插入数据性能极高,单节点 concurrent_writes = 64、TPS = 1200 ,写入 p99 只有 250 us
  • 适当增加 concurrent_writes 配置的值能有效提升写性能

调大配置 & 批量改为单条插入线上表现

相关推荐
搬码后生仔23 分钟前
将 ASP.NET Core 应用程序的日志保存到 D 盘的文件中 (如 Serilog)
后端·asp.net
Suwg20925 分钟前
《手写Mybatis渐进式源码实践》实践笔记(第七章 SQL执行器的创建和使用)
java·数据库·笔记·后端·sql·mybatis·模板方法模式
凡人的AI工具箱1 小时前
每天40分玩转Django:Django文件上传
开发语言·数据库·后端·python·django
spcodhu2 小时前
在 Ubuntu 上搭建 MinIO 服务器
linux·后端·minio
小码编匠2 小时前
2024 年各编程语言运行百万并发任务需多少内存?
java·后端·python
sin22013 小时前
springboot测试类里注入不成功且运行报错
spring boot·后端·sqlserver
努力的小雨3 小时前
灵感上线,云开发实现抽奖转盘是多么简单的一件事
后端
kirito学长-Java4 小时前
springboot/ssm网上宠物店系统Java代码编写web宠物用品商城项目
java·spring boot·后端
海绵波波1074 小时前
flask后端开发(9):ORM模型外键+迁移ORM模型
后端·python·flask
余生H4 小时前
前端Python应用指南(二)深入Flask:理解Flask的应用结构与模块化设计
前端·后端·python·flask·全栈