TiDB 的MPP架构概述

MPP架构介绍:

如图,TiDB Server 作为协调者,首先 TiDB Server 会把每个TiFlash 拥有的region 会在TiFlash上做交换,让表连接在一个TiFlash上。另外 TiFlash会作为计算节点,每个TiFlash都负责数据交换,表连接,聚合等等。

每个TiFlash在MPP架构里面称为一个MPP worker。

MPP的特点:

1.适合大量的join聚合查询

2.所有MPP计算是在内存中执行的,数据不落地。

3.只支持等值连接,不支持不等值连接(这意味着有一些sql用不了MPP,这时候可以使用参数:Enforce_mpp 强制使用MPP,但不支持等值连接就是不支持,执行后会警告)。

MPP的执行流程:

首先,在这个SQL中,有一个表连接,两个过滤条件,一个聚合条件 。

TiFlash在存储数据的时候会把数据分别存储在不同的TiFlash上,这个SQL的执行流程是:

1.在每个TiFlash 中过滤出order表里面 dic列的前三个字母是7c0的数据放到内存中。把product表里面pct_date列大于'2021-09-30' 的数据放到内存中(并行执行)

2. 数据交换(减少网络交换),让表连接在本节点执行,对每一张表的连接项(pid)取一个hash函数,如取模。将数据根据hash值 进行数据交换,让hash值相同的数据在一个节点上。

3. 对group by进行提速,也是进行数据交换,对state取hash函数,把hash函数相等的放在一个节点。

4.把TiFlash的数据返回到TiDB Server

总结:TiDB的MPP架构充分利用了TiFlash并行计算的功能, 当一个复杂的SQL语句过来的时候(能够使用MPP),先利用表连接的条件把连接条件Hash值相同的数据放到一个节点上,防止网络交换严重,处理了过滤条件后,如有聚合条件,再利用聚合条件的字段进行数据交换,把聚合条件字段hash值相同的数据放到同一个数据节点中,最后每个TiFlash把计算好的数据返回给TiDB Server。

相关推荐
睡不醒男孩03082314 天前
TiDB数据库调研
数据库·tidb
解决问题no解决代码问题18 天前
TiDB 深度对比:拆解三类传统扩容方案与 TiDB 原生分布式架构差异
tidb
解决问题no解决代码问题18 天前
分区表清理操作全对比:DB2 / Oracle / MySQL / TiDB 流程详解
tidb
解决问题no解决代码问题20 天前
TiDB 原理与节点宕机实战讲解
数据库·tidb
不爱编程的小陈20 天前
事务的进化:从MySQL单机事务到TiDB分布式事务的探究
分布式·mysql·tidb
解决问题no解决代码问题21 天前
深入解析 TiDB 分布式架构:三大核心组件与底层运行原理
tidb
身如柳絮随风扬1 个月前
TiDB 极速入门与 Spring Boot 实战:从 Docker 部署到高并发调优
spring boot·docker·tidb
秋92 个月前
TiDB 数据库全链路实战指南:从下载部署到 Java 高并发调优
java·数据库·tidb
RestCloud2 个月前
TiDB 混合负载场景下的 ETL 与 CDC 实践
数据仓库·tidb·etl·cdc·数据同步·数据库传输
迷藏4942 个月前
**TiDB 在高并发场景下的性能优化实战:从慢查询到极致吞吐的跃迁**在现代分布式系统中,数据库不仅是数据存储的
java·数据库·python·性能优化·tidb