mysql事务与索引

1.事务

(1)提出背景:

在日常开发环境中,有一些场景是需要"一气呵成"完成某一个操作。

eg:银行转账的场景:张三(手里有1000)现要给李四(手里有500)转500,本来最后期待的结果应该是张三(还有500),李四(有1500),但如果在这个过程中程序崩溃/停电/数据库崩溃就会导致张三已经扣了钱但是李四还没有收到钱,那在这个事就扯谈了!!!

所以引入事务就是为了避免上述类似的问题。事务会将多个sql语句打包成一个整体,这个整体要么执行成功,要么"一个都不执行"(这里的一个都不执行,不是指整体中的所有sql语句都不执行,而是可能执行到一半出问题了,就会回到最初的状态。这个过程也叫做回滚)。

(2)特点:

原子性:将多个sql语句打包成一个整体,要么执行成功,要么"一个都不执行"。

一致性:事务执行前后数据不能太过离谱。

持久性:事务做出的修改都是在硬盘上持久化存储的。

隔离性:并发执行多个事务所产生的问题。

(3)隔离性:

问题1:脏读

一个事务A正在写数据的时候,事务B此时来进行读数据,然后事务A又对刚才的数据进行了修改,此时导致事务B读到的是一个无效的数据。

eg:我正在写代码的时候,别人就来读我的代码,然后就不管了,之后我又修改了代码,那读我代码的那个人读到的代码就有可能是错误的。

如何解决:给写操作加锁,必须要写数据这个操作完成之后才能进行读数据。

问题2:不可重复读

在并发执行多个事务的过程中,一个事务内部在多次读取某同一数据的时候,读到的结果可能不同。

eg:别人在读我代码的同时,我也在写,就导致读我代码的人,读的是同一份代码但是结果可能在变化。

如何解决:给读操作加锁,必须要读操作完成之后才能写。

问题3:幻读

一个事务在执行过程中,内部进行两次读取的操作时,读取的数据集不同,那么读到的结果集不同。

eg:就好比是两份不同代码,那么读到的结果肯定不同,这个问题对实际场景有无影响,具体场景具体分析。

如何解决:引入串行化方式,保持绝对串行执行,避免并发执行。

(4)隔离级别:

针对数据正确和并发程度之间做出权衡,就是所谓的隔离级别。有四种:

a.read uncommitted(读未提交)

也就是脏读。此时隔离性最低,数据正确率最低,并发程度最高,并发执行效率最高。

b.read committed(读已提交)

解决脏读。此时隔离性提高,数据正确率提高,并发程度降低,并发执行效率降低。

c.repeatable read(可重复读)

解决不可重复读。此时隔离性进一步提高,数据正确率进一步提高,并发程度进一步降低,并发执行效率进一步降低。

d.serializable(串行化)

解决幻读。此时隔离性最高,数据正确率最高,并发程度最低,并发执行效率最低。

2.索引(index)

(1)提出背景:

数据库使用select查询的时候:

a.先遍历表

b.跟据条件去表中筛选,如果满足条件就保留该条数据,不成立则跳过。

如果表中数据过多,那么通过这种方式查询所消耗的时间是很多的,而且数据库中的数据都是存储在硬盘上的,对于计算机来说,读取硬盘(读取IO)的时间开销是很大的。

所以针对上述的问题,就提出了索引,它的存在就是为了优化数据库的查询操作。当然引入索引也需考虑几个问题:

索引会占用一定的内存空间。

进行插入或修改操作的频率较低,经常进行查询操作,就可以进行索引的创建。

数据量较大,并且经常对某一列进行查询,索引就是针对某一列来创建的,只会提高查询这一列的速度,对于没有创建索引的列,还是需要去遍历表然后进行条件匹配。

(2)相关操作:

a.创建:

create index 索引名字 on 列名;

ps:

主键(primary key),外键(foreign key),unique修饰的列会自动创建索引。

b.查看:

show index from 表名;

c.删除:

drop index 索引名 on 表名;

ps:只有手动创建的索引可以进行删除,自动创建的索引不可以通过此操作进行删除。

创建和删除索引都是一个危险的操作,创建索引的时候,会对当前这一列数据进行整理,如果数据量过大,那么一旦这个操作执行下去,可能服务器就会被卡住。

非得创建也不是没有办法,另外重新弄一台服务器,部署mysql,创建表,然后把想要新增的索引创建好,再把之前的数据全部导入进行,这样不论这个过程会进行多久都不会影响生产环境。

(3)背后相关知识:

索引是通过一定的数据结构来实现。

a.分析:

顺序表:适合于通过下标查找某个值,尾插,尾删

链表:适合于任意位置的删除,插入

栈和队列更加不适合。

哈希表:可以进行"精确匹配",不能进行范围查询,更不能进行"模糊匹配"。

二叉搜索树:可以进行"精确匹配",也可以进行范围查询和"模糊匹配"。

初步确定是应该采用二叉搜索树的形式,采用二叉搜索树进行搜索的时间复杂度为,如果每个树的度不为2,当节点的度逐渐增加的时候,那么对应的时间复杂度就会降低,所以这样分析的话索引背后采用的是N叉搜索树(B+树)。

b.B+树(N叉搜索树)

了解B+树之前,先要了解一下B树(B-树也是B树,"-"代表的是连接符)。

B树:

B树中的每个节点的度都不确定,一个节点中如果有N个key,就会划分出N+1个区间,然后每个区间都为衍生出一些子区间。

eg:

每个节点都不是无限衍生的,但插入达到一定规模的时候就会进行分裂,当删除数据达到一定规模是,节点之间会进行合并。由于每个节点都是存储在硬盘上的,每次只用去硬盘读取节点,然后对节点中的数据进行比较就好了。(读取一次硬盘相当读取很多次内存)

B+树:

B+树是B树的改进,是为索引量身定做的数据结构。

特点:

1)树中每个节点的度都是不确定的,一个节点中有N个key只会划分出N个区间(子节点),然后子节点再进行衍生。

2)父亲节点中的最大key会存在在子节点中的最后位置,也就是每个节点上最后一个key是父节点中最大的值。

3)父亲节点中的每个key都会以最大值的身份存在于子节点中,这样就会导致整个树最后的结果集全部在叶子节点上。

4)B+树会使用链表将叶子节点给串起来。

eg:

最后叶子节点使用一个双向链表给存储起来。

优点:

1)由于叶子节点是一个数据全集,所以所有的行数据(不只存了id,还有其他属性,是一条记录)都会存储在叶子节点上,而非叶子节点只是存储了一个用于比较的key,用来排序(比如存个id),所以叶子节点是比较占用内存的,而非叶子节点不怎么占用内存的。每次进行查询的时候,就把非叶子节点加载到内存中,就不用在去单独的读取非叶子节点了,这样整体查询比较的过程就可以在内存进行了,读取硬盘的次数就进一步降低。

2)非常擅长范围查询。如果使用B树的,那么进行范围查询的时候,会很麻烦,会进行回溯操作。

3)B+树由于所有的查询都是落在叶子节点上的,所以查询不同东西所产生的时间开销是稳定的,而B树可能是不稳定的。

4)是一个N叉搜索树,树的高度是有限的,可以降低读取硬盘的次数,进而加快查询的速率。

相关推荐
SelectDB技术团队6 分钟前
兼顾高性能与低成本,浅析 Apache Doris 异步物化视图原理及典型场景
大数据·数据库·数据仓库·数据分析·doris
inventecsh22 分钟前
mongodb基础操作
数据库·mongodb
白云如幻26 分钟前
SQL99版链接查询语法
数据库·sql·mysql
爱吃烤鸡翅的酸菜鱼1 小时前
MySQL初学之旅(4)表的设计
数据库·sql·mysql·database
计算机毕设指导61 小时前
基于 SpringBoot 的作业管理系统【附源码】
java·vue.js·spring boot·后端·mysql·spring·intellij-idea
The_Ticker2 小时前
CFD平台如何接入实时行情源
java·大数据·数据库·人工智能·算法·区块链·软件工程
Elastic 中国社区官方博客2 小时前
Elasticsearch 开放推理 API 增加了对 IBM watsonx.ai Slate 嵌入模型的支持
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
企鹅侠客2 小时前
ETCD调优
数据库·etcd
Json_181790144802 小时前
电商拍立淘按图搜索API接口系列,文档说明参考
前端·数据库
煎饼小狗2 小时前
Redis五大基本类型——Zset有序集合命令详解(命令用法详解+思维导图详解)
数据库·redis·缓存