数据库的索引

索引的特点

1)加快查询的速度

2)索引自身是一种数据结构,也要占用存储空间

3)当我们需要进行增删改的时候,也要对索引进行更新(也需要额外的空间开销)

sql操作

查看索引

复制代码
show index from 表名;

查看某个表是否有索引,以及有几个索引

⚠在没有约束的情况下,数据表的索引是无法显示出来的

MySQL的unique,primary key和foreign key都可以自动生成索引

一个表的索引可以有多个,每个索引都是根据某个具体的列来展开的

创建索引

复制代码
create index 索引名 on 表名(列名);

这个操作要慎用,如果表本身就有很多数据,此时创建索引操作会触发大量的IO

删除索引

复制代码
drop index 索引名 on 表名;

索引底层的数据结构

采用B+树作为数据结构,前身B树,也叫B-树

B树是一个N叉搜索树,在二叉搜索树上进行拓展,要求这里是有序的

一个节点上可能包含N个值,N个值划分出N+1个区间

同样的高度的树,能表示的元素比二叉搜索树就多很多了

当采用B树进行查询时,总的比较次数增加了,但是同一个结点的这些key都是一次硬盘IO就都出来了,也就相当于内存1万多次的比较了


B+树是在B树上进行了改进

B+树的特点

  1. 同样是N叉搜索树,每个结点包含多个key,N个key划分出N个区间

  2. 每个结点的N个key中,会存在一个最大值

  3. 每个结点的key,都会在子树中重复出现

(重复出现的好处:所有的数据都包含在叶结点这一层中)

  1. 把叶结点站之间采用链式结构进行相连

1)此时进行范围查询,id>=4 and <= 10

先根据4找到对应的位置,沿着链表往后遍历到10就找到了

如果没有这个链式结构,就可能需要反复的对树进行回溯,就会很麻烦

2)针对B+树的查询时间是稳定的

查询任何一个元素,都是需要从根节点查询到子节点的

过程中经过的硬盘IO次数是一样的

3)只需要在叶结点存储数据,其他非叶节点存储key就行(这个key占用的空间很小)


数据库的事务

很多时候进行多个sql的操作,我们是希望将它们打包在一起的

第一个解决办法:不让数据库挂

但是数据库真挂了,我们也要有一个应对措施,采用事务

事务可以保证上面两个sql语句要么都执行成功,要么都不执行

(都不执行其实是有执行的,只是数据库恢复的时候,把数据都还原回去了,这叫回滚

那数据库咋知道之前的数据是多少?

数据库对于事务有特殊的机制(undo log + redo log),通过日志打印,写道文件里

数据库中间挂了,但是日志已经记录下来了,数据库重启之后会读取之前的日志,对于在执行一半的事务会进行操作回滚


事务的核心特性

1.原子性。通过事务将多个操作打包在一起(事务最重要特性)

2.一致性。原子性的延申,当数据库中间出问题了,不会出现上述钱凭空消失的情况

另一方面,通过约束避免数据出现一些非法情况

3.持久性。事务任何的修改都是持久化存在(写入硬盘的),无论是重启程序,还是重启主机,修改都不会消失

4.隔离性。多个事务并发 执行的时候会带来一些问题。通过隔离性来对问题进行权衡,看希望数据准确还是希望速度尽量快


并发:一个服务器会涉及多个客户端。如果多个客户端同时给数据库发起事务请求,就叫做并发执行事务

如果多个事务是修改不同的表,问题不大;修改相同的表会产生一些bug

典型bug1:脏读问题

当前两个事务1,2,其中事务1修改了某些数据但还未提交

事务2也读取了同一个数据,此时事务2读到的数据可能是一个脏的数据,因为事务1后续可能还要修改这个数据

解决脏读问题,核心思路是降低事务并发程度。

给写操作加锁(意味着在释放锁之前你是不可访问的)

写的时候不能读,写完提交(释放锁)后才可读

典型bug2:不可重读性

这个是写加锁的前提下导致的问题。虽然写加锁了,但是可以分成多个事务,多次提交的方式来修改数据。

有事务1,2。其中事务1先修改数据(写加锁),此时事务2想读数据,就需要等事务1提交完

等到事务1终于提交了之后,事务2开始读数据

又多了一个事务3,事务3又修改了上述的数据。导致事务2在读的过程中,两次读到的结果不同

也就是事务2在读的同时事务3又在写

所以解决这个问题很简单,给读加个锁就行了,相当于加个约定,读的时候不能写

典型bug3:幻读

有事务1,2。事务1修改数据,提交;事务2开始读数据

此时事务3新增了一个其他的数据,此时事务2就可能出现两次读取的结果集不同

解决幻读问题,用串行化,不进行任何并发了,每个事务是进行串行进行的

执行完第一个,再执行第二个,再执行第三个


MySQL配置中,提供了隔离级别的选项,程序员可以根据需要调整隔离级别,适应不同的情况

1)read uncommited 读未提交,并行程度最高,隔离程度最低,效率最高,数据最不靠谱,可能出现上面的三个bug

2)read commited 读已提交,相当于给写操作加锁,并行程度降低,隔离程度提高,效率降低,数据更靠谱

3)repeatable read 可重复读,相当于给读操作和写操作都加锁了。但可能出现幻读

4)serializable 串行化 让所有事务串行执行,数据最靠谱


使用

复制代码
start transaction; --执行事务之前,开启事务

commit; --告诉服务器,事务完毕

rollback; --告诉服务器要进行回滚
相关推荐
TEC_INO2 分钟前
Linux56:读取人脸图片并把特征值保存到sqlite3数据库
数据库·oracle
刘~浪地球2 分钟前
MongoDB分片集群实战:水平扩展海量数据
数据库·mongodb
鸽芷咕4 分钟前
KingbaseES中的PL_SQL编程:存储过程、函数、触发器与包的开发指南
数据库·sql·oracle
4311媒体网12 分钟前
帝国CMS新手入门教程:从零开始掌握企业级建站系统
数据库
韩小兔修媛史13 分钟前
Redis面试八股文总结
数据库·redis·面试
小则又沐风a18 分钟前
Linux下的Git的上传(版本控制器)
linux·数据库·git
赵渝强老师18 分钟前
【赵渝强老师】PostgreSQL的数据预热扩展pg_prewarm
数据库·postgresql
小新同学^O^39 分钟前
简单学习 --> 数据加密
java·数据库·学习·数据加密
Elastic 中国社区官方博客41 分钟前
将 Logstash Pipeline 从 Azure Event Hubs 迁移到 OTel Collector Kafka Receiver
大数据·数据库·人工智能·分布式·elasticsearch·搜索引擎·kafka
Elastic 中国社区官方博客1 小时前
使用 Elasticsearch 与 Kibana 中的 PromQL 调查 Kubernetes 基础设施问题
大数据·数据库·elasticsearch·搜索引擎·信息可视化·kubernetes·全文检索