‌MySQL 8.0下 200GB大表备份,利用传输表空间解决停服发版表备份问题

‌MySQL 8.0下 200GB大表备份,利用传输表空间解决停服发版表备份问题

问题背景

在停服发版更新的时候,需要预先对一个业务表进行备份,该业务表是200GB大小 的表,大概200亿行数据。

因为曾经出现过有开发写的发版语句里,update语句的where条件写错了,原本只需要更新几行数据,最终导致更新了半张表的数据。 MySQL版本是MySQL 8.0.X ,为了预防这种情况,需要对某个重要的大表进行预先备份,以便可以及时回滚,及时恢复,及时回退,对于备份方法大概有下面几种

  • (1)更新之前,用mysqldump导出表数据,再导入相同数据库下的另一个中间表/备胎表
  • (2)更新之前,把表数据导入到相同数据库下另一个中间表/备胎表,【create table 备胎表 select * from 源表;】
  • (3)更新之前,利用表空间传输把表导出来,然后导入到相同数据库下的另一个中间表/备胎表
  • (4)更新之前,断开主从复制或者使用延迟复制,如果发版有问题,用断开复制的那个从库,然后重搭整个主从复制环境

这个场景还有一个前提是,停服更新的时间非常有限,比如1个小时之内要完成更新。

操作流程

前面两种都比较简单,通过导数据的方法来备份旧表,万一出现问题,可以使用导出来的数据进行快速恢复,第三种方法估计比较少人用,下面是具体操作方法

0、源表的表结构

use school;
CREATE TABLE aa (
id int(11) DEFAULT NULL,
sname varchar(100) 
) ENGINE=InnoDB;

insert into aa select 1,"nihao";
select * from aa;

1、备胎表的表结构

CREATE TABLE bb (
id int(11) DEFAULT NULL,
sname varchar(100) 
) ENGINE=InnoDB;

2、备胎表卸载表空间:

ALTER TABLE bb DISCARD TABLESPACE;

3、源表执行表空间导出:

use school;
FLUSH TABLES aa FOR EXPORT;   

4、拷贝源表的ibd和cfg文件,然后重新赋予权限,确保导入表空间时候不会出现问题

cd /data/mysql/mysql3306/data/school
cp aa.ibd  bb.ibd  
cp aa.cfg  bb.cfg
chown -R mysql:mysql /data/mysql/mysql3306/data/*

5、在相同数据库下,备胎表和源表都导入表空间

use school;
UNLOCK TABLES;  
alter table bb import tablespace;
alter table aa import tablespace;

6、查询表数据

use school;
select * from bb;
select * from aa;

查询表数据正常,没有任何问题

mysql> select * from aa;
+------+-------+
| id   | sname |
+------+-------+
|    1 | nihao |
+------+-------+
1 row inset (0.01 sec)

mysql> select * from bb;
+------+-------+
| id   | sname |
+------+-------+
|    1 | nihao |
+------+-------+
1 row inset (0.00 sec)

查看表的数据文件,没什么问题

[root@2_mysql_68 school]# ll
total 228
-rw-r----- 1 mysql mysql 114688 Mar  4 16:51 aa.ibd
-rw-r----- 1 mysql mysql    781 Mar  4 16:52 bb.cfg
-rw-r----- 1 mysql mysql 114688 Mar  4 16:52 bb.ibd

7、开始做停服发版更新

对aa表做操作

...

8、如果发版出现问题,直接交换表名,最快速度恢复整个表的数据

ALTER TABLE aa RENAME TO aa_temp; 
ALTER TABLE bb RENAME TO aa; 

总结

整个操作最重要的是第4步 ,操作系统级别的拷贝就完成了整个表的备份,相比于数据倒来倒去在速度上要快不少。另外,第5步 的备胎表也可以不用导入,只有当发现发版出现问题时候,再导入也可以。 实际上,如果需要更新的大表比较多的话,更加推荐使用第四种 方法,在操作上也更加可控,时间上也能保证比较短时间内能够完成。但是如果生产环境没有条件做主从复制,只能单实例运行的话,那么只能使用传输表空间这种方法了。

本文版权归作者所有,未经作者同意不得转载。