做mysql的都知道,数据库操作里面,ddl操作(比如create,drop,alter等)代价是非常高的,特别是在单表上千万的情况下,加个索引或改个列类型,就有可能堵塞整个表的读写。
然后 mysql 5.6 开始,大家期待的online ddl出现了,可以实现修改表结构的同时,依然允许dml操作(select,insert,update,delete)。在这个特性出现以前,用的比较多的工具是pt-online-schema-change
,比较请参考或 。
1. online ddl
在 mysql 5.1 (带innodb plugin)和5.5中,有个新特性叫 fast index creation(下称 fic),就是在添加或者删除二级索引的时候,可以不用复制原表。对于之前的版本对于索引的添加删除这类ddl操作,mysql数据库的操作过程为如下:
首先新建temp table,表结构是 altar table 新定义的结构
然后把原表中数据导入到这个temp table
删除原表
最后把临时表rename为原来的表名
为了保持数据的一致性,中间复制数据(copy table)全程锁表只读,如果有写请求进来将无法提供服务,连接数爆张。
引入fic之后,创建二级索引时会对原表加上一个s锁,创建过程不需要重建表(no-rebuild);删除innodb二级索引只需要更新内部视图,并标记这个索引的空间可用,去掉数据库元数据上该索引的定义即可。这个过程也只允许读操作,不能写入,但大大加快了修改索引的速度(不含主键索引,innodb iot的特性决定了修改主键依然需要 copy table )。
fic只对索引的创建删除有效,mysql 5.6 online ddl把这种特性扩展到了添加列、删除列、修改列类型、列重命名、设置默认值等等,实际效果要看所使用的选项和操作类别来定。
1.1 online ddl选项
mysql 在线ddl分为 inplace
和 copy
两种方式,通过在alter语句的algorithm参数指定。
algorithm=inplace
,可以避免重建表带来的io和cpu消耗,保证ddl期间依然有良好的性能和并发。algorithm=copy
,需要拷贝原始表,所以不允许并发dml写操作,可读。这种copy方式的效率还是不如 inplace ,因为前者需要记录undo和redo log,而且因为临时占用buffer pool引起短时间内性能受影响。
上面只是 online ddl 内部的实现方式,此外还有 lock 选项控制是否锁表,根据不同的ddl操作类型有不同的表现:默认mysql尽可能不去锁表,但是像修改主键这样的昂贵操作不得不选择锁表。
lock=none
,即ddl期间允许并发读写涉及的表,比如为了保证 alter table 时不影响用户注册或支付,可以明确指定,好处是如果不幸该 alter语句不支持对该表的继续写入,则会提示失败,而不会直接发到库上执行。algorithm=copy
默认lock级别lock=shared
,即ddl期间表上的写操作会被阻塞,但不影响读取。lock=default
,让mysql自己去判断lock的模式,原则是mysql尽可能不去锁表lock=exclusive
,即ddl期间该表不可用,堵塞任何读写请求。如果你想alter操作在最短的时间内完成,或者表短时间内不可用能接受,可以手动指定。
但是有一点需要说明,无论任何模式下,online ddl开始之前都需要一个短时间排它锁(exclusive)来准备环境,所以alter命令发出后,会首先等待该表上的其它操作完成,在alter命令之后的请求会出现等待waiting meta data lock
。同样在ddl结束之前,也要等待alter期间所有的事务完成,也会堵塞一小段时间。所以尽量在alter table之前确保没有大事务在执行,否则一样出现连环锁表。
1.2 考虑不同的ddl操作类别
从上面的介绍可以看出,不是5.6支持在线ddl就可以随心所欲的alter table,锁不锁表要看情况:
in-place为yes是优选项,说明该操作支持inplace
copies table为no是优选项,因为为yes需要重建表。大部分情况与in-place是相反的
allows concurrent dml?为yes是优选项,说明ddl期间表依然可读写,可以指定 lock=none(如果操作允许的话mysql自动就是none)
allows concurrent query?默认所有ddl操作期间都允许查询请求,放在这只是便于参考
notes会对前面几列yes/no带
*
号的限制说明
operation | in-place? | copies table? | allows concurrent dml? | allows concurrent query? | notes |
---|---|---|---|---|---|
添加索引 | yes* | no* | yes | yes | 对全文索引的一些限制 |
删除索引 | yes | no | yes | yes | 仅修改表的元数据 |
optimize table | yes | yes | yes | yes | 从 5.6.17开始使用algorithm=inplace,当然如果指定了old_alter_table=1 或mysqld启动带--skip-new 则将还是copy模式。如果表上有全文索引只支持copy |
对一列设置默认值 | yes | no | yes | yes | 仅修改表的元数据 |
对一列修改auto-increment 的值 | yes | no | yes | yes | 仅修改表的元数据 |
添加 foreign key constraint | yes* | no* | yes | yes | 为了避免拷贝表,在约束创建时会禁用foreign_key_checks |
删除 foreign key constraint | yes | no | yes | yes | foreign_key_checks 不影响 |
改变列名 | yes* | no* | yes* | yes | 为了允许dml并发, 如果保持相同数据类型,仅改变列名 |
添加列 | yes* | yes* | yes* | yes | 尽管允许 algorithm=inplace ,但数据大幅重组,所以它仍然是一项昂贵的操作。当添加列是auto-increment,不允许dml并发 |
删除列 | yes | yes* | yes | yes | 尽管允许 algorithm=inplace ,但数据大幅重组,所以它仍然是一项昂贵的操作 |
修改列数据类型 | no | yes* | no | yes | 修改类型或添加长度,都会拷贝表,而且不允许更新操作 |
更改列顺序 | yes | yes | yes | yes | 尽管允许 algorithm=inplace ,但数据大幅重组,所以它仍然是一项昂贵的操作 |
修改row_format 和key_block_size | yes | yes | yes | yes | 尽管允许 algorithm=inplace ,但数据大幅重组,所以它仍然是一项昂贵的操作 |
设置列属性null 或not null | yes | yes | yes | yes | 尽管允许 algorithm=inplace ,但数据大幅重组,所以它仍然是一项昂贵的操作 |
添加主键 | yes* | yes | yes | yes | 尽管允许 algorithm=inplace ,但数据大幅重组,所以它仍然是一项昂贵的操作。 如果列定义必须转化not null,则不允许inplace |
删除并添加主键 | yes | yes | yes | yes | 在同一个 alter table 语句删除就主键、添加新主键时,才允许inplace;数据大幅重组,所以它仍然是一项昂贵的操作。 |
删除主键 | no | yes | no | yes | 不允许并发dml,要拷贝表,而且如果没有在同一 atler table 语句里同时添加主键则会收到限制 |
变更表字符集 | no | yes | no | yes | 如果新的字符集编码不同,重建表 |
从表看出,in-place为no,dml一定是no,说明algorithm=copy
一定会发生拷贝表,只读。但algorithm=inplacee
也要可能发生拷贝表,但可以并发dml:
添加、删除列,改变列顺序
添加或删除主键
改变行格式row_format和压缩块大小key_block_size
改变列null或not null
优化表optimize table
强制 rebuild 该表
不允许并发dml的情况有:修改列数据类型、删除主键、变更表字符集,即这些类型操作ddl是不能online的。
另外,更改主键索引与普通索引处理方式是不一样的,主键即聚集索引,体现了表数据在物理磁盘上的排列,包含了数据行本身,需要拷贝表;而普通索引通过包含主键列来定位数据,所以普通索引的创建只需要一次扫描主键即可,而且是在已有数据的表上建立二级索引,更紧凑,将来查询效率更高。
修改主键也就意味着要重建所有的普通索引。删除二级索引更简单,修改innodb系统表信息和数据字典,标记该所以不存在,标记所占用的表空间可以被新索引或数据行重新利用。
1.3 在线ddl的限制
在alter table时,如果涉及到table copy操作,要确保
datadir
目录有足够的磁盘空间,能够放的下整张表,因为拷贝表的的操作是直接在数据目录下进行的。添加索引无需table copy,但要确保
tmpdir
目录足够存下索引一列的数据(如果是组合索引,当前临时排序文件一合并到原表上就会删除)在主从环境下,主库执行alter命令在完成之前是不会进入binlog记录事件,如果允许dml操作则不影响记录时间,所以期间不会导致延迟。然而,由于从库是单个sql thread按顺序应用relay log,轮到alter语句时直到执行完才能下一条,所以从库会在master ddl完成后开始产生延迟。(pt-osc可以控制延迟时间,所以这种场景下它更合适)
during each online ddl alter table statement, regardless of the lock clause, there are brief periods at the beginning and end requiring an exclusive lock on the table (the same kind of lock specified by the lock=exclusive clause). thus, an online ddl operation might wait before starting if there is a long-running transaction performing inserts, updates, deletes, or select … for update on that table; and an online ddl operation might wait before finishing if a similar long-running transaction was started while the alter table was in progress.
在执行一个允许并发dml在线 alter table时,结束之前这个线程会应用 online log 记录的增量修改,而这些修改是其它thread里产生的,所以有可能会遇到重复键值错误(error 1062 (23000): duplicate entry)。
涉及到table copy时,目前还没有机制限制暂停ddl,或者限制io阀值在mysql 5.7.6开始能够通过 performance_schema 观察alter table的进度
一般来说,建议把多个alter语句合并在一起进行,避免多次table rebuild带来的消耗。但是也要注意分组,比如需要copy table和只需inplace就能完成的,应该分两个alter语句。
如果ddl执行时间很长,期间又产生了大量的dml操作,以至于超过了
innodb_online_alter_log_max_size
变量所指定的大小,会引起db_online_log_too_big 错误。默认为 128m,特别对于需要拷贝大表的alter操作,考虑临时加大该值,以此获得更大的日志缓存空间执行完
alter table
之后,最好analyze table tb1
去更新索引统计信息
2. 实现过程
online ddl主要包括3个阶段,prepare阶段,ddl执行阶段,commit阶段,rebuild方式比no-rebuild方式实质多了一个ddl执行阶段,prepare阶段和commit阶段类似。下面将主要介绍ddl执行过程中三个阶段的流程。
prepare阶段:
创建新的临时frm文件(与innodb无关)
持有exclusive-mdl锁,禁止读写
根据alter类型,确定执行方式(copy,online-rebuild,online-norebuild)假如是add index,则选择online-norebuild即inplace方式
更新数据字典的内存对象
分配row_log对象记录增量(仅rebuild类型需要)
生成新的临时ibd文件(仅rebuild类型需要)
ddl执行阶段:
降级exclusive-mdl锁,允许读写
扫描old_table的聚集索引每一条记录rec
遍历新表的聚集索引和二级索引,逐一处理
根据rec构造对应的索引项
将构造索引项插入sort_buffer块排序
将sort_buffer块更新到新的索引上
记录ddl执行过程中产生的增量(仅rebuild类型需要)
重放row_log中的操作到新索引上(no-rebuild数据是在原表上更新的)
重放row_log间产生dml操作append到row_log最后一个block
commit阶段:
当前block为row_log最后一个时,禁止读写,升级到exclusive-mdl锁
重做row_log中最后一部分增量
更新innodb的数据字典表
提交事务(刷事务的redo日志)
修改统计信息
rename临时idb文件,frm文件
变更完成
这有一直导图挺直观的: 。添加列 时由于需要copy table,row_log会重放到新表上(临时ibd文件),直到最后一个block,锁住原表禁止更新。
row_log记录了ddl变更过程中新产生的dml操作,并在ddl执行的最后将其应用到新的表中,保证数据完整性
3. 对比实验
3.1 添加二级索引
我这里使用sysbench产生的表测试(500w数据):
mysql> select version();
------------
| version() |
------------
| 5.6.30-log |
------------
1 row in set (0.00 sec)
mysql> show create table sbtest1;
create table `sbtest1` (
`id` int(10) unsigned not null auto_increment,
`k` int(10) unsigned not null default '0',
`c` char(120) collate utf8_bin not null default '',
`pad` char(60) collate utf8_bin not null default '',
primary key (`id`),
key `k_1` (`k`)
) engine=innodb auto_increment=5000001 default charset=utf8 collate=utf8_bin max_rows=1000000
mysql> show variables like "old_alter_table";
----------------- -------
| variable_name | value |
----------------- -------
| old_alter_table | off |
----------------- -------
1 row in set (0.00 sec)
旧模式下,创建删除普通索引:
**session1:**
mysql> set old_alter_table=1;
query ok, 0 rows affected (0.00 sec)
mysql> alter table sbtest1 drop index idx_k_1;
query ok, 5000000 rows affected (44.79 sec)
records: 5000000 duplicates: 0 warnings: 0
mysql> alter table sbtest1 add index idx_k_1(k);
query ok, 5000000 rows affected (1 min 11.29 sec)
records: 5000000 duplicates: 0 warnings: 0
**session2:**
mysql> select * from sbtest1 limit 1;
---- --------- ------------------------------------------------------------------------------------------------------------------------- -------------------------------------------------------------
| id | k | c | pad |
---- --------- ------------------------------------------------------------------------------------------------------------------------- -------------------------------------------------------------
| 1 | 2481886 | 08566691963-88624...106334-50535565977 | 63188288836-9235114...351-49282961843 |
---- --------- ------------------------------------------------------------------------------------------------------------------------- -------------------------------------------------------------
1 row in set (0.00 sec)
mysql> update sbtest1 set k=2481885 where id=1;
query ok, 1 row affected (45.16 sec)
rows matched: 1 changed: 1 warnings: 0
**session3:**
mysql> show processlist;
-------- ----------------- ----------- ------------ --------- -------- --------------------------------- -----------------------------------------
| id | user | host | db | command | time | state | info |
-------- ----------------- ----------- ------------ --------- -------- --------------------------------- -----------------------------------------
| 118652 | root | localhost | confluence | query | 19 | copy to tmp table | alter table sbtest1 add index k_1(k) |
| 118666 | root | localhost | confluence | query | 3 | waiting for table metadata lock | update sbtest1 set k=2481885 where id=1 |
| 118847 | root | localhost | null | query | 0 | init | show processlist |
-------- ----------------- ----------- ------------ --------- -------- --------------------------------- -----------------------------------------
4 rows in set (0.00 sec)
同时在datadir目录下可以看到
-rw-rw---- 1 mysql mysql 8.5k may 23 21:24 sbtest1.frm
-rw-rw---- 1 mysql mysql 1.2g may 23 21:24 sbtest1.ibd
-rw-rw---- 1 mysql mysql 8.5k may 23 20:48 #sql-1c6a_1cf7c.frm
-rw-rw---- 1 mysql mysql 638m may 23 20:48 #sql-1c6a_1cf7c.ibd
传统ddl方式有 copy to tmp table 过程,dml更新操作期间被堵住45s:waiting for table metadata lock
。
下面改成online ddl方式
**session1**
mysql> set old_alter_table=0;
mysql> alter table sbtest1 drop index k_1;
query ok, 0 rows affected (0.01 sec)
records: 0 duplicates: 0 warnings: 0
索引秒删
mysql> alter table sbtest1 add index k_1(k);
query ok, 0 rows affected (13.99 sec)
records: 0 duplicates: 0 warnings: 0
**session2**
mysql> update sbtest1 set k=2481887 where id=1;
query ok, 1 row affected (0.00 sec)
rows matched: 1 changed: 1 warnings: 0
**session3**
mysql> show processlist;
-------- ----------------- ----------- ------------ --------- -------- ------------------------ --------------------------------------
| id | user | host | db | command | time | state | info |
-------- ----------------- ----------- ------------ --------- -------- ------------------------ --------------------------------------
| 118652 | root | localhost | confluence | query | 10 | altering table | alter table sbtest1 add index k_1(k) |
| 118666 | root | localhost | confluence | sleep | 9 | | null |
| 118847 | root | localhost | null | query | 0 | init | show processlist |
-------- ----------------- ----------- ------------ --------- -------- ------------------------ --------------------------------------
4 rows in set (0.00 sec)
添加普通索引,并未出现阻塞update操作,而且速度更快。从 rows affected 可以看出有没有copy table。
但如果在alter之前有大事务在执行,会阻塞ddl以及后续的所有请求:
**session1**
mysql> select * from sbtest1 where c='long select before alter';
empty set (4.36 sec)
**session2**
mysql> alter table sbtest1 add index k_1(k);
query ok, 0 rows affected (16.28 sec)
records: 0 duplicates: 0 warnings: 0
**session3**
mysql> select * from sbtest1 where c='long select after alter execution but not complete';
empty set (5.89 sec)
**session4**
mysql> show processlist;
---- ----------------- ----------- ------------ --------- ------ --------------------------------- ------------------------------------------------------------------------------------
| id | user | host | db | command | time | state | info |
---- ----------------- ----------- ------------ --------- ------ --------------------------------- ------------------------------------------------------------------------------------
| 5 | root | localhost | confluence | query | 3 | sending data | select * from sbtest1 where c='long select before alter' |
| 7 | root | localhost | null | query | 0 | init | show processlist |
| 13 | root | localhost | confluence | query | 2 | waiting for table metadata lock | alter table sbtest1 add index k_1(k) |
| 14 | root | localhost | confluence | query | 1 | waiting for table metadata lock | select * from sbtest1 where c='long select after alter execution but not complete' |
---- ----------------- ----------- ------------ --------- ------ --------------------------------- ------------------------------------------------------------------------------------
5 rows in set (0.00 sec)
3.2 添加列示例
添加新列是ddl操作里面相对较多的一类操作。从上文表中可以看到
**session1**
mysql> alter table `sbtest2` \
add column `f_new_col1` int(11) null default 0, \
add column `f_new_col2` varchar(32) null default '' after `f_new_col1`;
query ok, 0 rows affected (1 min 57.86 sec)
records: 0 duplicates: 0 warnings: 0
**session2**
mysql> update sbtest2 set c="update when add colomun ddl start" where c='33333';
query ok, 0 rows affected (4.41 sec)
rows matched: 0 changed: 0 warnings: 0
**session3**
mysql> select * from sbtest2 where c='select when add colomun ddl start';
empty set (3.44 sec)
**session4**
mysql> show processlist;
----- ----------------- ----------- ------------ --------- ------ --------------------------- ------------------------------------------------------------------------------------------------------
| id | user | host | db | command | time | state | info |
----- ----------------- ----------- ------------ --------- ------ --------------------------- ------------------------------------------------------------------------------------------------------
| 5 | root | localhost | confluence | query | 4 | altering table | alter table `sbtest2` add column `f_new_col1` int(11) null default 0, add column `f_new_col2` varch |
| 7 | root | localhost | null | query | 0 | init | show processlist |
| 161 | root | localhost | confluence | query | 2 | searching rows for update | update sbtest2 set c="update when add colomun ddl start" where c='33333' |
| 187 | root | localhost | confluence | query | 1 | sending data | select * from sbtest2 where c='select when add colomun ddl start' |
----- ----------------- ----------- ------------ --------- ------ --------------------------- ------------------------------------------------------------------------------------------------------
5 rows in set (0.00 sec)
看到,默认不加 algorithm=inplace 就已经允许ddl期间并发dml操作。但是会有一个小临时文件产生:
-rw-rw---- 1 mysql mysql 8.6k may 23 21:42 #sql-7055_5.frm
-rw-rw---- 1 mysql mysql 112k may 23 21:42 #sql-ib21-16847116.ibd
当指定copy时,就会锁表了(一般你不想这样做):
alter table `sbtest2`
4droip column `f_new_col1`, algorithm=copy;
3.3 修改字段类型
修改列类型与添加新列不一样,修改类型需要rebuild整个表:(select ok, update waiting)
**session1**
mysql> alter table sbtest2
4 change f_new_col2 f_new_col2 varchar(50) null default '', algorithm=inplace ;
error 1846 (0a000): algorithm=inplace is not supported. reason: cannot change column type inplace. try algorithm=copy.
不支持inplace
mysql> alter table sbtest2
4 change f_new_col2 f_new_col2 varchar(50) null default '';
**session2**
mysql> update sbtest2 set c="update when add colomun ddl start" where c='33333';
mysql> select * from sbtest2 where c='select when add colomun ddl start';
empty set (3.79 sec)
mysql> show processlist;
----- ----------------- ----------- ------------ --------- ------ --------------------------------- ----------------------------------------------------------------------------------
| id | user | host | db | command | time | state | info |
----- ----------------- ----------- ------------ --------- ------ --------------------------------- ----------------------------------------------------------------------------------
| 5 | root | localhost | confluence | query | 5 | copy to tmp table | alter table sbtest2
change f_new_col2 f_new_col2 varchar(50) null default '' |
| 7 | root | localhost | null | query | 0 | init | show processlist |
| 161 | root | localhost | confluence | query | 4 | waiting for table metadata lock | update sbtest2 set c="update when add colomun ddl start" where c='33333' |
| 187 | root | localhost | confluence | query | 3 | sending data | select * from sbtest2 where c='select when add colomun ddl start' |
----- ----------------- ----------- ------------ --------- ------ --------------------------------- ----------------------------------------------------------------------------------
5 rows in set (0.00 sec)
3.4 waiting for table metadata lock
online ddl看起来很美好,实验测试也正如预期,但几次在生产环境修改索引时(5000w的表),还是无法避免出现大量 *waiting for table metadata lock* 锁等待,线程数持续增加并告警,导致长达十多分钟不可写。后来发现原来是版本升级的问题导致的,见。关于metadata lock介绍参考[这篇文章]。
4. 参考
[