MySQL 设计与查询规范

背景

想象一下自己是一名伐木工人，手里有林场里最好的斧子，因此你是工作效率最高的。突然有一天场里来了个推销的，他把一种新的砍树工具——链锯——给夸到了天上去。你也买了一把，不过你不懂得怎么用。你估摸着按照自己原来擅长的砍树方法，把链锯大力地挥向树干……

MySQL 这个工具也是一样，设计规范就是一个很好的工具说明。即统一了命名风格，又可以让新人快速上手。

本文的主要内容可以在网上找到类似的版本，但是在一些细节点又略微不同。基于多年 MySQL 使用经验，基于应用与 MySQL 的通盘考虑（视 MySQL 为低配版本的：Bigtable + KV），才有了这些细节上的调整。

命名

避免使用 MySQL 关键词作为 db / table / field / index 名称

DB
- 使用项目名作为前缀，“_db” 作为后缀；分库添加后缀8位宽度的数字，数字从0开始
- 风格：由下划线分割的小写英文字母组成
- DB 名称总长度小于 42 个字符
Table
- “_db” 作为后缀；分表添加后缀8位宽度的数字，数字从0开始
- 风格：由下划线分割的小写英文字母组成
- 表名称总长度小于 48 个字符
Field
- 主键统一定义为：id BIGINT UNSIGNED NOT NULL
- 指向其他表主键的字段以 “_id” 后缀结尾
- 风格：由下划线分割的小写英文字母组成
Index
- 使用 “idx_” 作为前缀；索引字段名字、顺序组合为名称
- 风格：由下划线分割的小写英文字母组成
Comment
- 纯英文单词注释所有字段

DB

使用 Innodb 存储引擎

Innodb 支持事务，支持行级锁，更好的恢复性，高并发下性能更好
使用 utf8mb4_unicode_ci 编码

兼容性更好，统一字符集可以避免由于字符集转换产生的乱码，不同的字符集进行比较前需要进行转换会造成索引失效

Table

使用 utf8mb4_unicode_ci 编码
每张表必须显式定义主键
1. 数据的存储顺序和主键的顺序是相同的
2. 不要使用更新频繁的列作为主键，不要使用 UUID、MD5、HASH、字符串等无法保证数据的顺序增长的字段作为主键
尽量控制单表数据量的大小，建议控制在 1000万以内
1. 该量级数据量查询性能较好
2. 可以用历史数据归档，分库分表等手段来控制单表数据量
宽表尽量拆分为索引表和内容表以提高查询性能
1. MySQL 限制每个表最多存储 4096 列，并且每一行数据的大小不能超过 65535 字节减少磁盘 IO，保证热数据的内存缓存命中率
2. 表越宽，装载进内存缓冲池时所占用的内存也就越大,也会消耗更多的 IO，更有效的利用缓存，避免读入无用的冷数据
谨慎使用 JOIN
1. 应用层缓存效率更高，可以在多种查询场景复用缓存
2. 在应用层做关联，可以更容易对数据库进行拆分，更容易做到高性能和可扩展
3. 查询效率提升。使用 ID 查询，可以让 MySQL 按照主键索引顺序查询，相比关联要更稳定高效
谨慎使用 MySQL 分区表

分区表在物理上表现为多个文件，在逻辑上表现为一个表谨慎选择分区键，跨分区查询效率可能更低建议采用物理分表的方式管理大数据
不要使用外键
1. MySQL 外键实现比较简单粗糙，性能不好
2. MySQL 作为后端存储，不在 MySQL 上放置任何计算逻辑
3. 如果依赖于在 MySQL 服务器上运行的计算逻辑，进行数据库/表分片将非常困难

Field

优先选择符合存储需要的最小的数据类型

列的字段越大，索引时所需要的空间越大，磁盘单页存储的索引节点数越少，遍历时 IO 次数就越多，索引性能也就越差

方法：
1）将字符串转换成数字类型存储，如：将IP地址转换成整形数据（inet_aton / inet_ntoa）
2）对于非负型的数据（如自增ID、整型IP）来说，要优先使用无符号整型来存储
存储相同数据的列名和列类型必须一致

如果查询时关联列类型不一致会自动进行数据类型隐式转换，会造成列上的索引失效，导致查询效率降低
尽可能把所有列定义为 NOT NULL
- NULL 占用额外的空间来保存
- NULL 需要特殊处理，可能会导致应用程序异常
- NULL MySQL 索引统计和值比较更复杂
避免使用 ENUM 类型
- 修改 ENUM 值需要使用 ALTER 语句
- ENUM 类型的 ORDER BY 操作效率低，需要额外操作
- 禁止使用数值作为 ENUM 的枚举值
禁止在数据库中存储长文本、图片，文件等大数据

MySQL 内存临时表不支持 TEXT、BLOB 大数据类型，如果查询中包含这样的数据，在排序等操作时，就不能使用内存临时表，必须使用磁盘临时表进行

而且对于这种数据，MySQL 还是要进行二次查询，会使 SQL 性能变得很差，但是不是说一定不能使用这样的数据类型
禁止建立预留字段
- 预留字段的命名很难做到见名识义
- 预留字段无法确认存储的数据类型，所以无法选择合适的类型
- 对预留字段类型的修改，会对表进行锁定

Index

限制每张表上的索引数量，建议单张表索引不超过5个

MySQL 优化器优化查询时，会根据统计信息，对候选索引来进行评估，以生成出一个最好的执行计划，如果同时有很多个索引都可以用于查询，就会增加 MySQL 优化器生成执行计划的时间，同样会降低查询性能

Stored Programs

禁止使用 mysql 视图，存储过程，触发器，自定义函数

Queries

禁止直连生产环境，手工删除和修改生产数据
禁止使用 SELECT * 必须使用 SELECT <字段列表> 查询

可减少表结构变更对应用程序的影响
禁止使用不含字段列表的INSERT语句

正确：INSERT INTO tbl(c1,c2,c3) VALUES (a,b,c);
错误：INSERT INTO VALUES (a,b,c);
WHERE从句中禁止对列进行函数转换和计算

对列进行函数转换或计算时会导致无法使用索引。

正确：WHERE create_time >= 20190101 AND create_time < 20190102
错误：WHERE DATE(create_time)=20190101
不会有重复值时使用 UNION ALL 而不是 UNION

UNION 将结果集的所有数据放到临时表后再去重
UNION ALL 不会再对结果集进行去重

参考链接：
https://www.cnblogs.com/huchong/p/10219318.html

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/06-06-2021/mysql-design-guide.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！