数据库常识课

传统关系型数据库（一般，指 InnoDB MySQL ）参考指标：

1TB：如果数据库会膨胀到 TB 级别，需要考虑 MySQL 分库分库。
1000 万行或 10GB：单表的记录数超过 1000 万行，或单表磁盘空间占用超过 10GB，需要考虑分表
- 每秒 1000 次写入：单节点写入速率超过每秒 1000 次。可以考虑根据业务场景引入 Redis 或消息队列作为写缓冲，实现数据库写操作异步化

来源：刘春辉《Shopee 是如何进行数据库选型的？》

数据库的单机QPS不过几千，显然满足不了互联网业务场景下对高并发的要求。因此，分库分表 + 读写分离成为常态。

如果写请求继续增加（或，数据量增加）达到瓶颈，就继续分库分表；反之，如果读的请求上升就挂更多的从库。

然而线上业务情况往往复杂的多，随着数据量增加、用户量增加，数据库分表（分库，一般按照业务因此问题不大，暂且不表）会逐渐暴漏出以下问题：

由于数据分表可见的复杂性，在实际使用中，随着对分表的疲劳，不同于诸多传统关系型数据库的新兴分布式数据库也越来越多的被使用在生产环境，例如：TiDB

参考：TiDB 在知乎万亿量级业务数据下的实践和挑战

无论数据库如何多变，了解其类型和原理，才能看穿表象，把握本质，更好的应用到业务的设计之中

参考：认识资源

B-tree：读取友好，数据有序。LIRS算法，将缓冲池分为两级，数据首先进入第一级，如果数据在较短的时间内被访问两次或者以上，则成为热点数据进入第二级，每一级内部还是采用LRU替换算法
Bitcask：写入友好，数据无序。在内存中存储了主键和value的索引信息，磁盘文件中存储了主键和value的实际内容。需要定期执行合并（Compaction）操作以实现垃圾回收。Bitcask通过索引文件（hint file）来提高重建哈希表的速度
LSM：写入友好，数据有序。将对数据的修改增量保持在内存中，达到指定的大小限制后将这些修改操作批量写入磁盘，读取时需要合并磁盘中的历史数据和内存中最近的修改操作，需要定期执行合并（Compaction）操作以实现垃圾回收

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/08-18-2020/first-lesson-of-database.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！