20Mysql架构和索引
MySQL逻辑架构
和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中应用,并发挥良好作用。主要体现在存储引擎的架构上,插件式的存储引擎架构将查询处理和其它的系统任务以及数据的存储提取相分离。这种架构可以根据业务的需求和实际需要选择合适的存储引擎。

连接层
最上层是一些客户端和连接服务,包含本地socket通信和大多数基于客户端/服务端工具实现的类似于tcp/ip的通信。主要完成一些类似于连接处理、授权认证、及相关的安全方案。在该层上引入了线程池的概念,为通过认证安全接入的客户端提供线程。同样在该层上可以实现基于SSL的安全链接。服务器也会为安全接入的每个客户端验证它所具有的操作权限。
服务层
Management Serveices & Utilities: 系统管理和控制工具
SQL Interface:SQL接口。接受用户的SQL命令(包括DDL和DML指令)并返回执行结果。
比如select from就是调用SQL Interface
Parser: 解析器,将客户端发送的SQL进行语法和语义解析,生成“解析树”。
SQL命令传递到解析器的时候会被解析器验证和解析。预处理器根据一些MySQL规则进一步检查“解析树”是否合法,例如这里将检查数据表和数据列是否存在,还会解析名字和别名,看看它们是否有歧义,最后生成新的“解析树”。
Optimizer: 查询优化器。
语法树没有问题后,优化器将其转成执行计划,并选择最有效的执行计划。优化器是决定查询性能的关键组件,而数据库的统计信息是优化器判断的基础。
这个执行计划表明应该使用哪些索引进行查询(全表检索还是使用索引检索),表之间的连接顺序如何,最后会按照执行计划中的步骤调用存储引擎提供的方法来执行查询,并将查询结果返回给用户。
执行一个查询时,它使用“选取-投影-连接”策略进行查询。例如:
select uid,name from user where gender= 1;
- 这个select 查询先根据where 语句进行选取,而不是先将表全部查询出来以后再进行gender过滤
- 这个select查询先根据uid和name进行属性投影,而不是将属性全部取出以后再进行过滤
将这两个查询条件连接起来生成最终查询结果。
注意:mysql的优化器是基于查询成本的优化,不是基于查询时间的优化。
Cache和Buffer: 查询缓存组件。
如果查询缓存有命中的查询结果,查询语句就可以直接去查询缓存中取数据。它存储SELECT语句以及相应的查询结果集。
这个缓存机制是由一系列小缓存组成的。比如表缓存,记录缓存,key缓存,权限缓存等
这个查询缓存可以在 不同客户端之间共享 。
从MySQL 5.7.20开始,不推荐使用查询缓存,并在 MySQL 8.0中删除 如下可以查看是否有查询缓存功能
1
SHOW VARIABLES LIKE '%query_cache_type%';
引擎层
存储引擎层,存储引擎真正的负责了MySQL中数据的存储和提取,服务器通过API与存储引擎进行通信。不同的存储引擎具有的功能不同,这样我们可以根据自己的实际需要进行选取。后面介绍MyISAM和InnoDB
存储层
所有的数据,数据库、表的定义,表的每一行的内容,索引,都是存在 文件系统 上,以 文件 的方式存
在的,并完成与存储引擎的交互。当然有些存储引擎比如InnoDB,也支持不使用文件系统直接管理裸设
备,但现代文件系统的实现使得这样做没有必要了。
流程说明
- MySQL 主要分为 Server 层和引擎层,Server 层主要包括连接器、查询缓存、分析器、优化器、执行器,同时还有一个日志模块(binlog),这个日志模块所有执行引擎都可以共用,redolog 只有 InnoDB 有。
- 引擎层是插件式的,目前主要包括,MyISAM,InnoDB,Memory 等。
- 查询语句的执行流程如下:权限校验(如果命中缓存)—>查询缓存—>分析器—>优化器—>权限校验—>执行器—>引擎
- 更新语句执行流程如下:分析器—->权限校验—->执行器—>引擎—redo log(prepare 状态)—>binlog—>redo log(commit 状态)

mysql的查询流程大致是:SQL语句 → 查询缓存 → 解析器 → 优化器 → 执行器
**mysql客户端通过协议与mysql服务器建连接,发送查询语句,授权认证,先检查查询缓存,如果命中,直接返回结果。**服务器就不会再对查询进行解析、优化、以及执行。MySQL8.0 之后就抛弃了这个功能。原因如下:命中率极低
**在解析器中对 SQL 语句进行语法分析、语义分析。**检查解析树是否合法。
**由查询优化器将其转化成执行计划。**优化器的作用就是找到这其中最好的执行计划。
执行器执行sql:截止到现在,还没有真正去读写真实的表,仅仅只是产出了一个执行计划。在执行之前需要判断该用户是否具备权限,如果没有则会返回权限错误,如果具备权限则执行SQL查询并返回结果。在 MySQL8.0 以下的版本,如果设置了查询缓存,这时会将查询结果进行缓存。
SQL执行计划
利用show profiles 可以查看sql的执行周期。需要先开启该功能。
语法顺序

执行引擎
MyISAM和InnoDB的区别
面试题:
InnoDB引擎与MyISAM引擎的区别 ?
| 对比项 | MyISAM | InnoDB |
|---|---|---|
| 外键 | 不支持 | 支持 |
| 事务 | 不支持 | 支持 |
| 行表锁 | 表锁,即使操作一条记录也会锁住整个表,不适合高并发的操作 | 行锁,操作时只锁某一行,不对其它行有影响,适合高并发的操作 |
| 缓存 | 只缓存索引,不缓存真实数据 | 不仅缓存索引还要缓存真实数据,对内存要求较高,而且内存大小对性能有决定性的影响。支持聚簇索引 |
| 关注点 | 并发查询,节省资源、消耗少、简单业务 | 并发写、事务、更大更复杂的资源操作 |
| 默认使用 | N | Y |
| 自带系统表使用 | Y | N |
存储
逻辑存储结构

表空间 : InnoDB存储引擎逻辑结构的最高层,ibd文件其实就是表空间文件,在表空间中可以包含多个Segment段。
Segment段 : 表空间是由各个段组成的, 常见的段有数据段、索引段、回滚段等。InnoDB中对于段的管理,都是引擎自身完成,不需要人为对其控制,一个段中包含多个区。
区 : 区是表空间的单元结构,每个区的大小为1M。 默认情况下, InnoDB存储引擎页大小为16K, 即一个区中一共有64个连续的页。
页 : 页是组成区的最小单元,页也是InnoDB 存储引擎磁盘管理的最小单元,每个页的大小默认为 16KB。为了保证页的连续性,InnoDB 存储引擎每次从磁盘申请 4-5 个区。
行 : InnoDB 存储引擎是面向行的,也就是说数据是按行进行存放的,在每一行中除了定义表时所指定的字段以外,还包含两个隐藏字段
索引
MySQL官方对索引的定义为:索引(Index)是帮助MySQL高效获取数据的数据结构。可以得到索引的本质:索引是数据结构。
索引的目的在于提高查询效率,可以类比图书馆书架或者字典。你可以简单理解为“排好序的快速查找数据结构”。
缺点:
(1)创建索引和维护索引要耗费时间 。
(2)索引是存储在磁盘上的,因此需要占用磁盘空间 。
索引结构
索引结构是指在数据库中用于组织和管理索引的数据结构。索引结构的设计和实现对于数据库的性能和效率具有重要影响。
常见的索引结构包括:
1、B树(B+tree): B树是一种平衡的多路搜索树,被广泛应用于数据库系统中。B树的特点是每个节点可以存储多个键值,并且保持有序。B树的高度相对较低,可以快速定位到目标数据。
2、Hash索引(Hash Index):Hash索引使用哈希函数将索引列的值映射为一个固定长度的哈希码,并将哈希码作为索引的键值。Hash索引适用于等值查询,可以快速定位到目标数据。然而,Hash索引不支持范围查询和排序操作。
3、R树(R-tree):R树是一种用于处理多维数据的索引结构,常用于地理信息系统(GIS)和空间数据库中。R树可以高效地支持范围查询和最近邻查询。
4、Full-text (全文索引) :全文索引也是MyISAM的一个特殊索引类型,主要用于全文索引,InnoDB从Mysql5.6版本开始支持全文索引。
MyISAM、InnoDB、Memory三种存储引擎对各种索引类型的支持
| 索引 | InnoDB引擎 | MyISAM引擎 | Memory引擎 |
|---|---|---|---|
| BTREE索引 | 支持 | 支持 | 支持 |
| HASH 索引 | 不支持 | 不支持 | 支持 |
| R-tree 索引 | 不支持 | 支持 | 不支持 |
| Full-text | 5.6版本之后支持 | 支持 | 不支持 |
我们平常所说的索引,如果没有特别指明,都是指B+树(多路搜索树,并不一定是二叉的)结构组织的索引。其中聚集索引、复合索引、前缀索引、
唯一索引默认都是使用 B+tree 索引,统称为索引。
索引数据结构
B-Tree索引
为了解决AVL浪费磁盘空间以及IO次数过多的问题,我们在一个节点中多存储一些数据,之前我们放一个,现在我们放多个。如果放int值(4B)我们近乎可以放4096个值,当然索引里面还包含其他的数据,不能够放这么多,但是这也是足够的多了。
这样一个节点的值多了那么树的分叉肯定就多了,假如一个节点可以存储1000的值,那么1000 * 1000 * 1000 = 10亿节点,3层的结构就能存储10亿的数据,这样是不是最多IO3次就足够了呢。
所以AVL的进化体B-Tree出现了,B-Tree的全名是多路平衡查找树
示例如下:
蓝色部分表示数据的主键,黄色部分表示除主键外的其他数据,紫色部分表示指向子节点的指针

假设我们想要 查找的数据项是 9 ,那么步骤可以分为以下几步:
1、第一次磁盘IO:找到根节点磁盘块1,读入内存,执行二分查找,9 小于 17 ,得到指针 P1
2、第二次磁盘IO:按照指针P1找到磁盘块 2,读入内存,执行二分查找, 9 在 8 和 12 之间,得到指针 P2
3、第三次磁盘IO:按照指针P2找到磁盘块 6,读入内存,执行二分查找, 找到了数据项 9。
你能看出来在 B 树的搜索过程中,我们比较的次数并不少,但如果把数据读取出来然后在内存中进行比较,这个时间就是可以忽略不计的。而读取磁盘块本身需要进行 I/O 操作,消耗的时间比在内存中进行比较所需要的时间要多,是数据查找用时的重要因素。 B树相比于平衡二叉树来说磁盘 I/O 操作要少 ,在数据查询中比平衡二叉树效率要高。所以只要树的高度足够低,IO次数足够少,就可以提高查询性能
聚簇非聚簇索引
什么是聚集索引(clustered index organize table ),聚集索引中键值的逻辑顺序和表中相应行的物理顺序相同。
聚簇索引==主键索引==聚集索引 非聚簇索引==二级索引=非聚集索引
聚集索引类似于电话簿,后者按姓氏排列数据。由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引。但该索引可以包含多个列(联合索引),就像电话簿按姓氏和名字进行组织一样,但是在innodb的设计中聚集索引包含整行的数据,所以innodb中索引就是数据本身,这就是大家常说的索引即数据。
每个InnoDB表都有一个特殊的索引,称为聚簇索引 ,用于存储行数据。通常,聚簇索引与主键同义 。
非聚集索引的话其实就是一个普通索引,但是非聚集索引不存储全部数据,只存储聚集索引的值(一般为主键id)。
所以我们如果使用B-Tree来作为索引结构的话,如果数据行过大,那么一个页存储的数据就会大大减少,这就违背了我们B-Tree的初衷了——在一个页中尽可能的存储多的数据。像前面说的如果我们存储int类型可以存储几千个,那么如果我们存储整行数据呢,可能只能存储三四个,那么树的深度就会大大增加,而且我们的内存空间是有限的,每次mysql预读进来的索引数量有限,这进一步导致搜索效率变差。所以我们想要的索引就是只包含索引字段,不应该包含全部的数据,于是乎,B+Tree来
4.2.2.5. B+Tree索引
为了解决只存储索引的问题,B-Tree的plus版本横空出世,那就是B+树。
B+ 树是一种树 数据结构,是一个n叉树,每个节点通常有多个孩子,一颗B+树包含根节点、内部节点和叶子节点,和B-Tree几乎一样,只不过B+Tree不再包含整行的数据了。B+ 树通常用于数据库和操作系统的文件系统中。B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。B+ 树元素自底向上插入。

所有的数据都存储到了叶子节点,非叶子节点只会存储指向下级的指针
叶子节点底层是一个双向链表的实现,我们只需要大致查询到存储到哪个叶子节点,然后进行有序遍历即可
B+Tree与B-Tree 的区别
- 数据下移,所有的非叶子节点不再存储数据而将数据全部存储到叶子节点。
- 所有的叶子节点都有一个双向的指针,做了一个双向链表
- 使用B+Tree查询次数相对固定,因为数据都在叶子节点,每一个层级都会被加载扫描
4.2.2.6. 回表
背诵
回表是用二级索引查数据时,因索引不包含查询列,需再用主键值去主键索引查完整行的过程。避免回表的方法是用覆盖索引(索引包含所有查询列)
非聚集索引如何获取数据
从这个图我们就可以直观的看到,非聚集索引是怎么查询数据的。每次查非聚集索引都会再次通过主键再次去聚集索引里面查询。
这里我们再引申出一个概念那就是回表,我们上图所描述的流程就是回表。回表的原因是我们需要获取的是整行或者是包含非索引字段的数据,因非聚集索引没有该字段所以需要回表查询。
问题:
为什么我们还需要一次回表操作呢?直接把完整的用户记录放到叶子节点不OK吗?
回答:
如果把完整的用户记录放到叶子节点是可以不用回表。但是太占地方了,相当于每建立一棵B+树都需要把所有的用户记录再都拷贝一遍,这就有点太浪费存储空间了。(相当于我要一片树叶,你把一整棵树砍了下来)
**问题:**为什么我们要尽量避免select * 操作
回答
例如我们查询SELECT * FROM USER WHERE name LIKE '张%',但是我们其实想要的只是名字的集合而已,那么我们就可以改造成SELECT name FROM USER WHERE name LIKE '张%',前者会回表查询而后者不会,这应就减少了数据查询的时间同时也减少了数据库的压力。
思考:
为什么辅助索引不直接存数据的地址而存主键id呢
因为数据会不断的变动,所以他的地址会跟着一起变。如果直接存储地址,下次找的数据可能就不是原先的数据
索引是不是创建的越多越好呢
并不是
- 我们已经知道了索引即数据,那么我们过多的创建索引就会导致数据量的增加。
- 我们知道索引是一颗平衡树,我们在更新数据的同时,索引也在频繁的进行页分裂和合并,非常耗时
4.3. 索引的优劣势
优势:
- 类似大学图书馆建书目索引,提高数据检索的效率,降低数据库的IO成本。
- 通过索引列对数据进行排序,降低数据排序和分组的成本,降低了CPU的消耗。
- 加速表和表之间的连接,对于有依赖关系的子表和父表联合查询时,可以提高查询速度。
劣势:
虽然索引大大提高了查询速度,同时却会降低更新表的速度,如对表进行INSERT、UPDATE和DELETE。因为更新表时,MySQL不仅要保存数据,还要保存一下索引文件。每次更新添加了索引列的字段,都会调整因为更新所带来的键值变化后的索引信息
实际上索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录,所以索引列也是要占用空间的
4.4. MySQL索引分类
- 从功能逻辑上划分,索引主要有 4 种,分别是
普通索引、唯一索引、主键索引、全文索引。 - 按照作用字段个数划分,索引可以分为
单列索引和联合索引。 - 按照物理实现方式划分 ,索引可以分为 2 种,分别是
聚簇索引和非聚簇索引。
基础补充
三范式
是数据库设计中的基本规范,主要包括:
[第一范式(1NF):确保每个字段(列)的值都是原子性的,不可再分。 ]
[第二范式(2NF):在满足1NF的基础上,消除部分依赖,确保非主键字段完全依赖于主键。 ]
[第三范式(3NF):在满足2NF的基础上,消除传递依赖,确保非主键字段直接依赖于主键。 ]
这些范式的目的是减少数据冗余,提高数据一致性,并降低更新异常的风险。
[主键和外键有什么区别?]
- 主键(主码):主键用于唯一标识一个元组,不能有重复,不允许为空。一个表只能有一个主键。
- 外键(外码):外键用来和其他表建立联系用,外键是另一表的主键,外键是可以有重复的,可以是空值。一个表可以有多个外键。
为什么不要用外键呢?大部分人可能会这样回答:
- 增加了复杂性: a. 每次做 DELETE 或者 UPDATE 都必须考虑外键约束,会导致开发的时候很痛苦, 测试数据极为不方便; b. 外键的主从关系是定的,假如哪天需求有变化,数据库中的这个字段根本不需要和其他表有关联的话就会增加很多麻烦。
- 增加了额外工作:数据库需要增加维护外键的工作,比如当我们做一些涉及外键字段的增,删,更新操作之后,需要触发相关操作去检查,保证数据的的一致性和正确性,这样会不得不消耗数据库资源。如果在应用层面去维护的话,可以减小数据库压力;
- 对分库分表不友好:因为分库分表下外键是无法生效的。
drop、delete 与 truncate 区别?
drop(丢弃数据):drop table 表名,直接将表都删除掉,在删除表的时候使用。truncate(清空数据) :truncate table 表名,只删除表中的数据,再插入数据的时候自增长 id 又从 1 开始,在清空表中数据的时候使用。delete(删除数据) :delete from 表名 where 列名=值,删除某一行的数据,如果不加where子句和truncate table 表名作用类似。
truncate 和不带 where子句的 delete、以及 drop 都会删除表内的数据,但是 truncate 和 delete 只删除数据不删除表的结构(定义),执行 drop 语句,此表的结构也会删除,也就是执行drop 之后对应的表不复存在。
深分页问题的本质
❌ 问题现象:offset越大,查询越慢
1 | |
一 为什么慢?MySQL的”笨拙”执行方式
| 步骤 | 说明 | 性能代价 |
|---|---|---|
| 1. 扫描前offset行 | MySQL必须从头扫描1,000,000行,才能定位到第1,000,001行 | I/O开销巨大(100万行读磁盘) |
| 2. 排序 | 如果ORDER BY无索引 → filesort(内存排序) |
CPU开销大(尤其大数据量) |
| 3. 返回结果 | 仅返回10行,但已扫描1,000,000行 | 99.99%的开销浪费! |
二、5种高效优化方案(附实战代码)
✅ 方案1:基于主键的分页(推荐!最简单高效)
1 | |
为什么快?
id > 1000000直接走主键索引(B+树),无需扫描100万行- 查询时间≈
0.001秒(与offset无关!)
✅ 适用场景:主键连续、无删除的场景
💡 类比:
“深分页 = 在图书馆翻100万本书找第1000001本
基于主键分页 = 直接去第1000001书架取书!” 📚
✅ 方案2:子查询优化(适用于无主键场景)
1 | |
为什么快?
- 子查询只查1行(
LIMIT 1000000, 1),避免全表扫描- 外层查询用
id >=走索引
✅ 适用场景:主键不连续(如UUID主键)
⚠️ 注意:
- 子查询需有索引(否则更慢!)
- 优化后时间≈
0.005秒(比深分页快200倍!)
✅ 方案3:游标分页(应用层维护last_id)
1 | |
为什么最安全?
- 完全避免offset(应用层维护游标)
- 无数据跳跃/重复(即使有删除)
- 性能恒定:每次查询≈
0.001秒
✅ 适用场景:所有分页场景(尤其移动端)
💡 真实案例:
某电商平台用游标分页后,分页接口响应时间从1.2秒降到0.003秒(提升400倍!)
✅ 方案4:覆盖索引优化(避免回表)
1 | |
为什么快?
SELECT字段都在索引中 → 无需回表(减少I/O)WHERE id >走索引 → 避免全表扫描
✅ 适用场景:查询字段少、需快速返回
✅ 方案5:延迟关联(适用于排序字段非主键)
1 | |
为什么快?
- 子查询只查
id(小字段),避免排序大表- 外层用
id关联,走主键索引
✅ 适用场景:ORDER BY字段非主键
📊 四、性能对比实测(真实数据)
| 方案 | offset=1000000 | offset=10000000 | 优化后时间 |
|---|---|---|---|
| 深分页 | 1.0秒 | 10秒+ | ❌ 无法用 |
| 基于主键 | 0.001秒 | 0.001秒 | ✅ 最优 |
| 子查询 | 0.005秒 | 0.005秒 | ✅ 次优 |
| 游标分页 | 0.001秒 | 0.001秒 | ✅ 最安全 |
| 覆盖索引 | 0.002秒 | 0.002秒 | ✅ 适合小字段 |
💡 结论:
游标分页 + 基于主键 = 性能+安全双保险!
避免深分页 = 代码优雅+用户体验提升!
❌ 误区1:”用LIMIT 1000000, 10没问题,反正数据量不大”
错误:数据量增长后,查询时间指数级上升!
正确:永远不要用大offset!
“在MySQL的江湖里,
offset是’定时炸弹’——
今天能用,明天就崩!” 💣
❌ 误区2:”加了索引就解决了深分页”
错误:索引能加速
WHERE和ORDER BY,但不能解决扫描offset行的问题!正确:
“索引是’加速器’,但深分页需要’绕过扫描’——
用WHERE id > last_id才是’救命稻草’!” 🛟
❌误区3:”分页用offset,但ORDER BY用主键”
错误:
ORDER BY id能加速排序,但**LIMIT offset, size仍需扫描offset行**!正确
:
“即使
ORDER BY id,offset过大时,MySQL仍要扫描offset行!
—— 这就是为什么ORDER BY id不能解决深分页问题!” 📉
Q:为什么深分页性能差?如何优化?
A:
“深分页问题源于MySQL的执行逻辑:
LIMIT offset, size会扫描前offset行,导致I/O开销随offset指数级增长。
优化核心:用WHERE id > last_id替代offset,让查询时间与offset无关。
最佳实践:
- 优先用游标分页(应用层维护last_id)
- 确保有主键索引(或覆盖索引)
—— 优化后,查询时间从秒级降到毫秒级!” ✅
Q:基于主键的分页有什么缺陷?
A:
“主要缺陷:如果主键有删除,可能导致数据跳跃(例如:主键1000000被删除,下一页从1000001开始,但实际数据在1000002)。
但实际业务中,99%的场景可接受:
- 用户不会抱怨’漏了1条’(除非是金融系统)
- 用游标分页+应用层补偿可完全规避
—— 比深分页慢100倍的代价,不值得为1%的缺陷妥协!” 🤷♂️
end