mysql-sql优化

一、SQL执行流程
MySQL是客户端-服务器的模式。

在执行过程中,主要有三类角色:客户端、服务器、存储引擎。

大致可以分为三层:

第一层:客户端连接到服务器,构造SQL并发送给服务器。

第二层:服务器收到SQL进行解析及优化,最终生成执行计划并执行

第三层:服务器调用存储引擎的API,进行数据的查询和存储。

二、执行计划分析
可以通过explain提前知道当前MySQL是如何处理SQL语句的。

在我们要执行的SQL前加上explain即可。

explain select * from user;

explain insert into user values(user_name, password, email) values(‘1’, ‘1’, ‘1’);

通过分析执行计划,我们可以得出以下几点:

  1. 1.表的读取顺序 -> id

  2. 2.表读取操作的类型 -> select_type

  3. 3.可以被使用的索引 -> possible_keys

  4. 4.实际使用的索引 -> key

  5. 5.表之间的引用 -> ref

  6. 6.每张表有多少行被优化器查询 -> rows

上述查询结果字段的含义:

1.id:表示查询中执行select子句或操作表的顺序,id越大,执行优先级越高,id相同,则从上至下

2.select_type:表示查询的类型,用来区分普通查询、联合查询、子查询等。一共有9种类型。

3.table: 输出行所引用的表名,如果使用了别名则显示别名

4.partitions:使用的哪个分区

5.type:查询使用了那种类型。描述的是当前如何去找数据的,如:all 表示扫描全表。

6.possible_keys:可能有助于查询的索引

7.key:实际使用的索引

8.key_len: 使用的索引的长度

9.ref:显示索引的哪一列被使用了

10.rows:请求数据大概返回的行数

11.filtered:表示存储引擎返回的数据在server层过滤后,剩下多少满足查询的记录数量的比例

12.extra: 其他信息,出现Using filesort、Using temporary 意味着不能使用索引,效率会受到重大影响。应尽可能对此进行优化。

其中比较重要的字段:

1.type:可以看出是如何查询数据的方式。一般需要达到 ref、eq_ref 级别,范围查找需要达到 range。

2.key:是否使用索引,如果为NULL表示没有使用索引,需要优化调整。

3.rows:表示返回的行数,可以直观观察到结果。

4.extra:有Using filesort、Using temporary 的一定需要优化。

三、表结构优化
数据库效率的影响主要是因为数据量太大,进行一次查找需要扫描很多数据(硬盘上的磁头需要越过很多数据来找到目标数据),通过表结构优化的方式可以减轻当前访问的数据量。

3.1 数据类型优化
主旨就是能用小字段类型就不用大字段类型~

使用简单的数据类型。int 要比 varchar 类型在mysql处理简单
尽量使用 tinyint、smallint、mediumint 作为整数类型而非 int
尽可能使用 not null 定义字段,因为 null 占用4字节空间。数字可以默认0,字符串默认“”
尽量少用 text 类型,非用不可时最好考虑分表
尽量使用 timestamp而非 datetime
单表不要有太多字段,建议在 20 以内
3.2 分库分表优化
当数据太多的时候,即使走索引啥的也不能解决效率问题,根本就在于要扫描的数据太多了,并且存储也是比较难的。

这时候就可以采用分表的方式,将一张表拆分成多张,然后通过编号等手段进行查询。

拆分大致也有两种方式:

垂直拆分:

    按照列的维度,将表中的列拆分开来,分别放在多张表中。例如:某些字段在一张表中可能更加平凡的查询,可以将这些字段放到一张表中,不常用的放在另一张表中。

    但需要注意的是,这种方式需要保证原子性!可以在进行插入的时候使用事务~

水平拆分:

    按照行的维度,将一张表的数据切分。如0-100的数据放在这张表中,101-200的数据放在另一张表中。

3.3 读写分离优化
由于一台数据库服务器的性能肯定是有瓶颈的,可以进行部署一个数据库集群。并采用主从的方式。设置一些主库,一些从库,主库用来负责写入数据,从库用来负责读取数据,当一个新的数据写入的时候,主库需要将数据同步到从库中,以保证数据的完整性。

四、查询语句优化
4.1避免使用 select *
sql在解析过程中,还需要把*依次转换为所有的列名,这个工作需要查询数据字典完成。额外开销!因此建议将需要的列写出来。

4.2多表联查时,小表在前,大表在后
from 后的表关联查询是从左往右执行的(Oracle相反),第一张表会涉及到全表扫描,所以将小表放在前面,先扫小表,扫描快效率较高,在扫描后面的大表。

4.3调整where子句中的连接顺序
where子句是从左往右,自上而下的顺序执行的(Oracle相反),根据这个原理,应将过滤数据多的条件往前放,最快速度缩小结果集。

4.4调整group by和order by子句中的顺序
group by和order by子句是从左往右的顺序执行的,根据这个原理,应将排序影响数据多的条件往前放,最快速度缩小结果集。

4.5用exists、not exists和in、not in相互替代
exists以外层表为驱动表,先被访问,适合于外表小而内表大的情况。

in则是先执行子查询,适合外表大而内表小的情况,一般情况是不推荐使用not in,因为效率非常低。

原则是哪个的子查询产生的结果集小,就选哪个

4.6用where子句替换having子句
where子句搜索条件在进行分组操作之前应用;而having子句条件在进行分组操作之后应用。

尽可能让where来缩小结果集!

4.7分段和分页查询
使用合理的分页方式,在数据表量级逐渐增加的时候,limit分页查询的效率会降低。

可以根据字段索引进行快速定位,直接找到偏移量。