面试官提问:什么是前缀索引?
一、什么是前缀索引?
所谓前缀索引,说白了就是对文本的前几个字符建立索引( 具体是几个字符在建立索引时去指定 ),比如以产品名称的前 10 位来建索引,这样建立起来的索引更小,查询效率更快!
有点类似于 Oracle 中对字段使用 Left 函数来建立函数索引,只不过 MySQL 的这个前缀索引在查询时是内部自动完成匹配的,并不需要使用 Left 函数。
二、为什么要用前缀索引?
可能有的同学会发出疑问,为什么不对整个字段建立索引呢?
一般来说,当某个字段的数据量太大,而且查询又非常的频繁时,使用前缀索引能有效的减小索引文件的大小,让每个索引页可以保存更多的索引值,从而提高了索引查询的速度。
比如,客户店铺名称,有的名称很长,有的很短,如果完全按照全覆盖来建索引,索引的存储空间可能会非常的大, 有的表如果索引创建的很多,甚至会出现索引存储的空间都比数据表的存储空间大很多 ,因此对于这种文本很长的字段,我们可以截取前几个字符来建索引,在一定程度上,既能满足数据的查询效率要求,又能节省索引存储空间。
但是另一方面,前缀索引也有它的缺点,MySQL 中无法使用前缀索引进行 ORDER BY 和 GROUP BY,也无法用来进行覆盖扫描,当字符串本身可能比较长,而且前几个字符完全相同,这个时候前缀索引的优势已经不明显了,就没有创建前缀索引的必要了。
因此这又回到一个概念,那就是关于 索引的选择性 !
关于数据库表索引的选择性,我会单独开篇来讲解,大家只需要记住一点: 索引的选择性越高则查询效率越高 ,因为选择性高的索引可以让 MySQL 在查找时过滤掉更多的行,数据查询速度更快!
当某个字段内容的前几位区分度很高的时候,这个时候采用前缀索引,可以在查询性能和空间存储方面达到一个很高的性价比 。
那么问题来了,怎么创建前缀索引呢?
三、怎么创建前缀索引?
建立前缀索引的方式,方法很简单,通过如下方式即可创建!
ALTER TABLE table_name ADD KEY(column_name(prefix_length));
其中
prefix_length
这个参数,就是前缀长度的意思,通常通过如下方式进行确认,步骤如下:
第一步,先计算某字段全列的区分度。
SELECT COUNT(DISTINCT column_name) / COUNT(*) FROM table_name;
第二步,然后再计算前缀长度为多少时和全列的区分度最相似
SELECT COUNT(DISTINCT LEFT(column_name, prefix_length)) / COUNT(*) FROM table_name;
最后,不断地调整
prefix_length
的值,直到和全列计算出区分度相近,最相近的那个值,就是我们想要的值。
下面以某个测试表为例,数据体量在 100 万以上,表结构如下!
CREATE TABLE `tb_test` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
`name` varchar(100) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8mb4;
测试一下正常的带
name
条件查询,效率如下:
select * from tb_test where name like '1805.59281427%'
我们以
name
字段为例,创建前缀索引,找出最合适的
prefix_length
值
。
首先,我们大致计算一下
name
字段全列的区分度。
可以看到,结果为
0.9945
,也就是说全局不相同的数据率在
99.45%
这个比例。
下面我们一起来看看,不同的
prefix_length
值下,对应的数据不重复比例。
-
当
prefix_length
为5
,区分度为0.2237
-
当
prefix_length
为10
,区分度为0.9944
-
当
prefix_length
为11
,区分度为0.9945
通过对比,我们发现当
prefix_length
为
11
,最接近全局区分度,因此可以为
name
创建一个长度为
11
的前缀索引,创建索引语句如下:
alter table tb_test add key(name(11));
下面,我们再试试上面那个语句查询!
创建前缀索引之后,查询效率倍增 !
四、使用前缀索引需要注意的事项?
是不是所有的字段,都适合用前缀索引呢?
答案显然不是,在上文我们也说到了,当某个索引的字符串列很大时,创建的索引也就变得很大,为了减小索引体积,提高索引的扫描速度,使用索引的前部分字符串作为索引值,这样索引占用的空间就会大大减少,并且索引的选择性也不会降低很多,这时前缀索引显现的作用就会非常明显,前缀索引本质是索引查询性能和存储空间的一种平衡。
对于 BLOB 和 TEXT 列进行索引,或者非常长的 VARCHAR 列,就必须使用前缀索引,因为 MySQL 不允许索引它们的全部长度。
但是如果某个字段内容,比如前缀部分相似度很高,此时的前缀索引显现效果就不会很明显,采用覆盖索引效果会更好!
五、小结
好了,本文主要围绕前缀索引做了一次初步的知识讲解,具体数据库表索引的选择性,还需要结合业务实际需求来考虑!
今天就说这么多,后面的问题,我们继续再扯!
六、参考
知乎 - Java编程宇宙 - 什么是前缀索引
文章转载自公众号: Java极客技术
-
JAVA 面试官 :你们公司用 什么 框架写 UTlingyuli • 6191浏览 • 0回复
-
MySQL|聊完了MySQL 索引 , 面试官 直接给我涨了2000!ImCrow • 2188浏览 • 0回复
-
《吊打 面试官 》系列-Redis基础mike_hit • 2569浏览 • 0回复
-
《吊打 面试官 》系列-Redis常见 面试 题mike_hit • 3439浏览 • 0回复
-
面试官 : 什么 是 Redis缓存穿透、缓存雪崩、缓存击穿?red_car888 • 4781浏览 • 0回复
-
这样理解Mysql 索引 ,阿里 面试官 也给你点赞LoveBank • 2691浏览 • 0回复
-
面试官 :为 什么 单线程的Redis可以实现高并发访问LoveBank • 3053浏览 • 0回复
-
面试官 :JDK1.8 HashMap扩容rehash算法 是 如何优化的?(一)pivoteic • 3820浏览 • 0回复
-
面试官 :JDK1.8 HashMap扩容rehash算法 是 如何优化的?(二)pivoteic • 4298浏览 • 0回复
-
面试官 问我JVM的GC分代收集算法为 什么 这么设计nill0705 • 1633浏览 • 0回复
-
面试官 问,线程池 是 如何处理内部任务的?fatherlaw • 1782浏览 • 0回复
-
面试官 提问 : 什么 是 动态代理?fatherlaw • 1734浏览 • 0回复
-
面试官 问:JDK8 的ConcurrentHashMap为 什么 放弃了分段锁nill0705 • 1631浏览 • 0回复
-
面试官 问我 索引 为 什么 这快?我好像解释不清楚了hxiaoyv • 1402浏览 • 0回复
-
面试官 提问 :如何通过sql方式将数据库表行转列?hxiaoyv • 1608浏览 • 0回复
-
新晋 面试官 对近期 面试 的感想与总结baojunzh • 1940浏览 • 0回复
-
站在 面试官 角度,看求职与内卷strikeeagle • 1035浏览 • 0回复
-
面试官 :RocketMQ 的推模式和拉模式有 什么 区别?丶龙八夷 • 154浏览 • 0回复
-
面试官 :使用 RocketMQ 怎么进行灰度发布?丶龙八夷 • 130浏览 • 0回复
- openGauss内核分析(一):多线程架构启动过程详解 2023-02-13 15:57:14发布
- MongoDB,入门看这一篇足矣! 2023-02-13 15:55:14发布