|
|
索引(MySQL中也叫“键(Key)")在数据越大的时候越重要。规模小、负载轻的数据库即使没有索引,也能3 q5 j! S+ P) N: N
有好的性能,但是当数据增加的时候,性能就会很快下降。理解索引如何工作的最简单的方式就是把索引看成! P0 }, z6 U" V e2 Q
一本书。为了找到书中一个特定的话题,你须要查看目录,它会告诉你页码。索引会让查询锁定更少的列 v m1 P% q% P: [" s8 d/ c
在InnoDB中,只有事务提交后才会解锁5 Y( i8 K# }4 j/ w8 O! D
: n/ }0 e% v; t2 B5 E A6 N
索引包含了来自于表中某一列或多个列的值。如果索引了多列数据,那么列的顺序非常重要,因为MySQL只
3 `' Q/ }* ]. k1 Z) ?# n1 v" E能高效地搜索索引的最左前缀(Leftmost Prefix)。如你所见,创建一个双列索引和两个单列索引是不一样的。
4 f; Y+ J) [8 P
5 z" G6 |& t. j3 `3 vB-TREE+ c( u) i" A+ H& G9 _
能使用B-Tree索引的查询类型。B一Tree索引能很好地用于全键值、键值范围或键前缀查找。它们只有在查找
! y% [. {, o$ N使用了素引的最左前缀(Leftmost Prcfix)的时候才有用。上节中的索引对于以下类型的查询有用。7 P; N1 ^8 `" B" c& f3 m
: [# j/ y' F3 f# x3 i8 j2 y- CREATE TABLE People(
+ z) m0 I( t1 a+ v - last_name varchar(50) not null
8 f2 A& G0 w9 o0 p - first_name varchar(50) not null
8 S' b4 m! Q! F+ x: x, z - dob date not null
, E5 V+ m* e/ E1 z( S% i. I - gende enum('m','f') not null
5 @$ K' U c2 @. ^$ Y) i2 Q7 r, L - key(last_name,first_name,dob)
复制代码 匹配全名7 b C# q; J$ Z# J$ Z
全键值匹配指和索引中的所有列匹配。例如,索引可以帮你找到一个叫CubaAllen并且出生于1960-01-01。
9 r. ^* f: S0 R1 T& i* Y的人。
- T7 z3 N6 n& U0 B1 ^+ Q# H匹配最左前缀: X& \8 j; K/ R* y0 ~/ t" k
B-Tree索引可以帮你找到姓为Allen的所有人。这仅仅适用了索引中的第一列。3 j+ L8 \5 ~% }7 ` L
匹配列前缀
( r1 w$ U. z8 d# u可以匹配某列的值的开头部分。这种索引能帮你找到所有姓氏以J开头的人。这只会使用索引的第1列。
k& z: b3 ]! Y; T- e( R9 o* S匹配范围值
( T. r. \, }. o0 q0 N$ c这种索引能帮你找到姓大干Allen并且小干Barrymore的人。这也只会使用索引第一列.0 s( I/ R5 F$ S
精确匹配一部分并且匹配某个范围中的另一部分. v8 @3 V; k; Q+ u6 ~
这种索引能帮你找到姓为Allen并且名字以字母K(Kim、Karl等)开头的人。它精确匹配了last4 E; n$ C6 ?5 Q
列并且对first name列进行了范囤查询。
& C" \# M6 @) ^name
3 z- u7 w; P$ E {; x, {2 X只访问索引的查询
& M, T0 T+ |, e$ _- b* E7 P" hB-Tree索引通常能支持只访问索引的查询,它不会访问数据行。4 X3 {6 o! f2 r- U) L" I
2 T6 I) J$ k& H4 v+ q
由于树的节点是排好序的,它们可以用于查找(查找值)和ORDER BY查询(以排序的方式查找值)。通常来说,- ^$ F' P4 [( Z
如果B-Tree能以某种特殊的方式找到某行,那么它也能以同样的方式对行进行排序。因此,上面讨论的所有查
! W& R8 K3 L6 f0 U# m5 P找方式也可以同等地应用于ORDER BY。
- V. t% L. ^% ^: `9 M2 f8 T
% _& I5 p( U3 _1 P* a下面是B-Tree索引的一些局限:1 U0 `9 Z$ U5 o0 b' |5 c. P0 e9 u: `
- o1 f. g s* d7 H- E% ~
1,如果查找没有从索引列的最左边开始,它就没什么用处。例如,这种索引不能帮你找到所有叫Bill的人,- e5 N+ H6 Z- Q8 U" g, o# H# p% S
也不能找到所有出生在某天的人,因为这些列不在索引的最左边。同样,你不能使用该索引查找某个姓. H9 K5 B |6 T) X2 I5 Y
氏以特定字符结尾的人。
9 n6 |) b0 y; _# w6 N
9 e7 U3 J# o8 V4 v$ F* @' `( @7 c8 O2,不能跳过索引中的列。也就是说,不能找到所有姓氏为Smith并且出生在某个特定日期的人。如果不定
/ Z6 x! @) z+ b义first_name列的值,MySQL就只能使用索引的第一列。
) z, S6 k9 m% L1 A8 f' F) H. K4 L% a/ R
3,存储引擎不能优化访问任何在第一个范围条件右边的列.比如,如果查询是where last_name='Smith' AND first_name LIKE 'J%' and dob ='1967-12-23',访问就只能使用索引的头两列,因为LIKE是6 m+ \% `8 {; E- O/ S7 K: h' T
范围条件(但是服务器能把其余列用于其他目的)。对于某个只有有限值的列,通常使用等干条件,而
# D4 k8 k% r% u" L7 U不是范围条件来绕过这个问题。本章稍后的索引案例中我们会举出详细的例子。$ `; T. c) o/ d% E o& R
2 Y+ \1 p! I6 {* S* C
哈希索引,空间索引和全文索引等,暂时没有设计; @! O3 m& \: l* N
% x- Q# D) x3 |5 r+ W( {高性能索引策略
8 W1 k% q% b3 ^
: M3 E, l% h* G( w1,隔离列,意思就是不要对查询条件中列进行计算等操作& n; j) Y. M( I& h) G5 o; d
2,前缀索引,针对blob和text,较长的varchar类型,使用前缀索引
+ R5 A/ O$ V" A/ l& uSelect count(distinct 列) /count(*) from table;' v" X P* I* s1 T% {, v
看看这个值时多少,如0.03123 i: m1 W$ s$ Y* Y, z. O6 H# s
那么就是说,如果前缀的选择率能够接近0.0312,基本就可以了。可以在同一个查询中对不同长长度进行计算
$ i4 F9 M+ G! X1 y3 K,这对于大表很有用。4 B) ?8 Z* Z I6 m8 V8 |
Select count(distinct left(列,3)) /count(*) as sel1,
* P1 Y$ Y: a, u- q9 O0 ? count(distinct left(列,4)) /count(*) as sel1 ,
5 H3 i; j0 o& V, r4 c: K count(distinct left(列,5)) /count(*) as sel1,; R* |$ D/ i: Z
count(distinct left(列,6)) /count(*) as sel1,4 u7 T5 K Z! t% n, U9 g# g
count(distinct left(列,7)) /count(*) as sel1 from table;
: I/ J8 \' _# r9 a' {找到接近0.0312即可。
q& E& c5 y. i9 f" W S2 `( G6 \. _+ i" j! p2 G/ N
Alter table table_name add key (列(7))$ Z' c( C1 a7 A8 l8 v, `
3,覆盖索引
1 O6 E$ e1 K, O" z+ J包含或者覆盖所有满足查询的数据索引叫做覆盖索引
0 C' R9 a2 Q+ B! Uexplain时,extra中的会显示using index" k! V! V0 A9 E6 U" M1 ~
这里一个重要的原则是* s( N/ |2 Y, g, O
select后面的列不能使用*,要使用单独的需要查找的列,使用带索引的列
' x" T" p/ ]0 h6 j7 n2 Q1 F如select id from table_name;/ I% S3 `: R9 i0 B& l8 K/ z
( f3 B4 k- d7 |
很容易把Extra列的“使用索引(Using Index)”和type列的“索引(index)”弄混淆。然而,它们完全不
5 i9 Q/ B; v& n) i; p# b! C7 L8 u一样。type列和覆盖索引没有任何关系,它显示了查询的访问类型,或者说是查询查找数据行的类型。0 Z! s/ G. W( P# e' ^! c% _1 E
/ g' H8 l5 \ b8 z6 ~. ]1 ~ A! r {0 E- Explain Select * from table_name where col ='nam' and col1 like '%name%';; V: C8 T" i" E' `: N0 u
- Extra:using where
复制代码 该索引不能覆盖查询的原因:4 P) w- N+ @& r* N1 E
1,7 \, ?+ V* [% X7 a9 e2 _+ h
没有索引覆盖查询,因为从表中选择了所有的列,并且没有索引覆盖所有列。MySQL理论上有一个捷径可以使用,但是,WHERE子句只提到了索引覆盖的列,因此MysQL可以使用索引找到col并检查col1是否匹配,这只能通过读取整行进行。2 x5 F3 y& @) L7 [% D* Y2 z$ l/ c/ G' R
2,
5 x# ~; x/ F0 O, D8 ?MySQL不能在索弓l中执行LIKE操作。这是低层次存储引擎API的限制,它只允许在索引进行简单比较。MysQL能在索引中执行前缀匹配的LIKE模式是因为能把它们转化为简单比较,但是查询中前导的通配符是存储引擎无法转化匹配的。因此,MySQL服务器自己将不得不提取和匹配行的数据,而不是索引值。/ h1 ~8 s0 S. t5 ^/ y0 X4 c4 a
有办法可以解决这个问题,那就是合并索引及重写查询。可以把索引进行延伸,让它覆盖(artist,title,prod_id)并且按照下面的方式重写查询:
. w0 P- _$ l2 J6 P& g; d
3 W" x; o/ y, E6 C F4,为排序使用索引扫描
1 ^8 b7 ^/ b i# q8 ]+ O9 M% mmysql有两种产生排序结果的方式:使用文件排序(fileSort),或者扫描有序索引。) ^5 ?+ K% Z% }: S! l3 A
explain输出type为index,表示mysql会扫描索引
* E3 ~9 I* O) n$ C" M2 h0 v
! k9 o: o7 Z6 }1 P) [7 L扫描索引本身是很快的,因为它只需要从一条索引记录移到另外一条记录。然而,如果MySQL没有使用索引覆盖查询,就不得不查找在索引中发现的每一行。这基本是随机I/O的,因此以索引顺序读取数据通常比顺序扫描表慢得多,尤其对于I/O密集的工作负载.
4 F, A3 z+ a! F" A
* \* `9 N @. A& I$ }/ G- U4 m- ~$ RMySQL能为排序和查找行使用同样的索引。如果可能,按照这样一举两得的方式设计索引是个好主意。
# z+ j( N0 T. Y2 c0 b7 b
! l% g6 i$ g/ b) j按照索引对结果进行排序,只有当索引的顺序和ORDER BY子句中的顺序完全一致,并且所有列排序的方向(升序或降序)一样才可以。如果查询联接了多个表,只有在ORDER BY子句的所有列引用的是第一个表才可以。查找查询中的ORDER BY子句也有同样的局限:它要使用索引的最左前级。在其他所有情况下,MySQL使用文件排序。
# h# d+ g6 g& l0 F2 z1 P. M5 v& y j, ^* {: F$ ~- y
ORDER BY无须定义索引的最左前级的一种情况是前导列为常量(也就是说第一个索引不能是范围查询,如果是组合索引应该以此为常量)。如果WHERE子句和JOIN子句为这些列定义了常量,它们就能弥补索引的缺陷。+ O* N6 a9 B- z f" |3 X
. `5 p& ^5 g9 v/ R* |4 z- o+ b) l: E
使用join可能情况会有不同8 b3 l# M" U3 V! C$ I
- u7 C8 H" x1 A1 [5,压缩索引(myisam)
" V) l4 u# `. o' [" T6,多余和重复索引(应该避免)2 ?" D! l; Z" @. {7 l7 v
3 |" L" F! O/ k
多余索引(Redundant Index)和重复索引有一些不同。如果列(A,B)7 F/ I( x# }$ D( Y7 Q3 `: X0 z
上有索引,那么另外一个列(A)上的
7 j+ }1 w. p) w3 R" t4 g: O4 m0 p2 ^索引就是多余的。这就是说,(A,B)上的索引能被当成(A)上的索引。(这种多余只适合于B一Tree索引。)3 S4 l; J4 ^* L4 U ]
然而,(B,A)上的索引不会是多余的,(B)上的索引也不是,因为列B不是列(A,B)的最左前缀。还有,不同类型的索引(例如哈希或全文索引)对于B一Tree索引不是多余的,无论它们针对的是哪一列。( A; A2 v ?2 G
% k- _( A: s9 N& r. A- p- y要点:
, O$ v- m. {, f在任何可能的地方,都要试着扩展索引(之前是一个列A上面有索引,现在两个列A,B上建立索引),而不是新增索引。通常维护一个多列索引要比维护多个单列索引容易。如果不知道查询的分布,就要尽可能地使索引变得更有选择性,因为高选择性的索引通常更有好处.5 Y7 A% |. w0 H( g* E3 h# @
0 t" S7 X& S9 E2 T1 k" t
即使InnoDB使用了索引,它也能锁定不需要的行,这个问题在它不能使用索引找到并锁定行的时候会更严重:如果没有索引,mysql不管是否需要行,都会进行全表扫描并锁定每一行0 R% H5 j0 L+ ]6 @
# W$ U; Y/ L2 u; Z
* c9 A" U4 s% x% y6 H: Q
# V& S: q) F7 S
|
|