バケットソート

HOME>>メモ>>アルゴリズム>>Suffix Array>>バケットソート

先頭の文字でソートする

一度に Suffix をソートするのは大変です. そこで先頭の文字に着目し,まずは先頭の文字についてソートしてみます.

No.開始位置Suffix
00abracadabra$
11bracadabra$
22racadabra$
33acadabra$
44cadabra$
55adabra$
66dabra$
77abra$
88bra$
99ra$
1010a$
1111$

すると,次の表で色分けしたように,先頭の文字が同じ Suffix のグループができます. このグループをバケットと呼ぶことにしましょう.

No.開始位置Suffix
011$
10abracadabra$
23acadabra$
37abra$
45adabra$
510a$
61bracadabra$
78bra$
84cadabra$
96dabra$
102racadabra$
119ra$

ソートを進めていくとバケット内での順番は変わる可能性がありますが, バケットの外に出ていってしまうことはなく,各バケット独立にソートを行うことができます. 各グループのサイズは元の配列より小さくなることが期待できるので,比較的簡単にソートできるはずです.

バケットソート

各 Suffix がバケット内のどこに入るかを知るのは大変ですが, どのバケットに入るかなら先頭の文字を見ればすぐにわかります. そして,各バケットの範囲は,文字毎の出現回数をカウントしておくことで簡単に知ることができます,

例えば「abracadabra$」では「$」が1回,「a」が5回,「b」が2回,「c」が1回,「d」が1回,「r」が2回出現しています. このことから各バケットの位置は次のようになることがソートをしなくてもわかります,

No.開始位置Suffixバケット先頭位置
011←$の先頭=0
10←aの先頭=1
23
37
45
510
61←bの先頭=1+5=6
78
84←cの先頭=1+5+2=8
96←dの先頭=1+5+2+1=9
102←rの先頭=1+5+2+1+1=10
119

あとは Suffix を該当するバケットの空いているところに入れていけば,先頭の文字に関するソートが完了します. 出現回数のカウントも,Suffix をバケットに入れる処理も $O(n)$と 普通のソートより速くソートすることができます.

問題点

しかし,「各バケット内のソートをどうするか」という問題が以前残ります. バケットソートを再帰的に適用することにより高速化可能ですが, 元の文字列に繰り返しが多いと再帰する回数が多くなってしまいあまり効率的ではありません. そのため,結局はマージソートやクイックソートなどの汎用ソートに頼ってしまうことになり, あまり速度が上がりません.