2017 年度「計算数学ｂ」 2018-01-19

§10.1 マージソート

(10.1.1) マージ (merge) ソートは，アルゴリズムは比較的わかりやすいが，ソートすべきデータがはいっている配列 a[ ] のほかに，それと同じ大きさの配列 b[ ] が必要となる。（最近のコンピュータは大量のメモリーを搭載しているので，この点はあまり問題にならないように思う。）

(10.1.2) 配列 a[ ] が次を満たしているとする。

a[1] から a[4] までは小さい順（i.e. a[1] ≦ a[2] ≦ a[3] ≦ a[4])，
a[5] から a[8] までは小さい順（i.e. a[5] ≦ a[6] ≦ a[7] ≦ a[8])，
……

これを（ここでは）「4 ずつ並んでいる」と呼ぼう。（最後に半端が出たら，それらも小さい順に並んでいるとする。）

(10.1.3) このとき，この配列全体をもう一つの配列 b[ ] にコピーし，次を満たしているようにする。

b[1] から b[8] までは a[1] から a[8] までを小さい順に並べたもの，
b[9] から b[16] までは a[9] から a[16] までを小さい順に並べたもの，
……

(10.1.4) 子どもたちが四人ずつ班に別れ，それぞれの班の中では背の順に並んでいるとき，二班を一つにまとめ，八人が背の順に並ぶようにせよ，というのと同じである。

(10.1.5) それには，次のようにすればよい。 a[1] から a[8] までの部分で説明しよう。まず a[1] と a[5] を比べ，小さいほうを b[1] にコピーする。もしも a[1] のほうがコピーされたなら，次には a[2] と a[5] を比較する。いわば“勝ち抜き戦”である。片方のグループの元をすべてコピーしてしまったら，あとはもう一つのグループの残りを（比較することなしに）順にコピーする。

(10.1.6) 配列 a[ ] 全体に対し上の操作をおこなって配列 b[ ] にコピーし終えたら，それから，b[ ] 全体を a[ ] に，そっくりそのまま，順序を変えずにコピーする。

(10.1.7) これで，配列 a[ ] を，「4 ずつ並んでいる」から「8 ずつ並んでいる」に変えることができた。

(10.1.8) 最初に配列 a[ ] を乱数で初期化した直後には，この配列は「1 ずつ並んでいる」と言える。それを上のような操作で「2 ずつ並んでいる」ように変え，「4 ずつ並んでいる」ように変え， ……とくりかえしてゆけば，やがて配列全体がソートされる。このアルゴリズムを「マージソート」という。

(10.1.9) m ずつ並んでいる m 個のもの二組を小さい順に並べて別の場所にコピーする際，次にコピーすべき元（げん）を決めるには，たかだか一回の比較で済む。最後の一つは，残ったものだから，比較しなくても決まる。よって，比較回数はたかだか 2m-1 回である。コピーされる元は 2m 個である。これらはおよそ 2m である。よって，「m ずつ並んでいる」から「2m ずつ並んでいる」に変えることはおよそ N の計算量で可能である。これを全部で約 log₂(N) 回くりかえすから，全体では N log(N) である。

(10.1.10) 最後にとりあげるクイックソートとは異なり，初めに配列がどのように初期化されていても，このオーダーである。また，乱数で初期化する場合，平均すると，クイックソートよりも比較回数は少ないようである。

§10.2 課題４

(10.2.1) 課題１と同様のことを，マージソートについておこなえ。

(10.2.2) 挿入ソートのソースファイルをコピーしたものの main() を，下のプログラムのヒントに従って書き換えてゆく。ファイル名は merge.c がよいだろう。

(10.2.3) プログラムの main() は次のようになる。

int main() {
    int m, start, i, j, k;

    /* ここで，いつものように，配列の大きさの表示，配列 */
    /* の初期化，初期化直後の配列の画面表示をおこなう   */

    for (m = 1; m ???; m = ???) {
        printf("「%d ずつ並んでいる」のを", m);
        printf("「%d ずつ並んでいる」ように変えます.\n", 2*m);
        for (start = 1; start ???; start = ???) {
            i = 0; j = 0; k = 0;
            for (    ; ????????????????????????????????;   ) {
                if (comp(start+i, start+m+j) < 0) {
                    b[???] = a[???];
                } else {
                    b[???] = a[???];
                }
            }
            for (    ; ??????????????????????;   ) {
                b[???] = a[???];
            }
            for (    ; ??????????????????????;   ) {
                b[???] = a[???];
            }
        }
        /* ここで，for ループを用いて，配列 b[ ] を */
        /* 配列 a[ ] にそっくりそのままコピーする   */
        print();
    }
    /* ここで，いつものように比較回数の表示などをおこなう */
}

変数は，上のように，五つ用意する。

m は，「m ずつ並んでいる」のを「2m ずつ並んでいる」に変える，その m である。最も外の for ループではこの m が変わる。
二組を一組にまとめるわけだが，その中で最も添字が小さいものが a[start] だとする。外から二番目のループでは，start を 1 から初めて，だんだん大きくしてゆく。
一番内側の三つの for ループで， a[start] から始まる 2m 個の元を小さい順に b[ ] にコピーする。
- その一つめの for ループの本体では，第一群の a[start+i] と第二群の a[start+m+j] とを比較し，小さいほうを b[start+k] にコピーする。
  - この for の初期設定は， i, j, k に 0 を代入するものである。まとめて for の小カッコ内に入れる方法もあるが，ここではそこは空白とし，for の一行前に書いた。
  - この for の継続条件は， i, j がしかるべき範囲にあり，かつ，添字 start+i, start+m+j, start+k が配列の終わりを越えていないことである。（よって，いくつかの条件を && でつなぐことになる。五つすべてが必要なわけではない。）
  - この for の再初期化は，必要に応じて i, j, k を 1 だけ増すことである。どれとどれを増やすかは，場合によって異なるので， for の小カッコの中に入れるのはむずかしい。そこで，for の小カッコの中の三番めは空白にしておき，ループ本体内の適当なところに「i++;」などを置く。（その場所は上のヒントでは示していない。自分で考えること。）
- その二つめの for ループは，第一群の残りを b[ ] にコピーするもの。初めて使うテクニックかもしれないが，その前の for ループを抜けたあとの i, k の値をそのまま使う。よって，この for の初期設定は空白である。再初期化も空白とし，「i++;」などはループ本体の適当なところに置く。
- その三つめの for ループは，第二群の残りを b[ ] にコピーするもの。ヒントは二つめと同じ。

(10.2.4) 「int a[N+1];」の次の行に「int b[N+1];」を入れるのを忘れずに。

(10.2.5) ※ 実は，b[ ] をそのまま a[ ] にコピーして戻すのは時間の無駄である。その際，ついでに「2m ずつ並んでいる」のを「4m ずつ並んでいる」ように変えれば，この無駄が省ける。しかし，プログラムが長くなるか，まだ習っていない書き方が必要になる（と思う）。

(10.2.6) いままでのアルゴリズムとは異なり，要素の交換のくり返しではないから，関数 swap() は使わない。よって，交換回数は調べない。（関数 swap() や変数 scount は使わないが，残しておいて構わない。）

(10.2.7) プログラムを書いている間は，配列の大きさ N を 12, 13, 14, 15, 16 など，いろいろに変えて試すこと。半端の処理もきちんとできているか，の確認のためである。

(10.2.8) 件名は「?? kadai4」（「??」は自分のアカウント名の下二桁。全て半角文字，アルファベットは小文字。 kadai と 4 の間にはスペースをいれない）とせよ。これ以外の注意点は課題１と同じ。

(10.2.9) N の値を大きくしての実験は， N を 10000, 100000, 1000000 にして，五回ずつおこなえ。

(10.2.10) 付記： a[i] を b[j] にコピーする関数 void copy(int j, int i) を作り，その中でカウンタを増やすことでコピーの回数を調べることもできるが，コピーの回数は N の大きさで決まる定数になる。考えてみよ。なお，上のプログラムでは，配列 b[ ] から配列 a[ ] へのコピーもあるので，実際のコピーの回数はその 2 倍である。（関数 swap() を使う場合，その中で 3 回のコピーをおこなっているので，コピーの回数は交換回数の 3 倍である。）

§10.3 ソートの安定性

(10.3.1) この節は，課題が早く終わって時間が余った人のためのものである。前に (5.3.3) で述べた，ソート前のデータに同じ値のものがあった場合の問題を考えよう。

(10.3.2) あるソートのアルゴリズムが「安定 (stable)」であるとは，同じ値のものが，ソート後も元の順序を保っていることをいう。あるソートアルゴリズムが安定であることをいうには，数学の定理と同様に証明が必要であり，不安定（あるいは非安定）であることをいうには反例をもって示すべきであるが，実験で試し，その結果を参考にすることができる。

(10.3.3) この授業で書いているプログラムを少し改変することで，その実験がおこなえる。以下では，そのやり方の一つを説明する。プログラムのコピーを，次のように改変する。

int a[N+1]; の次の行に int b[N+1]; を追加する。（i.e. 同じ長さの配列をもう一つ用意する。）
配列を初期化する関数 init() は， a[i] はいままで通りに乱数で初期化するが， b[i] には i を代入して初期化する。
配列を画面に出力する関数 print() は， a[i] の値を一行に出力したのち， b[i] の値を次の行に出力する。（ヒープソートの場合もこれを使う。）
互換をおこなう関数 swap() は， swap(i, j) を実行するとき， a[i] と a[j] の値を入れ換えるだけでなく， b[i] と b[j] の値をも入れ換える。

(10.3.4) 以上のように改変してから実行する。ソート後，a[i] の値が同じものが並んだら，それらの中で b[i] の値が小さい順かどうかを調べる。

岩瀬順一