統計学における非常に大切な定理の一つに中心極限定理(central limit theorem)というのがあります.ここでは,この非常に不思議な自然の摂理について紹介します.統計理論やROC解析でよく用いられる正規分布の妥当性を理解するために,ぜひ覚えておいてください.
中心極限定理とは,簡単に言えば,母集団の分布がたとえ何であっても標本の数が増えることによって,その標本の和の分布が正規分布に近づいていくという理論です.つまり,ROC解析の実験を例にとって考えると,ある試料群に与えられた観察者の評価値(スコア)は,各観察者について正規分布から程遠くても,観察者の数が多ければ,観察者全員の合計(または平均)は,だいたい正規分布となるということです.もっと簡単に理解してもらうために,サイコロを例にとって説明します.サイコロを1回投げた時に出る目の数の確率は,イカサマサイコロでない限り,1から6までそれぞれ1/6です.ところが,このサイコロを2回投げた時の平均値の確率分布を考えてください.事象の数は6×6で36回で,1から6までのそれぞれの平均の出る確率は下に示した表のようになります.
平均値 | 1.0 | 1.5 | 2.0 | 2.5 | 3.0 | 3.5 | 4.0 | 4.5 | 5.0 | 5.5 | 6.0 |
確率 | 1/36 | 2/36 | 3/36 | 4/36 | 5/36 | 6/36 | 5/36 | 4/36 | 3/36 | 2/36 | 1/36 |
いかがですか?わずか2回の標本数の和(平均)でも,正規分布の形をとり始めているのがわかります.実際には,ROCKITに含まれるROC解析のカーブフィッティングでは,観察者の評価値の平均や合計を入力する方式ではなく,各観察者についてROC曲線を求めていますが,ROC解析の理論に,観察者の反応の分布は正規分布となる,という仮定が用いられるのは以上のような理由からです.統計学は,ともすると教科書に書いてある方法だけを応用して行われる場合が多いですが,このような理論を理解することで,さらに統計の奥深さが楽しめるようになると思います.この記事を読んで興味をもった方は,ぜひこれを機会に統計学の本を紐解いてみてください.