統計入門｜確率分布の気持ちを理解する：図を交えつつ概観を説明

確率分布とは？
確率分布の必要性
確率分布の種類
1. 離散確率分布
2. 連続確率分布
まとめ

確率分布とは？

例えば、サイコロを振ったときにどの目が出るかを想像してみてください。一度だけサイコロを振るなら次の目は予想もつきませんが、何百回、何千回とサイコロを振ればどの目も 1/6 に近い割合で現れるはずです。
あるいは、膨大な人数の身長データの集まりを想像してみてください。一人ひとりの身長はバラバラでも、何万人ものデータを集めれば平均的な身長など、一定の規則性が見えてくるはずです。
(サイコロを振って 1 の目が出るといった、起こりうる出来事のことを事象といいます)

これら個々のデータは一見バラバラですが、一つの集団として眺めるとそこにはデータの散らばり具合、つまり分布の形が浮かび上がってきます。サイコロならどの目も均等に現れ、身長なら平均値付近に人が最も多く、そこから離れるほど人数が少なくなっていくといった傾向が確認できます。

データの集団において、観測されるデータ (事象) がどのような確率・頻度で現れるかは、その集団の重要な特性となります。この各事象が起きる確率を表す数式が確率分布です。
確率分布、つまり事象が発生する確率が分かれば、単に集団の特性を説明するだけでなく、次に何が起こりそうかを予測するといったことへも応用ができます。

確率分布の必要性

テストの平均点を見れば、そのテストが難しかったのか、あるいはクラス全体の出来がどうだったのかという、大まかな特徴を捉えることができます。ですが、平均値のみでは分布の特性を十分に表現することができません。

例えば、平均点が 50 点である二つのケースで、頻度（人数 ÷ クラスの人数）の分布をみてみましょう。

Case 1：多くの生徒が平均点である 50 点付近の点数を取っている
Case 2：高得点のグループと低得点のグループに分かれている

Case 1：平均値付近に集中する場合
データが平均点の周りに密集して分布している状態です。この場合、平均値に近い点数を取っている生徒が実際に多く存在します。

Case 2：二つのグループに分かれる場合
平均から離れた場所に高い頻度の山が二つある状態です。この場合、平均値である 50 点付近のデータは実際にはほとんど存在しません。

確率分布の種類

確率分布は変数がとる値の性質によって、離散確率分布と連続確率分布に分けられます。

離散確率分布

サイコロの目や人数のように、取りうる値 (事象) が飛び飛びに存在する確率分布を離散確率分布といいます。サイコロを振ったときに1が出る確率は 1/6 というように、とある事象の確率をピンポイントに答えられます。

上図において、各棒の高さはその事象が起きる確率になります。
また、すべての棒の高さを合計すると 1 になります (何らかの値を取る確率が100%)。

連続確率分布

身長などのように、取りうる値が連続的な値となる確率分布を連続確率分布といいます。170cm, 170.1cm, 170.01cm ⋯ といったように、連続確率分布では取りうる値が無数に存在するため、確率は値が特定の範囲 (170cm 〜 180cm など) に収まる割合で考えます。
(そのため、連続確率分布は “確率の密度” を表す関数になります)

山が高くなっている部分はそれだけ事象が起きやすいことを示し、特定の範囲 (170cm – 180cm) における横軸と確率分布の間の面積は、事象がその範囲内に収まる確率になります。
また、横軸と曲線に囲まれたすべての領域の面積は 1 になります (何らかの値を取る確率が100%)。

まとめ

データの集まりを個別の値ではなく一つの集団として見ることで、その集団の特性を把握したり、未知のデータに対する予測を行ったりするのが統計学の考え方となります。このデータの集団において、各データ (事象) が発生する確率は一つの重要な特性となります。

事象には離散的な値と連続的な値の2パターンがあります。確率を考える際は、離散的な事象であれば各事象が持つ確率を考えますが、連続的な事象では確率密度を導入することで、特定の範囲に事象が入る確率を扱います。
このように集団として見ることで、その集団の特性を把握したり、未知のデータに対する予測を行ったりするのが統計学の考え方です。

データの集団における各データの発生頻度を表すものが確率分布ですが、このように事象により確率の捉え方が異なるため、確率分布の考え方も異なります。
離散的な事象では各事象の “確率” の分布を表す離散確率分布を、連続的な事象では各事象の “確率密度” の分布を表す連続確率分布が用いられます。