本記事では、離散確率分布の基礎的な数学の説明をします。具体的には、確率質量関数の定義と、データ集団の特性となる期待値と分散について解説します。
確率分布についての概観の説明については、以下の記事も参考にしてください。

分布関数の定義
離散確率分布では確率質量関数により分布を定義します。確率質量関数は確率変数 \(X\)
が事象 \(x\) をとる確率を表し、\(P(X = x)\) や \(P(x)\) のように表記します。
例えば、1日あたりの来店客数が 10人である確率が 10% のとき、\(P(X = 10) = 0.1\)
となります (\(X\) は確率変数で、1日あたりの来店客数です)。
確率質量関数には、以下の性質があります。
(性質1) 値は 0 以上
関数の値は確率を表すため、どの \(x\) において \(P(X = x) \ge 0\) となります。
(性質2) 値の合計は 1
確率変数に渡る合計は、ありうる事象すべての確率の合計であるため 1 となります。
期待値と分散
集団を特徴づける量として、期待値や分散といった「分布の尺度」を定義すると便利です。これらによって、集団の性質を簡潔に記述したり、異なる分布の比較をしたりすることができます。
期待値
期待値 \(\mu\) は各事象の値にその確率を掛けたものの総和で定義され、集団の平均を意味します。
この定義を理解するために、サイコロを 600 回振ることを考えます。各目が 100 回ずつ出る (どの目も 1/6 の確率で出る) とすると (★)、出た目の合計は次のようになります。
両辺を試行回数の 600 で割って「1 回あたり」に直すと、次のように整理できます。
左辺は各事象の「値 \(\times\) 確率」の総和となっており、期待値の定義式と一致します。一方、右辺の 3.5 は「サイコロをたくさん (600 回) 振るとき」の 1 回あたりの出目の平均です。
「たくさんサイコロを振る」という前提は ★ の仮定からきます。サイコロを振る回数が多いほど、どの目も 1/6 の確率で出るという仮定の妥当性が増すためです。
分散
分散 \(\sigma^2\) は「期待値 \(\mu\) からの差の 2 乗」に確率を掛けたものの総和で、データの散らばりを表します。
ここで具体例として、コインを 100 回投げたときの表が出る回数 \(x\) を考えます。この場合の確率質量関数 \(P(x)\) は以下の通りです。
通常のコイン (\(p\)=0.5) と、20 回に 1 回しか表が出ないイカサマコイン (\(p\)=0.05) の 2 パターンで、確率質量関数を見比べてみます。
イカサマコインでは表が極端に出にくいため、通常のコインに比べて表が出る回数は狭い範囲に収まります。
分散は期待値 (平均値) からの差の 2 乗の総和であるため、期待値付近にデータが密集するほど分散の値は小さくなります。
実際、補足の公式を用いて分散を計算すると通常のコインでは \(\sigma^2\) = 25、イカサマコインでは \(\sigma^2\) = 4.75 となり、イカサマコインの方が分散が小さくなります。
補足:コイン投げの期待値と分散
この節のコイン投げのように、起こり得る結果が 2 通りしかない独立した試行を \(n\) 回繰り返したとき、特定の事象が \(x\) 回起こる確率の分布は二項分布と呼ばれます。
詳しい導出は省略しますが、二項分布の確率質量関数・期待値・分散を以下にまとめます。
まとめ
この記事では、直感的に掴みやすい離散的な事象を例に、確率分布の基礎的な考え方を整理しました。
まず、確率質量関数を導入して、各事象へその事象が起こる確率の対応付けを行いました。
ある事象がどの程度の確率で起こるかといったように、分布を確率として捉えることで、数式による定式化ができます。
次に、分布の特徴を示す尺度として、期待値と分散を定義しました。期待値は分布の中心的な位置を示し、分散により期待値の周りにデータがどの程度密集しているかが分かります。
コメント