統計入門 | 離散確率分布の基礎

本記事では、離散確率分布の基礎的な数学の説明をします。具体的には、確率質量関数の定義と、データ集団の特性となる期待値と分散について解説します。

確率分布についての概観の説明については、以下の記事も参考にしてください。

確率分布はデータの集団がどのような分布をとるかを表す、統計学の重要な概念です。本記事では確率分布の考え方と、その分類である離散確率分布と連続確率分布について、例や図解を交えて解説します。

分布関数の定義
期待値と分散
1. 期待値
2. 分散
まとめ

分布関数の定義

離散確率分布では確率質量関数により分布を定義します。確率質量関数は確率変数 \(X\)
が事象 \(x\) をとる確率を表し、\(P(X = x)\) や \(P(x)\) のように表記します。
例えば、1日あたりの来店客数が 10人である確率が 10% のとき、\(P(X = 10) = 0.1\)
となります (\(X\) は確率変数で、1日あたりの来店客数です)。

確率質量関数には、以下の性質があります。

(性質1) 値は 0 以上
関数の値は確率を表すため、どの \(x\) において \(P(X = x) \ge 0\) となります。

(性質2) 値の合計は 1
確率変数に渡る合計は、ありうる事象すべての確率の合計であるため 1 となります。

\sum_{x} P(x) = 1

期待値と分散

集団を特徴づける量として、期待値や分散といった「分布の尺度」を定義すると便利です。これらによって、集団の性質を簡潔に記述したり、異なる分布の比較をしたりすることができます。

期待値

期待値 \(\mu\) は各事象の値にその確率を掛けたものの総和で定義され、集団の平均を意味します。

\mu = \sum_{x} x\, P(x)

この定義を理解するために、サイコロを 600 回振ることを考えます。各目が 100 回ずつ出る (どの目も 1/6 の確率で出る) とすると (★)、出た目の合計は次のようになります。

(1 \times 100) + \dots + (6 \times 100) = 2100

両辺を試行回数の 600 で割って「1 回あたり」に直すと、次のように整理できます。

\left( 1 \times \frac{1}{6} \right) + \dots + \left( 6 \times \frac{1}{6} \right) = 3.5

左辺は各事象の「値 \(\times\) 確率」の総和となっており、期待値の定義式と一致します。一方、右辺の 3.5 は「サイコロをたくさん (600 回) 振るとき」の 1 回あたりの出目の平均です。

「たくさんサイコロを振る」という前提は ★ の仮定からきます。サイコロを振る回数が多いほど、どの目も 1/6 の確率で出るという仮定の妥当性が増すためです。

分散

分散 \(\sigma^2\) は「期待値 \(\mu\) からの差の 2 乗」に確率を掛けたものの総和で、データの散らばりを表します。

ここで具体例として、コインを 100 回投げたときの表が出る回数 \(x\) を考えます。この場合の確率質量関数 \(P(x)\) は以下の通りです。

P(x) = {}_{100}\mathrm{C}_x\, p^x\, (1-p)^{100-x}

通常のコイン (\(p\)=0.5) と、20 回に 1 回しか表が出ないイカサマコイン (\(p\)=0.05) の 2 パターンで、確率質量関数を見比べてみます。

イカサマコインでは表が極端に出にくいため、通常のコインに比べて表が出る回数は狭い範囲に収まります。

分散は期待値 (平均値) からの差の 2 乗の総和であるため、期待値付近にデータが密集するほど分散の値は小さくなります。
実際、補足の公式を用いて分散を計算すると通常のコインでは \(\sigma^2\) = 25、イカサマコインでは \(\sigma^2\) = 4.75 となり、イカサマコインの方が分散が小さくなります。

補足：コイン投げの期待値と分散

この節のコイン投げのように、起こり得る結果が 2 通りしかない独立した試行を \(n\) 回繰り返したとき、特定の事象が \(x\) 回起こる確率の分布は二項分布と呼ばれます。

詳しい導出は省略しますが、二項分布の確率質量関数・期待値・分散を以下にまとめます。

P(x) = {}_{n}\mathrm{C}_x\, p^x (1-p)^{n-x}

\mu = np

\sigma^2 = np(1-p)

まとめ

この記事では、直感的に掴みやすい離散的な事象を例に、確率分布の基礎的な考え方を整理しました。

まず、確率質量関数を導入して、各事象へその事象が起こる確率の対応付けを行いました。
ある事象がどの程度の確率で起こるかといったように、分布を確率として捉えることで、数式による定式化ができます。

次に、分布の特徴を示す尺度として、期待値と分散を定義しました。期待値は分布の中心的な位置を示し、分散により期待値の周りにデータがどの程度密集しているかが分かります。