統計入門 | 連続確率分布の基礎

本記事では、離散確率分布の考え方を拡張して、連続確率分布を扱うための基礎的な数学を説明します。具体的には、確率質量関数の考え方を拡張して確率密度関数を導入し、その期待値と分散の定式化について解説します。

離散確率分布の基礎については、以下の記事を参照してください。

分布関数の定義

連続確率分布の場合、とり得る値が無数に存在するため「ある点」の確率ではなく「ある範囲」に入る確率を考えます。

連続確率分布では確率密度関数 \(f(x)\) によって分布を定義します。\(f(x)\) は確率変数 \(X\)
が値 \(x\) を取る「確率の密度」を表しており、\(X\) が範囲 \([a, b]\) に入る確率は以下で求められます。

P(a \le X \le b) = \int_{a}^{b} f(x)\, dx

確率密度関数にも、確率質量関数と同じような性質があります。

(性質1) 値は 0 以上
区間積分が確率を表すため、どの \(x\) においても \(f(x) \ge 0\) となります。

(性質2) 値の積分は 1
確率変数に渡る積分 (≒合計) は、ありうる事象すべての確率の合計であるため 1 となります。

\int_{-\infty}^{\infty} f(x)\, dx = 1

連続確率分布における期待値と分散は、離散確率分布の定義式における総和を、全区間の積分に置き換えることで定義されます。

離散確率分布における総和を、全区間の積分へ置き換えます。

\mu = \int_{-\infty}^{\infty} x f(x)\, dx

ここで、成人男性の身長分布を例に考えます。多くのデータは平均身長の周囲に左右対称の広がりを分布を持つはずです。
このような性質を持つ代表的な確率密度関数として、以下で定義される正規分布があります。
(定義式へ代入すると期待値は正規分布のパラメータ \(\mu\) に一致します)

f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \,\exp\left( -\frac{(x-\mu)^2}{2\sigma^2} \right)

成人男性の身長分布を模して、正規分布の式に \(\mu\) = 171 cm、\(\sigma\) = 6 cm を入れてみます。

すると、グラフのように \(\mu\) の中心にデータが分布することが分かります。

期待値と同様に、全区間の積分へ置き換えます。

\sigma^2 = \int_{-\infty}^{\infty} (x – \mu)^2 f(x)\, dx

ここでも正規分布を例に、正規分布のパラメータ \(\mu\) を 171 cm に固定した上で、\(\sigma^2\) を 3cm、9cm と変化させてみます。
(定義式へ代入すると分散は正規分布のパラメータ \(\sigma^2\) に一致します)

分散も離散確率分布と同じく、値が大きいほどデータのばらつきが大きいことが分かります。

この記事では離散確率分布の考え方を拡張し、連続確率分布における数学の基礎を整理しました。

連続確率分布では確率を扱う際に、値が特定の範囲に収まる確率を考えました。そのため、確率密度関数は「確率の密度」を表しました。また、期待値といった離散確率分布における定式化は、和を積分に置き換えることで拡張をしました。

上記のような多少の拡張はありつつも、連続確率分布も離散確率分布と同様の考え方で扱うことができます。