多変量の統計 | 基本的な数学の説明

たとえば、期末テストを考えると、理科の点数が高い人は数学の点数も高い傾向があるといったように、複数の科目を同時に見ることもテスト結果を把握する上で重要なはずです。
本記事ではこの例のような、同時に複数のデータを統計的に扱う多変量の統計の基礎的な数学について説明します。

多変量確率変数

サイコロを 1 回振ったときの出る目といったような、1つの確率変数で十分な問題も多いです。しかし、複数の確率変数を導入すると便利な場合もあります。

具体的な例として、サイコロを 2 回振る試行を考えてみます。1 回目に出る目を確率変数 \(X\)、2 回目に出る目を確率変数 \(Y\) とします。
この問題では、各目が \(x, y\) である確率 \(P(X=x, Y=y)\) や、出目の合計の期待値 \(E[X+Y]\) といったものの振る舞いに関心があるはずです。出目の合計 \(Z\) を確率変数としてもよいですが、このように興味のある事象を要素に分解して記述することで、問題を扱いやすくすることができます。

確率分布

この章では 2 つの離散確率変数を扱う場合における、確率分布について説明します。

連続確率分布への拡張は、以下の記事と同様に行えます。

統計入門 | 連続確率分布への拡張
この記事では、連続確率分布を扱うための基礎的な数学を説明します。離散確率分布の概念を拡張して、確率密度関数を導入し、その期待値と分散の定式化について解説します。

同時確率分布

確率変数 \(X, Y\) が同時に値 \((x, y)\) をとる確率の分布を同時確率分布といい、\(P(X=x, Y=y)\) もしくは \(P(x,y)\) と表記します。

\(P(x, y)\) は確率を表すため、単変量の場合と同じく、すべての \((x, y)\) に対して \(P(x, y) \ge 0\) であり、すべての組み合わせの総和は 1 になります。

x,yP(x,y)=1\sum_{x, y} P(x, y) = 1

周辺確率分布

注目する確率変数以外について、同時確率分布の総和をとったものを周辺確率分布と呼びます。
例えば、\(X\) の周辺確率分布 \(P(x)\) は以下のように定義されます。

PX(x)=yP(x,y)P_{X}(x) = \sum_{y} P(x, y)

周辺確率分布 \(P(x)\) は確率変数 \(X\) が \(x\) となるときに、起こりうる \(y\) の確率を全て足し合わせているため、\(X = x\) が起こる確率を表します。
そのため、\(P(x, y)\) の定義からも分かる通り、すべての \(x\) に対して \(P_X(x) \ge 0\) であり、\(x\) に渡る総和は 1 になります。

xPX(x)=1\sum_{x} P_X(x) = 1

独立性

確率変数 \(X, Y\) が互いに影響を与えないとします。言い換えると、\(X\) と \(Y\) の結果が他方の結果によらず決まるとします。このとき \(X=x, Y=y\) が同時に起こる確率は、\(x\) が起こる確率と \(y\) が起こる確率の積で表されるはずです。

P(x,y)=PX(x)PY(y)P(x, y) = P_X(x)\, P_Y(y)

このように、同時確率分布が \(x, y\) の確率分布の積に分解できるとき、\(X\) と \(Y\) は独立であるといいます。

6 面サイコロと4 面サイコロを振る例で考えてみましょう。それぞれの出目 \(X, Y\) は独立であると考えられるため、ある目の組み合わせ \((x, y)\) が出る確率 \(P(x, y)\) は、各サイコロの出目の確率 \(P_X(x), P_Y(y)\) の積へ分解できます。

P(x,y)=PX(x)PY(y)=16×14=124P(x, y) = P_X(x)\, P_Y(y) = \frac{1}{6} \times \frac{1}{4} = \frac{1}{24}

期待値と分散

期待値

和 \(X+Y\) のような、確率変数 \(X, Y\) の関数 \(g(X, Y)\) で与えられる確率変数を考えます。確率変数 \(g(X, Y)\) の期待値は単変量の時と同じように、値と同時確率分布の積の総和で定義されます。

E[g(X,Y)]=x,yg(x,y)P(x,y)E[g(X, Y)] = \sum_{x, y} g(x, y)\, P(x, y)

定義より \(a, b\) を定数としたとき、期待値 \(E[aX+bY]\) は次のように計算できます。

E[aX+bY]=aE[X]+bE[Y]E[aX+bY] = aE[X] + bE[Y]
途中計算
E[aX+bY]=x,y(ax+by)P(x,y)=axx(yP(x,y))+byy(xP(x,y))=axxPX(x)+byyPY(y)=aE[X]+bE[Y]\begin{aligned} E[aX+bY] &= \sum_{x,y}(ax+by) P(x, y) \\ &= a \sum_{x} x \left( \sum_{y} P(x, y) \right) + b \sum_{y} y \left( \sum_{x} P(x, y) \right) \\ &= a \sum_{x} x P_X(x) + b \sum_{y} y P_Y(y) \\ &= aE[X] + bE[Y] \end{aligned}

このように、\(X, Y\) に依存する確率変数 \(aX + bY\) の期待値は、\(X\) と \(Y\) の期待値に分解して扱うことができます。これを期待値の線形性と呼びます。

注記:\(X\) と \(Y\) の相互影響について

次式より \(E[X]\) は周辺確率分布を通じて \(Y\) の影響を受けていることに注意してください。

E[X]=xxPX(x)=xx(yP(x,y))E[X] = \sum_{x} x P_X(x) = \sum_{x} x \left( \sum_{y} P(x, y) \right)

\(E[X]\) が \(Y\) に影響されなくなるのは、\(X\) と \(Y\) が独立な場合となります。

E[X]=xxPX(x)(yPY(y))=xxPX(x)E[X] = \sum_{x} x P_X(x) \left( \sum_{y} P_Y(y) \right) = \sum_{x} x P_X(x)

通常は \(E[X]\) は \(Y\) の影響を受けるため、真に \(X\) と \(Y\) を分けて扱えるのは、\(X\) と \(Y\) が独立な場合となります。

分散

関数 \(g(X, Y)\) の分散 \(V[g(X, Y)]\) は、次のように定義されます。

V[g(X,Y)]=x,y(g(x,y)E[g(X,Y)])2P(x,y)V[g(X, Y)] = \sum_{x, y} \big( g(x, y) – E[g(X, Y)] \big)^2 P(x, y)

和の分散 \(V[X+Y]\) を例にとると、次のように計算できます。

V[X+Y]=V[X]+V[Y]+2Cov[X,Y]V[X+Y] = V[X] + V[Y] + 2\mathrm{Cov}[X, Y]
途中計算
V[X+Y]=E[((X+Y)E[X+Y])2]=E[((XE[X])+(YE[Y]))2]=E[(XE[X])2+(YE[Y])2+2(XE[X])(YE[Y])]=E[(XE[X])2]+E[(YE[Y])2]+2E[(XE[X])(YE[Y])]=V[X]+V[Y]+2Cov[X,Y]\begin{aligned} V[X+Y] &= E\left[ \left( (X+Y) – E[X+Y] \right)^2 \right] \\ &= E\left[ \left( (X – E[X]) + (Y – E[Y]) \right)^2 \right] \\ &= E\left[ (X – E[X])^2 + (Y – E[Y])^2 + 2(X – E[X])(Y – E[Y]) \right] \\ &= E[(X – E[X])^2] + E[(Y – E[Y])^2] + 2E[(X – E[X])(Y – E[Y])] \\ &= V[X] + V[Y] + 2\mathrm{Cov}[X, Y] \end{aligned}

ここで \(\mathrm{Cov}[X, Y]\) は共分散と呼ばれ、次式で定義されます。

Cov[X,Y]=E[(XE[X])(YE[Y])]=x,y(xE[X])(yE[Y])P(x,y)\begin{aligned} \mathrm{Cov}[X, Y] &= E\left[(X – E[X])(Y – E[Y])\right] \\ &= \sum_{x, y} (x – E[X])(y – E[Y]) P(x, y) \end{aligned}
\(X\) と \(Y\) の相互影響について

分散についても、期待値と同じく \(V[X]\) は \(Y\) に影響を受けますし、共分散は明らかに \(X\) と \(Y\) の相互影響で決まります。
ですが、\(X\) と \(Y\) が独立な場合、分散も \(X\) と \(Y\) を分けて扱うことができます。

まず、\(V[X]\) については、期待値のときと同じ計算で \(Y\) の影響を受けないことが分かります。

V[X]=x(xE[X])2PX(x)=x(xE[X])2PX(x)(yPY(y))=x(xE[X])2PX(x)\begin{aligned} V[X] &= \sum_x (x – E[X])^2 P_X(x) \\ &= \sum_{x} (x – E[X])^2 P_X(x) \left( \sum_{y} P_Y(y) \right) \\ & = \sum_{x} (x – E[X])^2 P_X(x) \end{aligned}

また、\(\mathrm{Cov}[X, Y]\) は以下計算により \(0\) となります。

Cov[X,Y]=x,y(xE[X])(yE[Y])PX(x)PY(y)=(x(xE[X])PX(x))(y(yE[Y])PY(y))=(xxPX(x)E[X]xPX(x))(yyPY(y)E[Y]yPY(y))=(E[X]E[X])(E[Y]E[Y])=0\begin{aligned} \mathrm{Cov}[X, Y] &= \sum_{x, y} (x – E[X])(y – E[Y]) P_X(x) P_Y(y) \\ &= \left( \sum_x (x – E[X]) P_X(x) \right) \left( \sum_y (y – E[Y]) P_Y(y) \right) \\ &= \left( \sum_x x P_X(x) – E[X]\sum_x P_X(x) \right) \left( \sum_y y P_Y(y) – E[Y]\sum_y P_Y(y) \right)\\ &= (E[X] – E[X])(E[Y] – E[Y]) \\ &= 0 \end{aligned}

そのため、分散も \(V[X+Y] = V[X] + V[Y]\) となり、\(X\) と \(Y\) の項に分離されます。

共分散について

共分散は 2 つの確率変数に、どういった相関があるかを示す指標です。

共分散の定義式における、偏差 (期待値との差) の積 \((x – E[X])(y – E[Y])\) に注目します。偏差の積が共分散の値に与える影響をまとめると以下の通りです。

\(x\) の偏差が正\(x\) の偏差が負
\(y\) の偏差が正に寄与に寄与
\(y\) の偏差が負に寄与に寄与

上表のどの領域における確率 \(P(x, y)\) が大きいかによって、\(\mathrm{Cov}[X, Y]\) の符号が変わります。\(x, y\) の偏差の符号が揃う (同じ方向に連動する) 領域の確率が大きいなら \(\mathrm{Cov}[X, Y] > 0\) となり、\(x\) と \(y\) は正の相関があるといいます。逆に \(\mathrm{Cov}[X, Y] < 0\) となるなら、負の相関があるといいます。

期末テストを例に考えると、数学の点数が平均より高い人は理科の点数も高いという傾向があれば \(\mathrm{Cov}[X, Y] > 0\) となり、数学の点数が平均より高いほど国語の点数が平均より低いといった傾向があれば \(\mathrm{Cov}[X, Y] < 0\) となります。

まとめ

本記事では多変量の統計を扱うための、数学的な基礎の説明をしました。

まず、確率変数 \(X, Y\) が同時に値 \((x, y)\) を取る確率を示す同時確率分布 \(P(x, y)\) を元にして、単変量の定義の類推から期待値や分散といった指標の定義を拡張しました。

また、確率変数 \(X, Y\) が相互に影響しないことを独立であるといい、その場合は同時確率分布が \(X\) と \(Y\) の確率分布の積に分解され、各確率変数の問題に分けて考えられることを説明しました。

また、共分散はその正負から確率変数がどのように連動するかが分かる、確率変数間の相関を示す指標であることを説明しました。

コメント

タイトルとURLをコピーしました