← 統計検定テキスト 一覧

📊 対象級:準1級 | 重要度:A(頻出)

同時分布・周辺分布・条件付き分布 ── 周辺化(足し潰す)/条件付け(割って正規化)/全分散の法則

要点(BLUF)

本文

同時分布(joint distribution)

2つの確率変数 X,YX,Y同時に見たときの確率を表すのが同時分布

離散:同時確率質量関数(同時PMF)

p(x,y)=P(X=x, Y=y)p(x,y)=P(X=x,\ Y=y)

要するに「XXxx かつ YYyy になる確率」。全ペアにわたる総和は1:

xyp(x,y)=1,p(x,y)0.\sum_x\sum_y p(x,y)=1,\qquad p(x,y)\ge 0.

連続:同時確率密度関数(同時PDF)

P((X,Y)A)=Af(x,y)dxdy,R2f(x,y)dxdy=1,f(x,y)0.P\big((X,Y)\in A\big)=\iint_A f(x,y)\,dx\,dy,\qquad \iint_{\mathbb{R}^2} f(x,y)\,dx\,dy=1,\qquad f(x,y)\ge 0.

要するに「確率は同時PDF ff が作る曲面の下の体積」。1変数で「確率=面積」だったのが、2変数では「確率=体積」に上がる。f(x,y)f(x,y) 自体は密度(高さ)であって確率ではない点に注意(1変数PDFと同じ事情、確率変数(離散・連続)と期待値・分散。値が1を超えることもある)。

同時CDF(参考)F(x,y)=P(Xx, Yy)F(x,y)=P(X\le x,\ Y\le y)。連続なら f(x,y)=2Fxyf(x,y)=\dfrac{\partial^2 F}{\partial x\,\partial y}。試験で主役になるのはPMF/PDFの方。

周辺分布(marginal distribution)=相手を足し潰す/積分で潰す

同時分布から、片方の変数だけの分布を取り出す操作が周辺化(marginalization)

pX(x)=yp(x,y)fX(x)=f(x,y)dy\boxed{\,p_X(x)=\sum_y p(x,y)\,}\qquad \boxed{\,f_X(x)=\int_{-\infty}^{\infty} f(x,y)\,dy\,}

要するに「相手の変数 YY がどんな値だろうと構わない、と YY について全部足す(積分で潰す)」。残った xx の関数がそのまま XX の(普通の1変数)分布になる。YY 側も対称に pY(y)=xp(x,y)p_Y(y)=\sum_x p(x,y)fY(y)=f(x,y)dxf_Y(y)=\int f(x,y)\,dx

名前の由来:離散の同時分布を表にすると、各行・各列の合計を**表の余白(margin)**に書く。その余白の数値こそが周辺分布。

期待値・分散の性質(線形性・和の分散・共分散)E[X+Y]=E[X]+E[Y]E[X+Y]=E[X]+E[Y] を導いたとき、xyxp(x,y)=xx(yp(x,y))=xxpX(x)=E[X]\sum_x\sum_y x\,p(x,y)=\sum_x x\Big(\sum_y p(x,y)\Big)=\sum_x x\,p_X(x)=E[X] という変形を使った。この「yp(x,y)=pX(x)\sum_y p(x,y)=p_X(x)」こそ周辺化そのもの。⑥はこの周辺化を暗黙に使っていた、というのが本トピックでの基礎づけ。

条件付き分布(conditional distribution)=同時を周辺で割る

X=xX=x とわかったとき、YY はどう分布するか」を表すのが条件付き分布

p(yx)=p(x,y)pX(x)(pX(x)>0)f(yx)=f(x,y)fX(x)(fX(x)>0)\boxed{\,p(y\mid x)=\frac{p(x,y)}{p_X(x)}\,}\quad(p_X(x)>0)\qquad \boxed{\,f(y\mid x)=\frac{f(x,y)}{f_X(x)}\,}\quad(f_X(x)>0)

要するに「同時分布を、条件にした側の周辺分布で割って正規化」。これは③ 条件付き確率・独立性・全確率の定理 の条件付き確率 P(BA)=P(AB)P(A)P(B\mid A)=\dfrac{P(A\cap B)}{P(A)}確率変数版そのもの(事象 A={X=x}A=\{X=x\}B={Y=y}B=\{Y=y\} と置けば一致)。分母 pX(x)p_X(x) は「X=xX=x という縮んだ世界での合計を1に戻す」正規化定数。

確かに yy について足すと1になる(れっきとした分布である確認):

yp(yx)=yp(x,y)pX(x)=1pX(x)yp(x,y)=pX(x)pX(x)=1.\sum_y p(y\mid x)=\sum_y\frac{p(x,y)}{p_X(x)}=\frac{1}{p_X(x)}\sum_y p(x,y)=\frac{p_X(x)}{p_X(x)}=1.

ここまでの3つの関係を1枚にすると次の通り。

flowchart LR
  J["同時分布 p(x,y)"]
  M["周辺分布 p_X(x)"]
  C["条件付き分布 p(y|x)"]
  J -->|"Yを足し潰す(周辺化)"| M
  J -->|"周辺で割って正規化"| C
  M -->|"条件付けの分母に使う"| C

独立の同値条件(確率変数版)

X,YX,Y独立とは、すべての (x,y)(x,y) で同時分布が周辺の積に分解すること:

p(x,y)=pX(x)pY(y)  (連続なら f(x,y)=fX(x)fY(y))\boxed{\,p(x,y)=p_X(x)\,p_Y(y)\ \ (\text{連続なら}\ f(x,y)=f_X(x)f_Y(y))\,}

これは次と同値(条件付き分布が周辺分布に一致=条件を付けても分布が変わらない):

p(yx)=pY(y)(かつp(xy)=pX(x)).p(y\mid x)=p_Y(y)\quad(\text{かつ}\quad p(x\mid y)=p_X(x)).

要するに「XX の値を知っても YY の分布が変わらない」が独立の本質。③ 条件付き確率・独立性・全確率の定理 の事象の独立 P(BA)=P(B)P(B\mid A)=P(B) の確率変数版。⑥ 期待値・分散の性質(線形性・和の分散・共分散) で「独立なら E[XY]=E[X]E[Y]E[XY]=E[X]E[Y]、よって Cov=0\mathrm{Cov}=0」と言ったが、その出発点 p(x,y)=pXpYp(x,y)=p_Xp_Y がここで定義される。

3つの分布と独立の対応:

用語離散の式連続の式ひとことで
同時分布p(x,y)p(x,y)f(x,y)f(x,y)全ペアの確率(体積)
周辺分布pX(x)=yp(x,y)p_X(x)=\sum_y p(x,y)fX(x)=fdyf_X(x)=\int f\,dy相手を足し潰す
条件付き分布p(yx)=p(x,y)pX(x)p(y\mid x)=\dfrac{p(x,y)}{p_X(x)}f(yx)=f(x,y)fX(x)f(y\mid x)=\dfrac{f(x,y)}{f_X(x)}同時÷周辺で正規化
独立の同値条件p(x,y)=pXpYp(x,y)=p_X p_Yf(x,y)=fXfYf(x,y)=f_X f_Y条件付き=周辺

条件付き期待値(conditional expectation)

条件付き分布で期待値を取ったものが条件付き期待値

E[YX=x]=yyp(yx)(連続:yf(yx)dy)E[Y\mid X=x]=\sum_y y\,p(y\mid x)\qquad\Big(\text{連続:}\int y\,f(y\mid x)\,dy\Big)

これは xx ごとに1つの数が決まる、ふつうの数値(xx の関数)。ここで準1級の核心:xxXX に戻して E[YX]E[Y\mid X] を「確率変数」として扱うXX が値 xx を取るたびに E[YX]E[Y\mid X] は値 E[YX=x]E[Y\mid X=x] を取る、XX で決まる確率変数。だから E[YX]E[Y\mid X] にもう一度期待値や分散を取れる(これが全期待値・全分散の法則の主役)。

同様に条件付き分散 V[YX]=E[Y2X](E[YX])2V[Y\mid X]=E[Y^2\mid X]-(E[Y\mid X])^2XX の関数=確率変数。

全期待値の法則(law of total expectation / tower property)

E[Y]=E[E[YX]]\boxed{\,E[Y]=E\big[E[Y\mid X]\big]\,}

要するに「まず XX ごとに YY の平均を出し(内側)、それを XX について平均すると(外側)、全体の平均に戻る」。外側の期待値は XX について取る。離散での導出は下の「数式の直観的意味」で完全に示す。これは③ 条件付き確率・独立性・全確率の定理全確率の定理 P(B)=iP(Ai)P(BAi)P(B)=\sum_i P(A_i)P(B\mid A_i) の期待値版(確率を「条件で場合分けして足す」のと同じ構造)。

:箱A(YY の平均10)と箱B(YY の平均20)を、確率 0.30.30.70.7 で選ぶなら、全体の平均は E[Y]=0.3×10+0.7×20=17E[Y]=0.3\times10+0.7\times20=17。各箱の平均を箱の選ばれ方で加重平均しただけ、という直観。

全分散の法則(law of total variance)── 本トピックの山・準1級頻出

V[Y]=E[V[YX]]級内変動の平均+V[E[YX]]級間変動\boxed{\,V[Y]=\underbrace{E\big[V[Y\mid X]\big]}_{\text{級内変動の平均}}+\underbrace{V\big[E[Y\mid X]\big]}_{\text{級間変動}}\,}

要するに「YY の全分散=(グループ内のばらつきの平均)+(グループ平均どうしのばらつき)」。XX を「グループ・層」と思うとわかりやすい。

名前意味
E[V[YX]]E\big[V[Y\mid X]\big]級内変動(within)の平均同じグループ内でも YY はばらつく。その平均
V[E[YX]]V\big[E[Y\mid X]\big]級間変動(between)グループごとの平均値がグループ間でばらつく

完全導出は「数式の直観的意味」に置く。分散分析(一元配置)の「全変動=級内変動+級間変動」、相関比 η2=V[E[YX]]V[Y]\eta^2=\dfrac{V[E[Y\mid X]]}{V[Y]} の母集団版がまさにこれ。

日常の具体例(テストの点数):3つのクラスの数学のテストを考える。クラスごとに平均点が違う(級間変動:A組は60点中心、B組は70点中心…)うえに、同じクラスの中でも生徒ごとに点がばらつく(級内変動)。学年全体の点数のばらつきは、「クラス内のばらつきの平均」+「クラス平均どうしのばらつき」にちょうど分かれる。クラス分けが点数の差をどれだけ説明するかは相関比 η2\eta^2 で測れる。

2変量正規分布(bivariate normal)── 無相関 ⟺ 独立の特例

期待値・分散の性質(線形性・和の分散・共分散) で「無相関でも独立とは限らない(Y=X2Y=X^2)。例外は2変量正規」と予告した、その特例。同時PDFは

f(x,y)=12πσXσY1ρ2exp ⁣[12(1ρ2) ⁣((xμX)2σX22ρ(xμX)(yμY)σXσY+(yμY)2σY2)].f(x,y)=\frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\!\left[-\frac{1}{2(1-\rho^2)}\!\left(\frac{(x-\mu_X)^2}{\sigma_X^2}-2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y}+\frac{(y-\mu_Y)^2}{\sigma_Y^2}\right)\right].

要するに「2つの正規分布を相関 ρ\rho で結んだ釣鐘型の山」。ρ\rho は楕円の傾き・潰れ具合を決める。

ρ=0\rho=0 を代入すると、中央のクロス項が消えて指数部が xx だけの式と yy だけの式の和になり、exp()=expexp\exp(\text{和})=\exp\cdot\exp

f(x,y)ρ=0=12πσXe(xμX)22σX2fX(x)12πσYe(yμY)22σY2fY(y)=fX(x)fY(y).f(x,y)\Big|_{\rho=0}=\underbrace{\frac{1}{\sqrt{2\pi}\,\sigma_X}e^{-\frac{(x-\mu_X)^2}{2\sigma_X^2}}}_{f_X(x)}\cdot\underbrace{\frac{1}{\sqrt{2\pi}\,\sigma_Y}e^{-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}}}_{f_Y(y)}=f_X(x)f_Y(y).

同時PDFが周辺の積に分解=独立。だから2変量正規では「無相関(ρ=0\rho=0    \iff 独立」が成り立つ。一般の分布では「独立 \Rightarrow 無相関」の一方向だけ(⑥)。

条件付き分布も正規(準1級頻出の暗記事項):

YX=x  N ⁣( μY+ρσYxμXσX ,  σY2(1ρ2) ).Y\mid X=x\ \sim\ N\!\left(\ \mu_Y+\rho\,\sigma_Y\frac{x-\mu_X}{\sigma_X}\ ,\ \ \sigma_Y^2(1-\rho^2)\ \right).

条件付き期待値 E[YX=x]=μY+ρσYxμXσXE[Y\mid X=x]=\mu_Y+\rho\sigma_Y\frac{x-\mu_X}{\sigma_X}xx1次関数(これが回帰直線の母集団版で、Phase 5 の単回帰への布石。回帰ノートはファイル名未確定のためここではリンクを張らずテキスト言及に留める)。条件付き分散 V[YX=x]=σY2(1ρ2)V[Y\mid X=x]=\sigma_Y^2(1-\rho^2)xx によらず一定で、相関が強い(ρ1|\rho|\to1)ほど小さくなる(XX を知ると YY の不確実性が減る)。ρ=0\rho=0 なら E[YX=x]=μYE[Y\mid X=x]=\mu_YV[YX=x]=σY2V[Y\mid X=x]=\sigma_Y^2XX に無依存=独立と整合。

具体例(離散の同時分布表)

2枚のコインを投げ、X=X=表の枚数、Y=Y=「1枚目が表なら1, 裏なら0」とする。Ω={\Omega=\{裏裏, 裏表, 表裏, 表表}\}1/41/4

p(x,y)p(x,y)y=0y=0y=1y=1周辺 pX(x)p_X(x)
x=0x=01/41/4001/41/4
x=1x=11/41/41/41/41/21/2
x=2x=2001/41/41/41/4
周辺 pY(y)p_Y(y)1/21/21/21/211

試験での問われ方(級ごとの差)

数式の直観的意味

周辺化はなぜ「足す/積分する」のか

同時分布 p(x,y)p(x,y) は「X=xX=x かつ Y=yY=y」という排反な細かい事象に確率を割り振ったもの。X=xX=x という事象は、YY の値で細分された {X=x,Y=y1},{X=x,Y=y2},\{X=x,Y=y_1\},\{X=x,Y=y_2\},\dots排反な和。排反な事象の確率は足せる(③ 条件付き確率・独立性・全確率の定理 の全確率の定理と同じコルモゴロフ公理3)から、

pX(x)=P(X=x)=yP(X=x,Y=y)=yp(x,y).p_X(x)=P(X=x)=\sum_y P(X=x,Y=y)=\sum_y p(x,y).

連続では和が積分に変わるだけ。「相手の変数のあらゆる可能性をかき集める」=足し潰す/積分で潰す

全期待値の法則の完全導出(離散)

定義から出発し、条件付き期待値 E[YX=x]=yyp(yx)E[Y\mid X=x]=\sum_y y\,p(y\mid x)XX について平均する:

E[E[YX]]=x(yyp(yx)E[YX=x])pX(x).E\big[E[Y\mid X]\big]=\sum_x \Big(\underbrace{\sum_y y\,p(y\mid x)}_{E[Y\mid X=x]}\Big)\,p_X(x).

条件付き分布の定義 p(yx)=p(x,y)pX(x)p(y\mid x)=\dfrac{p(x,y)}{p_X(x)} を代入すると、pX(x)p_X(x) が約分される:

=xyyp(x,y)pX(x)pX(x)=xyyp(x,y).=\sum_x\sum_y y\,\frac{p(x,y)}{p_X(x)}\,p_X(x)=\sum_x\sum_y y\,p(x,y).

xx について先に足すと周辺化 xp(x,y)=pY(y)\sum_x p(x,y)=p_Y(y) が効いて:

=yy(xp(x,y))=yypY(y)=E[Y].=\sum_y y\Big(\sum_x p(x,y)\Big)=\sum_y y\,p_Y(y)=E[Y].\qquad\blacksquare

要するに「条件付き期待値を周辺で加重平均すると、pXp_X が約分で消えて同時分布の総和に戻り、もう一度周辺化すると E[Y]E[Y] になる」。鍵は「条件付け(割る)→平均(掛け戻す)」で正規化定数が打ち消し合うこと。

全分散の法則の完全導出(本トピック最重要)

準備①(条件付き分散の定義)XX を固定した世界での分散だから、1変数の V=E[2](E[])2V=E[\cdot^2]-(E[\cdot])^2 をそのまま条件付きで書く:

V[YX]=E[Y2X](E[YX])2.V[Y\mid X]=E[Y^2\mid X]-\big(E[Y\mid X]\big)^2.

準備②(全期待値の法則を Y2Y^2 に適用)E[Y2]=E[E[Y2X]]E[Y^2]=E\big[E[Y^2\mid X]\big]

導出開始。YY の全分散を1変数公式で書く:

V[Y]=E[Y2](E[Y])2.V[Y]=E[Y^2]-\big(E[Y]\big)^2.

E[Y2]=E[E[Y2X]]E[Y^2]=E[E[Y^2\mid X]]E[Y]=E[E[YX]]E[Y]=E[E[Y\mid X]](全期待値の法則)を代入:

V[Y]=E[E[Y2X]](E[E[YX]])2.V[Y]=E\big[E[Y^2\mid X]\big]-\Big(E\big[E[Y\mid X]\big]\Big)^2.

ここで準備①を変形した E[Y2X]=V[YX]+(E[YX])2E[Y^2\mid X]=V[Y\mid X]+\big(E[Y\mid X]\big)^2 を第1項に代入:

V[Y]=E[V[YX]+(E[YX])2](E[E[YX]])2.V[Y]=E\Big[V[Y\mid X]+\big(E[Y\mid X]\big)^2\Big]-\Big(E\big[E[Y\mid X]\big]\Big)^2.

期待値の線形性で第1項を割る:

V[Y]=E[V[YX]]+E[(E[YX])2](E[E[YX]])2これは V[E[YX]].V[Y]=E\big[V[Y\mid X]\big]+\underbrace{E\Big[\big(E[Y\mid X]\big)^2\Big]-\Big(E\big[E[Y\mid X]\big]\Big)^2}_{\text{これは }V[E[Y\mid X]]}.

最後の下線部は、確率変数 W:=E[YX]W:=E[Y\mid X] に対する E[W2](E[W])2=V[W]E[W^2]-(E[W])^2=V[W] そのもの。よって

V[Y]=E[V[YX]]+V[E[YX]].\boxed{\,V[Y]=E\big[V[Y\mid X]\big]+V\big[E[Y\mid X]\big]\,}.\qquad\blacksquare

直観(級内変動+級間変動)XX を「層・グループ」とみなす。YY がばらつく理由は2つに分けられる ── (1) 同じグループ内でも YY はばらつく(級内 V[YX]V[Y\mid X]、その平均が第1項)、(2) グループが違えば平均も違う(級間、グループ平均 E[YX]E[Y\mid X] のばらつきが第2項)。両者の和が全体のばらつき。グループ分けがどれだけ YY を説明できるかは相関比 η2=V[E[YX]]/V[Y]\eta^2=V[E[Y\mid X]]/V[Y](級間が全体に占める割合)で測る。

幾何学的直観(直交分解=ピタゴラス)E[YX]E[Y\mid X] は「XX で説明できる YY の部分」、残差 YE[YX]Y-E[Y\mid X] は「XX で説明できない部分」。この2つは直交し(無相関、Cov(E[YX], YE[YX])=0\mathrm{Cov}(E[Y\mid X],\ Y-E[Y\mid X])=0 が示せる)、YE[Y]=(E[YX]E[Y])級間+(YE[YX])級内Y-E[Y]=\underbrace{(E[Y\mid X]-E[Y])}_{\text{級間}}+\underbrace{(Y-E[Y\mid X])}_{\text{級内}} の分散がピタゴラスの定理で足し算になる。これが回帰の「全平方和=回帰平方和+残差平方和」(Phase 5・回帰)の母集団版(回帰ノートはファイル名未確定のためテキスト言及)。

2変量正規で ρ=0\rho=0 が独立を生む仕組み(クロス項の消滅)

同時PDFの指数部は

12(1ρ2) ⁣((xμX)2σX22ρ(xμX)(yμY)σXσY+(yμY)2σY2).-\frac{1}{2(1-\rho^2)}\!\left(\frac{(x-\mu_X)^2}{\sigma_X^2}-2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y}+\frac{(y-\mu_Y)^2}{\sigma_Y^2}\right).

ρ\rho を含むのは中央のクロス項 2ρ()-2\rho(\cdots) だけρ=0\rho=0 なら (1ρ2)=1(1-\rho^2)=1、クロス項も消えて

12((xμX)2σX2+(yμY)2σY2)=(xμX)22σX2(yμY)22σY2.-\frac12\left(\frac{(x-\mu_X)^2}{\sigma_X^2}+\frac{(y-\mu_Y)^2}{\sigma_Y^2}\right)=-\frac{(x-\mu_X)^2}{2\sigma_X^2}-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}.

指数が xx だけの項と yy だけの項の和になる。ea+b=eaebe^{a+b}=e^a e^b なので f(x,y)f(x,y)xx の関数 × yy の関数に割れ、前の係数 12πσXσY\frac{1}{2\pi\sigma_X\sigma_Y}12πσX12πσY\frac{1}{\sqrt{2\pi}\sigma_X}\cdot\frac{1}{\sqrt{2\pi}\sigma_Y} に割れて、ちょうど fX(x)fY(y)f_X(x)f_Y(y) になる。クロス項こそが2変数を結びつける糊で、ρ=0\rho=0 で糊が外れる。一般の分布で無相関でも独立とは限らないのは、Cov=0\mathrm{Cov}=0 が「クロス項の1次の効果がゼロ」を言うだけで、PDF全体の分解までは保証しないから(⑥の Y=X2Y=X^2 が反例)。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q. 周辺分布を作るとき、どっちの変数で足すんでしたっけ?

A. 消したい方(残さない方)で足します。XX の分布 pXp_X が欲しいならYY について足します。「残すのが XX、潰すのが YY」と覚えてください。

Q. 条件付き分布 p(yx)p(y\mid x) の分母は pXp_XpYp_Y

A. 条件にした側の周辺、つまり pX(x)p_X(x) です。縦棒の右(条件)に合わせます。pYp_Y で割ると別物になります。

Q. 「無相関だから独立」と言ってよいのは?

A. 一般にはダメです。言えるのは「独立 → 無相関」の一方向だけ。逆(無相関 → 独立)が成り立つのは2変量正規などの特例だけです。問題に「2変量正規で ρ=0\rho=0」と書いてあれば独立と結論してよいですが、分布の指定がなければ無相関から独立は導けません。

Q. E[YX]E[Y\mid X] は数ですか、確率変数ですか?

A. E[YX=x]E[Y\mid X=x]xx を代入)はE[YX]E[Y\mid X]XX のまま)は確率変数です。全分散の法則の第2項 V[E[YX]]V[E[Y\mid X]] は後者の分散なので、まず E[YX]E[Y\mid X]XX の式で求め、その分散を取ります。

Q. 全分散の2項、どっちがどっちか混乱します。

A. 順番で決まります。E[V[YX]]E[V[Y\mid X]] は「分散を期待値」(級内=各グループ内のばらつきの平均)、V[E[YX]]V[E[Y\mid X]] は「期待値を分散」(級間=グループ平均どうしのばらつき)。内側が分散か期待値かで項が決まります。これを取り違えると2項が入れ替わってしまうので注意です。

Q. 2変量正規の条件付き分散が xx によらないのは変では?

A. 2変量正規の性質です。V[YX=x]=σY2(1ρ2)V[Y\mid X=x]=\sigma_Y^2(1-\rho^2)xx は入りません(どこを切っても同じ幅=等分散)。一方で条件付き期待値xx の1次関数なので、中心は xx とともに動きます。「中心は動くが幅は一定」と整理してください。

まとめ

対応するシミュレーション

同時・周辺・条件付き分布の可視化(2変量正規)

全分散の法則のモンテカルロ実証(級内+級間)

関連ノート