← 統計検定テキスト 一覧
📊 対象級:準1級 | 重要度:A(頻出)
同時分布・周辺分布・条件付き分布 ── 周辺化(足し潰す)/条件付け(割って正規化)/全分散の法則
要点(BLUF)
同時分布 =2つの確率変数 ( X , Y ) (X,Y) ( X , Y ) の「全ペアの確率」。離散は同時PMF p ( x , y ) = P ( X = x , Y = y ) p(x,y)=P(X=x,Y=y) p ( x , y ) = P ( X = x , Y = y ) (全部足して1)、連続は同時PDF f ( x , y ) f(x,y) f ( x , y ) (∬ f d x d y = 1 \iint f\,dx\,dy=1 ∬ f d x d y = 1 、確率は領域の体積 )。
周辺分布 =相手の変数を足し潰す/積分で潰す 。p X ( x ) = ∑ y p ( x , y ) p_X(x)=\sum_y p(x,y) p X ( x ) = ∑ y p ( x , y ) 、f X ( x ) = ∫ f ( x , y ) d y f_X(x)=\int f(x,y)\,dy f X ( x ) = ∫ f ( x , y ) d y 。⑥ 期待値・分散の性質(線形性・和の分散・共分散) の E [ X + Y ] E[X+Y] E [ X + Y ] 導出で使った「∑ y p ( x , y ) = p X ( x ) \sum_y p(x,y)=p_X(x) ∑ y p ( x , y ) = p X ( x ) 」を基礎づけるのがこれ。
条件付き分布 =同時を周辺で割って正規化。p ( y ∣ x ) = p ( x , y ) p X ( x ) p(y\mid x)=\dfrac{p(x,y)}{p_X(x)} p ( y ∣ x ) = p X ( x ) p ( x , y ) 、f ( y ∣ x ) = f ( x , y ) f X ( x ) f(y\mid x)=\dfrac{f(x,y)}{f_X(x)} f ( y ∣ x ) = f X ( x ) f ( x , y ) 。③ 条件付き確率・独立性・全確率の定理 の P ( B ∣ A ) = P ( A ∩ B ) P ( A ) P(B\mid A)=\dfrac{P(A\cap B)}{P(A)} P ( B ∣ A ) = P ( A ) P ( A ∩ B ) の確率変数版 。
独立 ⟺ p ( x , y ) = p X ( x ) p Y ( y ) ⟺ \iff p(x,y)=p_X(x)p_Y(y) \iff ⟺ p ( x , y ) = p X ( x ) p Y ( y ) ⟺ 条件付き分布=周辺分布 (p ( y ∣ x ) = p Y ( y ) p(y\mid x)=p_Y(y) p ( y ∣ x ) = p Y ( y ) )。
全分散の法則(準1級の山) V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] \boxed{V[Y]=E\big[V[Y\mid X]\big]+V\big[E[Y\mid X]\big]} V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] =「級内変動の平均+級間(条件付き期待値の)変動 」。全期待値の法則 E [ Y ] = E [ E [ Y ∣ X ] ] E[Y]=E[E[Y\mid X]] E [ Y ] = E [ E [ Y ∣ X ]] から組み立てる。
2変量正規 :⑥で予告した「無相関 ⟺ \iff ⟺ 独立 」が成り立つ特例。ρ = 0 \rho=0 ρ = 0 で同時PDFが周辺の積に分解する。
本文
同時分布(joint distribution)
2つの確率変数 X , Y X,Y X , Y を同時に 見たときの確率を表すのが同時分布 。
離散:同時確率質量関数(同時PMF)
p ( x , y ) = P ( X = x , Y = y ) p(x,y)=P(X=x,\ Y=y) p ( x , y ) = P ( X = x , Y = y )
要するに「X X X が x x x かつ Y Y Y が y y y になる確率」。全ペアにわたる総和は1:
∑ x ∑ y p ( x , y ) = 1 , p ( x , y ) ≥ 0. \sum_x\sum_y p(x,y)=1,\qquad p(x,y)\ge 0. x ∑ y ∑ p ( x , y ) = 1 , p ( x , y ) ≥ 0.
連続:同時確率密度関数(同時PDF)
P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y ) d x d y , ∬ R 2 f ( x , y ) d x d y = 1 , f ( x , y ) ≥ 0. P\big((X,Y)\in A\big)=\iint_A f(x,y)\,dx\,dy,\qquad \iint_{\mathbb{R}^2} f(x,y)\,dx\,dy=1,\qquad f(x,y)\ge 0. P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y ) d x d y , ∬ R 2 f ( x , y ) d x d y = 1 , f ( x , y ) ≥ 0.
要するに「確率は同時PDF f f f が作る曲面の下の体積 」。1変数で「確率=面積」だったのが、2変数では「確率=体積」に上がる。f ( x , y ) f(x,y) f ( x , y ) 自体は密度(高さ)であって確率ではない点に注意(1変数PDFと同じ事情、確率変数(離散・連続)と期待値・分散 。値が1を超えることもある)。
同時CDF(参考) :F ( x , y ) = P ( X ≤ x , Y ≤ y ) F(x,y)=P(X\le x,\ Y\le y) F ( x , y ) = P ( X ≤ x , Y ≤ y ) 。連続なら f ( x , y ) = ∂ 2 F ∂ x ∂ y f(x,y)=\dfrac{\partial^2 F}{\partial x\,\partial y} f ( x , y ) = ∂ x ∂ y ∂ 2 F 。試験で主役になるのはPMF/PDFの方。
周辺分布(marginal distribution)=相手を足し潰す/積分で潰す
同時分布から、片方の変数だけ の分布を取り出す操作が周辺化(marginalization) 。
p X ( x ) = ∑ y p ( x , y ) f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y \boxed{\,p_X(x)=\sum_y p(x,y)\,}\qquad
\boxed{\,f_X(x)=\int_{-\infty}^{\infty} f(x,y)\,dy\,} p X ( x ) = y ∑ p ( x , y ) f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y
要するに「相手の変数 Y Y Y がどんな値だろうと構わない、と Y Y Y について全部足す(積分で潰す) 」。残った x x x の関数がそのまま X X X の(普通の1変数)分布になる。Y Y Y 側も対称に p Y ( y ) = ∑ x p ( x , y ) p_Y(y)=\sum_x p(x,y) p Y ( y ) = ∑ x p ( x , y ) 、f Y ( y ) = ∫ f ( x , y ) d x f_Y(y)=\int f(x,y)\,dx f Y ( y ) = ∫ f ( x , y ) d x 。
名前の由来:離散の同時分布を表にすると、各行・各列の合計を**表の余白(margin)**に書く。その余白の数値こそが周辺分布。
⑥ 期待値・分散の性質(線形性・和の分散・共分散) で E [ X + Y ] = E [ X ] + E [ Y ] E[X+Y]=E[X]+E[Y] E [ X + Y ] = E [ X ] + E [ Y ] を導いたとき、∑ x ∑ y x p ( x , y ) = ∑ x x ( ∑ y p ( x , y ) ) = ∑ x x p X ( x ) = E [ X ] \sum_x\sum_y x\,p(x,y)=\sum_x x\Big(\sum_y p(x,y)\Big)=\sum_x x\,p_X(x)=E[X] ∑ x ∑ y x p ( x , y ) = ∑ x x ( ∑ y p ( x , y ) ) = ∑ x x p X ( x ) = E [ X ] という変形を使った。この「∑ y p ( x , y ) = p X ( x ) \sum_y p(x,y)=p_X(x) ∑ y p ( x , y ) = p X ( x ) 」こそ周辺化そのもの。⑥はこの周辺化を暗黙に使っていた、というのが本トピックでの基礎づけ。
条件付き分布(conditional distribution)=同時を周辺で割る
「X = x X=x X = x とわかったとき、Y Y Y はどう分布するか」を表すのが条件付き分布 。
p ( y ∣ x ) = p ( x , y ) p X ( x ) ( p X ( x ) > 0 ) f ( y ∣ x ) = f ( x , y ) f X ( x ) ( f X ( x ) > 0 ) \boxed{\,p(y\mid x)=\frac{p(x,y)}{p_X(x)}\,}\quad(p_X(x)>0)\qquad
\boxed{\,f(y\mid x)=\frac{f(x,y)}{f_X(x)}\,}\quad(f_X(x)>0) p ( y ∣ x ) = p X ( x ) p ( x , y ) ( p X ( x ) > 0 ) f ( y ∣ x ) = f X ( x ) f ( x , y ) ( f X ( x ) > 0 )
要するに「同時分布を、条件にした側の周辺分布で割って正規化 」。これは③ 条件付き確率・独立性・全確率の定理 の条件付き確率 P ( B ∣ A ) = P ( A ∩ B ) P ( A ) P(B\mid A)=\dfrac{P(A\cap B)}{P(A)} P ( B ∣ A ) = P ( A ) P ( A ∩ B ) の確率変数版 そのもの(事象 A = { X = x } A=\{X=x\} A = { X = x } 、B = { Y = y } B=\{Y=y\} B = { Y = y } と置けば一致)。分母 p X ( x ) p_X(x) p X ( x ) は「X = x X=x X = x という縮んだ世界での合計を1に戻す」正規化定数。
確かに y y y について足すと1になる(れっきとした分布である確認):
∑ y p ( y ∣ x ) = ∑ y p ( x , y ) p X ( x ) = 1 p X ( x ) ∑ y p ( x , y ) = p X ( x ) p X ( x ) = 1. \sum_y p(y\mid x)=\sum_y\frac{p(x,y)}{p_X(x)}=\frac{1}{p_X(x)}\sum_y p(x,y)=\frac{p_X(x)}{p_X(x)}=1. y ∑ p ( y ∣ x ) = y ∑ p X ( x ) p ( x , y ) = p X ( x ) 1 y ∑ p ( x , y ) = p X ( x ) p X ( x ) = 1.
ここまでの3つの関係を1枚にすると次の通り。
flowchart LR
J["同時分布 p(x,y)"]
M["周辺分布 p_X(x)"]
C["条件付き分布 p(y|x)"]
J -->|"Yを足し潰す(周辺化)"| M
J -->|"周辺で割って正規化"| C
M -->|"条件付けの分母に使う"| C
独立の同値条件(確率変数版)
X , Y X,Y X , Y が独立 とは、すべての ( x , y ) (x,y) ( x , y ) で同時分布が周辺の積に分解すること:
p ( x , y ) = p X ( x ) p Y ( y ) ( 連続なら f ( x , y ) = f X ( x ) f Y ( y ) ) \boxed{\,p(x,y)=p_X(x)\,p_Y(y)\ \ (\text{連続なら}\ f(x,y)=f_X(x)f_Y(y))\,} p ( x , y ) = p X ( x ) p Y ( y ) ( 連続なら f ( x , y ) = f X ( x ) f Y ( y ))
これは次と同値(条件付き分布が周辺分布に一致=条件を付けても分布が変わらない):
p ( y ∣ x ) = p Y ( y ) ( かつ p ( x ∣ y ) = p X ( x ) ) . p(y\mid x)=p_Y(y)\quad(\text{かつ}\quad p(x\mid y)=p_X(x)). p ( y ∣ x ) = p Y ( y ) ( かつ p ( x ∣ y ) = p X ( x )) .
要するに「X X X の値を知っても Y Y Y の分布が変わらない 」が独立の本質。③ 条件付き確率・独立性・全確率の定理 の事象の独立 P ( B ∣ A ) = P ( B ) P(B\mid A)=P(B) P ( B ∣ A ) = P ( B ) の確率変数版。⑥ 期待値・分散の性質(線形性・和の分散・共分散) で「独立なら E [ X Y ] = E [ X ] E [ Y ] E[XY]=E[X]E[Y] E [ X Y ] = E [ X ] E [ Y ] 、よって C o v = 0 \mathrm{Cov}=0 Cov = 0 」と言ったが、その出発点 p ( x , y ) = p X p Y p(x,y)=p_Xp_Y p ( x , y ) = p X p Y がここで定義される。
3つの分布と独立の対応:
用語 離散の式 連続の式 ひとことで 同時分布 p ( x , y ) p(x,y) p ( x , y ) f ( x , y ) f(x,y) f ( x , y ) 全ペアの確率(体積) 周辺分布 p X ( x ) = ∑ y p ( x , y ) p_X(x)=\sum_y p(x,y) p X ( x ) = ∑ y p ( x , y ) f X ( x ) = ∫ f d y f_X(x)=\int f\,dy f X ( x ) = ∫ f d y 相手を足し潰す 条件付き分布 p ( y ∣ x ) = p ( x , y ) p X ( x ) p(y\mid x)=\dfrac{p(x,y)}{p_X(x)} p ( y ∣ x ) = p X ( x ) p ( x , y ) f ( y ∣ x ) = f ( x , y ) f X ( x ) f(y\mid x)=\dfrac{f(x,y)}{f_X(x)} f ( y ∣ x ) = f X ( x ) f ( x , y ) 同時÷周辺で正規化 独立の同値条件 p ( x , y ) = p X p Y p(x,y)=p_X p_Y p ( x , y ) = p X p Y f ( x , y ) = f X f Y f(x,y)=f_X f_Y f ( x , y ) = f X f Y 条件付き=周辺
条件付き期待値(conditional expectation)
条件付き分布で期待値を取ったものが条件付き期待値 。
E [ Y ∣ X = x ] = ∑ y y p ( y ∣ x ) ( 連続: ∫ y f ( y ∣ x ) d y ) E[Y\mid X=x]=\sum_y y\,p(y\mid x)\qquad\Big(\text{連続:}\int y\,f(y\mid x)\,dy\Big) E [ Y ∣ X = x ] = y ∑ y p ( y ∣ x ) ( 連続: ∫ y f ( y ∣ x ) d y )
これは x x x ごとに1つの数が決まる、ふつうの数値(x x x の関数)。ここで準1級の核心:x x x を X X X に戻して E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] を「確率変数」として扱う 。X X X が値 x x x を取るたびに E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] は値 E [ Y ∣ X = x ] E[Y\mid X=x] E [ Y ∣ X = x ] を取る、X X X で決まる確率変数。だから E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] にもう一度期待値や分散を取れる(これが全期待値・全分散の法則の主役)。
同様に条件付き分散 V [ Y ∣ X ] = E [ Y 2 ∣ X ] − ( E [ Y ∣ X ] ) 2 V[Y\mid X]=E[Y^2\mid X]-(E[Y\mid X])^2 V [ Y ∣ X ] = E [ Y 2 ∣ X ] − ( E [ Y ∣ X ] ) 2 も X X X の関数=確率変数。
全期待値の法則(law of total expectation / tower property)
E [ Y ] = E [ E [ Y ∣ X ] ] \boxed{\,E[Y]=E\big[E[Y\mid X]\big]\,} E [ Y ] = E [ E [ Y ∣ X ] ]
要するに「まず X X X ごとに Y Y Y の平均を出し(内側)、それを X X X について平均すると(外側)、全体の平均に戻る 」。外側の期待値は X X X について取る。離散での導出は下の「数式の直観的意味」で完全に示す。これは③ 条件付き確率・独立性・全確率の定理 の全確率の定理 P ( B ) = ∑ i P ( A i ) P ( B ∣ A i ) P(B)=\sum_i P(A_i)P(B\mid A_i) P ( B ) = ∑ i P ( A i ) P ( B ∣ A i ) の期待値版(確率を「条件で場合分けして足す」のと同じ構造)。
例 :箱A(Y Y Y の平均10)と箱B(Y Y Y の平均20)を、確率 0.3 0.3 0.3 と 0.7 0.7 0.7 で選ぶなら、全体の平均は E [ Y ] = 0.3 × 10 + 0.7 × 20 = 17 E[Y]=0.3\times10+0.7\times20=17 E [ Y ] = 0.3 × 10 + 0.7 × 20 = 17 。各箱の平均を箱の選ばれ方で加重平均しただけ、という直観。
全分散の法則(law of total variance)── 本トピックの山・準1級頻出
V [ Y ] = E [ V [ Y ∣ X ] ] ⏟ 級内変動の平均 + V [ E [ Y ∣ X ] ] ⏟ 級間変動 \boxed{\,V[Y]=\underbrace{E\big[V[Y\mid X]\big]}_{\text{級内変動の平均}}+\underbrace{V\big[E[Y\mid X]\big]}_{\text{級間変動}}\,} V [ Y ] = 級内変動の平均 E [ V [ Y ∣ X ] ] + 級間変動 V [ E [ Y ∣ X ] ]
要するに「Y Y Y の全分散=(グループ内のばらつきの平均)+(グループ平均どうしのばらつき) 」。X X X を「グループ・層」と思うとわかりやすい。
項 名前 意味 E [ V [ Y ∣ X ] ] E\big[V[Y\mid X]\big] E [ V [ Y ∣ X ] ] 級内変動(within)の平均 同じグループ内でも Y Y Y はばらつく。その平均 V [ E [ Y ∣ X ] ] V\big[E[Y\mid X]\big] V [ E [ Y ∣ X ] ] 級間変動(between) グループごとの平均値がグループ間でばらつく
完全導出は「数式の直観的意味」に置く。分散分析(一元配置)の「全変動=級内変動+級間変動」、相関比 η 2 = V [ E [ Y ∣ X ] ] V [ Y ] \eta^2=\dfrac{V[E[Y\mid X]]}{V[Y]} η 2 = V [ Y ] V [ E [ Y ∣ X ]] の母集団版がまさにこれ。
日常の具体例(テストの点数) :3つのクラスの数学のテストを考える。クラスごとに平均点が違う (級間変動:A組は60点中心、B組は70点中心…)うえに、同じクラスの中でも生徒ごとに点がばらつく (級内変動)。学年全体の点数のばらつきは、「クラス内のばらつきの平均」+「クラス平均どうしのばらつき」にちょうど分かれる。クラス分けが点数の差をどれだけ説明するかは相関比 η 2 \eta^2 η 2 で測れる。
2変量正規分布(bivariate normal)── 無相関 ⟺ 独立の特例
⑥ 期待値・分散の性質(線形性・和の分散・共分散) で「無相関でも独立とは限らない(Y = X 2 Y=X^2 Y = X 2 )。例外は2変量正規」と予告した、その特例。同時PDFは
f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp [ − 1 2 ( 1 − ρ 2 ) ( ( x − μ X ) 2 σ X 2 − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ Y 2 ) ] . f(x,y)=\frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\!\left[-\frac{1}{2(1-\rho^2)}\!\left(\frac{(x-\mu_X)^2}{\sigma_X^2}-2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y}+\frac{(y-\mu_Y)^2}{\sigma_Y^2}\right)\right]. f ( x , y ) = 2 π σ X σ Y 1 − ρ 2 1 exp [ − 2 ( 1 − ρ 2 ) 1 ( σ X 2 ( x − μ X ) 2 − 2 ρ σ X σ Y ( x − μ X ) ( y − μ Y ) + σ Y 2 ( y − μ Y ) 2 ) ] .
要するに「2つの正規分布を相関 ρ \rho ρ で結んだ釣鐘型の山」。ρ \rho ρ は楕円の傾き・潰れ具合を決める。
ρ = 0 \rho=0 ρ = 0 を代入すると 、中央のクロス項が消えて指数部が x x x だけの式と y y y だけの式の和になり、exp ( 和 ) = exp ⋅ exp \exp(\text{和})=\exp\cdot\exp exp ( 和 ) = exp ⋅ exp で
f ( x , y ) ∣ ρ = 0 = 1 2 π σ X e − ( x − μ X ) 2 2 σ X 2 ⏟ f X ( x ) ⋅ 1 2 π σ Y e − ( y − μ Y ) 2 2 σ Y 2 ⏟ f Y ( y ) = f X ( x ) f Y ( y ) . f(x,y)\Big|_{\rho=0}=\underbrace{\frac{1}{\sqrt{2\pi}\,\sigma_X}e^{-\frac{(x-\mu_X)^2}{2\sigma_X^2}}}_{f_X(x)}\cdot\underbrace{\frac{1}{\sqrt{2\pi}\,\sigma_Y}e^{-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}}}_{f_Y(y)}=f_X(x)f_Y(y). f ( x , y ) ρ = 0 = f X ( x ) 2 π σ X 1 e − 2 σ X 2 ( x − μ X ) 2 ⋅ f Y ( y ) 2 π σ Y 1 e − 2 σ Y 2 ( y − μ Y ) 2 = f X ( x ) f Y ( y ) .
同時PDFが周辺の積に分解=独立 。だから2変量正規では「無相関(ρ = 0 \rho=0 ρ = 0 ) ⟺ \iff ⟺ 独立」が成り立つ。一般の分布では「独立 ⇒ \Rightarrow ⇒ 無相関」の一方向だけ(⑥)。
条件付き分布も正規 (準1級頻出の暗記事項):
Y ∣ X = x ∼ N ( μ Y + ρ σ Y x − μ X σ X , σ Y 2 ( 1 − ρ 2 ) ) . Y\mid X=x\ \sim\ N\!\left(\ \mu_Y+\rho\,\sigma_Y\frac{x-\mu_X}{\sigma_X}\ ,\ \ \sigma_Y^2(1-\rho^2)\ \right). Y ∣ X = x ∼ N ( μ Y + ρ σ Y σ X x − μ X , σ Y 2 ( 1 − ρ 2 ) ) .
条件付き期待値 E [ Y ∣ X = x ] = μ Y + ρ σ Y x − μ X σ X E[Y\mid X=x]=\mu_Y+\rho\sigma_Y\frac{x-\mu_X}{\sigma_X} E [ Y ∣ X = x ] = μ Y + ρ σ Y σ X x − μ X は x x x の1次関数 (これが回帰直線の母集団版で、Phase 5 の単回帰への布石。回帰ノートはファイル名未確定のためここではリンクを張らずテキスト言及に留める)。条件付き分散 V [ Y ∣ X = x ] = σ Y 2 ( 1 − ρ 2 ) V[Y\mid X=x]=\sigma_Y^2(1-\rho^2) V [ Y ∣ X = x ] = σ Y 2 ( 1 − ρ 2 ) は x x x によらず一定で、相関が強い(∣ ρ ∣ → 1 |\rho|\to1 ∣ ρ ∣ → 1 )ほど小さくなる(X X X を知ると Y Y Y の不確実性が減る)。ρ = 0 \rho=0 ρ = 0 なら E [ Y ∣ X = x ] = μ Y E[Y\mid X=x]=\mu_Y E [ Y ∣ X = x ] = μ Y 、V [ Y ∣ X = x ] = σ Y 2 V[Y\mid X=x]=\sigma_Y^2 V [ Y ∣ X = x ] = σ Y 2 で X X X に無依存=独立と整合。
具体例(離散の同時分布表)
2枚のコインを投げ、X = X= X = 表の枚数、Y = Y= Y = 「1枚目が表なら1, 裏なら0」とする。Ω = { \Omega=\{ Ω = { 裏裏, 裏表, 表裏, 表表} \} } 各 1 / 4 1/4 1/4 。
p ( x , y ) p(x,y) p ( x , y ) y = 0 y=0 y = 0 y = 1 y=1 y = 1 周辺 p X ( x ) p_X(x) p X ( x ) x = 0 x=0 x = 0 1 / 4 1/4 1/4 0 0 0 1 / 4 1/4 1/4 x = 1 x=1 x = 1 1 / 4 1/4 1/4 1 / 4 1/4 1/4 1 / 2 1/2 1/2 x = 2 x=2 x = 2 0 0 0 1 / 4 1/4 1/4 1 / 4 1/4 1/4 周辺 p Y ( y ) p_Y(y) p Y ( y ) 1 / 2 1/2 1/2 1 / 2 1/2 1/2 1 1 1
周辺化 :右端の列 p X p_X p X は各行の和、下端の行 p Y p_Y p Y は各列の和。まさに「足し潰す」。
条件付き :X = 1 X=1 X = 1 がわかったとき、p ( y ∣ X = 1 ) = p ( 1 , y ) p X ( 1 ) p(y\mid X=1)=\dfrac{p(1,y)}{p_X(1)} p ( y ∣ X = 1 ) = p X ( 1 ) p ( 1 , y ) は y = 0 y=0 y = 0 が 1 / 4 1 / 2 = 1 2 \dfrac{1/4}{1/2}=\dfrac12 1/2 1/4 = 2 1 、y = 1 y=1 y = 1 も 1 2 \dfrac12 2 1 。
独立でない :例えば p ( 0 , 1 ) = 0 ≠ p X ( 0 ) p Y ( 1 ) = 1 4 ⋅ 1 2 = 1 8 p(0,1)=0\neq p_X(0)p_Y(1)=\frac14\cdot\frac12=\frac18 p ( 0 , 1 ) = 0 = p X ( 0 ) p Y ( 1 ) = 4 1 ⋅ 2 1 = 8 1 。表0枚なら1枚目が表のはずがない(y = 1 y=1 y = 1 あり得ない)ので、X X X を知ると Y Y Y の分布が変わる。
試験での問われ方(級ごとの差)
2級 :離散の同時分布表からの周辺分布の計算 、独立性の判定(p ( x , y ) = p X p Y p(x,y)=p_Xp_Y p ( x , y ) = p X p Y か)、同時分布からの E [ X Y ] E[XY] E [ X Y ] ・共分散・相関の計算(⑥ 期待値・分散の性質(線形性・和の分散・共分散) と一体)。範囲表は「確率変数の和と差(同時分布、和の期待値・分散)」「2変数の共分散・相関」。条件付き期待値・全分散の法則・2変量正規は基本2級範囲外 (条件付き分布の初歩に触れる教材はあるが計算問題の主役は準1級から)。
準1級(主) :条件付き分布・条件付き期待値 (連続も含む、定義域の明示が要求される)、全分散の法則 V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] V[Y]=E[V[Y\mid X]]+V[E[Y\mid X]] V [ Y ] = E [ V [ Y ∣ X ]] + V [ E [ Y ∣ X ]] の適用(公式ワークブック2章・6章・過去問頻出)、2変量正規の条件付き期待値 μ Y + ρ σ Y x − μ X σ X \mu_Y+\rho\sigma_Y\frac{x-\mu_X}{\sigma_X} μ Y + ρ σ Y σ X x − μ X ・条件付き分散 σ Y 2 ( 1 − ρ 2 ) \sigma_Y^2(1-\rho^2) σ Y 2 ( 1 − ρ 2 ) 、無相関⟺独立の証明。混合分布の期待値・分散を全期待値/全分散で出す問題も定番。
※出題範囲は改訂されうる。受験前に公式最新の出題範囲表で要最新確認 (2級は2018年版範囲表、準1級は公式ワークブック準拠が直近で確認した版)。
数式の直観的意味
周辺化はなぜ「足す/積分する」のか
同時分布 p ( x , y ) p(x,y) p ( x , y ) は「X = x X=x X = x かつ Y = y Y=y Y = y 」という排反な細かい事象 に確率を割り振ったもの。X = x X=x X = x という事象は、Y Y Y の値で細分された { X = x , Y = y 1 } , { X = x , Y = y 2 } , … \{X=x,Y=y_1\},\{X=x,Y=y_2\},\dots { X = x , Y = y 1 } , { X = x , Y = y 2 } , … の排反な和 。排反な事象の確率は足せる(③ 条件付き確率・独立性・全確率の定理 の全確率の定理と同じコルモゴロフ公理3)から、
p X ( x ) = P ( X = x ) = ∑ y P ( X = x , Y = y ) = ∑ y p ( x , y ) . p_X(x)=P(X=x)=\sum_y P(X=x,Y=y)=\sum_y p(x,y). p X ( x ) = P ( X = x ) = y ∑ P ( X = x , Y = y ) = y ∑ p ( x , y ) .
連続では和が積分に変わるだけ。「相手の変数のあらゆる可能性をかき集める」=足し潰す/積分で潰す 。
全期待値の法則の完全導出(離散)
定義から出発し、条件付き期待値 E [ Y ∣ X = x ] = ∑ y y p ( y ∣ x ) E[Y\mid X=x]=\sum_y y\,p(y\mid x) E [ Y ∣ X = x ] = ∑ y y p ( y ∣ x ) を X X X について平均する:
E [ E [ Y ∣ X ] ] = ∑ x ( ∑ y y p ( y ∣ x ) ⏟ E [ Y ∣ X = x ] ) p X ( x ) . E\big[E[Y\mid X]\big]=\sum_x \Big(\underbrace{\sum_y y\,p(y\mid x)}_{E[Y\mid X=x]}\Big)\,p_X(x). E [ E [ Y ∣ X ] ] = x ∑ ( E [ Y ∣ X = x ] y ∑ y p ( y ∣ x ) ) p X ( x ) .
条件付き分布の定義 p ( y ∣ x ) = p ( x , y ) p X ( x ) p(y\mid x)=\dfrac{p(x,y)}{p_X(x)} p ( y ∣ x ) = p X ( x ) p ( x , y ) を代入すると、p X ( x ) p_X(x) p X ( x ) が約分される:
= ∑ x ∑ y y p ( x , y ) p X ( x ) p X ( x ) = ∑ x ∑ y y p ( x , y ) . =\sum_x\sum_y y\,\frac{p(x,y)}{p_X(x)}\,p_X(x)=\sum_x\sum_y y\,p(x,y). = x ∑ y ∑ y p X ( x ) p ( x , y ) p X ( x ) = x ∑ y ∑ y p ( x , y ) .
x x x について先に足すと周辺化 ∑ x p ( x , y ) = p Y ( y ) \sum_x p(x,y)=p_Y(y) ∑ x p ( x , y ) = p Y ( y ) が効いて:
= ∑ y y ( ∑ x p ( x , y ) ) = ∑ y y p Y ( y ) = E [ Y ] . ■ =\sum_y y\Big(\sum_x p(x,y)\Big)=\sum_y y\,p_Y(y)=E[Y].\qquad\blacksquare = y ∑ y ( x ∑ p ( x , y ) ) = y ∑ y p Y ( y ) = E [ Y ] . ■
要するに「条件付き期待値を周辺で加重平均すると、p X p_X p X が約分で消えて同時分布の総和に戻り、もう一度周辺化すると E [ Y ] E[Y] E [ Y ] になる 」。鍵は「条件付け(割る)→平均(掛け戻す)」で正規化定数が打ち消し合うこと。
全分散の法則の完全導出(本トピック最重要)
準備①(条件付き分散の定義) :X X X を固定した世界での分散だから、1変数の V = E [ ⋅ 2 ] − ( E [ ⋅ ] ) 2 V=E[\cdot^2]-(E[\cdot])^2 V = E [ ⋅ 2 ] − ( E [ ⋅ ] ) 2 をそのまま条件付きで書く:
V [ Y ∣ X ] = E [ Y 2 ∣ X ] − ( E [ Y ∣ X ] ) 2 . V[Y\mid X]=E[Y^2\mid X]-\big(E[Y\mid X]\big)^2. V [ Y ∣ X ] = E [ Y 2 ∣ X ] − ( E [ Y ∣ X ] ) 2 .
準備②(全期待値の法則を Y 2 Y^2 Y 2 に適用) :E [ Y 2 ] = E [ E [ Y 2 ∣ X ] ] E[Y^2]=E\big[E[Y^2\mid X]\big] E [ Y 2 ] = E [ E [ Y 2 ∣ X ] ] 。
導出開始。Y Y Y の全分散を1変数公式で書く:
V [ Y ] = E [ Y 2 ] − ( E [ Y ] ) 2 . V[Y]=E[Y^2]-\big(E[Y]\big)^2. V [ Y ] = E [ Y 2 ] − ( E [ Y ] ) 2 .
E [ Y 2 ] = E [ E [ Y 2 ∣ X ] ] E[Y^2]=E[E[Y^2\mid X]] E [ Y 2 ] = E [ E [ Y 2 ∣ X ]] と E [ Y ] = E [ E [ Y ∣ X ] ] E[Y]=E[E[Y\mid X]] E [ Y ] = E [ E [ Y ∣ X ]] (全期待値の法則)を代入:
V [ Y ] = E [ E [ Y 2 ∣ X ] ] − ( E [ E [ Y ∣ X ] ] ) 2 . V[Y]=E\big[E[Y^2\mid X]\big]-\Big(E\big[E[Y\mid X]\big]\Big)^2. V [ Y ] = E [ E [ Y 2 ∣ X ] ] − ( E [ E [ Y ∣ X ] ] ) 2 .
ここで準備①を変形した E [ Y 2 ∣ X ] = V [ Y ∣ X ] + ( E [ Y ∣ X ] ) 2 E[Y^2\mid X]=V[Y\mid X]+\big(E[Y\mid X]\big)^2 E [ Y 2 ∣ X ] = V [ Y ∣ X ] + ( E [ Y ∣ X ] ) 2 を第1項に代入:
V [ Y ] = E [ V [ Y ∣ X ] + ( E [ Y ∣ X ] ) 2 ] − ( E [ E [ Y ∣ X ] ] ) 2 . V[Y]=E\Big[V[Y\mid X]+\big(E[Y\mid X]\big)^2\Big]-\Big(E\big[E[Y\mid X]\big]\Big)^2. V [ Y ] = E [ V [ Y ∣ X ] + ( E [ Y ∣ X ] ) 2 ] − ( E [ E [ Y ∣ X ] ] ) 2 .
期待値の線形性で第1項を割る:
V [ Y ] = E [ V [ Y ∣ X ] ] + E [ ( E [ Y ∣ X ] ) 2 ] − ( E [ E [ Y ∣ X ] ] ) 2 ⏟ これは V [ E [ Y ∣ X ] ] . V[Y]=E\big[V[Y\mid X]\big]+\underbrace{E\Big[\big(E[Y\mid X]\big)^2\Big]-\Big(E\big[E[Y\mid X]\big]\Big)^2}_{\text{これは }V[E[Y\mid X]]}. V [ Y ] = E [ V [ Y ∣ X ] ] + これは V [ E [ Y ∣ X ]] E [ ( E [ Y ∣ X ] ) 2 ] − ( E [ E [ Y ∣ X ] ] ) 2 .
最後の下線部は、確率変数 W : = E [ Y ∣ X ] W:=E[Y\mid X] W := E [ Y ∣ X ] に対する E [ W 2 ] − ( E [ W ] ) 2 = V [ W ] E[W^2]-(E[W])^2=V[W] E [ W 2 ] − ( E [ W ] ) 2 = V [ W ] そのもの。よって
V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] . ■ \boxed{\,V[Y]=E\big[V[Y\mid X]\big]+V\big[E[Y\mid X]\big]\,}.\qquad\blacksquare V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] . ■
直観(級内変動+級間変動) :X X X を「層・グループ」とみなす。Y Y Y がばらつく理由は2つに分けられる ── (1) 同じグループ内でも Y Y Y はばらつく (級内 V [ Y ∣ X ] V[Y\mid X] V [ Y ∣ X ] 、その平均が第1項)、(2) グループが違えば平均も違う (級間、グループ平均 E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] のばらつきが第2項)。両者の和が全体のばらつき。グループ分けがどれだけ Y Y Y を説明できるかは相関比 η 2 = V [ E [ Y ∣ X ] ] / V [ Y ] \eta^2=V[E[Y\mid X]]/V[Y] η 2 = V [ E [ Y ∣ X ]] / V [ Y ] (級間が全体に占める割合)で測る。
幾何学的直観(直交分解=ピタゴラス) :E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] は「X X X で説明できる Y Y Y の部分」、残差 Y − E [ Y ∣ X ] Y-E[Y\mid X] Y − E [ Y ∣ X ] は「X X X で説明できない部分」。この2つは直交し(無相関、C o v ( E [ Y ∣ X ] , Y − E [ Y ∣ X ] ) = 0 \mathrm{Cov}(E[Y\mid X],\ Y-E[Y\mid X])=0 Cov ( E [ Y ∣ X ] , Y − E [ Y ∣ X ]) = 0 が示せる)、Y − E [ Y ] = ( E [ Y ∣ X ] − E [ Y ] ) ⏟ 級間 + ( Y − E [ Y ∣ X ] ) ⏟ 級内 Y-E[Y]=\underbrace{(E[Y\mid X]-E[Y])}_{\text{級間}}+\underbrace{(Y-E[Y\mid X])}_{\text{級内}} Y − E [ Y ] = 級間 ( E [ Y ∣ X ] − E [ Y ]) + 級内 ( Y − E [ Y ∣ X ]) の分散がピタゴラスの定理で足し算になる。これが回帰の「全平方和=回帰平方和+残差平方和」(Phase 5・回帰)の母集団版(回帰ノートはファイル名未確定のためテキスト言及)。
2変量正規で ρ = 0 \rho=0 ρ = 0 が独立を生む仕組み(クロス項の消滅)
同時PDFの指数部は
− 1 2 ( 1 − ρ 2 ) ( ( x − μ X ) 2 σ X 2 − 2 ρ ( x − μ X ) ( y − μ Y ) σ X σ Y + ( y − μ Y ) 2 σ Y 2 ) . -\frac{1}{2(1-\rho^2)}\!\left(\frac{(x-\mu_X)^2}{\sigma_X^2}-2\rho\frac{(x-\mu_X)(y-\mu_Y)}{\sigma_X\sigma_Y}+\frac{(y-\mu_Y)^2}{\sigma_Y^2}\right). − 2 ( 1 − ρ 2 ) 1 ( σ X 2 ( x − μ X ) 2 − 2 ρ σ X σ Y ( x − μ X ) ( y − μ Y ) + σ Y 2 ( y − μ Y ) 2 ) .
ρ \rho ρ を含むのは中央のクロス項 − 2 ρ ( ⋯ ) -2\rho(\cdots) − 2 ρ ( ⋯ ) だけ 。ρ = 0 \rho=0 ρ = 0 なら ( 1 − ρ 2 ) = 1 (1-\rho^2)=1 ( 1 − ρ 2 ) = 1 、クロス項も消えて
− 1 2 ( ( x − μ X ) 2 σ X 2 + ( y − μ Y ) 2 σ Y 2 ) = − ( x − μ X ) 2 2 σ X 2 − ( y − μ Y ) 2 2 σ Y 2 . -\frac12\left(\frac{(x-\mu_X)^2}{\sigma_X^2}+\frac{(y-\mu_Y)^2}{\sigma_Y^2}\right)=-\frac{(x-\mu_X)^2}{2\sigma_X^2}-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}. − 2 1 ( σ X 2 ( x − μ X ) 2 + σ Y 2 ( y − μ Y ) 2 ) = − 2 σ X 2 ( x − μ X ) 2 − 2 σ Y 2 ( y − μ Y ) 2 .
指数が x x x だけの項と y y y だけの項の和 になる。e a + b = e a e b e^{a+b}=e^a e^b e a + b = e a e b なので f ( x , y ) f(x,y) f ( x , y ) が x x x の関数 × y y y の関数に割れ、前の係数 1 2 π σ X σ Y \frac{1}{2\pi\sigma_X\sigma_Y} 2 π σ X σ Y 1 も 1 2 π σ X ⋅ 1 2 π σ Y \frac{1}{\sqrt{2\pi}\sigma_X}\cdot\frac{1}{\sqrt{2\pi}\sigma_Y} 2 π σ X 1 ⋅ 2 π σ Y 1 に割れて、ちょうど f X ( x ) f Y ( y ) f_X(x)f_Y(y) f X ( x ) f Y ( y ) になる。クロス項こそが2変数を結びつける糊で、ρ = 0 \rho=0 ρ = 0 で糊が外れる 。一般の分布で無相関でも独立とは限らないのは、C o v = 0 \mathrm{Cov}=0 Cov = 0 が「クロス項の1次の効果がゼロ」を言うだけで、PDF全体の分解までは保証しないから(⑥の Y = X 2 Y=X^2 Y = X 2 が反例)。
⚠️ 引っかけポイント・頻出論点・級ごとの差
周辺化する変数を間違える :p X ( x ) p_X(x) p X ( x ) を作るには消したい方(Y Y Y )について 足す。「X X X の分布が欲しいから X X X で足す」は誤り。残すのが X X X 、潰すのが Y Y Y 。
条件付き分布の分母を取り違える :p ( y ∣ x ) p(y\mid x) p ( y ∣ x ) の分母は条件にした側の周辺 p X ( x ) p_X(x) p X ( x ) 。p Y ( y ) p_Y(y) p Y ( y ) で割らない。向きは③ 条件付き確率・独立性・全確率の定理 と同じで「縦棒の右が条件」。
「無相関なら独立」と即断(最頻出) :一般には独立 ⇒ \Rightarrow ⇒ 無相関の一方向のみ (⑥)。逆が言えるのは2変量正規などの特例だけ 。試験で「2変量正規で ρ = 0 \rho=0 ρ = 0 」と明記されていれば独立と結論してよいが、分布の指定がなければ無相関から独立を導けない。
条件付き期待値が「数」か「確率変数」か :E [ Y ∣ X = x ] E[Y\mid X=x] E [ Y ∣ X = x ] (x x x を代入)は数、E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] (X X X のまま)は確率変数。全分散の法則の第2項 V [ E [ Y ∣ X ] ] V[E[Y\mid X]] V [ E [ Y ∣ X ]] は後者の分散なので、まず E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] を X X X の式で求め、その分散を取る。「条件付き期待値の分散」を「条件付き分散の期待値」と取り違えるのが定番ミス(2項が入れ替わる)。
全分散の2項の役割の混同 :E [ V [ Y ∣ X ] ] E[V[Y\mid X]] E [ V [ Y ∣ X ]] =分散を期待値 (級内)、V [ E [ Y ∣ X ] ] V[E[Y\mid X]] V [ E [ Y ∣ X ]] =期待値を分散 (級間)。順番(内側が分散か期待値か)で項が決まる。
2変量正規の条件付き分散は x x x によらない :V [ Y ∣ X = x ] = σ Y 2 ( 1 − ρ 2 ) V[Y\mid X=x]=\sigma_Y^2(1-\rho^2) V [ Y ∣ X = x ] = σ Y 2 ( 1 − ρ 2 ) は x x x を含まない(等分散性)。「x x x が大きいほど散らばる」は誤り。一方で条件付き期待値 は x x x の1次関数で x x x に依存する。
同時PDF f ( x , y ) f(x,y) f ( x , y ) の値は確率ではない :f ( x , y ) f(x,y) f ( x , y ) は密度(高さ)で、1 1 1 を超えることもある。確率は領域の体積 ∬ f \iint f ∬ f 。1変数PDFと同じ注意(確率変数(離散・連続)と期待値・分散 )。
級差 :2級=離散の同時分布表→周辺分布・独立判定・共分散 (条件付きは初歩まで)。準1級=条件付き分布/期待値・全分散の法則・2変量正規の条件付き分布 。同じ「同時分布」でも、2級は表の読み取りと周辺化、準1級は条件付けと変動分解まで深さが上がる。
よくある疑問
Q. 周辺分布を作るとき、どっちの変数で足すんでしたっけ?
A. 消したい方(残さない方)で足します。X X X の分布 p X p_X p X が欲しいなら Y Y Y について 足します。「残すのが X X X 、潰すのが Y Y Y 」と覚えてください。
Q. 条件付き分布 p ( y ∣ x ) p(y\mid x) p ( y ∣ x ) の分母は p X p_X p X ? p Y p_Y p Y ?
A. 条件にした側の周辺 、つまり p X ( x ) p_X(x) p X ( x ) です。縦棒の右(条件)に合わせます。p Y p_Y p Y で割ると別物になります。
Q. 「無相関だから独立」と言ってよいのは?
A. 一般にはダメ です。言えるのは「独立 → 無相関」の一方向だけ。逆(無相関 → 独立)が成り立つのは2変量正規などの特例 だけです。問題に「2変量正規で ρ = 0 \rho=0 ρ = 0 」と書いてあれば独立と結論してよいですが、分布の指定がなければ無相関から独立は導けません。
Q. E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] は数ですか、確率変数ですか?
A. E [ Y ∣ X = x ] E[Y\mid X=x] E [ Y ∣ X = x ] (x x x を代入)は数 、E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] (X X X のまま)は確率変数 です。全分散の法則の第2項 V [ E [ Y ∣ X ] ] V[E[Y\mid X]] V [ E [ Y ∣ X ]] は後者の分散なので、まず E [ Y ∣ X ] E[Y\mid X] E [ Y ∣ X ] を X X X の式で求め、その分散を取ります。
Q. 全分散の2項、どっちがどっちか混乱します。
A. 順番で決まります。E [ V [ Y ∣ X ] ] E[V[Y\mid X]] E [ V [ Y ∣ X ]] は「分散を期待値 」(級内=各グループ内のばらつきの平均)、V [ E [ Y ∣ X ] ] V[E[Y\mid X]] V [ E [ Y ∣ X ]] は「期待値を分散 」(級間=グループ平均どうしのばらつき)。内側が分散か期待値かで項が決まります。これを取り違えると2項が入れ替わってしまうので注意です。
Q. 2変量正規の条件付き分散が x x x によらないのは変では?
A. 2変量正規の性質です。V [ Y ∣ X = x ] = σ Y 2 ( 1 − ρ 2 ) V[Y\mid X=x]=\sigma_Y^2(1-\rho^2) V [ Y ∣ X = x ] = σ Y 2 ( 1 − ρ 2 ) に x x x は入りません(どこを切っても同じ幅=等分散)。一方で条件付き期待値 は x x x の1次関数なので、中心は x x x とともに動きます。「中心は動くが幅は一定」と整理してください。
まとめ
同時分布 =全ペアの確率(離散はPMF、連続はPDFで体積)。
周辺分布 =相手を足し潰す/積分で潰す。
条件付き分布 =同時÷周辺で正規化(条件付き確率の確率変数版)。
独立 =同時が周辺の積、=条件付き分布が周辺分布に一致。
全期待値の法則 E [ Y ] = E [ E [ Y ∣ X ] ] E[Y]=E[E[Y\mid X]] E [ Y ] = E [ E [ Y ∣ X ]] 、全分散の法則 V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] V[Y]=E[V[Y\mid X]]+V[E[Y\mid X]] V [ Y ] = E [ V [ Y ∣ X ]] + V [ E [ Y ∣ X ]] (級内+級間)。準1級頻出。
2変量正規 は「無相関 ⟺ \iff ⟺ 独立」の特例で、条件付き分布も正規(平均は回帰直線、分散は一定)。
2級は「離散の同時分布表→周辺化・独立判定・共分散」まで、準1級は「条件付け・全分散の法則・2変量正規」まで、と深さが上がる。
対応するシミュレーション
simulations/doujibunpu_shuhen_nihen_seiki.py
何を示すか :2変量正規 ( X , Y ) (X,Y) ( X , Y ) を多数生成し、同時分布の散布図・X X X /Y Y Y それぞれの周辺分布ヒストグラム・「X ≈ x 0 X\approx x_0 X ≈ x 0 のスライス」での条件付き分布ヒストグラムを並べて描く。周辺化(相手を潰す)と条件付け(一部を固定)の直観を可視化。条件付き分布の平均が理論線 μ Y + ρ σ Y ( x − μ X ) / σ X \mu_Y+\rho\sigma_Y(x-\mu_X)/\sigma_X μ Y + ρ σ Y ( x − μ X ) / σ X に乗ること、条件付き分散が σ Y 2 ( 1 − ρ 2 ) \sigma_Y^2(1-\rho^2) σ Y 2 ( 1 − ρ 2 ) に一致することも確認。
結論(seed=0, n=20万) :μ = ( 0 , 0 ) , σ = ( 1 , 1 ) , ρ = 0.7 \mu=(0,0),\sigma=(1,1),\rho=0.7 μ = ( 0 , 0 ) , σ = ( 1 , 1 ) , ρ = 0.7 で、スライス X ≈ 1.0 X\approx1.0 X ≈ 1.0 (帯幅±0.05・4886点)の条件付き平均 実測=0.699 (理論 0 + 0.7 ⋅ 1 ⋅ 1 = 0.700 0+0.7\cdot1\cdot1=0.700 0 + 0.7 ⋅ 1 ⋅ 1 = 0.700 )、条件付き標準偏差 実測=0.699 (理論 1 − 0.7 2 = 0.714 \sqrt{1-0.7^2}=0.714 1 − 0. 7 2 = 0.714 )。周辺は X X X 平均−0.002・標準偏差1.001、Y Y Y 平均0.003・標準偏差0.997(理論 平均0・標準偏差1)。散布図は右上がりの楕円、周辺は左右対称の釣鐘、条件付きは元より細い釣鐘で中心が右にずれる。
simulations/doujibunpu_shuhen_zenbunsan.py
何を示すか :全分散の法則 V [ Y ] = E [ V [ Y ∣ X ] ] + V [ E [ Y ∣ X ] ] V[Y]=E[V[Y\mid X]]+V[E[Y\mid X]] V [ Y ] = E [ V [ Y ∣ X ]] + V [ E [ Y ∣ X ]] をモンテカルロで実証。X X X で3つのグループを選び、グループごとに平均・分散の異なる Y Y Y を生成し、全体分散=級内分散の平均+級間分散が数値一致することを確認。
結論(seed=0, n=30万, 3グループ) :全分散 実測=32.384 = 級内分散の平均=10.094 (E [ V [ Y ∣ X ] ] E[V[Y\mid X]] E [ V [ Y ∣ X ]] )+ 級間分散=22.290 (V [ E [ Y ∣ X ] ] V[E[Y\mid X]] V [ E [ Y ∣ X ]] )。左辺−右辺合計の差=0.0000で完全一致し、級内変動+級間変動への分解を裏づける。相関比 η 2 = \eta^2= η 2 = 級間/全分散= 0.688 =0.688 = 0.688 (X X X でのグループ分けが Y Y Y の分散の約69%を説明)。グループ別ヒストグラムで「各山の幅=級内」「山の中心(破線)の散らばり=級間」が見える。
関連ノート
条件付き確率・独立性・全確率の定理 (条件付き確率・独立性 ── P ( B ∣ A ) = P ( A ∩ B ) / P ( A ) P(B\mid A)=P(A\cap B)/P(A) P ( B ∣ A ) = P ( A ∩ B ) / P ( A ) の確率変数版が条件付き分布 p ( y ∣ x ) = p ( x , y ) / p X ( x ) p(y\mid x)=p(x,y)/p_X(x) p ( y ∣ x ) = p ( x , y ) / p X ( x ) 。事象の独立の確率変数版が p ( x , y ) = p X p Y p(x,y)=p_Xp_Y p ( x , y ) = p X p Y 。全確率の定理の期待値版が全期待値の法則。後方リンク)
期待値・分散の性質(線形性・和の分散・共分散) (期待値・分散の性質 ── E [ X + Y ] E[X+Y] E [ X + Y ] 導出で使った周辺化 ∑ y p ( x , y ) = p X \sum_y p(x,y)=p_X ∑ y p ( x , y ) = p X をここで基礎づけ。E [ X Y ] E[XY] E [ X Y ] ・共分散・「無相関でも独立とは限らない/2変量正規は例外」をここで同時PDF分解として証明。後方リンク)
確率変数(離散・連続)と期待値・分散 (確率変数・PMF/PDF ── 1変数の確率分布・期待値・分散。同時分布はその2変数版。PDFの値は確率でない(確率は面積/体積)の注意もここ。後方リンク)
2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変 (2変数の記述統計・共分散・相関 ── 標本の散布図・s x y s_{xy} s x y ・r r r 。同時分布はその母集団・理論版。後方リンク)
確率変数の変換・モーメント母関数・積率 (確率変数の変換・モーメント母関数 ── 同時分布から Z = X + Y Z=X+Y Z = X + Y などの分布を導く変換、独立和の母関数の積。前方リンク・次トピック)
大数の法則(弱法則・強法則) (大数の法則 ── 独立同分布和の挙動。前方リンク)
中心極限定理(CLT) (中心極限定理 ── 独立和が正規に近づく。前方リンク)