← 統計検定テキスト 一覧

📊 対象級:2級 | 重要度:A(頻出)

確率変数(離散・連続)と期待値・分散 ── PMF/PDF・E[X]・V[X]・分散公式の導出

要点(BLUF)

本文

確率変数とは(標本空間 → 実数の写像)

確率変数 XX とは、標本空間 Ω\Omega(起こりうる結果すべて)の各結果 ω\omega に実数 X(ω)X(\omega) を対応させる関数(写像) X:ΩRX:\Omega\to\mathbb{R}。「変数」と呼ぶが実体は関数で、XX がとる値が確率に従ってばらつく。値の与え方(確率分布)でとびとびか連続かが決まる。

flowchart LR
  subgraph S["標本空間 Ω(偶然の結果)"]
    a["表・表"]
    b["表・裏"]
    c["裏・裏"]
  end
  a -->|"X = 2"| R["実数 ℝ"]
  b -->|"X = 1"| R
  c -->|"X = 0"| R

例:コイン2回で表の回数 XX。結果「表表」2\mapsto2、「表裏」「裏表」1\mapsto1、「裏裏」0\mapsto0。偶然の結果に数を貼り付ける関数。

離散型確率変数連続型確率変数
とりうる値とびとび(0,1,2,0,1,2,\dots連続(区間の実数すべて)
サイコロの目・表の回数・不良品数身長・待ち時間・測定値
確率の与え方PMF p(x)p(x)(=確率そのもの)PDF f(x)f(x)(密度、確率ではない)

離散:確率質量関数 PMF

p(x)=P(X=x),p(x)0,xp(x)=1p(x)=P(X=x),\qquad p(x)\ge0,\quad \sum_{x}p(x)=1

離散では p(x)p(x) がそのまま確率。サイコロ:p(1)==p(6)=16p(1)=\cdots=p(6)=\frac16、和 =1=1

連続:確率密度関数 PDF(ここが最大の関門)

身長がぴったり170.000…cmになる確率は? 値が連続無限にあるので1点の確率は0。だから「1点の確率」ではなく「区間の確率」を考える。それを与えるのが PDF f(x)f(x)

f(x)0,f(x)dx=1,P(aXb)=abf(x)dxf(x)\ge0,\quad \int_{-\infty}^{\infty}f(x)\,dx=1,\qquad P(a\le X\le b)=\int_a^b f(x)\,dx

確率は密度のグラフとx軸が囲む面積(積分)1点の確率は aafdx=0\int_a^a f\,dx=0f(x)f(x) は1を超えてよい(密度であって確率ではない。例:[0,0.5][0,0.5] 上の一様で f=2f=2、高さ2×幅0.5=面積1)。

この2つの誤解(f(x)f(x) は1以下/P(X=a)=f(a)P(X=a)=f(a))の根っこは同じで、「密度(高さ)と確率(面積)を混同している」こと。確率は必ず「幅をもった区間の面積」で考える。

累積分布関数 CDF(離散・連続共通)

F(x)=P(Xx),連続なら F(x)=xf(t)dt, f(x)=F(x), P(aXb)=F(b)F(a)F(x)=P(X\le x),\qquad \text{連続なら } F(x)=\int_{-\infty}^x f(t)\,dt,\ f(x)=F'(x),\ P(a\le X\le b)=F(b)-F(a)

00 から 11 へ単調増加(離散は階段、連続は滑らか曲線)。区間の確率は引き算 F(b)F(a)F(b)-F(a) で出せて便利。

離散↔連続の対応(\sum \leftrightarrow \int

概念離散連続
確率PMF p(x)p(x)PDF f(x)f(x)(密度)
1点の確率p(x)p(x)(>0 可)0
全体p(x)=1\sum p(x)=1fdx=1\int f\,dx=1
区間axbp(x)\sum_{a\le x\le b}p(x)abfdx\int_a^b f\,dx
期待値xp(x)\sum x\,p(x)xfdx\int x f\,dx
分散(xμ)2p(x)\sum (x-\mu)^2 p(x)(xμ)2fdx\int (x-\mu)^2 f\,dx

「離散の xp(x)\sum_x\,\cdot\,p(x) → 連続の f(x)dx\int\,\cdot\,f(x)\,dx」が連続型公式の作り方。この1行が連続型の公式すべての作り方。

期待値(平均の理論版)

E[X]=xxp(x)(離散),E[X]=xf(x)dx(連続),μ:=E[X]E[X]=\sum_x x\,p(x)\quad(\text{離散}),\qquad E[X]=\int_{-\infty}^{\infty}x\,f(x)\,dx\quad(\text{連続}),\qquad \mu:=E[X]

「値 × 確率」を全部足す=分布の重心、長期平均。記述統計の平均 xˉ=1nxi\bar{x}=\frac1n\sum x_i は「重み 1n\frac1n 均等の加重平均」、期待値はその重みを確率 p(x)p(x) に替えたもの。両者は大数の法則(大数の法則(弱法則・強法則))で連結(nn\to\inftyxˉE[X]\bar{x}\to E[X])。

サイコロ:E[X]=1+2++66=216=3.5E[X]=\frac{1+2+\cdots+6}{6}=\frac{21}{6}=3.5期待値3.5は「サイコロの目に3.5は無い」のに出てくるのがポイント。期待値は「1回1回で必ず出る値」ではなく「何回も振って平均したら近づく値(長期平均)」だから。

分散(散らばりの理論版)

V[X]=E[(Xμ)2],σ=V[X]V[X]=E[(X-\mu)^2],\qquad \sigma=\sqrt{V[X]}

期待値からのズレの2乗を確率で重みづけ平均。2乗する理由・標準偏差に戻す理由は記述統計と同じ(散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか))。標準偏差は元の単位、分散は2乗の単位。

計算公式(頻出・主役)

V[X]=E[X2](E[X])2(「2乗の期待値 − 期待値の2乗」)\boxed{\,V[X]=E[X^2]-(E[X])^2\,}\quad(\text{「2乗の期待値 − 期待値の2乗」})

定義式 E[(Xμ)2]E[(X-\mu)^2] より計算が速い。導出は「数式の直観的意味」で示す。

代表的な確率変数

ベルヌーイ分布(離散・0/1の最小単位)

「成功なら X=1X=1(確率 pp)、失敗なら X=0X=0(確率 1p1-p)」というコイン投げ1回のような最も単純な確率変数。二項分布や比率の推定の土台。

E[X]=1p+0(1p)=pE[X]=1\cdot p+0\cdot(1-p)=p

XX が0か1しかとらないので X2=XX^2=X02=0, 12=10^2=0,\ 1^2=1)。したがって E[X2]=E[X]=pE[X^2]=E[X]=p。公式に入れると

V[X]=E[X2](E[X])2=pp2=p(1p)V[X]=E[X^2]-(E[X])^2 = p - p^2 = p(1-p)

要するに「成功確率 pp が期待値、p(1p)p(1-p) が分散」。分散は p=0.5p=0.5 で最大(最も予測しにくい)、p=0p=0p=1p=1 で0(結果が確定)。

離散一様分布(サイコロ)

11nn が等確率なら E[X]=n+12E[X]=\dfrac{n+1}{2}V[X]=n2112V[X]=\dfrac{n^2-1}{12}n=6n=6E=3.5E=3.5V=3512V=\dfrac{35}{12}

連続一様分布(区間 [a,b][a,b] 上で一定)

密度は一定なので、面積1になるよう高さは f(x)=1baf(x)=\dfrac{1}{b-a}axba\le x\le b、それ以外は0)。

E[X]=abx1badx=b2a22(ba)=a+b2E[X]=\int_a^b x\cdot\frac{1}{b-a}\,dx = \frac{b^2-a^2}{2(b-a)}=\frac{a+b}{2} E[X2]=abx21badx=b3a33(ba)=a2+ab+b23(b3a3=(ba)(a2+ab+b2))E[X^2]=\int_a^b x^2\cdot\frac{1}{b-a}\,dx=\frac{b^3-a^3}{3(b-a)}=\frac{a^2+ab+b^2}{3}\quad(b^3-a^3=(b-a)(a^2+ab+b^2)) V[X]=a2+ab+b23(a+b2)2=(ba)212V[X]=\frac{a^2+ab+b^2}{3}-\left(\frac{a+b}{2}\right)^2=\frac{(b-a)^2}{12}

要するに「期待値=区間の中点 a+b2\frac{a+b}{2}、分散 (ba)212\frac{(b-a)^2}{12}」。離散一様(サイコロ)の分散 n2112\frac{n^2-1}{12} と同じ「12分の」構造になっているのが面白いところ。

試験での問われ方

数式の直観的意味

なぜ期待値は「値 × 確率」の和か(重心・長期平均)

期待値は物理の重心そのもの。数直線上の位置 xx に「質量 p(x)p(x)」を置いたときのバランス点が xp(x)\sum x\,p(x)。等質量(p=1np=\frac1n 均等)なら記述統計の平均に一致。確率的意味では、同分布の独立反復 X1,,XnX_1,\dots,X_n の標本平均 Xˉn=1nXi\bar{X}_n=\frac1n\sum X_inn\to\inftyE[X]E[X] に確率収束する(大数の法則)。ゆえに「期待値=無限回試行の平均=長期平均」。3.5が「1回では出ない値」なのに意味を持つのはこのため。

なぜ V[X]=E[X2](E[X])2V[X]=E[X^2]-(E[X])^2 か(定義の展開、線形性を最小限だけ使用)

μ=E[X]\mu=E[X]定数(Xμ)2=X22μX+μ2(X-\mu)^2=X^2-2\mu X+\mu^2 を展開し、両辺に EE をとる。使う性質は「和の期待値=期待値の和」「定数倍は外」「定数の期待値はその定数」の3つだけ(線形性の一般論は 期待値・分散の性質(線形性・和の分散・共分散)):

V[X]=E[X2]E[2μX]+E[μ2]=E[X2]2μE[X]+μ2V[X]=E[X^2]-E[2\mu X]+E[\mu^2]=E[X^2]-2\mu E[X]+\mu^2

E[X]=μE[X]=\mu を代入:2μμ+μ2=2μ2+μ2=μ2-2\mu\cdot\mu+\mu^2=-2\mu^2+\mu^2=-\mu^2。よって

V[X]=E[X2]μ2=E[X2](E[X])2.V[X]=E[X^2]-\mu^2=E[X^2]-(E[X])^2.

山は中央項 2μ2-2\mu^2 と末尾 +μ2+\mu^2 の打ち消しで μ2-\mu^2 が残る点。V[X]0V[X]\ge0 ゆえ常に E[X2](E[X])2E[X^2]\ge(E[X])^2(一致は XX が定数のときのみ)。

サイコロの分散の2通り計算(一致確認)

連続一様 [a,b][a,b] の導出

E[X]=1baabxdx=1bab2a22=a+b2E[X]=\frac{1}{b-a}\int_a^b x\,dx=\frac{1}{b-a}\cdot\frac{b^2-a^2}{2}=\frac{a+b}{2}E[X2]=1baabx2dx=1bab3a33=a2+ab+b23E[X^2]=\frac{1}{b-a}\int_a^b x^2\,dx=\frac{1}{b-a}\cdot\frac{b^3-a^3}{3}=\frac{a^2+ab+b^2}{3}b3a3=(ba)(a2+ab+b2)b^3-a^3=(b-a)(a^2+ab+b^2))。 V[X]=a2+ab+b23(a+b)24=4(a2+ab+b2)3(a2+2ab+b2)12=(ba)212V[X]=\frac{a^2+ab+b^2}{3}-\frac{(a+b)^2}{4}=\frac{4(a^2+ab+b^2)-3(a^2+2ab+b^2)}{12}=\frac{(b-a)^2}{12}

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q. 「確率変数」って結局、変数なんですか関数なんですか?

A. 中身は**関数(写像)**です。標本空間の各結果(偶然の出来事)に実数を1つ割り当てる関数が確率変数 XX で、その XX がとる値が確率に従ってばらつくので「変数」と呼ばれます。「偶然の結果に数を貼り付けるルール」と思えば十分です。具体的な1つの結果に対しては1つの値が決まる、という意味では関数です。

Q. なぜ連続型だと1点の確率が0になるんですか? おかしくないですか?

A. 連続型は値が無限に細かく存在するためです。P(X=a)=aaf(x)dx=0P(X=a)=\int_a^a f(x)\,dx=0(幅0の積分は0)。直観的には「身長がぴったり170.0000…cm(無限桁まで一致)の人の割合は事実上0」。だから連続型では1点ではなく「169.5〜170.5cm」のような区間(幅のある範囲)の確率を考えます。確率は点ではなく面積、と覚えてください。

Q. 確率密度 f(x)f(x) が1を超えるのは間違いでは?

A. 間違いではありません。f(x)f(x) は確率ではなく**密度(単位長さあたりの確率)**です。たとえば [0,0.5][0,0.5] 上の一様分布は f(x)=2f(x)=2(高さ2)ですが、幅0.5を掛けた面積は 2×0.5=12\times0.5=1 できちんと1です。1を超えてはいけないのは”面積”のほうで、高さ(密度)は1を超えても全く問題ありません。これは2級で本当によく狙われる誤解です。

Q. E[X2]E[X^2](E[X])2(E[X])^2 はなぜ違うんですか?

A. 一般に「2乗してから平均」と「平均してから2乗」は別物だからです。サイコロなら E[X2]=91615.17E[X^2]=\frac{91}{6}\approx15.17(E[X])2=3.52=12.25(E[X])^2=3.5^2=12.25 で確かに違います。そしてこの差 15.1712.25=2.9215.17-12.25=2.92 こそが分散 V[X]=E[X2](E[X])2V[X]=E[X^2]-(E[X])^2両者が一致するのは「XX が定数(ばらつき0)」のときだけで、ばらつきがある限り必ず E[X2]>(E[X])2E[X^2]>(E[X])^2 になります(だから分散は常に0以上)。

Q. 期待値3.5は実際には出ない目なのに、何の意味があるんですか?

A. 期待値は「1回で出る値」ではなく「何度も繰り返した平均の行き着く先(長期平均)」です。サイコロを1万回振って平均を取れば3.5にとても近づきます(シミュレーション①で確認)。賭けの損得計算や保険料の設定など、「長い目で見た平均」を知りたい場面で威力を発揮します。1回ごとの結果ではなく、長期の振る舞いを表す数だと理解してください。

Q. 記述統計の平均・分散と、期待値・分散はどう違うんですか?

A. **同じものの「データ版」と「理論版」**です。記述統計の平均 xˉ\bar{x}・分散 s2s^2 は手元のデータから計算する値(標本)。期待値 E[X]E[X]・分散 V[X]V[X] は確率分布から理論的に決まる値(母集団)。両者は大数の法則で結ばれ、データを増やすほど標本の値が理論値に近づきます。「期待値・分散は、無限のデータを持っていたとしたら得られる平均・分散」と考えると接続が見えます。

まとめ

対応するシミュレーション

期待値は長期平均(標本平均が3.5に収束)

分散の定義式と公式が一致・期待値は重心

関連ノート