← 統計検定テキスト 一覧

📊 対象級:2級 ・ 準1級 | 重要度:A(頻出)

中心極限定理(CLT)── MGFによる証明/ド・モアブル=ラプラス/連続性補正

要点(BLUF)

本文

0. まず日常のイメージ:身長の平均

クラス1人の身長は、低い人も高い人もいてバラバラ(母集団の分布は別に正規とは限らない)。ところが「ランダムに30人選んでその平均身長」を何度も計算してみると、その平均値たちの分布は、きれいな左右対称の釣鐘型(正規分布)になる。

ポイントは2つ。

  1. 元の1人ひとりがどんな分布でも、平均をとると正規になる(CLTの普遍性)。
  2. 平均値のばらつきは元のばらつきより小さいσ/30\sigma/\sqrt{30} に縮む)。だから「平均」は1人の値より安定する。

選挙の出口調査や工場の品質管理が「平均」を見て少ない標本から全体を語れるのは、この定理のおかげ。

1. 中心極限定理は何を言っているか

直観:「たくさんの独立な確率変数を足して平均すると、元が何であろうと、その平均は正規分布の形になる」。サイコロの目(一様)でも、待ち時間(指数で右に歪む)でも、コインの表裏(ベルヌーイ)でも、十分多く集めて平均すれば、その標本平均の分布は釣鐘型(正規)になる。これがCLTで、統計学が正規分布を主役に据える最大の理由。

設定は大数の法則(大数の法則(弱法則・強法則))と同じ 独立同分布(i.i.d.) X1,X2,X_1,X_2,\dots で、母平均 μ=E[Xi]\mu=E[X_i] と母分散 σ2=V[Xi]\sigma^2=V[X_i] がともに有限0<σ2<0<\sigma^2<\infty)。

大数の法則は「Xˉn\bar X_nμ\mu収束する(散らばりが消えて1点に潰れる)」までしか言わない。CLTはそのを述べる——潰れていく途中の「揺らぎの形」が正規だ、と。だから「収束」ではなく「分布収束(distribution convergence)」がCLTの結論。

2. CLTの3つの同値な表現

主張は次のどれで書いても同じ(nn が大きいときの近似形)。試験ではこの使い分けが問われる。

表現何を近似しているか主な使い所
標準化形(収束の本体)Xˉnμσ/ndN(0,1)\dfrac{\bar X_n-\mu}{\sigma/\sqrt n}\xrightarrow{d}N(0,1)標準化した標本平均 → 標準正規証明・確率計算(zz 値)
標本平均の形Xˉn  N ⁣(μ, σ2n)\bar X_n\ \approx\ N\!\left(\mu,\ \dfrac{\sigma^2}{n}\right)標本平均そのものの分布区間推定・標準誤差
総和の形i=1nXi  N(nμ, nσ2)\displaystyle\sum_{i=1}^n X_i\ \approx\ N(n\mu,\ n\sigma^2)合計値の分布合計の確率(二項など)

3つは Xˉn=1nXi\bar X_n=\frac1n\sum X_i の平均・分散(E[Xˉn]=μ, V[Xˉn]=σ2/nE[\bar X_n]=\mu,\ V[\bar X_n]=\sigma^2/n期待値・分散の性質(線形性・和の分散・共分散))で互いに変換できる。標準偏差 σ/n\sigma/\sqrt n を標準誤差(standard error, SE)と呼び、Phase 4 の推定・検定で中心的役割を果たす。

flowchart LR
    A["i.i.d. の和<br/>X1, X2, ..., Xn"] --> B["標準化<br/>(平均ひいて σ/√n で割る)"]
    B --> C["n を大きくする<br/>(n → ∞)"]
    C --> D["標準正規分布<br/>N(0, 1)"]

注意:CLTが述べるのは標準化した ZnZ_nN(0,1)N(0,1) に収束すること。Xˉn\bar X_n 自身は μ\mu に潰れる(大数の法則)ので「Xˉn\bar X_n が正規分布に収束する」という言い方は不正確。正しくは「Xˉn\bar X_n は近似的に N(μ,σ2/n)N(\mu,\sigma^2/n) に従う」。

3. MGFによるCLTの証明 ── 本トピックの山

ここは数式が続きます。証明の流れだけ知りたい方は、各ステップの太字の一言を拾って読み飛ばしてOKです。

確率変数の変換・モーメント母関数・積率 で用意した道具(MGF、独立和はMGFの積、一意性)がここで全部使われる。これがPhase 2の数理の集大成。

【設定】標準化してから足す まず各 XiX_i を標準化した YiY_i を作る:

Yi=XiμσE[Yi]=0,  V[Yi]=E[Yi2]=1.Y_i=\frac{X_i-\mu}{\sigma}\quad\Longrightarrow\quad E[Y_i]=0,\ \ V[Y_i]=E[Y_i^2]=1.

YiY_i は i.i.d.、平均0・分散1。V[Y]=E[Y2](E[Y])2=E[Y2]=1V[Y]=E[Y^2]-(E[Y])^2=E[Y^2]=1。)すると目標の ZnZ_n

Zn=Xˉnμσ/n=n(Xˉnμ)σ=1ni=1nXiμσ=1ni=1nYi.Z_n=\frac{\bar X_n-\mu}{\sigma/\sqrt n}=\frac{\sqrt n(\bar X_n-\mu)}{\sigma} =\frac{1}{\sqrt n}\sum_{i=1}^n \frac{X_i-\mu}{\sigma} =\frac{1}{\sqrt n}\sum_{i=1}^n Y_i.

要するに**「標準化した変数を nn 個足して n\sqrt n で割る」**のが ZnZ_n

【道具1】独立和のMGFは積確率変数の変換・モーメント母関数・積率) 独立な確率変数の和のMGFは各MGFの積。さらに定数倍 aYaY のMGFは MaY(t)=MY(at)M_{aY}(t)=M_Y(at)。これを Zn=(Yi/n)Z_n=\sum (Y_i/\sqrt n) に適用:

MZn(t)=E ⁣[etZn]=E ⁣[exp ⁣(tniYi)]=i=1nE ⁣[e(t/n)Yi]=[MY ⁣(tn)]n.M_{Z_n}(t)=E\!\left[e^{t Z_n}\right] =E\!\left[\exp\!\Big(\tfrac{t}{\sqrt n}\textstyle\sum_i Y_i\Big)\right] =\prod_{i=1}^n E\!\left[e^{(t/\sqrt n)Y_i}\right] =\Big[M_Y\!\Big(\tfrac{t}{\sqrt n}\Big)\Big]^{n}.

YiY_i が i.i.d. なので各因子が同じ MY(t/n)M_Y(t/\sqrt n) になり、nn 乗にまとまる。)

【道具2】MYM_Y をテイラー展開すると1次が消える MGFのテイラー展開は MY(s)=kskk!E[Yk]M_Y(s)=\sum_k \frac{s^k}{k!}E[Y^k]確率変数の変換・モーメント母関数・積率)。YY は平均0・分散1なので E[Y0]=1, E[Y]=0, E[Y2]=1E[Y^0]=1,\ E[Y]=0,\ E[Y^2]=1。よって s0s\to0

MY(s)=1+E[Y]=0s+E[Y2]2s2+o(s2)=1+s22+o(s2).M_Y(s)=1+\underbrace{E[Y]}_{=0}\,s+\frac{E[Y^2]}{2}s^2+o(s^2) =1+\frac{s^2}{2}+o(s^2).

ここが核心:標準化したおかげで1次の項 E[Y]sE[Y]\,s が消え、最低次の情報が「2次の s22\frac{s^2}{2}」になる。正規分布のMGF et2/2e^{t^2/2} の指数部が t2t^2 なのは、ここで2次が生き残ることに由来する。

【合流】s=t/ns=t/\sqrt n を代入して nn 乗の極限をとる s=t/ns=t/\sqrt n とおくと s2=t2/ns^2=t^2/n なので

MY ⁣(tn)=1+t22n+o ⁣(1n).M_Y\!\Big(\tfrac{t}{\sqrt n}\Big)=1+\frac{t^2}{2n}+o\!\Big(\frac1n\Big).

これを nn 乗する:

MZn(t)=[1+t22n+o ⁣(1n)]n n et2/2.M_{Z_n}(t)=\Big[\,1+\frac{t^2}{2n}+o\!\big(\tfrac1n\big)\Big]^{n}\ \xrightarrow[n\to\infty]{}\ e^{t^2/2}.

極限の根拠は (1+an)nea\big(1+\frac{a}{n}\big)^n\to e^{a}a=t2/2a=t^2/2)。o(1/n)o(1/n) の項は nn 乗しても消える(no(1/n)0n\cdot o(1/n)\to0)。

【結論】一意性で締める確率変数の変換・モーメント母関数・積率et2/2e^{t^2/2}標準正規 N(0,1)N(0,1) のMGF。MGFが(0の近傍で)一致すれば分布が一致する(一意性)ので

 Zn d N(0,1). \boxed{\ Z_n\ \xrightarrow{d}\ N(0,1).\ }\qquad\blacksquare

要するに証明の骨は3行:「独立和でMGFが [MY(t/n)]n[M_Y(t/\sqrt n)]^n に → 標準化で1次が消え2次の t22n\frac{t^2}{2n} だけ残る → nn 乗の極限が et2/2e^{t^2/2}。母分布の形(3次以上のモーメント)は o(1/n)o(1/n) に押し込まれて消えるので、結論が母分布によらない。これがCLTの普遍性の数理的な理由。

厳密には「MGFが存在する」前提が要る(裾の重い分布だとMGFが無い)。MGFを使わず特性関数 φY(t)=E[eitY]\varphi_Y(t)=E[e^{itY}]確率変数の変換・モーメント母関数・積率、常に存在)で同じ計算をすれば、分散有限という条件だけで証明できる(リンドバーグ=レヴィの定理)。準1級ではMGF版で筋を理解すれば十分。

4. 大数の法則 vs 中心極限定理(潰す vs 拡大する)

同じ i.i.d. の標本平均 Xˉn\bar X_n を扱うのに、2つの定理は見る倍率が違う。大数の法則(弱法則・強法則) で予告した対比をここで確定させる。

大数の法則(LLN)中心極限定理(CLT)
主張Xˉnμ\bar X_n\to\muXˉnμσ/nN(0,1)\dfrac{\bar X_n-\mu}{\sigma/\sqrt n}\to N(0,1)
収束の種類確率収束 / 概収束分布収束 d\xrightarrow{d}
収束先μ\mu(散らばりが消える)分布の形(正規)
何を見ているかXˉn\bar X_n そのもの(虫眼鏡なし)→ 1点に潰れるn\sqrt n 倍に拡大した揺らぎ → 形が正規
倍率拡大しないn\sqrt n
必要な仮定μ\mu 存在(弱法則の証明は σ2<\sigma^2<\inftyμ,σ2\mu,\sigma^2 ともに有限
役割「平均は真の値に近づく」「近づくときの速さと揺らぎの形

直観:Xˉn\bar X_n をそのまま見ると散らばり σ/n\sigma/\sqrt n で点 μ\mu潰れる(LLN)。潰れた後は形が見えない。そこで n\sqrt n 倍に拡大して見ると、n(Xˉnμ)\sqrt n(\bar X_n-\mu) の分散は nσ2n=σ2n\cdot\frac{\sigma^2}{n}=\sigma^2 で一定に保たれ、その分布が N(0,σ2)N(0,\sigma^2) というに落ち着く(CLT)。さらに σ\sigma で割れば N(0,1)N(0,1)LLNは「点に潰れる」を、CLTは「n\sqrt n の虫眼鏡で見た揺らぎの形が正規」を見ている

5. ド・モアブル=ラプラスの定理(二項分布の正規近似)

CLTの歴史的に最初の特殊例(1733年ド・モアブル p=1/2p=1/2、1812年ラプラス一般 pp)。

二項分布 XBin(n,p)X\sim\mathrm{Bin}(n,p) は「成功確率 pp の独立試行を nn 回くりかえした成功回数」。これは独立な指示変数(ベルヌーイ)の和 X=i=1nXiX=\sum_{i=1}^n X_iXi{0,1}, P(Xi=1)=pX_i\in\{0,1\},\ P(X_i=1)=p)だから、まさにCLTの適用対象。ベルヌーイは E[Xi]=p, V[Xi]=p(1p)E[X_i]=p,\ V[X_i]=p(1-p)期待値・分散の性質(線形性・和の分散・共分散))なので、総和の形(第2節)より

X=i=1nXi  N(np, np(1p))(n 大).X=\sum_{i=1}^n X_i\ \approx\ N\big(np,\ np(1-p)\big)\qquad(n\ \text{大}).

要するに**「二項分布は nn が大きいと平均 npnp・分散 np(1p)np(1-p) の正規分布で近似できる」**。これがド・モアブル=ラプラスの定理。確率計算は標準化して

P(aXb)  Φ ⁣(bnpnp(1p))Φ ⁣(anpnp(1p))P(a\le X\le b)\ \approx\ \Phi\!\left(\frac{b-np}{\sqrt{np(1-p)}}\right)-\Phi\!\left(\frac{a-np}{\sqrt{np(1-p)}}\right)

Φ\Phi は標準正規の累積分布関数)。ただし離散を連続で近似するので、次の連続性補正が要る。

6. 連続性補正(continuity correction)

離散分布(二項・ポアソンなど)を連続分布(正規)で近似するとき、区間の端を外側に ±0.5\pm0.5 ずらす補正

なぜ要るか:二項分布は X=a,a+1,,bX=a,a+1,\dots,b という棒の集まり。各棒を「幅1の長方形」とみなすと、kk の棒は区間 [k0.5, k+0.5][k-0.5,\ k+0.5] を占める。だから「aa から bb までの棒の確率」を正規曲線の面積で拾うには、[a,b][a,b] ではなく両端の半分の棒まで含めた [a0.5, b+0.5][a-0.5,\ b+0.5] を積分しないと、端の棒を取りこぼす。

P(aXb)  Φ ⁣(b+0.5npnp(1p))Φ ⁣(a0.5npnp(1p)).P(a\le X\le b)\ \approx\ \Phi\!\left(\frac{b+0.5-np}{\sqrt{np(1-p)}}\right)-\Phi\!\left(\frac{a-0.5-np}{\sqrt{np(1-p)}}\right).

要するに**「棒の幅1を区間で拾うための ±0.5」**。不等号の向きで補正の向きが変わる(下表)。

求めたい確率(離散)連続性補正した区間
P(X=k)P(X=k)[k0.5, k+0.5][\,k-0.5,\ k+0.5\,]
P(aXb)P(a\le X\le b)[a0.5, b+0.5][\,a-0.5,\ b+0.5\,]
P(Xb)P(X\le b)(, b+0.5](-\infty,\ b+0.5\,]
P(Xa)P(X\ge a)[a0.5, )[\,a-0.5,\ \infty)
P(X<b)=P(Xb1)P(X<b)=P(X\le b-1)(, b0.5](-\infty,\ b-0.5\,]等号なしは先に整数へ直す

補正の効果は数値で大きい。本ノートのシミュ②では Bin(40,0.5)\mathrm{Bin}(40,0.5)P(18X22)P(18\le X\le 22) で、補正なしの誤差が補正ありの約155倍になる。

7. 正規近似の実用と注意(n30n\ge30 は目安)

8. 試験での問われ方

数式の直観的意味

なぜ「1次が消えて2次だけ残る」と正規になるのか

正規分布 N(0,1)N(0,1) のMGFは et2/2e^{t^2/2} で、指数部が tt の2次。一方、任意の平均0・分散1の分布のMGFは MY(s)=1+s22+(3次以上)M_Y(s)=1+\frac{s^2}{2}+(\text{3次以上}) と、最低次の生きた項が2次(1次は平均0で消える)。Zn=1nYiZ_n=\frac1{\sqrt n}\sum Y_i のスケーリング s=t/ns=t/\sqrt n は、s2=t2/ns^2=t^2/n を作って2次項をちょうど nn で割る——これを nn 乗すると (1+t2/2n)net2/2(1+\frac{t^2/2}{n})^n\to e^{t^2/2} で2次項だけが指数に上がる。3次以上は s3=t3/n3/2s^3=t^3/n^{3/2} のように nn の高い冪で割られ、nn 乗しても消えるnn3/2=n1/20n\cdot n^{-3/2}=n^{-1/2}\to0)。だから**「2次のモーメント(分散)だけが生き残り、3次以上(歪度・尖度)は薄まって消える」**。正規分布は2次のモーメントで決まる分布なので、結果が正規になる——これがCLTが母分布の細部を忘れて正規に収束する仕組み。

なぜ n\sqrt n で拡大するのか(倍率の必然性)

Xˉnμ\bar X_n-\mu の標準偏差は σ/n\sigma/\sqrt n期待値・分散の性質(線形性・和の分散・共分散))。これを「形が見える一定サイズ」に保つには、n\sqrt n 倍に拡大して標準偏差を nσn=σ\sqrt n\cdot\frac{\sigma}{\sqrt n}=\sigma にすればよい。n\sqrt n より小さい倍率(例 n1/3n^{1/3})だと拡大が足りず点に潰れたまま、大きい倍率(例 nn)だと拡大しすぎて散らばりが発散するn\sqrt n はちょうど揺らぎを一定に保つ唯一の倍率で、これがCLTのスケーリングが n\sqrt n である理由。大数の法則(拡大なし→潰れる)とCLT(n\sqrt n 拡大→形が出る)が連続的につながる。

なぜ連続性補正は 0.50.5 なのか(半分の必然性)

整数 kk の棒を「幅1の長方形」で表すと、隣の整数 k1,k+1k-1,k+1 との中点が境界になる。kkk+1k+1 の中点は k+0.5k+0.5kkk1k-1 の中点は k0.5k-0.5。だから kk の棒の縄張りは [k0.5,k+0.5][k-0.5,k+0.5] で、幅がちょうど1。0.50.5 は「隣との中点までの距離=棒の幅の半分」。だから補正値は分布によらず常に 0.50.5(幅1の整数格子の場合)。要するに**「離散の点を幅1の区間に展開したときの“のりしろ”が片側0.5」**。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q. 「標本平均が正規分布に収束する」と覚えていたのですが、違うのですか?

不正確です。Xˉn\bar X_n そのものは大数の法則でμ\mu に潰れます。正規分布に収束するのは標準化した Xˉnμσ/n\frac{\bar X_n-\mu}{\sigma/\sqrt n} です。実用上は「Xˉn\bar X_n は近似的に N(μ,σ2/n)N(\mu,\sigma^2/n) に従う」と言います。試験では「Xˉn\bar X_nN(0,1)N(0,1) に収束する」のような選択肢はバツです。

Q. 大数の法則とCLTは何が違うのですか?両方「標本平均」の話に見えます。

収束先が違います。 大数の法則は「標本平均がμ\mu に近づく」(散らばりが消える)。CLTは「n\sqrt n で拡大して見た揺らぎが正規分布の形になる」(散らばりの形が分かる)。大数の法則は形を言わず、CLTはその先の形まで言う、という関係です。

Q. 「どんな分布でも」と言いますが、本当に例外はないのですか?

母分散が有限であることが必要です。コーシー分布のように分散が無限大(確率変数の変換・モーメント母関数・積率)だとCLTは成り立ちません(コーシーの標本平均はまたコーシーで、正規に近づきません)。「分散が有限な i.i.d. なら」という条件付きの「どんな分布でも」です。

Q. なぜ補正値は 0.50.5 なのですか?

整数 kk の棒を「幅1の長方形」で表すと、隣の整数との中点が境界になります。kkk+1k+1 の中点は k+0.5k+0.5。だから棒の縄張りは [k0.5,k+0.5][k-0.5,k+0.5] で幅1になり、片側の「のりしろ」が 0.50.5 です。値がとびとびで間隔が1の離散分布なら、補正は常に 0.50.5 です。

Q. 標準化の分母は σ\sigma ではないのですか?

標本平均の確率計算では分母は σ/n\sigma/\sqrt n(標準誤差) です。標本平均の散らばりは σ\sigma ではなく σ/n\sigma/\sqrt n に縮んでいるからです。1個の値 XX の標準化(分母 σ\sigma)と取り違えやすいので注意してください。

まとめ

対応するシミュレーション

どんな母分布でも標本平均は正規になる

二項の正規近似と連続性補正の効果

関連ノート