← 統計検定テキスト 一覧

📊 対象級:2級 ・ 準1級 | 重要度:A(頻出)

大数の法則(大数の弱法則・強法則)── チェビシェフによる証明/確率収束・概収束/統計的確率の正当化

要点(BLUF)

本文

0. まず日常のイメージ:野球の打率

シーズン序盤、3打数2安打の選手は打率.667。でも「この選手は7割打つ」とは誰も思わない。打席が少ないと、たまたまの好調・不調で打率が大きくブレるから。ところが数百打席を重ねると打率はその選手の「真の実力(真の確率 pp)」、たとえば.280あたりに落ち着いていく。試行(打席)を増やすほど、観測した割合(打率)が真の確率に近づく——これがまさに大数の法則。逆に言うと少ないデータの平均はあてにならない、たくさん集めれば平均は信頼できる。統計でサンプルを多く取る理由そのもの。

1. 大数の法則とは何を言っているか

大数の法則:標本平均がμに収束

サイコロ(μ=3.5)の累積標本平均。試行を増やすほど各系列が母平均に収束する(散らばり σ²/n が0へ潰れる)。収束先は1点 μ。図は simulations/taisuu_housoku_shusoku.py で生成。

直観:「試行回数を増やすほど、標本平均は母平均(真の平均)に近づいていく」。サイコロを多く振るほど出目の平均が3.5に近づく、コインを多く投げるほど表の割合が0.5に近づく、というあの現象を厳密に述べたもの。

ただし「近づく」を数学的に詰めると 2通りの強さがある。これが弱法則と強法則の違いで、準1級ではこの区別が問われる。

設定はどちらも 独立同分布(i.i.d.)の確率変数列 X1,X2,X_1, X_2, \dots で、母平均 μ=E[Xi]\mu=E[X_i] が存在すること(弱法則の標準的証明ではさらに分散 σ2<\sigma^2<\infty を仮定)。

2. 大数の弱法則(WLLN)

Xˉn=1ni=1nXi p μすなわちε>0: limnP(Xˉnμε)=0\bar X_n=\frac1n\sum_{i=1}^n X_i\ \xrightarrow{p}\ \mu \qquad\text{すなわち}\qquad \forall\varepsilon>0:\ \lim_{n\to\infty}P\big(|\bar X_n-\mu|\ge\varepsilon\big)=0

これは要するに「許容幅 ε\varepsilon をどんなに小さく決めても、nn を十分大きくすれば、標本平均が母平均から ε\varepsilon 以上ズレる確率をいくらでも0に近づけられる」。収束しているのは『確率』であって、個々のパスが必ず収束するとは(弱法則だけからは)言っていない点に注意(これが強法則との差)。

3. 弱法則の証明(チェビシェフ + σ2/n\sigma^2/n)── 本トピックの山

たった2つの道具で証明できる。Phase 1とPhase 2で別々に学んだものがここで合流する。

【道具1】標本平均の期待値と分散期待値・分散の性質(線形性・和の分散・共分散)) i.i.d. なら

E[Xˉn]=μ,V[Xˉn]=V ⁣[1ni=1nXi]=1n2i=1nV[Xi]=1n2nσ2=σ2n.E[\bar X_n]=\mu,\qquad V[\bar X_n]=V\!\left[\frac1n\sum_{i=1}^n X_i\right]=\frac{1}{n^2}\sum_{i=1}^n V[X_i]=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n}.

1n2\frac1{n^2}n2n^2 と独立和の nn が約分。独立だから共分散の項が消えて V[Xi]=nσ2\sum V[X_i]=n\sigma^2。)要するに標本平均の散らばりは nn が増えると 1/n1/n で縮む

【道具2】チェビシェフの不等式標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め) 平均 mm・分散 vv をもつ任意の確率変数 YY に対し

P(Ymε)vε2(ε>0).P(|Y-m|\ge\varepsilon)\le\frac{v}{\varepsilon^2}\qquad(\varepsilon>0).

(分布の形を一切仮定しない=distribution-free。だから i.i.d. ならどんな母分布でも使える。)

【合流】 チェビシェフを Y=XˉnY=\bar X_nm=E[Xˉn]=μm=E[\bar X_n]=\muv=V[Xˉn]=σ2/nv=V[\bar X_n]=\sigma^2/n に適用:

P(Xˉnμε)  V[Xˉn]ε2 = σ2nε2\boxed{\,P\big(|\bar X_n-\mu|\ge\varepsilon\big)\ \le\ \frac{V[\bar X_n]}{\varepsilon^2}\ =\ \frac{\sigma^2}{n\varepsilon^2}\,}

右辺は ε\varepsilon を固定すれば nn\to\inftyσ2nε20\dfrac{\sigma^2}{n\varepsilon^2}\to0。確率は0以上なので、左辺は0と右辺の間に挟まれて(はさみうち)

limnP(Xˉnμε)=0.\lim_{n\to\infty}P\big(|\bar X_n-\mu|\ge\varepsilon\big)=0.\qquad\blacksquare

要するに**「散らばりが σ2/n\sigma^2/n で0に潰れる + チェビシェフでそれを確率の上限に翻訳」**の2行。これが大数の弱法則の証明のすべて。

論理の流れを図にすると次のとおり。

flowchart LR
  A["i.i.d. の標本平均 X̄n"] --> B["V[X̄n] = σ²/n<br/>(散らばりが 1/n で縮む)"]
  A --> C["チェビシェフの不等式<br/>P(ズレ≥ε) ≤ 分散/ε²"]
  B --> D["P(&#124;X̄n−μ&#124;≥ε) ≤ σ²/(nε²)"]
  C --> D
  D --> E["n→∞ で右辺→0<br/>= 確率収束(弱法則)"]

4. 大数の強法則(SLLN)と収束の強さの違い

強法則は同じ i.i.d.(μ\mu が存在すれば分散の有限性すら不要)で、より強い結論を出す:

P(limnXˉn=μ)=1すなわちXˉn a.s. μ(概収束, almost sure)P\Big(\lim_{n\to\infty}\bar X_n=\mu\Big)=1 \qquad\text{すなわち}\qquad \bar X_n\ \xrightarrow{a.s.}\ \mu\quad(\text{概収束, almost sure})

弱法則と強法則の差(準1級の山)

弱法則(WLLN)強法則(SLLN)
収束の種類確率収束 Xˉnpμ\bar X_n\xrightarrow{p}\mu概収束 Xˉna.s.μ\bar X_n\xrightarrow{a.s.}\mu
主張の形nn で「外れる確率」が0に近づくパスそのものが(確率1で)μ\mu に収束する
直観「ある nn で外れている割合」が0へ「十分先では、ほぼすべてのパスが μ\mu に張り付いて二度と離れない」
必要な仮定(標準)σ2<\sigma^2<\infty(チェビシェフ証明の場合)μ\mu が存在すれば可(分散不要)
強さ弱い強い(強法則 ⟹ 弱法則、逆は一般に不成立)
証明の難度チェビシェフで易しい難しい(1級範囲。本ノートは主張と直観まで)

含意の向き:強法則 ⟹ 弱法則。「各パスがほぼ確実に収束する」(概収束)なら「外れる確率も0に近づく」(確率収束)が従う。逆は一般に成り立たない(確率収束しても、特定のパスが無限回外れ続けることはありうる)。

強法則の証明は1級範囲なので本ノートでは扱わない。主張(概収束)と弱法則との違い(確率収束 vs 概収束、強⟹弱)が言えれば準1級は十分

5. 収束概念の整理(確率収束・概収束・分布収束)

大数の法則と中心極限定理を区別するうえで核心。3つの収束を1つの表で押さえる。

収束の種類記号定義(要点)何に収束するか代表例
概収束a.s.\xrightarrow{a.s.}P(limnXn=X)=1P(\lim_{n}X_n=X)=1(パスがほぼ確実に各点収束)点(確率変数 XX大数の強法則
確率収束p\xrightarrow{p}$\forall\varepsilon>0:\ P(X_n-X\ge\varepsilon)\to0$
分布収束(法則収束)d\xrightarrow{d}累積分布関数が収束 FXn(x)FX(x)F_{X_n}(x)\to F_X(x)(連続点で)分布(の形)中心極限定理 中心極限定理(CLT)

含意の向き(強い→弱い)

概収束  確率収束  分布収束\text{概収束}\ \Longrightarrow\ \text{確率収束}\ \Longrightarrow\ \text{分布収束}

要するに大数の法則は「行き先が点 μ\mu(確率収束・概収束)、中心極限定理は「行き先が分布の形(正規)」(分布収束)。同じ標本平均を扱うのに、大数の法則は「Xˉn\bar X_nμ\mu という1点に潰れる」ことを、中心極限定理はその先で「n(Xˉnμ)\sqrt n(\bar X_n-\mu) という拡大して見た揺らぎが正規分布の形になる」ことを述べる。収束先が点か形かで別の定理だと理解する。

6. 統計的確率の正当化(ベルヌーイの大数の法則)

確率の基本(定義・加法定理・乗法定理)で「統計的確率=相対頻度 r/nr/n の極限」と定義したが、その正当化が大数の法則。

事象 AA が起きたら1・起きなかったら0をとる指示変数 Xi{0,1}X_i\in\{0,1\}(ベルヌーイ)を考える。P(Xi=1)=p=P(A)P(X_i=1)=p=P(A) とすると、

これに大数の法則を適用すると Xˉnp\bar X_n\to p、すなわち

rn  p=P(A).\frac{r}{n}\ \longrightarrow\ p=P(A).

要するに**「試行を増やせば相対頻度は真の確率に収束する」**。これが「たくさん試せば頻度=確率」と安心して言える根拠。歴史的にはヤコブ・ベルヌーイが1713年に示した(ベルヌーイの大数の法則)。指示変数の分散は p(1p)<p(1-p)<\infty なので、第3節のチェビシェフ証明がそのまま使える(σ2=p(1p)\sigma^2=p(1-p))。

7. 適用限界(分散・期待値が無いと成り立たない)

大数の法則は母平均 μ\mu が存在することが前提。チェビシェフ証明はさらに σ2<\sigma^2<\infty を使う。これらが無い分布では成り立たない。

代表例がコーシー分布:期待値の定義積分 xf(x)dx\int x f(x)dx が発散して μ\mu が存在せず(確率変数の変換・モーメント母関数・積率:モーメント母関数も存在しない、特性指数 α1\alpha\le1 の安定分布)、標本平均 Xˉn\bar X_nnn をいくら増やしても1点に収束せず、Xˉn\bar X_n 自身がまたコーシー分布のまま(散らばりが縮まない)。

要するに**「平均が無い分布では『真の平均』という収束先がそもそも無いので、標本平均も落ち着かない」**。大数の法則は無条件の万能定理ではない、という注意。

8. 試験での問われ方

数式の直観的意味

なぜ V[Xˉn]=σ2/nV[\bar X_n]=\sigma^2/n が大数の法則の本体なのか

大数の法則の中身は実は 「標本平均の散らばりが0に潰れる」 ことに尽きる。標本平均の標準偏差(標準誤差)は

SD[Xˉn]=σn.\mathrm{SD}[\bar X_n]=\frac{\sigma}{\sqrt n}.

nn が増えると n\sqrt n で縮む。たとえば nn を100倍にすると散らばりは 1/101/10「平均をとる個数を増やすと、たまたまの偏りが打ち消し合って標本平均がブレなくなる」——これが収束の物理的実体。チェビシェフはこの「散らばりの縮小」を「外れる確率の縮小」に翻訳する変換器にすぎない。

なぜチェビシェフで十分なのか(緩い上限でも証明になる理由)

チェビシェフの上限 σ2/(nε2)\sigma^2/(n\varepsilon^2) は分布の形を仮定しない緩い上限で、実際の外れ確率はもっと小さい(シミュ②参照)。だが弱法則の証明に必要なのは**「上限が0に行く」ことだけ**。実際の確率はその下に挟まれるので、上限が0なら実際も0。緩くても0へ落ちれば証明として十分——ここがチェビシェフが証明道具として強力な理由。精密な収束の速さ(n\sqrt n スケール)まで知りたいときに中心極限定理が要る。

なぜ「確率収束」と「概収束」は別物なのか(点列の比喩)

比喩:教室で全員が席に着く過程。概収束=「ほぼ全員が、ある時刻以降ずっと着席して立たない」。確率収束=「各瞬間に立っている人の割合が0に近づく(同じ人が時々立つのは許す)」。前者の方が強い要求なので 概収束 ⟹ 確率収束

なぜ大数の法則と中心極限定理は別の定理なのか(潰す vs 拡大する)

標本平均 Xˉn\bar X_n をそのまま見ると、散らばり σ/n\sigma/\sqrt n で1点 μ\mu潰れる(大数の法則・収束先は点)。これだと潰れた後は形が見えない。そこで n\sqrt n 倍に拡大して見る:n(Xˉnμ)\sqrt n(\bar X_n-\mu) の分散は nσ2/n=σ2n\cdot\sigma^2/n=\sigma^2 で一定に保たれ、その分布が N(0,σ2)N(0,\sigma^2) というに収束する(中心極限定理・収束先は分布)。要するに大数の法則は虫眼鏡なしで「点に潰れる」を、中心極限定理は n\sqrt n の虫眼鏡で「揺らぎの形が正規」を見ている。同じ Xˉn\bar X_n の別の側面。→ 中心極限定理(CLT)

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q1. 大数の法則と中心極限定理って、結局どう違うの?

収束する先が違います。 大数の法則は「標本平均 Xˉn\bar X_nμ\mu に近づく」、中心極限定理は「標本平均(を標準化したもの)の分布の形が正規に近づく」。Xˉn\bar X_n そのものは μ\mu に潰れていくので、「nn を増やすと Xˉn\bar X_n が正規分布になる」というのは誤りです。正規分布に近づくのは、潰れる前に n\sqrt n 倍の虫眼鏡で拡大して見た n(Xˉnμ)/σ\sqrt n(\bar X_n-\mu)/\sigma のほうです。「点に潰れる(大数)」と「揺らぎの形が正規(中心極限)」は、同じ Xˉn\bar X_n の別々の側面だと考えてください。

Q2. 弱法則の証明で、なぜ σ2\sigma^2 じゃなくて σ2/n\sigma^2/n を代入するの?

チェビシェフに入れるのは「いま見ている確率変数の分散」だからです。いま見ているのは標本平均 Xˉn\bar X_n で、その分散は σ2/n\sigma^2/n(母分散 σ2\sigma^2 ではない)。ここで母分散 σ2\sigma^2 をそのまま入れてしまうと、P(Xˉnμε)σ2/ε2P(|\bar X_n-\mu|\ge\varepsilon)\le\sigma^2/\varepsilon^2 となり、右辺に nn が出てこないので nn\to\infty で0に行きません。1n2nσ2=σ2n\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n} の約分が証明の命です。

Q3. 「確率収束」と「概収束」の違いがピンとこない

教室で全員が席に着く過程を想像してください。概収束=「ほぼ全員が、ある時刻以降ずっと着席して二度と立たない」(1人ごとの動きが落ち着く)。確率収束=「各瞬間に立っている人の割合が0に近づく」(同じ人が時々立つのは許す)。前者のほうが強い要求なので、概収束 ⟹ 確率収束。大数の強法則は前者、弱法則は後者です。

Q4. 「表が5回続いたから次は裏が出やすい」は大数の法則で正しい?

間違いです(ギャンブラーの誤謬)。 コインは過去を覚えていないので、次が裏になりやすいことはありません(独立試行)。大数の法則が言うのは「割合 r/nr/n が長期的に0.5へ近づく」だけで、「これまでの偏りが埋め合わせられる」とは言っていません。実際、表と裏の回数の差 rn/2|r-n/2| はむしろ大きくなる傾向すらあります。縮むのは差ではなく割合です。

Q5. どんな分布でも標本平均は収束するの?

いいえ。 母平均 μ\mu が存在することが前提です(チェビシェフ証明はさらに分散が有限なことを使います)。コーシー分布のように平均が存在しない分布では、標本平均は収束しません。「平均という収束先がそもそも無い」からです。

まとめ

対応するシミュレーション

50本のパスの束が母平均μに潰れる(確率収束)

チェビシェフ上限と実測のはみ出し確率(証明の数値版)

関連ノート