← 統計検定テキスト 一覧

📊 対象級:2級 | 重要度:A(頻出)

二項分布の正規近似

要点(BLUF)


本文

1. なぜ近似したいのか(動機)

二項分布の確率を厳密に出すには P(X=k)=nCkpk(1p)nkP(X=k)={}_nC_k\,p^k(1-p)^{n-k} を計算します(ベルヌーイ分布・二項分布)。nn が小さければ電卓で足りますが、たとえば「コインを n=10000n=10000 回投げて表が 51005100 回以上出る確率」を求めるとき、P(X5100)=k=51001000010000Ck(1/2)10000P(X\ge 5100)=\sum_{k=5100}^{10000}{}_{10000}C_k (1/2)^{10000} を直接足すのは非現実的です。

そこで「nn が大きいと二項分布の形は正規曲線にそっくりになる」という事実を使い、正規分布表1枚で済ませるのがこの手法です。

要するに:階乗の和を、なめらかな正規分布の面積(積分)に置き換える。これが正規近似です。

2. 近似の主張(ド・モアブル–ラプラスの定理)

二項分布の棒グラフがnを増やすと正規曲線に重なる

n=5→20→50 と増やすと二項の棒(青)が正規曲線 N(np, np(1-p))(濃青)に重なっていく。図は simulations/nikou_seiki_kinji_keijou.py で生成。

XBin(n,p)X\sim\mathrm{Bin}(n,p) とする。nn\to\infty のとき、標準化した Zn=Xnpnp(1p)Z_n=\frac{X-np}{\sqrt{np(1-p)}} の分布は標準正規分布 N(0,1)N(0,1) に収束する。

平均 npnp、分散 np(1p)np(1-p) は二項分布そのものの平均・分散です(ベルヌーイ分布・二項分布 で導出済み)。つまり形だけを正規に置き換え、中心と広がりは二項のものを流用します。

要するにBin(n,p)\mathrm{Bin}(n,p)nn が大きいと N(np,np(1p))N(np,\,np(1-p)) で代用できる、という主張です。

3. なぜ N(np,np(1p))N(np,\,np(1-p)) なのか(CLTからの導出)

二項分布は独立なベルヌーイ確率変数の和です。XiX_i を「ii 回目が成功なら1、失敗なら0」とすると X=i=1nXi,XiiidBernoulli(p).X=\sum_{i=1}^{n}X_i,\qquad X_i\stackrel{\text{iid}}{\sim}\mathrm{Bernoulli}(p).XiX_i は同じ分布に独立に従い、 E[Xi]=p,V[Xi]=p(1p)E[X_i]=p,\qquad V[X_i]=p(1-p) を持ちます(確率変数(離散・連続)と期待値・分散)。

ここに中心極限定理(CLT)(CLT)を適用します。CLTは「平均 μ\mu・分散 σ2\sigma^2 をもつ iid の和 Xi\sum X_i を標準化すると N(0,1)N(0,1) に収束する」という定理でした。いま μ=p\mu=pσ2=p(1p)\sigma^2=p(1-p) なので、

したがって標準化は Zn=XE[X]V[X]=Xnpnp(1p)  d  N(0,1).Z_n=\frac{X-E[X]}{\sqrt{V[X]}}=\frac{X-np}{\sqrt{np(1-p)}}\;\xrightarrow{d}\;N(0,1).

要するに:二項分布=iidベルヌーイの和なので、CLTがそのまま効いて正規に近づく。平均 npnp と分散 np(1p)np(1-p) は和の平均・分散の公式から自動的に出てくる。「なぜ正規か」は CLT、「なぜパラメータが np,np(1p)np,\,np(1-p) か」は和の期待値・分散の線形性が答えです。

歴史的にはド・モアブル(1730年代)→ラプラスが二項分布の正規近似を先に示し、その一般化として後年CLTが整備されました。学習上は「CLTの最古の特別ケースが二項の正規近似」と捉えると関係が一直線になります。

4. 連続補正(半整数補正)— なぜ必要で、どちら向きか

4.1 問題の所在

XX0,1,2,,n0,1,2,\dots,n という飛び飛びの整数しか取りません(離散)。一方、正規分布は実数全体に広がる連続分布です。離散の点確率 P(X=k)P(X=k) には幅がありませんが、連続分布で「1点の確率」を測ると 00 になってしまいます。

そこで離散の整数 kk を、幅 11 の区間 [k0.5,  k+0.5][k-0.5,\;k+0.5] に対応づけます。

xychart-beta
    title "離散の棒を幅1の区間に対応づける(連続補正の考え方)"
    x-axis "成功回数 k" [2, 3, 4, 5, 6, 7, 8]
    y-axis "確率 P(X=k)" 0 --> 0.30
    bar [0.07, 0.16, 0.24, 0.25, 0.18, 0.08, 0.02]

各棒(P(X=k)P(X=k))の面積を、正規曲線の下の [k0.5,k+0.5][k-0.5,\,k+0.5] の面積で近似する、というのが連続補正です。

4.2 補正の向き(最重要・誤りやすい)

補正は常に「数えたい範囲を広げる向き」に 0.50.5 を動かします。

求めたい確率補正後の正規での計算直観
P(Xk)P(X\le k)Φ ⁣(k+0.5npσ)\Phi\!\bigl(\frac{k+0.5-np}{\sigma}\bigr)kk まで「含める」→上端を +0.5+0.5
P(X<k)=P(Xk1)P(X< k)=P(X\le k-1)Φ ⁣(k0.5npσ)\Phi\!\bigl(\frac{k-0.5-np}{\sigma}\bigr)kk を含めない→上端を 0.5-0.5
P(Xk)P(X\ge k)1Φ ⁣(k0.5npσ)1-\Phi\!\bigl(\frac{k-0.5-np}{\sigma}\bigr)kk から「含める」→下端を 0.5-0.5
P(X>k)=P(Xk+1)P(X> k)=P(X\ge k+1)1Φ ⁣(k+0.5npσ)1-\Phi\!\bigl(\frac{k+0.5-np}{\sigma}\bigr)kk を含めない→下端を +0.5+0.5
P(X=k)P(X=k)Φ ⁣(k+0.5npσ)Φ ⁣(k0.5npσ)\Phi\!\bigl(\frac{k+0.5-np}{\sigma}\bigr)-\Phi\!\bigl(\frac{k-0.5-np}{\sigma}\bigr)kk[k0.5,k+0.5][k-0.5,k+0.5] で測る

ここで σ=np(1p)\sigma=\sqrt{np(1-p)}Φ\Phi は標準正規の累積分布関数です。

要するに:含めたい端の整数は、その棒を丸ごと拾うために 0.50.5 外側へ。含めたくない整数は、その棒を拾わないために 0.50.5 内側へ。「以上・以下(その値を含む)」なら範囲が広がる、「より大きい・より小さい(含まない)」なら狭まると覚えると符号を間違えません。

4.3 連続補正の効果

nn が小さい〜中程度のときは連続補正の有無で答えが目に見えて変わります(補正ありの方が正確)。nn が非常に大きいと 0.50.5 のずれは相対的に無視できるほど小さくなるため、影響は薄れます。2級では「連続補正をした方が精度が上がる」「向きを正しく取る」ことが問われるので、迷わず付けるのが安全です。

5. 近似が使える条件

正規分布は左右対称ですが、二項分布は p0.5p\ne 0.5 だと**歪み(skew)**を持ちます。pp0011 に近いと分布が片側に偏り、対称な正規ではうまく近似できません。

実務上の目安(要最新確認:教材により基準が異なる):

両方を満たす必要があります。npnp だけ大きくても n(1p)n(1-p) が小さければ(=失敗側の期待度数が少なければ)、分布は右に裾を引いて非対称になり、近似が悪化します。

要するに:成功側・失敗側の両方に十分な期待度数(目安5以上)があり、分布が対称に近いときだけ正規近似は信頼できる。

6. 具体例

問題:公正なコイン(p=0.5p=0.5)を n=10000n=10000 回投げる。表が 51005100以上出る確率 P(X5100)P(X\ge 5100) を近似せよ。

  1. 平均と標準偏差np=10000×0.5=5000np=10000\times 0.5=5000np(1p)=10000×0.5×0.5=2500np(1-p)=10000\times0.5\times0.5=2500σ=2500=50\sigma=\sqrt{2500}=50
  2. 条件確認np=50005np=5000\ge5n(1p)=50005n(1-p)=5000\ge5。OK。
  3. 連続補正:「51005100 以上(含む)」なので下端を 0.5-0.5 → 基準点は 5099.55099.5
  4. 標準化Z=5099.5500050=99.550=1.99.Z=\frac{5099.5-5000}{50}=\frac{99.5}{50}=1.99.
  5. 正規分布表P(X5100)P(Z1.99)=1Φ(1.99)0.0233P(X\ge5100)\approx P(Z\ge 1.99)=1-\Phi(1.99)\approx 0.0233(約 2.3%2.3\%)。

補正を忘れるZ=(51005000)/50=2.00Z=(5100-5000)/50=2.00P(Z2)0.0228P(Z\ge2)\approx0.0228。この例は nn が巨大なので差はわずか(0.02330.0233 vs 0.02280.0228)ですが、nn が数十〜数百のときはこの差が無視できなくなります。

7. 試験での問われ方(2級)

2級では計算問題として頻出します。典型パターン:


二項の2つの近似の使い分け(正規 vs ポアソン)

二項分布には近似の方向が2つあります。どちらを使うかは ppnpnp で決まります

flowchart TD
    A["二項分布 Bin(n,p)<br/>n が大きい"] --> B{"p の大きさは?"}
    B -->|"p が中程度<br/>np と n(1-p) が両方 5 以上"| C["正規近似<br/>N(np, np(1-p))<br/>連続補正 0.5 を使う"]
    B -->|"p が小さく np が中程度<br/>n 大・p 小で np 一定"| D["ポアソン近似<br/>Po(λ), λ = np"]
    C --> E["分布が対称<br/>裾の期待度数が十分"]
    D --> F["まれな事象<br/>片側に強く偏る"]
観点正規近似ポアソン近似
効く状況nn 大・pp 中程度(npnpn(1p)n(1-p) も大)nn 大・pp 小(λ=np\lambda=np が中程度の一定値)
近似先N(np,np(1p))N(np,\,np(1-p))Po(λ), λ=np\mathrm{Po}(\lambda),\ \lambda=npポアソン分布
分布の形左右対称右に裾を引く非対称
連続補正必要(離散→連続)不要(ポアソンも離散)
代表例コイン多数回、合否、賛否不良品(低不良率)、事故、まれな当選

要するに:両裾に度数がたっぷりあって対称なら正規、片側に寄った「まれな事象」ならポアソン。境目では両方を試して比較することもありますが、2級では「pp が小さくまれ → ポアソン」「pp が中程度で大量試行 → 正規」という対比を押さえれば十分です。


⚠️ 引っかけポイント


よくある疑問

Q1. 連続補正の 0.50.5 は、なぜ 0.50.5 なのですか? A. 離散の整数 kk を、幅 11 の区間 [k0.5,k+0.5][k-0.5,\,k+0.5] の中央とみなすからです。隣の整数 kkk+1k+1 のちょうど中間が k+0.5k+0.5。各整数の「縄張り」を左右に半分ずつ取ると幅が 11 になり、棒グラフの面積(高さ P(X=k)P(X=k)、幅 11)と正規曲線下の面積が対応します。だから補正幅は半整数の 0.50.5 です。

Q2. 「以上」と「を超える」で計算が変わるのですか? A. 変わります。P(Xk)P(X\ge k)kk を含む)は基準点 k0.5k-0.5P(X>k)=P(Xk+1)P(X>k)=P(X\ge k+1)kk を含まない)は基準点 k+0.5k+0.5 です。日本語の「以上/以下」は等号を含み、「より大きい/より小さい/を超える/未満」は含みません。離散だからこの違いが効きます。問題文の語尾を必ず確認してください。

Q3. nn が大きければ連続補正はしなくてよいのでは? A. nn が極端に大きければ 0.50.5 のずれは相対的に小さくなり、答えへの影響はわずかになります。ただし「しなくてよい」ではなく「影響が小さい」だけです。2級では補正の理解そのものが問われるので、nn の大小にかかわらず付けるのが安全です。付けて損はありません。

Q4. 正規近似とポアソン近似は、両方の条件を満たすこともありますか? A. 境界領域ではどちらの近似もそこそこ効くことがあります。一般則は「pp が小さく npnp が中程度(まれな事象)ならポアソン」「npnpn(1p)n(1-p) も大きい(対称に近い)なら正規」。判断基準は pp の大きさと両側の期待度数です。pp0011 に近いほどポアソン側、pp0.50.5 に近いほど正規側が素直に効きます。

Q5. 平均 npnp と分散 np(1p)np(1-p) は近似でも正しい値ですか? A. はい、近似ではなく厳密値です。E[X]=npE[X]=npV[X]=np(1p)V[X]=np(1-p) は二項分布の真の平均・分散です(ベルヌーイ分布・二項分布 で導出)。正規近似が「近似」なのは分布の形を正規曲線で置き換える点だけで、中心位置と広がりは二項の真値をそのまま使います。だから近似の精度は「形がどれだけ正規に似ているか(=対称性)」で決まります。


まとめ


関連ノート