📊 対象級：2級　|　重要度：A（頻出）

二項分布の正規近似

要点（BLUF）

何をする手法か：成功回数 $X\sim\mathrm{Bin}(n,p)$ の確率を、 $n$ が十分大きいとき正規分布で近似計算する。二項の確率 $P(X=k)={}_nC_k p^k(1-p)^{n-k}$ は $n$ が大きいと階乗の計算が現実的でなくなるので、正規分布表で代用する。
近似式（平均と分散は二項のものをそのまま使う）： $\boxed{\;X\sim\mathrm{Bin}(n,p)\ \xrightarrow[\;n\ \text{大}\;]{}\ X\stackrel{\text{近似}}{\sim}N\bigl(np,\;np(1-p)\bigr),\qquad Z=\frac{X-np}{\sqrt{np(1-p)}}\stackrel{\text{近似}}{\sim}N(0,1)\;}$
連続補正（半整数補正）：離散の $X$ を連続の正規で近似するときは境界を $\pm 0.5$ ずらす。「以下／以上を広げる向き」に動かす。 $\boxed{\;P(X\le k)\approx \Phi\!\left(\frac{k+0.5-np}{\sqrt{np(1-p)}}\right),\qquad P(X\ge k)\approx 1-\Phi\!\left(\frac{k-0.5-np}{\sqrt{np(1-p)}}\right)\;}$
使える目安： $np\ge 5$ かつ $n(1-p)\ge 5$ （厳しめなら両方 $\ge 10$ ）。要するに「両側の裾に十分な期待度数があり、分布が左右対称に近いとき」だけ正規近似が信頼できる。
根拠：ド・モアブル–ラプラスの定理。これは独立同分布なベルヌーイ和に対する中心極限定理（CLT）の特別な場合。

本文

1. なぜ近似したいのか（動機）

二項分布の確率を厳密に出すには $P(X=k)={}_nC_k\,p^k(1-p)^{n-k}$ を計算します（ベルヌーイ分布・二項分布）。 $n$ が小さければ電卓で足りますが、たとえば「コインを $n=10000$ 回投げて表が $5100$ 回以上出る確率」を求めるとき、 $P(X\ge 5100)=\sum_{k=5100}^{10000}{}_{10000}C_k (1/2)^{10000}$ を直接足すのは非現実的です。

そこで「 $n$ が大きいと二項分布の形は正規曲線にそっくりになる」という事実を使い、正規分布表1枚で済ませるのがこの手法です。

要するに：階乗の和を、なめらかな正規分布の面積（積分）に置き換える。これが正規近似です。

2. 近似の主張（ド・モアブル–ラプラスの定理）

二項分布の棒グラフがnを増やすと正規曲線に重なる

n=5→20→50 と増やすと二項の棒（青）が正規曲線 N(np, np(1-p))（濃青）に重なっていく。図は simulations/nikou_seiki_kinji_keijou.py で生成。

$X\sim\mathrm{Bin}(n,p)$ とする。 $n\to\infty$ のとき、標準化した $Z_n=\frac{X-np}{\sqrt{np(1-p)}}$ の分布は標準正規分布 $N(0,1)$ に収束する。

平均 $np$ 、分散 $np(1-p)$ は二項分布そのものの平均・分散です（ベルヌーイ分布・二項分布で導出済み）。つまり形だけを正規に置き換え、中心と広がりは二項のものを流用します。

要するに： $\mathrm{Bin}(n,p)$ は $n$ が大きいと $N(np,\,np(1-p))$ で代用できる、という主張です。

3. なぜ $N(np,\,np(1-p))$ なのか（CLTからの導出）

二項分布は独立なベルヌーイ確率変数の和です。 $X_i$ を「 $i$ 回目が成功なら1、失敗なら0」とすると $X=\sum_{i=1}^{n}X_i,\qquad X_i\stackrel{\text{iid}}{\sim}\mathrm{Bernoulli}(p).$ 各 $X_i$ は同じ分布に独立に従い、 $E[X_i]=p,\qquad V[X_i]=p(1-p)$ を持ちます（確率変数（離散・連続）と期待値・分散）。

ここに中心極限定理（CLT）（CLT）を適用します。CLTは「平均 $\mu$ ・分散 $\sigma^2$ をもつ iid の和 $\sum X_i$ を標準化すると $N(0,1)$ に収束する」という定理でした。いま $\mu=p$ 、 $\sigma^2=p(1-p)$ なので、

和の平均： $E[X]=\sum E[X_i]=np$
和の分散： $V[X]=\sum V[X_i]=np(1-p)$ （独立なので分散は単純に足せる、共分散ゼロ。期待値・分散の性質（線形性・和の分散・共分散））

したがって標準化は $Z_n=\frac{X-E[X]}{\sqrt{V[X]}}=\frac{X-np}{\sqrt{np(1-p)}}\;\xrightarrow{d}\;N(0,1).$

要するに：二項分布＝iidベルヌーイの和なので、CLTがそのまま効いて正規に近づく。平均 $np$ と分散 $np(1-p)$ は和の平均・分散の公式から自動的に出てくる。「なぜ正規か」は CLT、「なぜパラメータが $np,\,np(1-p)$ か」は和の期待値・分散の線形性が答えです。

歴史的にはド・モアブル（1730年代）→ラプラスが二項分布の正規近似を先に示し、その一般化として後年CLTが整備されました。学習上は「CLTの最古の特別ケースが二項の正規近似」と捉えると関係が一直線になります。

4. 連続補正（半整数補正）— なぜ必要で、どちら向きか

4.1 問題の所在

$X$ は $0,1,2,\dots,n$ という飛び飛びの整数しか取りません（離散）。一方、正規分布は実数全体に広がる連続分布です。離散の点確率 $P(X=k)$ には幅がありませんが、連続分布で「1点の確率」を測ると $0$ になってしまいます。

そこで離散の整数 $k$ を、幅 $1$ の区間 $[k-0.5,\;k+0.5]$ に対応づけます。

xychart-beta
    title "離散の棒を幅1の区間に対応づける（連続補正の考え方）"
    x-axis "成功回数 k" [2, 3, 4, 5, 6, 7, 8]
    y-axis "確率 P(X=k)" 0 --> 0.30
    bar [0.07, 0.16, 0.24, 0.25, 0.18, 0.08, 0.02]

各棒（ $P(X=k)$ ）の面積を、正規曲線の下の $[k-0.5,\,k+0.5]$ の面積で近似する、というのが連続補正です。

4.2 補正の向き（最重要・誤りやすい）

補正は常に「数えたい範囲を広げる向き」に $0.5$ を動かします。

求めたい確率	補正後の正規での計算	直観
$P(X\le k)$	$\Phi\!\bigl(\frac{k+0.5-np}{\sigma}\bigr)$	$k$ まで「含める」→上端を $+0.5$
$P(X< k)=P(X\le k-1)$	$\Phi\!\bigl(\frac{k-0.5-np}{\sigma}\bigr)$	$k$ を含めない→上端を $-0.5$
$P(X\ge k)$	$1-\Phi\!\bigl(\frac{k-0.5-np}{\sigma}\bigr)$	$k$ から「含める」→下端を $-0.5$
$P(X> k)=P(X\ge k+1)$	$1-\Phi\!\bigl(\frac{k+0.5-np}{\sigma}\bigr)$	$k$ を含めない→下端を $+0.5$
$P(X=k)$	$\Phi\!\bigl(\frac{k+0.5-np}{\sigma}\bigr)-\Phi\!\bigl(\frac{k-0.5-np}{\sigma}\bigr)$	棒 $k$ を $[k-0.5,k+0.5]$ で測る

ここで $\sigma=\sqrt{np(1-p)}$ 、 $\Phi$ は標準正規の累積分布関数です。

要するに：含めたい端の整数は、その棒を丸ごと拾うために $0.5$ 外側へ。含めたくない整数は、その棒を拾わないために $0.5$ 内側へ。「以上・以下（その値を含む）」なら範囲が広がる、「より大きい・より小さい（含まない）」なら狭まると覚えると符号を間違えません。

4.3 連続補正の効果

$n$ が小さい〜中程度のときは連続補正の有無で答えが目に見えて変わります（補正ありの方が正確）。 $n$ が非常に大きいと $0.5$ のずれは相対的に無視できるほど小さくなるため、影響は薄れます。2級では「連続補正をした方が精度が上がる」「向きを正しく取る」ことが問われるので、迷わず付けるのが安全です。

5. 近似が使える条件

正規分布は左右対称ですが、二項分布は $p\ne 0.5$ だと**歪み（skew）**を持ちます。 $p$ が $0$ や $1$ に近いと分布が片側に偏り、対称な正規ではうまく近似できません。

実務上の目安（要最新確認：教材により基準が異なる）：

標準的な目安： $np\ge 5$ かつ $n(1-p)\ge 5$ （いわゆる「5の規則」）
厳しめの目安： $np\ge 10$ かつ $n(1-p)\ge 10$

両方を満たす必要があります。 $np$ だけ大きくても $n(1-p)$ が小さければ（＝失敗側の期待度数が少なければ）、分布は右に裾を引いて非対称になり、近似が悪化します。

要するに：成功側・失敗側の両方に十分な期待度数（目安5以上）があり、分布が対称に近いときだけ正規近似は信頼できる。

6. 具体例

問題：公正なコイン（ $p=0.5$ ）を $n=10000$ 回投げる。表が $5100$ 回以上出る確率 $P(X\ge 5100)$ を近似せよ。

平均と標準偏差： $np=10000\times 0.5=5000$ 、 $np(1-p)=10000\times0.5\times0.5=2500$ 、 $\sigma=\sqrt{2500}=50$ 。
条件確認： $np=5000\ge5$ 、 $n(1-p)=5000\ge5$ 。OK。
連続補正：「 $5100$ 以上（含む）」なので下端を $-0.5$ → 基準点は $5099.5$ 。
標準化： $Z=\frac{5099.5-5000}{50}=\frac{99.5}{50}=1.99.$
正規分布表： $P(X\ge5100)\approx P(Z\ge 1.99)=1-\Phi(1.99)\approx 0.0233$ （約 $2.3\%$ ）。

補正を忘れると $Z=(5100-5000)/50=2.00$ 、 $P(Z\ge2)\approx0.0228$ 。この例は $n$ が巨大なので差はわずか（ $0.0233$ vs $0.0228$ ）ですが、 $n$ が数十〜数百のときはこの差が無視できなくなります。

7. 試験での問われ方（2級）

2級では計算問題として頻出します。典型パターン：

$n,p$ を与えて「○回以上／以下／ちょうど○回」の確率を正規近似で求めさせる（連続補正の要否・向きが採点ポイント）
標本比率 $\hat p=X/n$ の分布（ $\hat p\approx N(p,\,p(1-p)/n)$ ）として近似させ、比率の区間推定・検定につなぐ（区間推定（母平均・母比率・母分散の信頼区間）・母比率の検定の前段）
「この近似が使える条件は？」を $np,\,n(1-p)$ の不等式で答えさせる
ポアソン近似との選択を判断させる（次節）

二項の2つの近似の使い分け（正規 vs ポアソン）

二項分布には近似の方向が2つあります。どちらを使うかは $p$ と $np$ で決まります。

flowchart TD
    A["二項分布 Bin(n,p)<br/>n が大きい"] --> B{"p の大きさは?"}
    B -->|"p が中程度<br/>np と n(1-p) が両方 5 以上"| C["正規近似<br/>N(np, np(1-p))<br/>連続補正 0.5 を使う"]
    B -->|"p が小さく np が中程度<br/>n 大・p 小で np 一定"| D["ポアソン近似<br/>Po(λ), λ = np"]
    C --> E["分布が対称<br/>裾の期待度数が十分"]
    D --> F["まれな事象<br/>片側に強く偏る"]

観点	正規近似	ポアソン近似
効く状況	$n$ 大・ $p$ 中程度（ $np$ も $n(1-p)$ も大）	$n$ 大・ $p$ 小（ $\lambda=np$ が中程度の一定値）
近似先	$N(np,\,np(1-p))$	$\mathrm{Po}(\lambda),\ \lambda=np$ （ポアソン分布）
分布の形	左右対称	右に裾を引く非対称
連続補正	必要（離散→連続）	不要（ポアソンも離散）
代表例	コイン多数回、合否、賛否	不良品（低不良率）、事故、まれな当選

要するに：両裾に度数がたっぷりあって対称なら正規、片側に寄った「まれな事象」ならポアソン。境目では両方を試して比較することもありますが、2級では「 $p$ が小さくまれ → ポアソン」「 $p$ が中程度で大量試行 → 正規」という対比を押さえれば十分です。

⚠️ 引っかけポイント

連続補正の向きを逆にする：最頻ミス。「以上・以下（その値を含む）」は範囲を広げる（ $P(X\ge k)$ は $k-0.5$ 、 $P(X\le k)$ は $k+0.5$ ）。「より大きい・より小さい（含まない）」は範囲を狭める。表現が「以上」か「を超える」かを必ず読む。
連続補正を付け忘れる：2級で減点される定番。 $n$ が小〜中のとき答えがずれる。迷ったら付ける。
近似条件を片方しか見ない： $np\ge5$ だけ確認して $n(1-p)\ge5$ を見落とす。 $p$ が $1$ に近いケースで近似が破綻する。両方チェック。
分散を $\sigma=np$ と勘違い：分散は $np(1-p)$ 、標準偏差は $\sqrt{np(1-p)}$ 。 $np$ は平均。混同しない。
正規近似とポアソン近似の取り違え： $p$ がごく小さい（不良品率0.1%など）のに正規近似すると、非対称な分布を対称な正規で潰してしまい外す。「まれな事象＝ポアソン」を先に疑う。
$\hat p$ の分散を $p(1-p)$ と書く：標本比率 $\hat p=X/n$ の分散は $p(1-p)/n$ （ $n$ で割る）。 $X$ の分散 $np(1-p)$ と混同しない。

よくある疑問

Q1. 連続補正の $0.5$ は、なぜ $0.5$ なのですか？ A. 離散の整数 $k$ を、幅 $1$ の区間 $[k-0.5,\,k+0.5]$ の中央とみなすからです。隣の整数 $k$ と $k+1$ のちょうど中間が $k+0.5$ 。各整数の「縄張り」を左右に半分ずつ取ると幅が $1$ になり、棒グラフの面積（高さ $P(X=k)$ 、幅 $1$ ）と正規曲線下の面積が対応します。だから補正幅は半整数の $0.5$ です。

Q2. 「以上」と「を超える」で計算が変わるのですか？ A. 変わります。 $P(X\ge k)$ （ $k$ を含む）は基準点 $k-0.5$ 、 $P(X>k)=P(X\ge k+1)$ （ $k$ を含まない）は基準点 $k+0.5$ です。日本語の「以上／以下」は等号を含み、「より大きい／より小さい／を超える／未満」は含みません。離散だからこの違いが効きます。問題文の語尾を必ず確認してください。

Q3. $n$ が大きければ連続補正はしなくてよいのでは？ A. $n$ が極端に大きければ $0.5$ のずれは相対的に小さくなり、答えへの影響はわずかになります。ただし「しなくてよい」ではなく「影響が小さい」だけです。2級では補正の理解そのものが問われるので、 $n$ の大小にかかわらず付けるのが安全です。付けて損はありません。

Q4. 正規近似とポアソン近似は、両方の条件を満たすこともありますか？ A. 境界領域ではどちらの近似もそこそこ効くことがあります。一般則は「 $p$ が小さく $np$ が中程度（まれな事象）ならポアソン」「 $np$ も $n(1-p)$ も大きい（対称に近い）なら正規」。判断基準は $p$ の大きさと両側の期待度数です。 $p$ が $0$ や $1$ に近いほどポアソン側、 $p$ が $0.5$ に近いほど正規側が素直に効きます。

Q5. 平均 $np$ と分散 $np(1-p)$ は近似でも正しい値ですか？ A. はい、近似ではなく厳密値です。 $E[X]=np$ 、 $V[X]=np(1-p)$ は二項分布の真の平均・分散です（ベルヌーイ分布・二項分布で導出）。正規近似が「近似」なのは分布の形を正規曲線で置き換える点だけで、中心位置と広がりは二項の真値をそのまま使います。だから近似の精度は「形がどれだけ正規に似ているか（＝対称性）」で決まります。

まとめ

二項分布 $\mathrm{Bin}(n,p)$ は $n$ が大きいと $N(np,\,np(1-p))$ で近似できる（ド・モアブル–ラプラスの定理＝中心極限定理（CLT）の特別ケース）。
平均 $np$ ・分散 $np(1-p)$ は厳密値を流用し、形だけ正規に置き換える。標準化 $Z=(X-np)/\sqrt{np(1-p)}$ で正規分布表を使う。
離散→連続のギャップを埋める連続補正 $\pm0.5$ が必須。「含む端は外へ広げ、含まない端は内へ狭める」。
使える目安は $np\ge5$ かつ $n(1-p)\ge5$ （両側の期待度数が十分で対称に近いとき）。
$p$ が小さい「まれな事象」は正規でなくポアソン分布近似を使う。