📊 対象級:2級 | 重要度:A(頻出)
二項分布の正規近似
要点(BLUF)
- 何をする手法か:成功回数 の確率を、 が十分大きいとき正規分布で近似計算する。二項の確率 は が大きいと階乗の計算が現実的でなくなるので、正規分布表で代用する。
- 近似式(平均と分散は二項のものをそのまま使う):
- 連続補正(半整数補正):離散の を連続の正規で近似するときは境界を ずらす。「以下/以上を広げる向き」に動かす。
- 使える目安: かつ (厳しめなら両方 )。要するに「両側の裾に十分な期待度数があり、分布が左右対称に近いとき」だけ正規近似が信頼できる。
- 根拠:ド・モアブル–ラプラスの定理。これは独立同分布なベルヌーイ和に対する中心極限定理(CLT)の特別な場合。
本文
1. なぜ近似したいのか(動機)
二項分布の確率を厳密に出すには を計算します(ベルヌーイ分布・二項分布)。 が小さければ電卓で足りますが、たとえば「コインを 回投げて表が 回以上出る確率」を求めるとき、 を直接足すのは非現実的です。
そこで「 が大きいと二項分布の形は正規曲線にそっくりになる」という事実を使い、正規分布表1枚で済ませるのがこの手法です。
要するに:階乗の和を、なめらかな正規分布の面積(積分)に置き換える。これが正規近似です。
2. 近似の主張(ド・モアブル–ラプラスの定理)

n=5→20→50 と増やすと二項の棒(青)が正規曲線 N(np, np(1-p))(濃青)に重なっていく。図は simulations/nikou_seiki_kinji_keijou.py で生成。
とする。 のとき、標準化した の分布は標準正規分布 に収束する。
平均 、分散 は二項分布そのものの平均・分散です(ベルヌーイ分布・二項分布 で導出済み)。つまり形だけを正規に置き換え、中心と広がりは二項のものを流用します。
要するに: は が大きいと で代用できる、という主張です。
3. なぜ なのか(CLTからの導出)
二項分布は独立なベルヌーイ確率変数の和です。 を「 回目が成功なら1、失敗なら0」とすると 各 は同じ分布に独立に従い、 を持ちます(確率変数(離散・連続)と期待値・分散)。
ここに中心極限定理(CLT)(CLT)を適用します。CLTは「平均 ・分散 をもつ iid の和 を標準化すると に収束する」という定理でした。いま 、 なので、
- 和の平均:
- 和の分散:(独立なので分散は単純に足せる、共分散ゼロ。期待値・分散の性質(線形性・和の分散・共分散))
したがって標準化は
要するに:二項分布=iidベルヌーイの和なので、CLTがそのまま効いて正規に近づく。平均 と分散 は和の平均・分散の公式から自動的に出てくる。「なぜ正規か」は CLT、「なぜパラメータが か」は和の期待値・分散の線形性が答えです。
歴史的にはド・モアブル(1730年代)→ラプラスが二項分布の正規近似を先に示し、その一般化として後年CLTが整備されました。学習上は「CLTの最古の特別ケースが二項の正規近似」と捉えると関係が一直線になります。
4. 連続補正(半整数補正)— なぜ必要で、どちら向きか
4.1 問題の所在
は という飛び飛びの整数しか取りません(離散)。一方、正規分布は実数全体に広がる連続分布です。離散の点確率 には幅がありませんが、連続分布で「1点の確率」を測ると になってしまいます。
そこで離散の整数 を、幅 の区間 に対応づけます。
xychart-beta
title "離散の棒を幅1の区間に対応づける(連続補正の考え方)"
x-axis "成功回数 k" [2, 3, 4, 5, 6, 7, 8]
y-axis "確率 P(X=k)" 0 --> 0.30
bar [0.07, 0.16, 0.24, 0.25, 0.18, 0.08, 0.02]
各棒()の面積を、正規曲線の下の の面積で近似する、というのが連続補正です。
4.2 補正の向き(最重要・誤りやすい)
補正は常に「数えたい範囲を広げる向き」に を動かします。
| 求めたい確率 | 補正後の正規での計算 | 直観 |
|---|---|---|
| まで「含める」→上端を | ||
| を含めない→上端を | ||
| から「含める」→下端を | ||
| を含めない→下端を | ||
| 棒 を で測る |
ここで 、 は標準正規の累積分布関数です。
要するに:含めたい端の整数は、その棒を丸ごと拾うために 外側へ。含めたくない整数は、その棒を拾わないために 内側へ。「以上・以下(その値を含む)」なら範囲が広がる、「より大きい・より小さい(含まない)」なら狭まると覚えると符号を間違えません。
4.3 連続補正の効果
が小さい〜中程度のときは連続補正の有無で答えが目に見えて変わります(補正ありの方が正確)。 が非常に大きいと のずれは相対的に無視できるほど小さくなるため、影響は薄れます。2級では「連続補正をした方が精度が上がる」「向きを正しく取る」ことが問われるので、迷わず付けるのが安全です。
5. 近似が使える条件
正規分布は左右対称ですが、二項分布は だと**歪み(skew)**を持ちます。 が や に近いと分布が片側に偏り、対称な正規ではうまく近似できません。
実務上の目安(要最新確認:教材により基準が異なる):
- 標準的な目安: かつ (いわゆる「5の規則」)
- 厳しめの目安: かつ
両方を満たす必要があります。 だけ大きくても が小さければ(=失敗側の期待度数が少なければ)、分布は右に裾を引いて非対称になり、近似が悪化します。
要するに:成功側・失敗側の両方に十分な期待度数(目安5以上)があり、分布が対称に近いときだけ正規近似は信頼できる。
6. 具体例
問題:公正なコイン()を 回投げる。表が 回以上出る確率 を近似せよ。
- 平均と標準偏差:、、。
- 条件確認:、。OK。
- 連続補正:「 以上(含む)」なので下端を → 基準点は 。
- 標準化:
- 正規分布表:(約 )。
補正を忘れると 、。この例は が巨大なので差はわずか( vs )ですが、 が数十〜数百のときはこの差が無視できなくなります。
7. 試験での問われ方(2級)
2級では計算問題として頻出します。典型パターン:
- を与えて「○回以上/以下/ちょうど○回」の確率を正規近似で求めさせる(連続補正の要否・向きが採点ポイント)
- 標本比率 の分布()として近似させ、比率の区間推定・検定につなぐ(区間推定(母平均・母比率・母分散の信頼区間)・母比率の検定の前段)
- 「この近似が使える条件は?」を の不等式で答えさせる
- ポアソン近似との選択を判断させる(次節)
二項の2つの近似の使い分け(正規 vs ポアソン)
二項分布には近似の方向が2つあります。どちらを使うかは と で決まります。
flowchart TD
A["二項分布 Bin(n,p)<br/>n が大きい"] --> B{"p の大きさは?"}
B -->|"p が中程度<br/>np と n(1-p) が両方 5 以上"| C["正規近似<br/>N(np, np(1-p))<br/>連続補正 0.5 を使う"]
B -->|"p が小さく np が中程度<br/>n 大・p 小で np 一定"| D["ポアソン近似<br/>Po(λ), λ = np"]
C --> E["分布が対称<br/>裾の期待度数が十分"]
D --> F["まれな事象<br/>片側に強く偏る"]
| 観点 | 正規近似 | ポアソン近似 |
|---|---|---|
| 効く状況 | 大・ 中程度( も も大) | 大・ 小( が中程度の一定値) |
| 近似先 | (ポアソン分布) | |
| 分布の形 | 左右対称 | 右に裾を引く非対称 |
| 連続補正 | 必要(離散→連続) | 不要(ポアソンも離散) |
| 代表例 | コイン多数回、合否、賛否 | 不良品(低不良率)、事故、まれな当選 |
要するに:両裾に度数がたっぷりあって対称なら正規、片側に寄った「まれな事象」ならポアソン。境目では両方を試して比較することもありますが、2級では「 が小さくまれ → ポアソン」「 が中程度で大量試行 → 正規」という対比を押さえれば十分です。
⚠️ 引っかけポイント
- 連続補正の向きを逆にする:最頻ミス。「以上・以下(その値を含む)」は範囲を広げる( は 、 は )。「より大きい・より小さい(含まない)」は範囲を狭める。表現が「以上」か「を超える」かを必ず読む。
- 連続補正を付け忘れる:2級で減点される定番。 が小〜中のとき答えがずれる。迷ったら付ける。
- 近似条件を片方しか見ない: だけ確認して を見落とす。 が に近いケースで近似が破綻する。両方チェック。
- 分散を と勘違い:分散は 、標準偏差は 。 は平均。混同しない。
- 正規近似とポアソン近似の取り違え: がごく小さい(不良品率0.1%など)のに正規近似すると、非対称な分布を対称な正規で潰してしまい外す。「まれな事象=ポアソン」を先に疑う。
- の分散を と書く:標本比率 の分散は ( で割る)。 の分散 と混同しない。
よくある疑問
Q1. 連続補正の は、なぜ なのですか? A. 離散の整数 を、幅 の区間 の中央とみなすからです。隣の整数 と のちょうど中間が 。各整数の「縄張り」を左右に半分ずつ取ると幅が になり、棒グラフの面積(高さ 、幅 )と正規曲線下の面積が対応します。だから補正幅は半整数の です。
Q2. 「以上」と「を超える」で計算が変わるのですか? A. 変わります。( を含む)は基準点 、( を含まない)は基準点 です。日本語の「以上/以下」は等号を含み、「より大きい/より小さい/を超える/未満」は含みません。離散だからこの違いが効きます。問題文の語尾を必ず確認してください。
Q3. が大きければ連続補正はしなくてよいのでは? A. が極端に大きければ のずれは相対的に小さくなり、答えへの影響はわずかになります。ただし「しなくてよい」ではなく「影響が小さい」だけです。2級では補正の理解そのものが問われるので、 の大小にかかわらず付けるのが安全です。付けて損はありません。
Q4. 正規近似とポアソン近似は、両方の条件を満たすこともありますか? A. 境界領域ではどちらの近似もそこそこ効くことがあります。一般則は「 が小さく が中程度(まれな事象)ならポアソン」「 も も大きい(対称に近い)なら正規」。判断基準は の大きさと両側の期待度数です。 が や に近いほどポアソン側、 が に近いほど正規側が素直に効きます。
Q5. 平均 と分散 は近似でも正しい値ですか? A. はい、近似ではなく厳密値です。、 は二項分布の真の平均・分散です(ベルヌーイ分布・二項分布 で導出)。正規近似が「近似」なのは分布の形を正規曲線で置き換える点だけで、中心位置と広がりは二項の真値をそのまま使います。だから近似の精度は「形がどれだけ正規に似ているか(=対称性)」で決まります。
まとめ
- 二項分布 は が大きいと で近似できる(ド・モアブル–ラプラスの定理=中心極限定理(CLT)の特別ケース)。
- 平均 ・分散 は厳密値を流用し、形だけ正規に置き換える。標準化 で正規分布表を使う。
- 離散→連続のギャップを埋める連続補正 が必須。「含む端は外へ広げ、含まない端は内へ狭める」。
- 使える目安は かつ (両側の期待度数が十分で対称に近いとき)。
- が小さい「まれな事象」は正規でなくポアソン分布近似を使う。
関連ノート
- ベルヌーイ分布・二項分布 — 近似元。二項のPMF・平均 ・分散 の導出
- 正規分布(標準正規・標準化) — 近似先。標準化と正規分布表の使い方(※未作成の場合あり)
- 中心極限定理(CLT) — 近似の根拠。二項の正規近似はCLTの特別な場合
- ポアソン分布 — もう一つの近似。まれな事象での使い分け