📊 対象級：準1級　|　重要度：B（標準）

幾何分布・超幾何分布・負の二項分布

要点（BLUF）

二項分布から派生する3つの離散分布です。問われ方は「定義式を書けるか」「期待値・分散・母関数を導出できるか」「どの分布を使うべきか見分けられるか」の3点。

幾何分布：初めて成功するまでの待ち時間。 $E[X]=\frac{1}{p}$ 、 $V[X]=\frac{1-p}{p^2}$ （試行回数版）
負の二項分布： $r$ 回成功するまでの待ち時間。幾何分布を $r$ 個足したもの。 $E[X]=\frac{r}{p}$ 、 $V[X]=\frac{r(1-p)}{p^2}$
超幾何分布：非復元抽出での成功数。二項分布に有限母集団修正 $\frac{N-n}{N-1}$ がかかる。 $E[X]=n\frac{M}{N}$ 、 $V[X]=n\frac{M}{N}\frac{N-M}{N}\frac{N-n}{N-1}$

\boxed{ \begin{aligned} \text{幾何（試行回数版）}:\ & P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\dots \\ \text{負の二項（試行回数版）}:\ & P(X=k)=\binom{k-1}{r-1}p^{r}(1-p)^{k-r},\quad k=r,r+1,\dots \\ \text{超幾何}:\ & P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} \end{aligned}}

1. 全体像：二項分布からの3つの派生

二項分布 $\mathrm{Bin}(n,p)$ は「試行回数 $n$ を固定して、成功回数を数える」分布でした（ベルヌーイ分布・二項分布）。今回の3分布は、この「何を固定して何を数えるか」を入れ替えたり、独立性の前提を外したりして得られます。

graph TD
    Bern["ベルヌーイ試行（成功確率 p の独立試行）"]
    Binom["二項分布<br/>試行回数を固定し成功回数を数える"]
    Geom["幾何分布<br/>初成功までの試行回数を数える"]
    NB["負の二項分布<br/>r回成功までの試行回数を数える"]
    Hyper["超幾何分布<br/>非復元抽出での成功数"]
    Pois["ポアソン分布<br/>まれな事象の生起数"]

    Bern --> Binom
    Bern --> Geom
    Geom -->|r個の独立和| NB
    Binom -->|復元を非復元に| Hyper
    Binom -->|n大p小 np一定| Pois
    Hyper -->|N大 抽出が母集団に影響しない| Binom

整理すると次の対比になります。

分布	固定するもの	数えるもの	試行の独立性
二項	試行回数 $n$	成功回数	独立（復元）
幾何	成功回数 $=1$	試行回数（待ち時間）	独立（復元）
負の二項	成功回数 $=r$	試行回数（待ち時間）	独立（復元）
超幾何	抽出数 $n$	成功回数	非独立（非復元）

要するに：幾何・負の二項は「成功回数を固定して試行回数（待ち時間）を確率変数にした」鏡像。超幾何は「二項の独立性を壊して非復元にした」もの。

2. 幾何分布（Geometric distribution）

2.1 定義（2つの流派に注意）

成功確率 $p$ のベルヌーイ試行を独立に繰り返すとき、初めて成功するまでを考えます。ここで流派が2つあり、混同が最大の落とし穴です。

流派A（試行回数版・support $1,2,\dots$ ）：初成功が出た試行番号 $X$ を確率変数とする。

P(X=k)=(1-p)^{k-1}p,\qquad k=1,2,3,\dots

要するに：「 $k-1$ 回失敗してから $k$ 回目に成功」。失敗 $k-1$ 回＋成功1回。

流派B（失敗回数版・support $0,1,2,\dots$ ）：初成功までの失敗の回数 $Y=X-1$ を確率変数とする。

P(Y=k)=(1-p)^{k}p,\qquad k=0,1,2,\dots

要するに：両者は $Y=X-1$ の関係。だから期待値は $1$ だけずれる。問題文が「何回目で成功するか」なら流派A、「失敗は何回か」なら流派B。

本ノートは特記なき限り**流派A（試行回数版）**を主に使います。

2.2 PMFが確率分布である確認

\sum_{k=1}^{\infty}(1-p)^{k-1}p = p\sum_{j=0}^{\infty}(1-p)^{j}=p\cdot\frac{1}{1-(1-p)}=p\cdot\frac{1}{p}=1

要するに：等比級数の和 $\sum_{j\ge0}q^j=\frac{1}{1-q}$ （ $q=1-p$ ）でちょうど1になる。これが幾何級数（geometric series）＝幾何分布の名の由来。

2.3 期待値の導出（省略しない）

$q=1-p$ とおきます。

E[X]=\sum_{k=1}^{\infty}k\,q^{k-1}p = p\sum_{k=1}^{\infty}k\,q^{k-1}

ここで核心は級数 $\sum_{k=1}^{\infty}k\,q^{k-1}$ の評価です。等比級数を $q$ で項別微分するのが定石です。

\sum_{k=0}^{\infty}q^{k}=\frac{1}{1-q}\quad\Longrightarrow\quad \frac{d}{dq}\sum_{k=0}^{\infty}q^{k}=\sum_{k=1}^{\infty}k\,q^{k-1}=\frac{d}{dq}\frac{1}{1-q}=\frac{1}{(1-q)^2}

要するに：「 $\sum q^k$ を $q$ で微分すると $\sum k q^{k-1}$ が出る」。和の公式を1回微分するだけで $k$ 倍の級数が手に入る。これは離散分布の期待値導出で何度も使う武器。

$1-q=p$ なので $\sum_{k=1}^{\infty}k\,q^{k-1}=\frac{1}{p^2}$ 。したがって

E[X]=p\cdot\frac{1}{p^2}=\frac{1}{p}

要するに：成功確率が $p$ なら平均 $1/p$ 回目で成功する。 $p=0.2$ なら平均5回目。直観に一致。

2.4 分散の導出（省略しない）

$E[X(X-1)]$ を経由します（ $E[X^2]$ を直接出すより和が綺麗）。さらに $q$ で2回微分します。

\sum_{k=0}^{\infty}q^{k}=\frac{1}{1-q}\quad\Longrightarrow\quad \frac{d^2}{dq^2}\frac{1}{1-q}=\sum_{k=2}^{\infty}k(k-1)q^{k-2}=\frac{2}{(1-q)^3}

$E[X(X-1)]=\sum_{k=1}^{\infty}k(k-1)q^{k-1}p = pq\sum_{k=2}^{\infty}k(k-1)q^{k-2}=pq\cdot\frac{2}{p^3}=\frac{2q}{p^2}$ 。

要するに：2回微分で $k(k-1)$ 倍の級数が出る。階乗モーメント $E[X(X-1)]$ を作るとこれと噛み合う。

あとは $V[X]=E[X(X-1)]+E[X]-(E[X])^2$ を使います。

V[X]=\frac{2q}{p^2}+\frac{1}{p}-\frac{1}{p^2}=\frac{2q+p-1}{p^2}=\frac{2(1-p)+p-1}{p^2}=\frac{1-p}{p^2}

要するに： $V[X]=\frac{1-p}{p^2}=\frac{q}{p^2}$ 。流派B（失敗回数版）でも $Y=X-1$ は定数シフトなので分散は同じ $\frac{1-p}{p^2}$ 。期待値だけ $\frac{1-p}{p}$ に変わる。

2.5 確率母関数・モーメント母関数

確率母関数 $G_X(s)=E[s^X]$ は

G_X(s)=\sum_{k=1}^{\infty}s^{k}q^{k-1}p=\frac{ps}{1-qs}\quad(|qs|<1)

モーメント母関数は $s=e^{t}$ を代入して

M_X(t)=E[e^{tX}]=\frac{pe^{t}}{1-(1-p)e^{t}}\quad\left(t<-\ln(1-p)\right)

要するに：母関数の形は等比級数そのもの。 $M_X(t)$ を微分して $t=0$ を入れれば $E[X],E[X^2]$ が取れる（検算用）。

2.6 無記憶性（幾何分布の特徴的性質）

幾何分布は離散分布で唯一無記憶性（memoryless property）を持ちます（流派B＝失敗回数版で綺麗に成立）。

P(Y\ge s+t\mid Y\ge s)=P(Y\ge t)

要するに：「すでに $s$ 回失敗した」という履歴は、その後あと何回失敗するかの分布を変えない。コインは過去を覚えていない。連続版の指数分布に対応する離散版の性質。準1級で問われ得る論点。

3. 負の二項分布（Negative binomial distribution）

3.1 定義（これも流派あり）

成功確率 $p$ のベルヌーイ試行を独立に繰り返し、 $r$ 回成功するまでを考えます。幾何分布は $r=1$ の特別な場合です。

流派A（試行回数版・support $r,r+1,\dots$ ）： $r$ 回目の成功が出た試行番号 $X$ 。

P(X=k)=\binom{k-1}{r-1}p^{r}(1-p)^{k-r},\qquad k=r,r+1,\dots

要するに：最後の $k$ 回目は必ず成功（だから固定）。残り $k-1$ 回のうち $r-1$ 回が成功する並び方が $\binom{k-1}{r-1}$ 通り。二項分布の $\binom{n}{k}$ と違い「最後を成功に固定する」のがポイント。

流派B（失敗回数版・support $0,1,\dots$ ）： $r$ 回成功するまでの失敗回数 $Y=X-r$ 。

P(Y=y)=\binom{r+y-1}{y}p^{r}(1-p)^{y},\qquad y=0,1,2,\dots

要するに： $Y=X-r$ 。 $\binom{r+y-1}{y}=\binom{r+y-1}{r-1}$ 。後述の母関数・モーメント導出は流派Bの方が計算が綺麗なので、以下では両方を併記します。

3.2 幾何分布の独立和としての導出（最重要の視点）

$r$ 回成功するまでの試行回数 $X$ は、「初成功までの試行回数 $X_1$ 」＋「次の成功までの試行回数 $X_2$ 」＋…＋「 $r$ 番目の成功までの試行回数 $X_r$ 」と分解できます。各 $X_i$ は独立に同一の**幾何分布（試行回数版）**に従います。

X=X_1+X_2+\cdots+X_r,\qquad X_i\stackrel{\text{iid}}{\sim}\mathrm{Geom}(p)

要するに：「成功するたびにカウンタをリセットして、また初成功まで待つ」を $r$ 回繰り返す。各待ち時間が独立な幾何分布。

この分解だけで期待値・分散が導出ゼロで出ます。

E[X]=\sum_{i=1}^{r}E[X_i]=r\cdot\frac{1}{p}=\frac{r}{p}

V[X]=\sum_{i=1}^{r}V[X_i]=r\cdot\frac{1-p}{p^2}=\frac{r(1-p)}{p^2}\quad(\text{独立なので分散も加法的})

要するに：独立な確率変数の和は期待値も分散も足し算でよい（期待値・分散の性質（線形性・和の分散・共分散））。幾何分布の結果を $r$ 倍するだけ。これが負の二項の最速導出。

流派B（失敗回数版）なら $E[Y]=E[X]-r=\frac{r}{p}-r=\frac{r(1-p)}{p}$ 、分散は同じ $\frac{r(1-p)}{p^2}$ 。

3.3 母関数による導出（独立和の別証明）

幾何分布のMGFは $M_{X_i}(t)=\frac{pe^t}{1-(1-p)e^t}$ 。独立和のMGFは積になるので、

M_X(t)=\prod_{i=1}^{r}M_{X_i}(t)=\left(\frac{pe^{t}}{1-(1-p)e^{t}}\right)^{r}

流派B（失敗回数版）では $M_Y(t)=\left(\frac{p}{1-(1-p)e^t}\right)^r$ 、確率母関数は $G_Y(s)=\left(\frac{p}{1-(1-p)s}\right)^r$ 。

要するに：「独立和のMGFは各MGFの積」という性質（確率変数の変換・モーメント母関数・積率）で、幾何分布のMGFを $r$ 乗するだけ。和の分解と完全に整合する。

直接導出する場合は一般化二項定理（負の二項展開）を使います。流派B の確率母関数で

G_Y(s)=\sum_{y=0}^{\infty}s^{y}\binom{r+y-1}{y}p^{r}(1-p)^{y}=p^{r}\sum_{y=0}^{\infty}\binom{r+y-1}{y}\bigl((1-p)s\bigr)^{y}=p^{r}\bigl(1-(1-p)s\bigr)^{-r}

ここで使った恒等式は $\sum_{y=0}^{\infty}\binom{r+y-1}{y}x^{y}=(1-x)^{-r}$ （ $|x|<1$ ）です。

要するに： $\binom{r+y-1}{y}$ は「負の二項係数」 $\binom{-r}{y}$ に符号を込めたもので、 $(1-x)^{-r}$ のテイラー展開係数そのもの。この級数和が「分布名に negative が付く」理由。

3.4 二項分布との重要な違い：過分散

\frac{V[X]}{E[X]}=\frac{r(1-p)/p^2}{r/p}=\frac{1-p}{p}=\frac{1}{p}-1>0\quad(\text{0<p<1で常に正})

二項分布は $\frac{V}{E}=1-p<1$ （分散 < 平均）でしたが、負の二項分布は $p<\tfrac12$ で分散 > 平均になり得ます。これを**過分散（overdispersion）**と呼びます。

要するに：カウントデータで「分散が平均より大きい」とき、ポアソン回帰では合わず負の二項回帰を使う、という実データでの動機がここにある。準1級・1級で頻出の応用文脈。

4. 超幾何分布（Hypergeometric distribution）

4.1 定義

$N$ 個のうち成功（当たり）が $M$ 個ある母集団から、非復元（戻さずに） $n$ 個を抽出するとき、抽出した中の成功数 $X$ が従う分布です。

P(X=k)=\frac{\dbinom{M}{k}\dbinom{N-M}{n-k}}{\dbinom{N}{n}},\qquad \max(0,\,n-(N-M))\le k\le \min(n,M)

要するに：「 $N$ 個から $n$ 個選ぶ全 $\binom{N}{n}$ 通りのうち、成功 $M$ 個から $k$ 個・失敗 $N-M$ 個から $n-k$ 個選ぶ組合せの割合」。組合せの数え上げそのもの。

4.2 二項分布との決定的な違い：非復元

二項分布は復元抽出（毎回母集団が元に戻る＝各試行の成功確率が一定で独立）。超幾何分布は非復元抽出（1個取るたびに母集団の構成が変わる＝試行が独立でない）。

flowchart TD
    Q["袋から玉を取り出す"] --> R{"取った玉を<br/>戻すか?"}
    R -->|戻す: 復元| Bin["各回の成功確率 p=M/N 一定<br/>独立 → 二項分布 Bin(n, M/N)"]
    R -->|戻さない: 非復元| Hyp["母集団構成が変化<br/>非独立 → 超幾何分布"]

要するに：問題文に「戻さずに」「同時に $n$ 個取り出す」とあれば超幾何、「毎回戻す」「独立に試行」なら二項。これが使い分けの一発判定。

4.3 期待値の導出（省略しない）

$p=M/N$ とおきます。組合せ恒等式 $k\binom{M}{k}=M\binom{M-1}{k-1}$ を使うのが鍵です。

E[X]=\sum_{k}k\,\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} =\frac{1}{\binom{N}{n}}\sum_{k}M\binom{M-1}{k-1}\binom{N-M}{n-k}

ヴァンデルモンドの恒等式 $\sum_{k}\binom{M-1}{k-1}\binom{N-M}{n-k}=\binom{N-1}{n-1}$ を適用し、 $\binom{N}{n}=\frac{N}{n}\binom{N-1}{n-1}$ を使うと、

E[X]=\frac{M\binom{N-1}{n-1}}{\binom{N}{n}}=\frac{M\binom{N-1}{n-1}}{\frac{N}{n}\binom{N-1}{n-1}}=n\frac{M}{N}=np

要するに：期待値は二項分布とまったく同じ $np$ （ $p=M/N$ ）。平均的には復元でも非復元でも当たりの割合は変わらない。差が出るのは分散の方。

4.4 分散の導出（有限母集団修正）

$E[X(X-1)]$ を $k(k-1)\binom{M}{k}=M(M-1)\binom{M-2}{k-2}$ とヴァンデルモンドで処理すると、

E[X(X-1)]=\frac{n(n-1)M(M-1)}{N(N-1)}

$V[X]=E[X(X-1)]+E[X]-(E[X])^2$ に代入して整理すると（途中式は煩雑なので結果を示す）、

V[X]=n\frac{M}{N}\cdot\frac{N-M}{N}\cdot\frac{N-n}{N-1}=np(1-p)\cdot\frac{N-n}{N-1}

要するに：超幾何の分散 = 二項の分散 $np(1-p)$ × 有限母集団修正係数 $\frac{N-n}{N-1}$ 。係数は常に $\le 1$ なので、非復元の方が二項より分散が小さい（取れば取るほど不確実性が減る）。

4.5 有限母集団修正係数の意味

\frac{N-n}{N-1}=\frac{1-n/N}{1-1/N}

$n=1$ のとき係数 $=1$ （1個だけなら復元も非復元も同じ）。
$n=N$ のとき係数 $=0$ （全部取れば成功数は確定 $M$ なので分散ゼロ）。
$N\to\infty$ （母集団が抽出に比べて巨大）で係数 $\to 1$ ⇒ 超幾何 → 二項に収束。

要するに：母集団が十分大きければ「1個抜いても割合はほぼ不変」なので非復元≒復元になり、超幾何は二項で近似できる。目安は $n/N<0.05$ 程度なら二項近似してよい。

5. 具体例

例1（幾何）：当たる確率 $p=1/6$ のくじを当たるまで引く。平均何回目で当たるか？ $E[X]=1/p=6$ 回目。分散 $V[X]=\frac{1-1/6}{(1/6)^2}=\frac{5/6}{1/36}=30$ 。

例2（負の二項・流派A）：同じくじを3回当てるまで引く。試行回数の期待値は $E[X]=r/p=3\times6=18$ 回。分散 $V[X]=\frac{r(1-p)}{p^2}=3\times30=90$ 。

例3（超幾何）：50枚中当たり10枚のくじから戻さず5枚引く。当たり数の期待値 $E[X]=n\frac{M}{N}=5\times\frac{10}{50}=1$ 枚。分散 $V[X]=np(1-p)\frac{N-n}{N-1}=5\cdot0.2\cdot0.8\cdot\frac{45}{49}=0.8\times\frac{45}{49}\approx0.735$ 。同条件の二項なら分散 $0.8$ なので、非復元の方が小さい。

6. 準1級での問われ方

要最新確認：出題範囲表は改訂され得るため、最新の公式範囲表で確認してください。

準1級では概ね次のレベルが問われます（過去の傾向ベース）。

PMFの定義を正しく書ける（特に負の二項の二項係数が $\binom{k-1}{r-1}$ で「最後を成功に固定」する点、超幾何の組合せ式）
期待値・分散を導出 or 暗記して使える（幾何 $\frac1p,\frac{1-p}{p^2}$ ／負の二項 $\frac rp,\frac{r(1-p)}{p^2}$ ／超幾何 $np,\,np(1-p)\frac{N-n}{N-1}$ ）
母関数の導出（幾何・負の二項のMGF／確率母関数。一般化二項定理の運用）
分布の使い分け（復元＝二項、非復元＝超幾何、待ち時間＝幾何/負の二項）
過分散・有限母集団修正の意味（応用・回帰の文脈）

分布	PMF	$E[X]$	$V[X]$	MGF
幾何（試行回数版）	$(1-p)^{k-1}p$	$\dfrac{1}{p}$	$\dfrac{1-p}{p^2}$	$\dfrac{pe^t}{1-(1-p)e^t}$
負の二項（試行回数版）	$\binom{k-1}{r-1}p^r(1-p)^{k-r}$	$\dfrac{r}{p}$	$\dfrac{r(1-p)}{p^2}$	$\left(\dfrac{pe^t}{1-(1-p)e^t}\right)^r$
超幾何	$\dfrac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}$	$n\dfrac{M}{N}$	$np(1-p)\dfrac{N-n}{N-1}$	（超幾何関数で複雑・問われにくい）

⚠️ 引っかけポイント・頻出論点

幾何分布の2流派： $E[X]=\frac1p$ （試行回数版）か $E[Y]=\frac{1-p}{p}$ （失敗回数版）か。問題が数えているのが「試行回数」か「失敗回数」かを必ず確認する。分散はどちらも $\frac{1-p}{p^2}$ で同じ（定数シフトは分散を変えない）。
負の二項の二項係数： $\binom{k}{r}$ ではなく $\binom{k-1}{r-1}$ 。最後の試行は必ず成功なので、残り $k-1$ 回の中で $r-1$ 回成功する並びを数える。
負の二項のパラメータ化：「成功 $r$ 回までの試行回数」か「失敗回数」か。期待値が $\frac rp$ か $\frac{r(1-p)}{p}$ で変わる。
超幾何 vs 二項の判定：「戻すか戻さないか」。戻す＝二項（独立・確率一定）、戻さない＝超幾何（非独立）。期待値は両者とも $np$ で同じだが、分散は超幾何の方が $\frac{N-n}{N-1}$ 倍だけ小さい。
有限母集団修正を二項にも掛けない：修正係数は超幾何（非復元）にだけ付く。標本調査で母集団が有限のとき分散推定に出てくるのも同じ係数。
超幾何のMGFは試験で導かせない：超幾何関数が必要で煩雑。期待値・分散は $E[X(X-1)]$ の組合せ恒等式で出すのが定石。

よくある疑問

Q1. 幾何分布の期待値は $\frac1p$ ですか $\frac{1-p}{p}$ ですか？ A. どちらも正解で、定義の流派が違うだけです。「初成功までの試行回数」を数える流派Aなら $E[X]=\frac1p$ 。「初成功までの失敗回数」を数える流派Bなら $E[Y]=\frac{1-p}{p}$ 。両者は $Y=X-1$ の関係なので期待値が1ずれます。試験では問題文が「何回目で成功したか」を聞いていれば $\frac1p$ 、「何回失敗したか」なら $\frac{1-p}{p}$ 。分散はどちらも $\frac{1-p}{p^2}$ で同一です（定数だけずらしても分散は不変）。

Q2. 負の二項分布の二項係数はなぜ $\binom{k-1}{r-1}$ なのですか？ $\binom{k}{r}$ ではダメ？ A. ダメです。 $r$ 回目の成功が $k$ 回目の試行で起きるには、 $k$ 回目は必ず成功でなければなりません（最後の成功で打ち切るから）。だから $k$ 回目は固定され、自由に並べられるのは残り $k-1$ 回の中の $r-1$ 個の成功です。これが $\binom{k-1}{r-1}$ 。 $\binom{k}{r}$ にすると「最後が失敗で終わる並び」まで数えてしまい、定義に合いません。

Q3. 超幾何分布と二項分布、どちらを使うか迷います。見分け方は？ A. 抽出を戻すかどうかの一点です。戻す（復元抽出）なら毎回の成功確率が $p=M/N$ で一定・独立なので二項分布。戻さない（非復元抽出）なら1個取るたびに母集団が変わり試行が独立でないので超幾何分布。「同時に $n$ 個取り出す」も非復元なので超幾何です。なお母集団 $N$ が抽出数 $n$ に比べて巨大（目安 $n/N<0.05$ ）なら、戻さなくても割合がほぼ不変なので二項で近似してかまいません。

Q4. 超幾何分布の期待値が二項と同じ $np$ なのに、分散だけ違うのはなぜ？ A. 「平均的に取れる当たりの割合」は復元でも非復元でも変わらないからです（各位置が当たりである周辺確率はどちらも $M/N$ ）。一方で非復元だと「1個取るごとに残りの不確実性が減る」ため、結果のばらつきが抑えられます。これが有限母集団修正 $\frac{N-n}{N-1}\le1$ として効き、超幾何の分散を二項より小さくします。極端な例として $n=N$ （全部取る）なら当たり数は必ず $M$ で確定し、分散はゼロ（係数も $\frac{N-N}{N-1}=0$ ）になります。

Q5. 「過分散」とは何ですか？なぜ負の二項分布が出てくるのですか？ A. カウントデータで分散が平均より大きい状態を過分散といいます。ポアソン分布は $E=V=\lambda$ （平均＝分散）を仮定しますが（ポアソン分布）、実データはしばしばこの仮定を破り分散が平均を上回ります。負の二項分布は $V[X]=\frac{r(1-p)}{p^2}$ で $\frac{V}{E}=\frac1p>1$ （ $p<1$ ）となり過分散を表現できます。実際、負の二項分布は「平均がガンマ分布に従って揺らぐポアソン分布（ポアソン・ガンマ混合）」とも導けるため、過分散のカウントデータのモデル（負の二項回帰）として準1級・1級の応用文脈でよく登場します。

まとめ

幾何分布は初成功までの待ち時間。試行回数版 $E=\frac1p$ ／失敗回数版 $E=\frac{1-p}{p}$ 、分散はどちらも $\frac{1-p}{p^2}$ 。等比級数の項別微分で導出。無記憶性を持つ唯一の離散分布。
負の二項分布は $r$ 回成功までの待ち時間で、幾何分布の独立和。だから $E,V$ は幾何の $r$ 倍。MGFは幾何のMGFの $r$ 乗。過分散を表現できる。
超幾何分布は非復元抽出での成功数。期待値は二項と同じ $np$ 、分散は二項に有限母集団修正 $\frac{N-n}{N-1}$ を掛けたぶんだけ小さい。 $N\to\infty$ で二項に収束。
使い分けの一発判定：復元＝二項／非復元＝超幾何／待ち時間（成功回数固定）＝幾何・負の二項。