📊 対象級：2級　|　重要度：A（頻出）

母平均の検定（1標本・2標本t検定）

要点（BLUF）

母平均の検定：母平均 $\mu$ について立てた帰無仮説（例： $H_0:\mu=\mu_0$ ）が標本データと矛盾するかを調べる手続き。仮説検定の枠組み（仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））を母平均に適用したもの。検定統計量は $\dfrac{\text{(推定量)}-\text{(仮説値)}}{\text{(推定量の標準誤差)}}$ という共通の形をとります。
使う分布は「母分散 $\sigma^2$ を知っているか」で変わる。知っていれば正規分布（z検定）、知らなければ標本から推定した不偏分散 $s^2$ で代用し、t分布になります（t検定）。

状況	統計量	従う分布
1標本・ $\sigma$ 既知	$z=\dfrac{\bar X-\mu_0}{\sigma/\sqrt n}$	$N(0,1)$
1標本・ $\sigma$ 未知	$t=\dfrac{\bar X-\mu_0}{s/\sqrt n}$	$t_{n-1}$
2標本・対応なし・等分散	$t=\dfrac{\bar X_1-\bar X_2}{s_p\sqrt{1/n_1+1/n_2}}$	$t_{n_1+n_2-2}$
2標本・対応なし・等分散仮定なし（Welch）	$t=\dfrac{\bar X_1-\bar X_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}$	$t_\nu$ （近似自由度）
2標本・対応あり	$t=\dfrac{\bar D}{s_D/\sqrt n}$	$t_{n-1}$

最頻出の誤り：対応あり／なしの取り違え（同じ人の前後データに2標本t検定を使うなど）と、 $\sigma$ 既知/未知の混同（zとtの取り違え）。
t分布になる理由（本文で完全導出）： $\sigma$ を $s$ で置き換えると、分子の正規変数 $Z$ を「独立な」カイ二乗変数 $\sqrt{W/(n-1)}$ で割る形になり、これがt分布の定義そのもの。

本文

1. 母平均の検定とは：枠組みの上に立つ

このノートは独立した話ではなく、仮説検定の枠組み（仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））を母平均という具体的な母数に当てはめた応用です。検定の流れ自体は枠組みのとおり：

flowchart LR
    A["仮説を立てる<br/>H0: μ＝μ0<br/>H1: μ≠μ0 など"] --> B["検定統計量を計算<br/>z または t"]
    B --> C["帰無分布と比較<br/>N(0,1) または t分布"]
    C --> D["棄却域 or p値で判断"]
    style A fill:#e8f4ff
    style D fill:#fff0e8

母平均の検定で固有なのは「検定統計量に何を使い、それがどの分布に従うか」だけ。そしてそれを決めるのが、これから見る3つの分岐 ── (1) 標本は1つか2つか、(2) 母分散 $\sigma^2$ を知っているか、(3)（2標本なら）対応はあるか・等分散か、です。

検定統計量はどの場合も共通の形をしています：

$\text{検定統計量}=\frac{(\text{母平均の推定量})-(\text{帰無仮説の値})}{(\text{推定量の標準誤差})}.$

要するに：「推定値が仮説値からどれだけズレているか」を「そのズレの標準的な大きさ（標準誤差）」で割って、ズレを無次元の物差しに直したもの。分母に何を使うか（既知の $\sigma$ か、推定した $s$ か）で従う分布が変わります。

2. 1標本・母分散既知：z検定

設定：正規母集団 $N(\mu,\sigma^2)$ から無作為標本 $X_1,\dots,X_n$ 。 $\sigma^2$ は既知。 $H_0:\mu=\mu_0$ を検定する。

標本平均の分布（標本平均・標本比率の標本分布（標準誤差））から、 $\bar X\sim N\!\left(\mu,\dfrac{\sigma^2}{n}\right)$ 。 $H_0$ が正しいと仮定して $\mu=\mu_0$ を代入し、標準化すると：

$\boxed{\,z=\frac{\bar X-\mu_0}{\sigma/\sqrt n}\sim N(0,1)\ \ (H_0\text{ のもとで})\,}$

要するに：「標本平均が仮説値 $\mu_0$ から、標準誤差 $\sigma/\sqrt n$ いくつ分ずれているか」。 $H_0$ が正しければこの $z$ は標準正規分布に従うので、 $|z|$ が大きすぎる（例： $1.96$ 超）なら「 $H_0$ のもとでは滅多に起きない値が出た」として $H_0$ を棄却します。

ここで分母の $\sigma/\sqrt n$ を標準誤差（standard error, SE）と呼びます。 $\bar X$ という推定量の標準偏差のことです。

⚠️ z検定が成り立つ条件。厳密に $z\sim N(0,1)$ となるのは、(i) 母集団が正規 または (ii) 標本サイズ $n$ が大きく中心極限定理（標本平均・標本比率の標本分布（標準誤差））で $\bar X$ が近似的に正規、のどちらか。さらに $\sigma$ が既知であることが必要です。現実には $\sigma$ が既知であることはほぼなく、z検定は「 $n$ が大きいので $s$ を $\sigma$ とみなしてよい大標本」の文脈で登場することが多い（後述）。

3. 1標本・母分散未知：t検定（なぜt分布になるか）

設定：正規母集団 $N(\mu,\sigma^2)$ から無作為標本 $X_1,\dots,X_n$ 。 $\sigma^2$ は未知。 $H_0:\mu=\mu_0$ を検定する。

$\sigma$ が分からないので、 $z$ の分母の $\sigma$ を標本から計算した不偏分散 $s^2=\dfrac{1}{n-1}\sum(X_i-\bar X)^2$ の平方根 $s$ で置き換えます（不偏分散がなぜ $n-1$ 割りかは点推定（推定量の良さ：不偏性・一致性・有効性・十分性））。すると統計量は

$\boxed{\,t=\frac{\bar X-\mu_0}{s/\sqrt n}\sim t_{n-1}\ \ (H_0\text{ のもとで})\,}$

となり、標準正規分布ではなく自由度 $n-1$ のt分布（t分布・カイ二乗分布・F分布（標本分布の三役））に従います。なぜ分布が変わるのか ── これは2級で意味を問われる中核なので、完全に導出します。

3.1 t分布の定義（出発点）

t分布は次のように定義されます（t分布・カイ二乗分布・F分布（標本分布の三役））：

$Z\sim N(0,1)$ と $W\sim\chi^2_k$ が互いに独立であるとき、 $T=\frac{Z}{\sqrt{W/k}}$ は自由度 $k$ のt分布 $t_k$ に従う。

要するに：「標準正規変数を、独立なカイ二乗変数（自由度で割って平方根を取ったもの）で割る」とt分布になる、という決まりごと。t統計量がこの形に書けることを示せば、t分布に従うと言えます。

3.2 t統計量を $Z/\sqrt{W/k}$ の形に分解する

t統計量の分子・分母を母標準偏差 $\sigma$ で割って整理します（値は変わりません）：

$t=\frac{\bar X-\mu_0}{s/\sqrt n}=\frac{(\bar X-\mu_0)/(\sigma/\sqrt n)}{s/\sigma}=\frac{(\bar X-\mu_0)/(\sigma/\sqrt n)}{\sqrt{s^2/\sigma^2}}.$

ここで3つの事実を使います。正規母集団であることが効きます。

事実1（分子）： $H_0$ のもとで $\bar X\sim N(\mu_0,\sigma^2/n)$ なので、標準化した $Z=\frac{\bar X-\mu_0}{\sigma/\sqrt n}\sim N(0,1).$

事実2（分母の中身）：正規母集団からの標本では $W=\frac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$ が成り立ちます（t分布・カイ二乗分布・F分布（標本分布の三役）。「 $n-1$ 個の独立な標準正規の2乗和」に相当し、自由度が $n-1$ になるのは拘束 $\sum(X_i-\bar X)=0$ が1本入るため）。これを使うと $\dfrac{s^2}{\sigma^2}=\dfrac{W}{n-1}$ 。

事実3（独立性）：正規母集団に限り、標本平均 $\bar X$ と不偏分散 $s^2$ は互いに独立。したがって $Z$ と $W$ も独立です。

これらを代入すると：

$t=\frac{Z}{\sqrt{s^2/\sigma^2}}=\frac{Z}{\sqrt{W/(n-1)}}.$

$Z\sim N(0,1)$ 、 $W\sim\chi^2_{n-1}$ 、両者独立 ── これは3.1のt分布の定義（ $k=n-1$ ）に完全に一致します。よって

$t=\frac{\bar X-\mu_0}{s/\sqrt n}\sim t_{n-1}.\qquad\blacksquare$

要するに： $\sigma$ を「定数」から「ばらつく推定量 $s$ 」に置き換えたぶん、分母にも不確かさ（カイ二乗のばらつき）が入る。その不確かさが、正規分布より裾が重いt分布をもたらします。 $n$ が大きいと $s\to\sigma$ に近づき $t_{n-1}\to N(0,1)$ に収束する ── これが「大標本ではz検定で代用できる」理由です。

⚠️ 独立性（事実3）は正規母集団だけの特権。 $\bar X$ と $s^2$ が独立になるのは母集団が正規分布のときに限ります。だから「t検定は正規性を仮定する」。母集団が非正規でも $n$ が大きければ近似的にt検定が使えますが、それは中心極限定理による近似であって、厳密な独立性が成り立つわけではありません。

3.3 棄却域と判断

自由度 $n-1$ のt分布の上側 $\alpha/2$ 点を $t_{n-1}(\alpha/2)$ と書くと、有意水準 $\alpha$ の検定の棄却域は：

対立仮説	棄却域
$H_1:\mu\ne\mu_0$ （両側）	$\lvert t\rvert > t_{n-1}(\alpha/2)$
$H_1:\mu>\mu_0$ （右片側）	$t > t_{n-1}(\alpha)$
$H_1:\mu<\mu_0$ （左片側）	$t < -t_{n-1}(\alpha)$

p値を使う場合は「 $H_0$ のもとで、観測した $t$ 以上に極端な値が出る確率」を求め、 $\text{p値}<\alpha$ なら棄却します（p値・両側片側の扱いは仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））。

3.4 数値例（1標本t検定を1問通す）

ある製品の目標重量は $\mu_0=50$ g。 $n=9$ 個を測ったところ標本平均 $\bar X=51.2$ g、不偏分散 $s^2=4.0$ （ $s=2.0$ ）。重量が目標と異なるか、有意水準 $\alpha=0.05$ の両側検定で調べます。

仮説： $H_0:\mu=50,\ H_1:\mu\ne50$ 。
統計量： $t=\dfrac{51.2-50}{2.0/\sqrt9}=\dfrac{1.2}{2.0/3}=\dfrac{1.2}{0.667}=1.80.$
棄却限界：自由度 $n-1=8$ 、両側 $5\%$ なので $t_8(0.025)=2.306$ 。
判断： $|t|=1.80<2.306$ なので棄却域に入らない。 $H_0$ を棄却しない（目標重量と異なるとは言えない）。

要するに：ズレ $1.2$ g は標準誤差 $0.667$ g の $1.80$ 個分。t分布の物差しで見るとまだ「偶然のブレの範囲内」で、有意な差とは判定されません。

4. 2標本・対応なし：等分散を仮定するt検定

設定：独立な2つの正規母集団 $N(\mu_1,\sigma^2)$ 、 $N(\mu_2,\sigma^2)$ （母分散が等しい $\sigma_1^2=\sigma_2^2=\sigma^2$ と仮定）から、それぞれ独立に標本サイズ $n_1,n_2$ の標本。 $H_0:\mu_1=\mu_2$ （差がない）を検定する。

2つの群の平均に差があるかを調べます。対応なしとは、2群が別々の対象（例：A工場の製品とB工場の製品）で、1対1の組になっていないこと。

4.1 検定統計量

差の推定量 $\bar X_1-\bar X_2$ を使います。独立性から（期待値・分散の性質（線形性・和の分散・共分散）の分散の加法性）、 $H_0$ のもとで

$E[\bar X_1-\bar X_2]=\mu_1-\mu_2=0,\qquad V[\bar X_1-\bar X_2]=\frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2}=\sigma^2\!\left(\frac1{n_1}+\frac1{n_2}\right).$

$\sigma^2$ は未知なので、両群の不偏分散 $s_1^2,s_2^2$ を1つにまとめた推定量（プールした分散） で代用します：

$\boxed{\,s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}\,}$

これを使った検定統計量は

$\boxed{\,t=\frac{\bar X_1-\bar X_2}{s_p\sqrt{\dfrac1{n_1}+\dfrac1{n_2}}}\sim t_{n_1+n_2-2}\ \ (H_0\text{ のもとで})\,}$

自由度は $n_1+n_2-2$ です。

要するに：分子は「2群の平均差」、分母は「その差の標準誤差を、共通分散 $\sigma^2$ をプール分散 $s_p^2$ で推定して作ったもの」。両群が同じ $\sigma^2$ を共有していると仮定するからこそ、両群のデータを合わせて1つの $\sigma^2$ を推定でき、推定精度（自由度）が上がります。

4.2 なぜ自由度が $n_1+n_2-2$ か（導出の骨子）

1標本のとき（3.2）と同じ論法です。プール分散について

$\frac{(n_1+n_2-2)\,s_p^2}{\sigma^2}=\underbrace{\frac{(n_1-1)s_1^2}{\sigma^2}}_{\sim\,\chi^2_{n_1-1}}+\underbrace{\frac{(n_2-1)s_2^2}{\sigma^2}}_{\sim\,\chi^2_{n_2-1}}\sim\chi^2_{n_1+n_2-2}$

が成り立ちます（独立なカイ二乗分布の和は、自由度が足し算されたカイ二乗分布になる ── t分布・カイ二乗分布・F分布（標本分布の三役）の再生性）。分子の標準化変数 $Z=\dfrac{\bar X_1-\bar X_2}{\sigma\sqrt{1/n_1+1/n_2}}\sim N(0,1)$ とこの $W\sim\chi^2_{n_1+n_2-2}$ が独立なので、3.1の定義から $t=Z/\sqrt{W/(n_1+n_2-2)}\sim t_{n_1+n_2-2}$ 。

要するに：各群が自由度 $n_i-1$ ぶんの分散情報を持ち寄り、合計 $（n_1-1)+(n_2-1)=n_1+n_2-2$ が分母の自由度になる。「2つの平均を別々に引いたぶん、 $n_1+n_2$ から2を引く」と覚えると整合します。

4.3 数値例

A群（ $n_1=5$ ）： $\bar X_1=12.0,\ s_1^2=3.0$ 。B群（ $n_2=7$ ）： $\bar X_2=10.0,\ s_2^2=2.0$ 。等分散を仮定し $\alpha=0.05$ 両側で平均差を検定します。

プール分散： $s_p^2=\dfrac{(5-1)\cdot3.0+(7-1)\cdot2.0}{5+7-2}=\dfrac{12.0+12.0}{10}=2.4$ 、 $s_p=1.549$ 。
標準誤差： $s_p\sqrt{1/5+1/7}=1.549\times\sqrt{0.2+0.1429}=1.549\times0.5855=0.907$ 。
統計量： $t=\dfrac{12.0-10.0}{0.907}=2.205$ 。
棄却限界：自由度 $n_1+n_2-2=10$ 、両側 $5\%$ で $t_{10}(0.025)=2.228$ 。
判断： $|t|=2.205<2.228$ なので、わずかに棄却域に届かず $H_0$ を棄却しない（有意水準5%では差があるとは言えない。ギリギリ）。

5. 2標本・対応なし：Welchのt検定（等分散を仮定しない）

設定：独立な2つの正規母集団 $N(\mu_1,\sigma_1^2)$ 、 $N(\mu_2,\sigma_2^2)$ 。母分散が等しいと仮定しない（ $\sigma_1^2\ne\sigma_2^2$ かもしれない）。 $H_0:\mu_1=\mu_2$ を検定する。

5.1 検定統計量と近似自由度

等分散を仮定しないので、プールせず各群の不偏分散をそのまま使います：

$\boxed{\,t=\frac{\bar X_1-\bar X_2}{\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}}}\,}$

問題は自由度です。分母の $\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}$ は「異なる分散を持つ2つのカイ二乗の和」になり、これは厳密にはカイ二乗分布になりません（再生性は同じ $\sigma^2$ で割ったときだけ成り立つ）。そこで分布をカイ二乗分布で近似し、モーメントを合わせて自由度を決めます。それが Welch–Satterthwaite の近似式：

$\boxed{\,\nu\approx\frac{\left(\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}\right)^2}{\dfrac{(s_1^2/n_1)^2}{n_1-1}+\dfrac{(s_2^2/n_2)^2}{n_2-1}}\,}$

この $\nu$ は一般に整数になりません（小数点以下が出る）。検定統計量 $t$ は近似的に $t_\nu$ に従うとして棄却域・p値を求めます。

要するに：等分散という都合のよい仮定を捨てると、分母がきれいなカイ二乗にならない。そこで「最もよく似たカイ二乗分布」を探し、その自由度 $\nu$ を使う近似。式は複雑ですが、統計検定2級で式を暗記する必要はありません（ソフトが計算する。意味と「自由度が非整数になりうる」ことを押さえれば十分）。

5.2 Studentのt検定とWelch、どちらを使うか

flowchart TD
    A["2標本・対応なし<br/>母平均の差の検定"] --> B{"母分散は等しいと<br/>仮定できるか?"}
    B -->|"等分散を仮定する"| C["Studentの2標本t検定<br/>プール分散 sp²<br/>自由度 n1+n2-2"]
    B -->|"等分散を仮定しない"| D["Welchのt検定<br/>プールしない<br/>近似自由度 ν"]
    style C fill:#e8f4ff
    style D fill:#fff0e8

伝統的には「先にF検定で等分散かを調べ、等分散ならStudent、非等分散ならWelch」と教わってきました。しかし近年は、最初からWelchを使う方が安全という考え方が一般的になりつつあります（要最新確認）。理由は2つ：

Welchは等分散のときもほぼ妥当に機能する（等分散なら結果はStudentとほぼ一致）。一方Studentは非等分散だと第一種の過誤（第一種の過誤・第二種の過誤・検出力（2種類の誤りとトレードオフ・サンプルサイズ設計））が崩れる。
「F検定 → t検定」と検定を2段階で行うと、有意水準の補正をしないかぎり全体の危険率が名目の $\alpha$ を超えてしまう（多重性の問題）。

ただし統計検定2級では「等分散を仮定する2標本t検定」が基本問題として問われることが多く、問題文に「等分散を仮定する」「母分散は等しいとする」と明記されるのが通例です。問題文の仮定に従ってください（要最新確認）。

6. 2標本・対応あり：差を取って1標本に帰着

設定： $n$ 組の対 $(X_i,Y_i)$ （同じ対象の前後測定など、1対1で対応）。 $H_0:\mu_X=\mu_Y$ （前後で平均が変わらない）を検定する。

対応ありとは、2群が同じ対象から測られていて1対1の組になっている状態。例：同じ患者の投薬前と投薬後の血圧、同じ被験者の訓練前後のスコア。

6.1 差を取れば1標本t検定そのもの

各対の差 $D_i=X_i-Y_i$ を作ります。 $H_0:\mu_X=\mu_Y$ は、差の母平均が0、すなわち $H_0:\mu_D=0$ と同値です。あとは差 $D_1,\dots,D_n$ を1つの標本とみなして**1標本t検定（3節）**を $\mu_0=0$ で行うだけ：

$\boxed{\,t=\frac{\bar D}{s_D/\sqrt n}\sim t_{n-1}\ \ (H_0\text{ のもとで})\,}$

ここで $\bar D=\dfrac1n\sum D_i$ は差の標本平均、 $s_D$ は差の不偏標準偏差、自由度は $n-1$ （対の数 $-1$ 。 $2n$ ではない）。

要するに：対応のあるデータは「差」という1本の標本に圧縮できるので、新しい検定を覚える必要はなく1標本t検定に帰着する。これが対応ありの正体です。

6.2 なぜ対応ありの方が「強い」のか

対応ありでは、対象ごとの個人差（ベースラインの違い）が差を取る段階で相殺されます。これが効きます。差の分散を分散の性質（期待値・分散の性質（線形性・和の分散・共分散））で書くと：

$V[D]=V[X-Y]=V[X]+V[Y]-2\,\mathrm{Cov}(X,Y).$

前後測定では $X$ と $Y$ は正に相関する（元々高い人は前も後も高い）ので $\mathrm{Cov}(X,Y)>0$ 。よって差の分散 $V[D]$ は、対応を無視したときの分散より小さくなる。分母（標準誤差）が小さくなるので、同じ平均差でもより検出しやすい＝検出力（第一種の過誤・第二種の過誤・検出力（2種類の誤りとトレードオフ・サンプルサイズ設計））が高い。

要するに：対応データを「対応なし」として扱うと、本来相殺できる個人差をノイズとして残してしまい、検出力を捨てることになる。だから対応がある設計では必ず対応ありの検定を使うべき ── これが取り違えが致命的な理由です。

7. 検定の選択フロー（全体像）

3つの分岐を1枚にまとめます。実際の問題で「どの式を使うか」はこのフローで決まります。

flowchart TD
    A["母平均の検定"] --> B{"標本は<br/>1つか2つか"}
    B -->|"1標本"| C{"母分散 σ は<br/>既知か"}
    C -->|"既知"| C1["z検定<br/>z＝(X̄−μ0)/(σ/√n)<br/>N(0,1)"]
    C -->|"未知"| C2["1標本t検定<br/>t＝(X̄−μ0)/(s/√n)<br/>自由度 n−1"]
    B -->|"2標本"| D{"対応は<br/>あるか"}
    D -->|"対応あり<br/>(同一対象の対)"| D1["差 Di＝Xi−Yi を取り<br/>1標本t検定<br/>自由度 n−1"]
    D -->|"対応なし<br/>(独立な2群)"| E{"等分散を<br/>仮定するか"}
    E -->|"仮定する"| E1["Studentの2標本t検定<br/>プール分散 sp²<br/>自由度 n1+n2−2"]
    E -->|"仮定しない"| E2["Welchのt検定<br/>近似自由度 ν"]
    style C1 fill:#e8f4ff
    style C2 fill:#e8f4ff
    style D1 fill:#e8ffe8
    style E1 fill:#fff0e8
    style E2 fill:#fff0e8

判断の順番は 「標本数 → 母分散既知か → 対応あるか → 等分散か」。この順でたどれば必ず1つの検定に行き着きます。

⚠️ 大標本でのz検定との関係。 $\sigma$ 未知でも $n$ が十分大きい（目安 $n\ge30$ など）と、 $s\approx\sigma$ かつ中心極限定理で $\bar X$ が近似正規になるため、t検定の代わりに $z=\dfrac{\bar X-\mu_0}{s/\sqrt n}$ を $N(0,1)$ で評価する「大標本のz検定」が使われます。 $t_{n-1}\to N(0,1)$ （ $n\to\infty$ ）なので、大標本では両者はほぼ一致します。問題文が「大標本」「正規近似」と書いていればz、「小標本・正規母集団・ $\sigma$ 未知」ならtが基本（要最新確認）。

⚠️ 引っかけポイント

対応あり／なしの取り違え（最頻出）。同じ対象の前後データは対応あり（差を取って自由度 $n-1$ ）。別々の対象の2群は対応なし（自由度 $n_1+n_2-2$ または Welch の $\nu$ ）。問題文の「同じ被験者」「前後」「ペア」は対応ありの合図。取り違えると自由度も標準誤差も全部変わる。
z検定とt検定の混同。 $\sigma$ が既知ならz（ $N(0,1)$ ）、未知ならt（ $t_{n-1}$ ）。現実の問題で $\sigma$ 既知はまれ。「母分散が分かっている」「母標準偏差は $\sigma=\dots$ とする」と明記されたときだけz。標本から $s$ を計算させる問題はt。
自由度の数え間違い。1標本t＝ $n-1$ 、2標本（等分散）＝ $n_1+n_2-2$ 、対応あり＝対の数 $-1$ （ $2n$ ではない）、Welch＝非整数の近似 $\nu$ 。「2標本だから $n_1+n_2$ 」「対応ありで $2n-1$ 」は誤り。
プール分散の重み。 $s_p^2$ は単純平均 $\frac{s_1^2+s_2^2}{2}$ ではなく、自由度 $n_i-1$ で重み付けした加重平均。標本サイズが違うと単純平均とずれる。 $n_1=n_2$ のときだけ単純平均と一致。
片側／両側の取り違え。「差があるか」は両側（ $H_1:\mu\ne\mu_0$ ）、「より大きい／小さいか」は片側。棄却限界が $t(\alpha/2)$ か $t(\alpha)$ かが変わる（仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））。
t検定の前提＝正規性。t統計量が厳密に $t_{n-1}$ に従うのは、母集団が正規で $\bar X$ と $s^2$ が独立なとき。非正規でも大標本なら近似的に使えるが、小標本で母集団が大きく歪んでいるとt検定は妥当でない（ノンパラメトリック検定を検討）。
Welchの自由度は非整数。 $\nu$ が小数で出てもおかしくない。t分布表を引くときは保守的に小さい側の整数で代用することがある（要最新確認）。

よくある疑問

Q1. なぜ $\sigma$ が未知になっただけで、正規分布じゃなくt分布になるんですか？ A. 分母が「定数」から「ばらつく推定量」に変わるからです。 $\sigma$ 既知のとき分母 $\sigma/\sqrt n$ は固定値なので、 $z=\frac{\bar X-\mu_0}{\sigma/\sqrt n}$ は正規変数を定数で割っただけ＝正規分布。ところが $\sigma$ を標本から推定した $s$ で置き換えると、分母 $s/\sqrt n$ 自体が標本ごとにばらつきます。本文3.2で示したとおり、このとき統計量は「正規変数 $Z$ を、独立なカイ二乗変数 $\sqrt{W/(n-1)}$ で割る」形になり、これがt分布の定義そのもの。分母にも不確かさが乗るぶん、t分布は正規分布より裾が重く（外れ値が出やすく）なります。 $n$ が大きいと $s\to\sigma$ で分母の不確かさが消え、 $t_{n-1}\to N(0,1)$ に戻ります。

Q2. プール分散 $s_p^2$ はなぜ単純に $\frac{s_1^2+s_2^2}{2}$ じゃダメなんですか？ A. 標本サイズが違うと、分散の推定精度（情報量）が群ごとに違うからです。 $s_1^2$ は自由度 $n_1-1$ ぶん、 $s_2^2$ は自由度 $n_2-1$ ぶんの情報を持っています。より多くのデータに基づく推定（自由度が大きい方）を重く扱うのが理にかなっている。だから $s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$ と自由度で重み付けします。本文4.2で見たとおり、この重み付けこそが「分子が自由度 $n_1+n_2-2$ のカイ二乗になる」ことを保証し、検定統計量がきれいに $t_{n_1+n_2-2}$ に従う根拠になります。なお $n_1=n_2$ のときだけ単純平均と一致します。

Q3. 等分散かどうか分からないとき、結局StudentとWelchどちらを使えばいいんですか？ A. 実務では「最初からWelchを使う」が近年の主流です（要最新確認）。Welchは等分散でもほぼ正しく機能し、非等分散でも頑健だからです。「先にF検定で等分散を確かめてから選ぶ」という昔ながらの手順は、検定を2回行うことで全体の第一種の過誤が名目の有意水準を超えてしまう（多重性）ため、今は推奨されないことが多い。ただし統計検定2級の試験では、問題文に「等分散を仮定する」と明記された上でStudentの2標本t検定（プール分散）を計算させる問題が基本です。試験では問題文の仮定に素直に従ってください。「実務の作法」と「試験で問われる基本形」を分けて理解するのがコツです。

Q4. 対応のあるデータを、間違えて対応なしの2標本t検定で検定したらどうなりますか？ A. 多くの場合、本来検出できる差を見逃します（検出力が下がる）。対応ありでは、対象ごとの個人差（ベースライン）が差 $D_i=X_i-Y_i$ を取る段階で相殺されます。本文6.2のとおり $V[D]=V[X]+V[Y]-2\mathrm{Cov}(X,Y)$ で、前後測定は正の相関 $\mathrm{Cov}(X,Y)>0$ を持つため差の分散が小さくなり、標準誤差が縮んで検出力が上がる。これを対応なしで扱うと、相殺できるはずの個人差をノイズとして残してしまい、分母が無駄に大きくなって有意差が出にくくなります。さらに自由度も $n-1$ から $2n-2$ に変わるなど、別物の検定になります。「対応がある設計なら必ず対応ありの検定」が鉄則です。

Q5. t検定は母集団が正規分布じゃないと使えないんですか？ A. 厳密には正規性が前提です。本文3.2の独立性（ $\bar X$ と $s^2$ が独立）と $\frac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$ は、母集団が正規分布のときに成り立つ性質だからです。ただし実用上は、(i) 標本サイズ $n$ が大きければ中心極限定理で $\bar X$ が近似正規になり、t検定は近似的に妥当、(ii) t検定は正規性からの多少のズレには比較的頑健（robust）、とされています。問題になるのは「小標本かつ母集団が大きく歪んでいる」ケースで、このときはt検定の前提が崩れるのでノンパラメトリック検定（ウィルコクソンの順位和検定など。準1級以降）を検討します。統計検定2級では「正規母集団からの標本」という設定で出ることがほとんどです。

まとめ

母平均の検定は仮説検定の枠組み（仮説検定の枠組み（帰無仮説・対立仮説・p値・有意水準））を母平均に当てはめたもの。検定統計量は $\dfrac{(\text{推定量})-(\text{仮説値})}{(\text{標準誤差})}$ という共通形。
使う分布は**「母分散 $\sigma$ を知っているか」で分岐**。既知ならz検定（ $N(0,1)$ ）、未知なら $s$ で代用してt検定（ $t_{n-1}$ ）。
t分布になる理由： $\sigma$ を $s$ に置き換えると、 $t=\dfrac{Z}{\sqrt{W/(n-1)}}$ （ $Z\sim N(0,1)$ 、 $W=\frac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}$ 、両者独立）の形になり、t分布の定義に一致。独立性は正規母集団の特権。
2標本（対応なし・等分散）：プール分散 $s_p^2=\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$ を使い、 $t=\frac{\bar X_1-\bar X_2}{s_p\sqrt{1/n_1+1/n_2}}\sim t_{n_1+n_2-2}$ 。自由度は2群の自由度の和。
2標本（対応なし・等分散を仮定しない）：Welchのt検定。プールせず $t=\frac{\bar X_1-\bar X_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}$ 、自由度はWelch–Satterthwaiteの近似 $\nu$ （非整数になりうる）。実務では最初からWelchが主流（要最新確認）。
2標本（対応あり）：差 $D_i=X_i-Y_i$ を取り1標本t検定に帰着、自由度 $n-1$ （対の数 $-1$ ）。個人差が相殺され検出力が高い。対応あり／なしの取り違えが最頻出の誤り。
試験での問われ方（2級）：与えられた状況からフロー（標本数→σ既知?→対応?→等分散?）で正しい検定を選び、検定統計量・自由度・棄却域を計算して判断する。