← 統計検定テキスト 一覧

📊 対象級:2級 | 重要度:A(頻出)

仮説検定の枠組み(帰無仮説・対立仮説・p値・有意水準)

要点(BLUF)

用語ひとことで記号・条件
帰無仮説 H0H_0否定したい仮説(差がない)μ=μ0\mu=\mu_0 など等号
対立仮説 H1H_1主張したい仮説(差がある)μμ0, μ>μ0, μ<μ0\mu\ne\mu_0,\ \mu>\mu_0,\ \mu<\mu_0
有意水準 α\alpha棄却の基準確率(誤って棄却する確率の上限)ふつう 0.050.05
棄却域H0H_0 を棄却する統計量の領域確率が α\alpha の「滅多にない」域
p値観測値以上に極端な値が出る確率(H0H_0 仮定下)pαp\le\alpha で棄却

本文

1. なぜ「無に帰したい仮説」を立てるのか:背理法の論理

私たちが本当に主張したいのは「新薬は効く」「コインは歪んでいる」といった前向きの主張です。ところが仮説検定は、それを直接証明しません。逆に**「効かない」「歪んでいない」という否定形の仮説を立てて、それを棄却する形で間接的に主張します。なぜこんな回りくどいことをするのか。理由は「ある」の証明は難しいが、「ない」の反証は易しい**からです。

数学の背理法を思い出してください。「2\sqrt2 が無理数である」を直接示すのは難しいので、「2\sqrt2 は有理数である」と仮定して矛盾を導きました。仮説検定も同じ構造です。

graph LR
    A["主張したいこと<br/>薬は効く"] --> B["否定形を仮説に置く<br/>H0:薬は効かない"]
    B --> C["H0 が正しいと仮定して<br/>データの起こりやすさを計算"]
    C --> D{"観測データは<br/>H0 のもとで<br/>滅多に起きない?"}
    D -->|滅多に起きない| E["H0 を棄却<br/>=薬は効くと主張"]
    D -->|ありえなくはない| F["H0 を棄却できない<br/>=証拠不十分"]
    style B fill:#ffe8e8
    style E fill:#e8f4ff

ポイントは、H0H_0 が正しい」という仮定を出発点に置くと、検定統計量の分布が1つに定まることです。「差がない(μ=μ0\mu=\mu_0)」と決め打てば、標本平均がどんな分布に従うかを計算できる(標本平均・標本比率の標本分布(標準誤差))。その分布のもとで観測データが「滅多に起きない」端っこに来たなら、最初の仮定(H0H_0)が疑わしい、と結論する。これが仮説検定のエンジンです。

逆に対立仮説(H1H_1:差がある)を出発点にすると、「どれくらい差があるか」が定まらず分布を1つに描けません。だから確率を計算できる H0H_0 の側を仮定する。これが「無に帰したい仮説」を主役に据える理論的理由です。

⚠️ 帰無仮説には必ず等号が入るμ=μ0\mu=\mu_0μμ0\mu\le\mu_0 など)。「差がぴったり0」のように1点(または境界)に定めるからこそ分布が1つに決まり、確率計算ができます。対立仮説は等号なし(, >, <\ne,\ >,\ <)。試験で「H0H_0H1H_1 のどちらに等号を入れるか」を問われたら、等号は必ず H0H_0

2. 帰無仮説 H0H_0 と対立仮説 H1H_1 の立て方

定義

  • 帰無仮説 H0H_0(null hypothesis):否定・棄却したい仮説。「効果がない」「差がない」「母数がある特定の値に等しい」という主張。
  • 対立仮説 H1H_1(alternative hypothesis、HaH_a とも):H0H_0 が棄却されたときに採択される、本当に主張したい仮説。

要するにH1H_1 が「言いたいこと」、H0H_0 が「言いたいことの否定(=とりあえず信じておく現状維持の立場)」。検定は H0H_0 を守る側に立ち、データが H0H_0 を覆すだけの強い証拠を出せたときだけ H0H_0 を捨てます。

具体例で対応を見ます。

場面主張したいこと帰無仮説 H0H_0対立仮説 H1H_1
新薬の薬効平均血圧が下がるμ=μ0\mu=\mu_0(変わらない)μ<μ0\mu<\mu_0(下がる)または μμ0\mu\ne\mu_0
コインの公平性表が出やすい/歪んでいるp=0.5p=0.5(公平)p0.5p\ne0.5(歪んでいる)
製品の改良不良率が下がったp=p0p=p_0(変わらない)p<p0p<p_0(下がった)

2.1 片側検定と両側検定の使い分け

対立仮説の形で検定の「向き」が決まります。

graph TD
    A{"対立仮説 H1 の形は?"} -->|μ ≠ μ0| B["両側検定<br/>棄却域は両端<br/>各端に α/2 ずつ"]
    A -->|μ &gt; μ0| C["右片側検定<br/>棄却域は右端のみ<br/>右端に α"]
    A -->|μ &lt; μ0| D["左片側検定<br/>棄却域は左端のみ<br/>左端に α"]
    style B fill:#e8f4ff
    style C fill:#fff0e8
    style D fill:#fff0e8

両側検定では有意水準 α\alpha両端に半分ずつ(各 α/2\alpha/2)配分します。α=0.05\alpha=0.05 なら各端2.5%。片側検定では片端に α\alpha をまとめて置きます(5%)。

要するに:両側は「上振れも下振れも異常とみなす」ので5%を2.5%ずつ両端に分ける。片側は「片方向だけ異常とみなす」ので5%を片端に集中させる。同じ α\alpha なら片側のほうが棄却域が端に深く取れる(臨界値が手前にくる)ぶん、その向きの差を検出しやすくなります。

⚠️ 片側か両側かはデータを見る前に決める。統計量を計算してから「両側で有意にならなかったので片側に変えよう」は禁止。これをやると第一種過誤の確率が α\alpha を超えてしまい、検定が成立しません。向きは問題設定(何を主張したいか)だけで決めます。迷ったら両側が無難(より保守的)。

3. 検定統計量・棄却域・有意水準 α\alpha

3.1 検定統計量

定義検定統計量(test statistic)とは、標本から計算する量で、H0H_0 が正しいと仮定したときの分布(帰無分布)が分かっているもの。

代表例は、母平均の検定(分散既知)で使う標準化された量です。H0:μ=μ0H_0:\mu=\mu_0 のもとで、標本平均 Xˉ\bar X を標準化すると(標本平均・標本比率の標本分布(標準誤差)):

Z=Xˉμ0σ/n.Z=\frac{\bar X-\mu_0}{\sigma/\sqrt n}.

要するに:「観測された標本平均 Xˉ\bar X が、H0H_0 の主張する中心 μ0\mu_0 から、標準誤差 σ/n\sigma/\sqrt n 何個ぶん離れているか」。H0H_0 が正しければ Xˉ\bar Xμ0\mu_0 の近くに来るはずなので ZZ は0付近。ZZ が0から大きく離れるほど H0H_0 が疑わしい。中心極限定理(正規分布(標準正規・標準化))により、H0H_0 のもとで ZZ は標準正規分布 N(0,1)N(0,1) に従います ── これが「帰無分布が分かっている」の意味です。

3.2 棄却域と臨界値

定義棄却域(rejection region / critical region)とは、検定統計量がその範囲に入ったら H0H_0 を棄却する領域。臨界値(critical value)は棄却域の境界値。

棄却域は、H0H_0 が正しいときに検定統計量がそこに入る確率がちょうど α\alpha になるように、分布の端に取ります。ZZ 検定・両側・α=0.05\alpha=0.05 なら、標準正規分布の上側2.5%点が z0.0251.96z_{0.025}\approx1.96 なので、棄却域は Z1.96|Z|\ge1.96

xychart-beta
    title "標準正規分布の棄却域(両側・α=0.05)"
    x-axis "検定統計量 Z" [-3, -1.96, -1, 0, 1, 1.96, 3]
    y-axis "確率密度" 0 --> 0.45
    bar [0.004, 0.058, 0.242, 0.399, 0.242, 0.058, 0.004]

両端の低い部分(Z1.96Z\le-1.96Z1.96Z\ge1.96)が棄却域。中央の高い部分が採択域(棄却できない領域)。観測した ZZ が両端の棄却域に落ちれば H0H_0 を棄却します。

要するに:「H0H_0 が正しければ滅多に出ない(確率 α\alpha しかない)端っこの値が、現実に出てしまった。なら H0H_0 が間違っていたと考えるほうが筋が通る」。これが棄却の論理です。α\alpha は「この程度珍しければ H0H_0 を疑う」という珍しさの線引きです。

3.3 有意水準 α\alpha の意味

定義有意水準(significance level)α\alpha とは、検定を行う前に決める棄却の基準確率。H0H_0 が本当は正しいのに誤って棄却してしまう確率の上限

α=0.05\alpha=0.05 とは「H0H_0 が正しいのに棄却してしまう過ち(後述の第一種過誤)を、5%まで許す」という宣言です。慣習的に0.05や0.01を使いますが、これは絶対的な基準ではなく約束事です。

⚠️ α\alpha は検定の前に決める。データを見てから「0.05では有意にならないので0.10にしよう」と動かすのは禁止。α\alpha は「どれだけの誤判定リスクを事前に許容するか」の取り決めだからです。

4. p値:定義と正しい解釈(最重要)

p値の分布:H0真で一様・H1真で0寄り

左:帰無仮説が真ならp値は一様分布(だから α で切ると α だけ誤棄却=第一種過誤)。右:対立仮説が真ならp値は0付近に偏る(=検出力)。図は simulations/pchi_bunpu_kimu.py で生成。

定義p値(p-value)とは、H0H_0 が正しいと仮定したとき、実際に観測された検定統計量と同じかそれ以上に極端な値が得られる確率」

式で書くと、観測された統計量の値を zobsz_{\text{obs}} として、両側検定なら

p=P(Zzobs    H0 が正しい).p=P\big(|Z|\ge|z_{\text{obs}}|\;\big|\;H_0\text{ が正しい}\big).

要するに:「もし H0H_0 が本当なら、今回みたいに(あるいはもっと)極端なデータって、どれくらいの頻度で起きるの?」という確率。この値が小さいほど「H0H_0 が本当ならこんなデータは滅多に出ないはず= H0H_0 が怪しい」となります。

4.1 p値による判定ルール

pα  H0 を棄却p>α  H0 を棄却できない\boxed{\,p\le\alpha\ \Rightarrow\ H_0\text{ を棄却}\qquad p>\alpha\ \Rightarrow\ H_0\text{ を棄却できない}\,}

要するに:観測データの珍しさ(p値)が、あらかじめ決めた珍しさの基準(α\alpha)以下なら H0H_0 を捨てる。p値と棄却域は同じことを別の角度から見ているだけです ── 「統計量が棄却域に入る」⟺「p値が α\alpha 以下」。臨界値と統計量を比べるのが棄却域方式、確率に直して α\alpha と比べるのがp値方式。結論は必ず一致します。

⚠️ p値は「観測値ちょうどが出る確率」ではなく「観測値以上に極端な値が出る確率」。連続分布では「ちょうどその値」が出る確率は0なので、必ず「以上に極端」という裾の面積で測ります。「極端」の向きは対立仮説で決まる(両側なら Zzobs|Z|\ge|z_{\text{obs}}|、右片側なら ZzobsZ\ge z_{\text{obs}})。

4.2 p値の最大の誤解:「H0H_0 が正しい確率」ではない

ここが仮説検定で最も誤解される一点です。アメリカ統計学会(ASA)が2016年に異例の声明を出して警告したほどです。

誤り:「p = 0.03 だから、H0H_0 が正しい確率は3%だ」。 正しい:「H0H_0 が正しいと仮定したうえで、今回観測されたより極端なデータが出る確率が3%だ」。

なぜ別物なのか。条件付き確率の向きが逆だからです。

p=P(データが極端H0 が正しい)  P(H0 が正しいデータ).p\text{値}=P(\text{データが極端}\mid H_0\text{ が正しい})\ \ne\ P(H_0\text{ が正しい}\mid\text{データ}).

要するに:p値は「H0H_0 を真と仮定したときのデータの確率」(前向き)。一方「H0H_0 が正しい確率」は「データを見たあとの H0H_0 の確率」(後ろ向き)。この2つは一般に一致しません。後者を計算するには H0H_0 の事前確率が必要で、それはベイズの土俵の話です(点推定(推定量の良さ:不偏性・一致性・有効性・十分性) で扱った頻度論の枠組みでは、H0H_0 は「正しいか間違っているか」のどちらかで、それ自体に確率を割り当てません)。

graph TD
    A["p値 = 0.03"] --> B["正しい読み<br/>H0 が真なら<br/>これより極端なデータは<br/>3%しか出ない"]
    A --> C["誤った読み<br/>H0 が正しい確率が<br/>3%である"]
    B --> D["条件:H0 を仮定<br/>P データ|H0"]
    C --> E["条件が逆<br/>P H0|データ<br/>頻度論では計算不可"]
    style B fill:#e8f4ff
    style C fill:#ffe8e8
    style E fill:#ffe8e8

5. 「H0H_0 を棄却できない」≠「H0H_0 が正しい」:検定の非対称性

検定の結論は2つに1つですが、その重みは対称ではありません

要するに:裁判の「有罪 vs 無罪」ではなく「有罪 vs 無罪を立証できず(証拠不十分)」に近い。無罪判決は「やっていない証明」ではなく「やった証拠が足りない」。検定も同じで、棄却できないのは「差がある証拠が足りない」だけで、「差がない」の証明ではありません。

なぜ非対称なのか。検定は最初から H0H_0 を守る側に偏って設計されているからです。α=0.05\alpha=0.05 は「H0H_0 が正しいのに棄却する過ち」だけを5%に抑える設計で、「H0H_0 が間違っているのに棄却できない過ち」(第二種過誤、β\beta)は別途。標本が少ない・効果が小さいと、本当は差があっても棄却できないことは普通に起きます。だから「棄却できなかった=差がない」と結論するのは誤りです。

⚠️ 「有意差なし」は「差がないことの証明」ではない。「差があるとは言えなかった」が正しい言い方。差がないことを積極的に主張したい場合は、検定ではなく同等性検定など別の枠組みが必要(2級の範囲外、要最新確認)。試験では「p>αp>\alpha だから H0H_0 は正しい」という選択肢は誤りとして頻出します。

この「棄却する過ち(第一種過誤 α\alpha)」と「棄却できない過ち(第二種過誤 β\beta)」のトレードオフは、検定の精度そのものを左右する重要テーマで、第一種の過誤・第二種の過誤・検出力(2種類の誤りとトレードオフ・サンプルサイズ設計) で本格的に扱います。ここでは、α\alpha = 第一種過誤(H0H_0 が真なのに棄却する)の確率という接続だけ押さえてください ── 有意水準 α\alpha は、まさにこの第一種過誤を許容する上限値として設定したものです。

6. 検定の手順(意思決定フロー)

ここまでを1枚の流れにまとめます。どんな検定もこの骨格は同じで、変わるのは②で使う統計量と分布だけです。

flowchart TD
    A["① 仮説を立てる<br/>H0(等号あり)と H1<br/>片側か両側かも決める"] --> B["② 有意水準 α を決める<br/>ふつう 0.05"]
    B --> C["③ 検定統計量を計算<br/>例 Z=(X̄-μ0)÷標準誤差"]
    C --> D["④ 帰無分布で判定<br/>p値を出す or 棄却域と比較"]
    D --> E{"p ≤ α?<br/>(統計量が棄却域に入る?)"}
    E -->|はい| F["H0 を棄却<br/>H1 を採択<br/>有意差あり"]
    E -->|いいえ| G["H0 を棄却できない<br/>有意差ありとは言えない"]
    style A fill:#ffe8e8
    style F fill:#e8f4ff
    style G fill:#fff0e8

具体的な統計量の作り方(母平均・母比率・母分散それぞれで ZZttχ2\chi^2 か)は 母平均の検定(1標本・2標本t検定) 以降の各論で扱います。この枠組みのノートでは「どの検定でも手順の骨格は共通」を理解するのが目的です。

7. 区間推定との双対性

仮説検定と区間推定(母平均・母比率・母分散の信頼区間)は、実はコインの裏表の関係(双対性, duality)にあります。

対応関係:母平均 μ\mu100(1α)%100(1-\alpha)\% 信頼区間に、帰無仮説の値 μ0\mu_0含まれない ⟺ 有意水準 α\alpha両側検定で H0:μ=μ0H_0:\mu=\mu_0 が棄却される

要するに:信頼区間は「μ0\mu_0 をこの区間内のどの値に置いても、両側検定で棄却されない μ0\mu_0 の集合」。だから区間の外にある μ0\mu_0 は棄却される。両側検定を μ0\mu_0 について解くと、そのまま信頼区間の式になります。

なぜ成り立つのか。分散既知の ZZ 検定で見ます。両側検定で H0:μ=μ0H_0:\mu=\mu_0棄却しない条件は

Xˉμ0σ/nzα/2Xˉzα/2σn  μ0  Xˉ+zα/2σn.\left|\frac{\bar X-\mu_0}{\sigma/\sqrt n}\right|\le z_{\alpha/2}\quad\Longleftrightarrow\quad \bar X-z_{\alpha/2}\frac{\sigma}{\sqrt n}\ \le\ \mu_0\ \le\ \bar X+z_{\alpha/2}\frac{\sigma}{\sqrt n}.

要するに:左の「棄却しない条件」を μ0\mu_0 について変形すると、右はちょうど μ\mu100(1α)%100(1-\alpha)\% 信頼区間そのもの。つまり「μ0\mu_0 が信頼区間の中」=「棄却しない」、「μ0\mu_0 が信頼区間の外」=「棄却する」。同じ不等式を、μ0\mu_0 を固定して統計量を見るか(検定)、統計量を固定して μ0\mu_0 の範囲を見るか(区間推定)の違いだけです。

⚠️ この双対性が厳密に成り立つのは、検定統計量と区間推定で同じ標準誤差を使う場合(分散既知の正規分布の母平均など、対称な両側検定)。母比率の検定では、標準誤差を H0H_0 の値 p0p_0 で計算するか標本比率 p^\hat p で計算するかで検定と信頼区間がわずかにズレ、「信頼区間に p0p_0 が含まれない」と「検定で棄却」が完全には一致しないことがあります。2級では「両側検定と信頼区間は基本的に対応する」と押さえつつ、この例外があることを知っておけば十分です。


具体例で手順を通す

例1:コインは公平か(両側検定)

コインを 100100 回投げたら表が 6060 回出た。このコインは公平か(α=0.05\alpha=0.05)。

Z=p^p0p0(1p0)/n=0.600.500.05=2.0.Z=\frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}=\frac{0.60-0.50}{0.05}=2.0.

例2:新薬で血圧は下がるか(片側検定)

ある降圧薬を 2525 人に投与し、血圧変化の標本平均が Xˉ=3.0\bar X=-3.0(mmHg、下がった方向)。母標準偏差は既知で σ=6\sigma=6 とする。薬は血圧を下げるか(α=0.05\alpha=0.05)。


⚠️ 引っかけポイント


よくある疑問

Q1. なぜ証明したい「効く」を直接検定せず、わざわざ「効かない(H0H_0)」を立てるんですか?回りくどくないですか? A. 「効かない(差がぴったり0)」と決め打つと、検定統計量の分布が1つに定まるからです。H0:μ=μ0H_0:\mu=\mu_0 と置けば Xˉ\bar X がどう分布するか計算できる。一方「効く(差がある)」は「どれくらい効くか」が無数にあって分布を1本に描けません。確率計算できるのは H0H_0 の側だけ。だから H0H_0 を仮定して「もし H0H_0 が本当ならこのデータは滅多に出ない」を示し、背理法的に H0H_0 を棄却して「効く」を間接的に主張します。数学の「2\sqrt2 が有理数と仮定して矛盾を導く」と同じ構造です。

Q2. p値が「H0H_0 が正しい確率」じゃないなら、結局何を表しているんですか? A. 「H0H_0 が正しいと仮定したうえで、今回観測されたのと同じかそれ以上に極端なデータが得られる確率」です。式で言えば P(データが極端H0)P(\text{データが極端}\mid H_0)H0H_0 を真と仮定したときの「データの珍しさ」を測る量であって、H0H_0 そのものの確率ではありません。P(データH0)P(\text{データ}\mid H_0)P(H0データ)P(H_0\mid\text{データ}) は条件付き確率の向きが逆で、一般に一致しない(後者の計算には H0H_0 の事前確率が要り、それはベイズの領域)。頻度論では H0H_0 は真か偽かのどちらかで、確率を持ちません。

Q3. p = 0.04 で「有意差あり」、p = 0.06 で「有意差なし」。たった0.02差でそんなに違う結論になるのは変では? A. ご指摘は本質的で、ASAも同じ問題を指摘しています。α=0.05\alpha=0.05 という境界は便宜的な約束事であって、自然界の真理の境目ではありません。p=0.04とp=0.06は証拠の強さとしてほぼ同じで、片方だけを「真」、もう片方を「無」と二分するのは過度な単純化です。だから近年は「p値だけで0/1の結論を出さず、効果の大きさ(効果量)や信頼区間も併せて報告する」のが推奨されています。試験では α\alpha を基準に機械的に判定しますが、実務ではp値を「証拠の連続的な強さ」として読むのが正しい姿勢です。

Q4. 「H0H_0 を棄却できなかった」とき、「H0H_0 は正しい」と言ってはいけない理由をもう一度。 A. 検定は最初から H0H_0 を守る側に偏って設計されているからです。α\alpha は「H0H_0 が正しいのに棄却する過ち」だけを抑える設計で、逆方向の過ち(H0H_0 が偽なのに棄却できない=第二種過誤 β\beta)は制御していません。標本が少ない・効果が小さいと、本当は差があっても棄却できないことは普通に起きます。だから棄却できないのは「差がある証拠が足りなかった」だけで、「差がない証明」ではない。裁判の無罪が「やった証拠不十分」であって「やっていない証明」ではないのと同じです。正しい言い方は「差があるとは言えない」。詳しくは 第一種の過誤・第二種の過誤・検出力(2種類の誤りとトレードオフ・サンプルサイズ設計) へ。

Q5. 片側検定と両側検定、どちらを使えばいいか迷います。基準はありますか? A. 「主張したいことが向きを持つか」で決めます。「下がる」「増える」のように一方向だけ知りたいなら片側、「変わったかどうか(上下どちらでも異常)」なら両側。ただし2点注意。(1) データを見る前に決めること(後出しは禁止)。(2) 片側は同じ α\alpha でも棄却されやすい(臨界値が手前)ので、根拠が弱いまま片側にすると「有意に見せかける」ことになりかねません。逆向きの結果(薬で逆に悪化)を完全に無視してよい確かな理由がある場合だけ片側、迷ったら両側(保守的)が安全です。試験問題では問題文の言い回し(「効果があるか」=両側/「下がるか」=片側)で判断します。

Q6. 検定統計量が「棄却域に入るか」と「p値が α\alpha 以下か」、どちらで判定すればいいですか? A. どちらでも同じ結論になります。両者は完全に同値で、「統計量が棄却域に入る」⟺「pαp\le\alpha」。臨界値(例1.96)と統計量を直接比べるのが棄却域方式、統計量を裾の確率に直して α\alpha と比べるのがp値方式です。手計算で臨界値が表から引けるなら棄却域方式が速く、ソフトがp値を出してくれるならp値方式が直接的。試験ではどちらの形式でも問われるので、両方できるようにしておきます。もし両者で結論が食い違ったら、それは計算ミスのサインです。


まとめ


関連ノート