← 統計検定テキスト 一覧

📊 対象級:2級 ・ 準1級 | 重要度:A(頻出)

要点(BLUF)

分散分析(ANOVA, Analysis of Variance)は、3群以上の母平均が等しいかどうかを、データのばらつき(分散)を分解して検定する手法です。名前は「分散」分析ですが、調べているのは平均の差です。核心は、全体のばらつきを「群間のばらつき」と「群内のばらつき」に分解し、その比をF統計量で評価する、という一点に集約されます。

  F=VAVE=群間平均平方群内平均平方    Fa1,  a(n1)  (H0のもとで)  \boxed{\;F=\frac{V_A}{V_E}=\frac{\text{群間平均平方}}{\text{群内平均平方}}\;\sim\;F_{a-1,\;a(n-1)}\ \ (H_0\text{のもとで})\;}

要するに「群と群の差が、群の内側のバラつきに比べてどれだけ大きいか」を比で測り、その比が大きすぎれば「平均に差がある」と判断する、ということです。


2級レベル(一元配置分散分析)

ここで問われるのは「1つの因子について、群間平方和・群内平方和を分解し、分散分析表を埋めてF検定を行う」までです。平方和分解の恒等式の考え方はこの級で身につけます。

1. 設定と仮説

因子(要因)が1つで、その水準が aa 個あるとします。各水準 ii から nn 個ずつ観測したとします(つり合い型・各群の標本数が等しい場合)。

記号意味
aa水準(群)の数
nn各水準の観測数(全体で N=anN=an
xijx_{ij}ii 水準・第 jj 番目の観測値
xˉi\bar x_{i\cdot}ii 水準の標本平均(群平均)
xˉ\bar x_{\cdot\cdot}全データの標本平均(総平均)

検定する仮説は次の通りです。

H0: μ1=μ2==μa(全群の母平均が等しい)H_0:\ \mu_1=\mu_2=\cdots=\mu_a \quad\text{(全群の母平均が等しい)} H1: 少なくとも1組の μiμi(どこかに差がある)H_1:\ \text{少なくとも1組の } \mu_i \neq \mu_{i'} \quad\text{(どこかに差がある)}

⚠️ 対立仮説は「すべて違う」ではなく「少なくとも1つ違う」です。だから有意になっても「どの群とどの群が違うか」までは分かりません(→ 多重比較 へ)。

2. なぜ「平均の差」を「分散」で検定するのか(直観)

下の2つの状況を比べてください。どちらも群平均は同じ位置関係ですが、群の内側のばらつきが違います。

xychart-beta
    title "群間の差を群内のばらつきと比べる"
    x-axis ["群1", "群2", "群3"]
    y-axis "観測値" 0 --> 10
    bar [3, 5, 7]
    bar [3, 5, 7]

つまり「群平均の差(群間のばらつき)」を、それ単独で見るのではなく、「群内のばらつきを物差しにして」相対評価するのが分散分析の発想です。群間が群内に比べて十分大きければ「差は誤差では説明できない」と結論します。この比こそがF統計量です。

3. 平方和分解の恒等式 ST=SA+SES_T = S_A + S_E(クロス項が消えることの導出)

総平方和 STS_T(全データの総平均まわりのばらつき)を考えます。

ST=i=1aj=1n(xijxˉ)2S_T=\sum_{i=1}^{a}\sum_{j=1}^{n}\left(x_{ij}-\bar x_{\cdot\cdot}\right)^2

ここで、各観測の偏差 xijxˉx_{ij}-\bar x_{\cdot\cdot} を、群平均 xˉi\bar x_{i\cdot} を経由して2つに分けます。これが分解の出発点です。

xijxˉ=(xijxˉi)群内偏差+(xˉixˉ)群間偏差x_{ij}-\bar x_{\cdot\cdot}=\underbrace{(x_{ij}-\bar x_{i\cdot})}_{\text{群内偏差}}+\underbrace{(\bar x_{i\cdot}-\bar x_{\cdot\cdot})}_{\text{群間偏差}}

要するに「全体平均からのズレ」を「自分の群平均からのズレ(誤差)」+「群平均が全体平均からどれだけズレているか(要因効果)」に分けた、ということです。これを2乗して総和を取ります。

ST=ij[(xijxˉi)+(xˉixˉ)]2S_T=\sum_{i}\sum_{j}\Big[(x_{ij}-\bar x_{i\cdot})+(\bar x_{i\cdot}-\bar x_{\cdot\cdot})\Big]^2

2乗を展開すると、群内偏差の2乗・群間偏差の2乗・そして**クロス項(積の2倍)**の3つが出ます。

ST=ij(xijxˉi)2SE+ij(xˉixˉ)2SA+2ij(xijxˉi)(xˉixˉ)クロス項S_T=\underbrace{\sum_{i}\sum_{j}(x_{ij}-\bar x_{i\cdot})^2}_{S_E}+\underbrace{\sum_{i}\sum_{j}(\bar x_{i\cdot}-\bar x_{\cdot\cdot})^2}_{S_A}+2\underbrace{\sum_{i}\sum_{j}(x_{ij}-\bar x_{i\cdot})(\bar x_{i\cdot}-\bar x_{\cdot\cdot})}_{\text{クロス項}}

ここでクロス項が消えることを示します(これが分解が成立する核心)。 クロス項の内側の和を、まず jj について先に取ります。(xˉixˉ)(\bar x_{i\cdot}-\bar x_{\cdot\cdot})jj に依存しない(群 ii で固定)ので、和の外に出せます。

j=1n(xijxˉi)(xˉixˉ)=(xˉixˉ)j=1n(xijxˉi)\sum_{j=1}^{n}(x_{ij}-\bar x_{i\cdot})(\bar x_{i\cdot}-\bar x_{\cdot\cdot}) =(\bar x_{i\cdot}-\bar x_{\cdot\cdot})\sum_{j=1}^{n}(x_{ij}-\bar x_{i\cdot})

ここで残った j(xijxˉi)\sum_{j}(x_{ij}-\bar x_{i\cdot}) は、群平均まわりの偏差の総和です。標本平均の定義 xˉi=1njxij\bar x_{i\cdot}=\frac1n\sum_j x_{ij} より、偏差の和は必ずゼロになります。

j=1n(xijxˉi)=jxijnxˉi=nxˉinxˉi=0\sum_{j=1}^{n}(x_{ij}-\bar x_{i\cdot})=\sum_j x_{ij}-n\bar x_{i\cdot}=n\bar x_{i\cdot}-n\bar x_{i\cdot}=0

したがってクロス項は群ごとに (xˉixˉ)×0=0(\bar x_{i\cdot}-\bar x_{\cdot\cdot})\times 0=0 となり、ii について足してもゼロです。要するに「平均まわりの偏差は足すと必ず消える」という基本性質のおかげで、クロス項が落ちるわけです。よって、

  ST=SA+SE  \boxed{\;S_T=S_A+S_E\;}

ここで各平方和の名前と中身は次の通りです。

SA=i=1aj=1n(xˉixˉ)2=ni=1a(xˉixˉ)2(群間平方和・要因 A の効果)S_A=\sum_{i=1}^{a}\sum_{j=1}^{n}(\bar x_{i\cdot}-\bar x_{\cdot\cdot})^2=n\sum_{i=1}^{a}(\bar x_{i\cdot}-\bar x_{\cdot\cdot})^2 \quad\text{(群間平方和・要因 } A \text{ の効果)} SE=i=1aj=1n(xijxˉi)2(群内平方和・残差/誤差)S_E=\sum_{i=1}^{a}\sum_{j=1}^{n}(x_{ij}-\bar x_{i\cdot})^2 \quad\text{(群内平方和・残差/誤差)}

SAS_A は「群平均が全体平均からどれだけ離れているか」=要因によるばらつきSES_E は「各観測が自分の群平均からどれだけ離れているか」=誤差によるばらつきです。

4. 自由度の分解

平方和と同じように、自由度も分解されます。

N1ϕT=(a1)ϕA+a(n1)ϕE,N=an\underbrace{N-1}_{\phi_T}=\underbrace{(a-1)}_{\phi_A}+\underbrace{a(n-1)}_{\phi_E},\qquad N=an

要するに「各平方和を計算するのに何個の独立な偏差が使えるか」を数えたものです。ϕT=ϕA+ϕE\phi_T=\phi_A+\phi_E も平方和と同じく成立します。

5. 平均平方とF統計量

平方和を自由度で割って**平均平方(mean square)**にします。これは「自由度あたりのばらつき」=分散の推定量です。

VA=SAa1(群間平均平方),VE=SEa(n1)(群内平均平方・誤差分散の推定)V_A=\frac{S_A}{a-1}\quad\text{(群間平均平方)},\qquad V_E=\frac{S_E}{a(n-1)}\quad\text{(群内平均平方・誤差分散の推定)}

F統計量はこの比です。

F=VAVEF=\frac{V_A}{V_E}

なぜこの比が H0H_0 のもとでF分布に従うのか(理論的裏付け)。 誤差が独立に εijN(0,σ2)\varepsilon_{ij}\sim N(0,\sigma^2) に従うと仮定します。

F分布の定義は「独立な2つのカイ二乗を、それぞれの自由度で割った比」です。

F=(SA/σ2)/(a1)(SE/σ2)/(a(n1))=SA/(a1)SE/(a(n1))=VAVEFa1,  a(n1)F=\frac{(S_A/\sigma^2)/(a-1)}{(S_E/\sigma^2)/\big(a(n-1)\big)}=\frac{S_A/(a-1)}{S_E/(a(n-1))}=\frac{V_A}{V_E}\sim F_{a-1,\;a(n-1)}

分子・分母で σ2\sigma^2 が打ち消し合う点に注目してください。だから未知の母分散 σ2\sigma^2 を知らなくてもFは計算できます。これがF検定の便利さです。詳しい分布の性質は t分布・カイ二乗分布・F分布(標本分布の三役) を参照してください。

棄却のロジック(右片側検定)。 H1H_1 が真なら群平均が散らばるため SAS_A が大きくなり、Fは大きくなります。逆に小さなFは「群間の差が誤差程度」を意味します。よってFが大きいときだけ棄却する右片側検定です。有意水準 α\alphaF>Fa1,a(n1)(α)F>F_{a-1,\,a(n-1)}(\alpha) なら H0H_0 を棄却します。

⚠️ 分散分析は名前に反して両側ではなく右片側検定です。「平均に差がない」を否定したいので、Fが大きい側だけを見ます。

6. 分散分析表(一元配置)

計算結果は次の表にまとめるのが定石です。試験ではこの表の空欄を埋める問題が頻出です。

変動要因平方和 SS自由度 ϕ\phi平均平方 VVF値
級間(要因 AASAS_Aa1a-1VA=SAa1V_A=\dfrac{S_A}{a-1}F=VAVEF=\dfrac{V_A}{V_E}
級内(誤差 EESES_Ea(n1)a(n-1)VE=SEa(n1)V_E=\dfrac{S_E}{a(n-1)}
全体(TTSTS_TN1N-1

表の検算ポイント:平方和は縦に足すと合うSA+SE=STS_A+S_E=S_T)し、自由度も縦に足すと合う(a1)+a(n1)=N1(a-1)+a(n-1)=N-1)。平均平方は足しても合わない(割り算したものだから)点に注意します。

7. 試験での問われ方(2級)

  1. 分散分析表の穴埋め:与えられた平方和や平均平方から、自由度・F値を計算する。縦の和が合うことを使って逆算する問題も多い。
  2. F値の判定:計算したFをF分布表の臨界値と比べ、棄却するか判断する(右片側)。自由度の組 (a1,a(n1))(a-1,\,a(n-1)) を正しく読む。
  3. 仮説の理解:帰無仮説が「全群の母平均が等しい」、対立仮説が「少なくとも1つ異なる」であることを選ばせる。

検定の枠組み自体は 仮説検定の枠組み(帰無仮説・対立仮説・p値・有意水準)、3群「以上」を一度に扱う動機(なぜt検定を繰り返さないか)は次の準1級・⚠️節および 多重比較 につながります。


準1級レベル(二元配置・交互作用)

ここで問われるのは「2因子のとき、主効果と交互作用に平方和を分解できるか」「交互作用の意味を解釈できるか」「ANOVAが回帰モデルの特殊形だと理解しているか」までです。一元配置の考え方を2因子へ拡張します。

8. 二元配置の設定

因子が2つ(AABB)あるとします。AAaa 水準、BBbb 水準、各セル(水準の組合せ)で rr 回ずつ繰り返し観測したとします。

xijk=μ+αi+βj+(αβ)ij+εijkx_{ijk}=\mu+\alpha_i+\beta_j+(\alpha\beta)_{ij}+\varepsilon_{ijk}
意味
μ\mu総平均
αi\alpha_i因子 AA の主効果(第 ii 水準の効果)
βj\beta_j因子 BB の主効果(第 jj 水準の効果)
(αβ)ij(\alpha\beta)_{ij}AABB交互作用
εijk\varepsilon_{ijk}誤差(N(0,σ2)\sim N(0,\sigma^2) 独立)

要するに「観測値=全体平均+Aの効果+Bの効果+AとBの組合せ特有の効果+誤差」と分解するモデルです。

9. 平方和の分解 ST=SA+SB+SA×B+SES_T = S_A + S_B + S_{A\times B} + S_E

一元配置と同じ発想で、総平方和を4つに分けます。

  ST=SA+SB+SA×B+SE  \boxed{\;S_T=S_A+S_B+S_{A\times B}+S_E\;}

各平方和は次のように、対応する平均と総平均の差から作ります(xˉi\bar x_{i\cdot\cdot}AA の第 ii 水準の平均、xˉj\bar x_{\cdot j\cdot}BB の第 jj 水準の平均、xˉij\bar x_{ij\cdot} はセル (i,j)(i,j) の平均、xˉ\bar x は総平均)。

SA=bri(xˉixˉ)2,SB=arj(xˉjxˉ)2S_A=br\sum_{i}(\bar x_{i\cdot\cdot}-\bar x)^2,\qquad S_B=ar\sum_{j}(\bar x_{\cdot j\cdot}-\bar x)^2 SA×B=rij[(xˉijxˉ)(xˉixˉ)(xˉjxˉ)]2S_{A\times B}=r\sum_{i}\sum_{j}\Big[(\bar x_{ij\cdot}-\bar x)-(\bar x_{i\cdot\cdot}-\bar x)-(\bar x_{\cdot j\cdot}-\bar x)\Big]^2 SE=ijk(xijkxˉij)2S_E=\sum_{i}\sum_{j}\sum_{k}(x_{ijk}-\bar x_{ij\cdot})^2

交互作用の平方和の読み方が要点です。SA×BS_{A\times B} の中身を整理すると、

(xˉijxˉ)(xˉixˉ)(xˉjxˉ)=xˉijxˉixˉj+xˉ(\bar x_{ij\cdot}-\bar x)-(\bar x_{i\cdot\cdot}-\bar x)-(\bar x_{\cdot j\cdot}-\bar x)=\bar x_{ij\cdot}-\bar x_{i\cdot\cdot}-\bar x_{\cdot j\cdot}+\bar x

これは「セル平均が、主効果だけで説明できる値からどれだけズレているか」です。要するに、もし交互作用がなければセル平均は「総平均+Aの効果+Bの効果」で完全に表せるはずで、その当てはめ残りが交互作用です。一元配置でクロス項が消えたのと同じ直交性により、この4つの平方和も互いに重ならずに分解されます(つり合い型の場合)。

10. 交互作用の意味

交互作用プロット:線が平行なら交互作用なし、交わる/開けば交互作用あり

図は simulations/koshogo_plot.py で生成。

**交互作用とは「一方の因子の効果が、もう一方の因子の水準によって変わること」**です。

graph LR
    subgraph "交互作用なし(線が平行)"
    A1["B1での A の効果"] -.同じ傾き.- A2["B2での A の効果"]
    end
    subgraph "交互作用あり(線が非平行・交差)"
    C1["B1での A の効果"] -.傾きが違う.- C2["B2での A の効果"]
    end

例:薬の効果(因子A)が、男女(因子B)で違う、というのが交互作用です。「薬は男性には効くが女性には効かない」なら、Aの効果はBの水準に依存しています。交互作用プロット(横軸に一方の因子、折れ線で他方の水準を描く)で、線が平行なら交互作用なし、非平行・交差なら交互作用あり、と視覚的に判断します。

11. 繰り返しの有無(重要な制約)

二元配置で交互作用を検出するには、各セルで2回以上の繰り返し(r2r\ge 2)が必須です。

要するに「セルの内側のばらつき(純粋な誤差)」を測るには各セルに複数データが要る、ということです。1個ずつでは「セル特有の効果(交互作用)」と「偶然の誤差」を区別できません。

12. 二元配置の分散分析表(繰り返しあり)

変動要因平方和自由度平均平方F値
主効果 AASAS_Aa1a-1VAV_AVA/VEV_A/V_E
主効果 BBSBS_Bb1b-1VBV_BVB/VEV_B/V_E
交互作用 A×BA\times BSA×BS_{A\times B}(a1)(b1)(a-1)(b-1)VA×BV_{A\times B}VA×B/VEV_{A\times B}/V_E
誤差 EESES_Eab(r1)ab(r-1)VEV_E
全体 TTSTS_Tabr1abr-1

ここでも自由度は縦に足すと合います:(a1)+(b1)+(a1)(b1)+ab(r1)=abr1(a-1)+(b-1)+(a-1)(b-1)+ab(r-1)=abr-1。各効果はそれぞれ自分の平均平方を誤差平均平方 VEV_E で割ったFで検定します(誤差を共通の物差しにする点は一元配置と同じ)。

⚠️ 検定の読む順序:まず交互作用を見る。交互作用が有意なら、主効果を単独で解釈してはいけません(次の⚠️節・Q&Aで詳述)。

13. 回帰モデルとの関係(ANOVAは線形モデルの特殊形)

分散分析は、ダミー変数を説明変数にした重回帰とまったく同じことをしています。一元配置(aa 群)なら、a1a-1 個のダミー変数 D2,,DaD_2,\dots,D_a(第1群を基準)を用意して、

xij=β0+β2D2+β3D3++βaDa+εijx_{ij}=\beta_0+\beta_2 D_2+\beta_3 D_3+\cdots+\beta_a D_a+\varepsilon_{ij}

という重回帰を立てると、β0\beta_0 は基準群の平均、各 βi\beta_i は「基準群との平均の差」を表します。このモデルで「全係数が0(=全群同じ平均)」を検定するのが、回帰でいう全体のF検定であり、それが分散分析のF検定と一致します。計画行列とダミー変数の扱いは 重回帰分析 の通りです。

graph TD
    LM["一般線形モデル<br/>y = Xβ + ε"]
    LM --> REG["回帰分析<br/>Xが連続変数"]
    LM --> ANOVA["分散分析<br/>Xがダミー変数(質的)"]
    LM --> ANCOVA["共分散分析<br/>連続+ダミー混在"]
    ANOVA --> ONE["一元配置(1因子)"]
    ANOVA --> TWO["二元配置(2因子+交互作用)"]

要するに「回帰も分散分析も、同じ線形モデル y=Xβ+ε\mathbf y=X\boldsymbol\beta+\boldsymbol\varepsilon計画行列 XX の中身が違うだけ」です。説明変数が連続値なら回帰、質的(カテゴリ)ならダミーを介して分散分析になります。

特に2群のときは F=t2F=t^2 2群の母平均の差の検定は、(a) 等分散を仮定した2標本t検定(母平均の検定(1標本・2標本t検定))でも、(b) a=2a=2 の一元配置分散分析でもできます。両者は同じ結論を与え、統計量には次の厳密な関係があります。

F=t2,F1,ν=(tν)2F=t^2,\qquad F_{1,\,\nu}=\big(t_{\nu}\big)^2

自由度1のF分布は、自由度 ν\nu のt分布を2乗した分布に一致するためです。t検定は方向(どちらが大きいか)を片側で見られますが、a=2a=2 のANOVAは右片側Fなので両側t検定と等価になります。要するに「2群の差の検定では、tでもFでも同じことをしている」わけです。

14. 多重比較との接続

分散分析が有意でも、結論は「どこかに差がある」までです。「どの群とどの群が違うか」を特定するには、分散分析のに事後検定(多重比較, post-hoc test)を行います。

flowchart TD
    START["3群以上の平均を比較したい"] --> ANOVA["分散分析(F検定)"]
    ANOVA --> Q{"F検定は有意?"}
    Q -- "いいえ(p ≥ α)" --> STOP["差があるとは言えない<br/>(多重比較に進まない)"]
    Q -- "はい(p < α)" --> POST["事後検定(多重比較)"]
    POST --> P1["Tukey法(全ペア比較)"]
    POST --> P2["Bonferroni法(有意水準を分割)"]
    POST --> P3["Dunnett法(対照群との比較)"]
    P1 --> RESULT["どの群間に差があるか特定"]
    P2 --> RESULT
    P3 --> RESULT

なぜ最初から全ペアをt検定で比べないのか――それが次の⚠️節と 多重比較 の主題です。多重比較は第一種の過誤を制御する仕組みを持っています。


⚠️ 引っかけポイント・頻出論点

(1) 「分散分析」という名前だが平均の差を見ている。 調べているのは群の母平均の差です。「分散の差を検定するもの」と誤解しがちですが、分散(ばらつき)は平均の差を測るための物差しとして使っているだけです。

(2) なぜ多重t検定ではダメか(第一種過誤の膨張)。 ← 多重比較の動機 3群を「1-2」「1-3」「2-3」と総当たりでt検定すると、検定を繰り返すたびに「本当は差がないのに差ありと誤る」確率(第一種過誤 α\alpha)が積み重なります。各検定を α=0.05\alpha=0.05 で行っても、mm 回の独立な検定で少なくとも1回誤る確率

1(1α)m1-(1-\alpha)^m

3ペア(m=3m=3)なら 10.9530.141-0.95^3\approx 0.14 と、名目の5%を大きく超えて**約14%**まで膨らみます。分散分析は「全群一括で1回だけ」検定するので、この膨張を起こさずに済みます。第一種・第二種の過誤の一般論は 第一種の過誤・第二種の過誤・検出力(2種類の誤りとトレードオフ・サンプルサイズ設計) を参照してください。

(3) 前提(正規性・等分散性・独立性)。 分散分析はパラメトリック検定であり、次の3つを仮定します。

頑健性の目安:正規性は中心極限定理のおかげで標本サイズが大きければ比較的崩れに強い等分散性も各群の標本数が等しければ(つり合い型なら)ある程度頑健。一方、独立性の崩れには非常に弱く、崩れると第一種過誤が大きく狂います(同じ被験者を繰り返し測るなど)。等分散の確認にはルビーン検定やバートレット検定が使われます。崩れているときはウェルチの分散分析やノンパラメトリック法(クラスカル・ウォリス検定)に切り替えます。

(4) 交互作用が有意なとき、主効果を単独で解釈する誤り。 二元配置で交互作用が有意なら、「Aの効果」を一言で語ることはできません。Aの効果はBの水準ごとに違う(それが交互作用の意味)からです。この場合は、Bの水準を固定したうえでAの効果を見る(単純主効果の分析)のが正しい読み方です。「交互作用が有意だったのに、主効果Aだけ取り出して『Aには効果がある』と結論する」のは典型的な誤りです。

(5) 自由度の取り違え(右片側・分子分母の順)。 F分布の自由度は (分子の自由度, 分母の自由度) = (要因の自由度, 誤差の自由度) の順です。一元配置なら (a1, a(n1))(a-1,\ a(n-1))。逆に書くと臨界値が変わります。また分散分析は常に右片側で読みます。


よくある疑問(Q&A)

Q1. なぜ3群の比較でt検定を3回繰り返してはいけないのですか?

検定を繰り返すたびに第一種の過誤(本当は差がないのに差ありと誤る確率)が積み上がるからです。各回 α=0.05\alpha=0.05 でも、3ペアでは少なくとも1回誤る確率が 10.95314%1-0.95^3\approx14\% まで膨らみます。分散分析は「全群まとめて1回だけ」検定するのでこの膨張を防ぎます。要するに「検定の回数を増やすほど偶然のアタリを引きやすくなる」のを避ける仕組みです。

Q2. 分散分析で有意になりました。これで『どの群が高い/低い』と言えますか?

言えません。分散分析の対立仮説は「少なくとも1組の母平均が異なる」なので、有意でも「どこかに差がある」までしか分かりません。どの群間に差があるかを特定するには、分散分析の後に多重比較(Tukey法・Bonferroni法など)を行います。順序は「ANOVAでゲートを開け→多重比較で犯人を特定」です。

Q3. 名前が「分散」分析なのに、なぜ平均の差を調べるのですか?

「群間のばらつき(=群平均の散らばり)」を「群内のばらつき(=誤差)」と比べることで、平均の差を検出しているからです。群平均がよく散らばっている(群間が大きい)のに群内が小さければ、その散らばりは偶然では説明できない=平均に差がある、と判断します。分散は平均の差を測るための物差しであって、調べたい対象はあくまで平均です。

Q4. 二元配置で「交互作用が有意」とは結局どういう状態ですか?

「一方の因子の効果が、もう一方の因子の水準によって変わる」状態です。例:肥料(因子A)の効き方が、土の種類(因子B)によって違う。交互作用プロットで折れ線が**平行でない(交差する)**ときに交互作用ありです。このとき「肥料の効果」を一言では語れず、土の種類ごとに分けて見る必要があります。検出には各セルで繰り返し(r2r\ge2)が必要です。

Q5. 分散分析と回帰分析は別物ですか?

別物ではなく、同じ線形モデルの2つの顔です。説明変数が連続値なら回帰、カテゴリ(質的変数)ならダミー変数を介した分散分析になります。実際、2群の比較では分散分析のF統計量とt検定のt統計量の間に F=t2F=t^2 という厳密な関係が成り立ちます。「回帰も分散分析も y=Xβ+ε\mathbf y=X\boldsymbol\beta+\boldsymbol\varepsilon の計画行列の中身が違うだけ」と理解すると、両者が一本につながります。


まとめ


関連ノート