← 統計検定テキスト 一覧

📊 対象級:2級 ・ 準1級 | 重要度:B(標準)

要点(BLUF)


回帰係数の当てはめが終わったら、それで終わりではありません。「その回帰モデルが前提としている仮定は本当に満たされているか?」を確かめるのが残差分析・回帰診断です。決定係数 R2R^2 が高くても前提が崩れていれば、係数の検定や予測区間は信用できません。

まず全体像をつかみましょう。診断は「どの仮定を」「何で確認し」「崩れていたらどう対処するか」の3点セットで考えます。

flowchart TD
    A[回帰モデルを当てはめた] --> B{線形性は妥当か}
    B -->|残差 vs 予測値プロット<br>に曲がりがある| B1[多項式項の追加<br>変数変換 log など]
    B -->|曲がりなし| C{等分散性は成り立つか}
    C -->|ラッパ型・<br>残差の幅が変化| C1[従属変数の変換<br>重み付き最小二乗 WLS]
    C -->|幅が一定| D{誤差は独立か}
    D -->|時系列で<br>残差が連なる| D1[ダービン・ワトソン比で確認<br>時系列モデルへ]
    D -->|独立| E{正規性は成り立つか}
    E -->|正規Q-Qが<br>直線から外れる| E1[変数変換<br>サンプル増で近似改善]
    E -->|直線に乗る| F{外れ値・影響点はないか}
    F -->|てこ比・Cook距離が<br>大きい点がある| F1[影響点を精査<br>除外の妥当性を検討]
    F -->|なし| G[モデルは前提を満たす]

この記事では、まず全級共通の土台である「4つの仮定」を整理し、そのあと2級(目視チェック)と準1級(数値指標の理論)に分けて見ていきます。


共通の土台:回帰モデルが置く4つの仮定

線形回帰モデルを次のように書きます。

yi=β0+β1xi1++βkxik+εi(i=1,,n)y_i = \beta_0 + \beta_1 x_{i1} + \cdots + \beta_k x_{ik} + \varepsilon_i \qquad (i = 1, \dots, n)

ここで εi\varepsilon_i誤差項(観測できない真のズレ)です。最小二乗法(OLS)で係数を推定し、その良し悪しを保証するために、誤差項に次の仮定を置きます。これはガウス・マルコフの仮定と呼ばれる前提群です。

仮定内容数式崩れると何が問題か
線形性平均構造が説明変数の線形結合E[εi]=0E[\varepsilon_i] = 0係数が真の関係を捉えられない(推定にバイアス)
独立性誤差どうしが無相関Cov(εi,εj)=0 (ij)\mathrm{Cov}(\varepsilon_i, \varepsilon_j)=0\ (i\neq j)標準誤差が狂い、検定が誤る
等分散性誤差の分散が一定V[εi]=σ2V[\varepsilon_i]=\sigma^2係数は不偏だが標準誤差が狂う
正規性誤差が正規分布に従うεiN(0,σ2)\varepsilon_i \sim N(0,\sigma^2)区間推定・検定が正当化できない

要するに:線形性は係数そのものの正しさ等分散性と独立性は標準誤差(=検定)の正しさ正規性は区間推定・検定の正当化に効きます。役割が違うので、どれが崩れると何が困るかをセットで覚えるのが急所です。

ここでガウス・マルコフの定理を一言。前の4つのうち**線形性・独立性・等分散性の3つ(正規性は不要)**が成り立てば、OLS推定量は「線形不偏推定量の中で分散が最小」になります。これを BLUE(Best Linear Unbiased Estimator) と呼びます。正規性は BLUE には不要で、あくまで「区間推定や tt 検定・FF 検定を正当化する」ために後から要る、という切り分けが重要です。

なぜこの切り分けが効くのか、誤差項の現れ方を図にすると分かりやすいです。

graph LR
    A[誤差項 ε の仮定] --> B[線形性 E ε =0]
    A --> C[等分散性 V ε =σ²]
    A --> D[独立性 Cov=0]
    A --> E[正規性 正規分布]
    B --> F[係数の不偏性<br>= 推定値そのもの]
    C --> G[標準誤差の正しさ<br>= 検定・区間の幅]
    D --> G
    E --> H[t/F分布の正当化<br>= 検定・区間の前提]

2級レベル

ここで問われるのは「残差を予測値に対してプロットし、パターンの有無で仮定の妥当性を目視判断する」基本まで。てこ比・Cook距離の計算は準1級。

残差とは何か

残差 eie_i は、実測値 yiy_i と回帰式による予測値 y^i\hat{y}_i の差です。

ei=yiy^ie_i = y_i - \hat{y}_i

要するに:残差は「観測できない誤差 εi\varepsilon_i の手元での見積もり」です。誤差そのものは見えませんが、残差なら計算できる。だから残差の振る舞いを見て、誤差の仮定が崩れていないかを推測する——これが残差分析の発想の根っこです。

残差プロット:横軸に予測値、縦軸に残差

回帰診断:残差プロットの扇形=不均一分散と、てこ比の大きい1点が回帰直線を引っ張る影響

図は simulations/zansa_shindan_keijou.py で生成。

最も基本の診断図が残差プロットです。横軸に予測値 y^i\hat{y}_i(または説明変数 xix_i)、縦軸に残差 eie_i をとった散布図です。

理想は「0を中心に、特定のパターンなく一様に散らばる」雲のような形。仮定が満たされていれば、残差は予測値と無関係(独立)で、ばらつき幅も一定(等分散)になるはずだからです。

逆に、次のようなパターンが見えたら仮定が崩れているサインです。散布図そのものは文章で説明します(点の配置を言葉でイメージしてください)。

残差プロットの形読み取れる問題崩れている仮定
0を中心にランダムな雲問題なし(理想形)
U字・逆U字に曲がる直線では捉えきれない曲線関係がある線形性
右へ行くほど縦の幅が広がるラッパ型(または狭まる)ばらつきが予測値とともに変化等分散性
一定の傾向で上下に連なる(波打つ)隣り合う誤差が相関(特に時系列)独立性
1点だけ大きく飛び離れている外れ値の疑い(後述:準1級で精査)

要するに:「曲がり=線形性の崩れ」「ラッパ=等分散性の崩れ」「波打ち=独立性の崩れ」。この3対応を覚えるのが2級の最重要ポイントです。残差プロットは「モデルの定式化が合っているか」を映す鏡なので、パターンが見えたら R2R^2 が高くても定式化を疑います。

ラッパ型を構造で示すと、次のイメージです(点群の上端・下端の包絡線が末広がりになる)。

graph LR
    A["予測値 小"] -->|残差の幅 狭い| B["予測値 中"]
    B -->|残差の幅 やや広い| C["予測値 大"]
    C -->|残差の幅 広い| D["= ラッパ型<br>不等分散のサイン"]

正規Q-Qプロット:正規性の目視チェック

誤差の正規性を確かめるには正規Q-Qプロット(正規確率プロット)を使います。残差を小さい順に並べた分位点(縦軸)と、標準正規分布の理論分位点(横軸)を対にしてプロットします。

正規性が成り立っていれば、点はほぼ一直線(傾き1の直線)に乗ります。 両端が直線から大きく反れていれば、裾が重い・歪んでいるなど正規分布からのズレを示します。

要するに:Q-Qプロットは「残差の分布が正規分布とどれだけ似ているか」を直線への乗り具合で見る図です。直線に乗れば正規、外れれば非正規。

2級での問われ方


準1級レベル

ここから加わるのは、外れ値と影響点を数値で区別する理論。ハット行列・てこ比・標準化残差・Cook距離を、なぜその式になるかまで掘り下げます。

なぜ生の残差をそのまま使えないのか

2級では残差プロットを目視しました。しかし生の残差 eie_i は、点ごとに分散が違うという厄介な性質を持ちます。これを示すのが次の式です(導出は後述)。

V[ei]=σ2(1hii)V[e_i] = \sigma^2 (1 - h_{ii})

要するに:残差の分散は一定の σ2\sigma^2 ではなく、hiih_{ii}(てこ比)が大きい点ほど小さくなる。つまり「データの端にある点ほど、回帰直線が無理にその点へ寄ってしまい、見かけの残差が小さく出る」。生の残差の大小だけで外れ値を判定すると、端の点を見逃します。だから分散を揃える標準化が必要になります。

この hiih_{ii} を理解するために、まずハット行列を導入します。

ハット行列の導出と性質

重回帰を行列で書きます。y\mathbf{y}n×1n\times 1 の観測ベクトル、XXn×pn\times p の計画行列(pp はパラメータ総数。切片があれば1列目が全部1の列で、それも pp に含めて数える)、β\boldsymbol{\beta}p×1p\times 1 の係数ベクトルです。

y=Xβ+ε\mathbf{y} = X\boldsymbol{\beta} + \boldsymbol{\varepsilon}

最小二乗推定量は次で与えられます(導出は重回帰分析に譲ります)。

β^=(XX)1Xy\hat{\boldsymbol{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y}

予測値ベクトル y^\hat{\mathbf{y}} は、これを XX に代入すると

y^=Xβ^=X(XX)1Xy=Hy\hat{\mathbf{y}} = X\hat{\boldsymbol{\beta}} = X(X^\top X)^{-1}X^\top \mathbf{y} = H\mathbf{y}

となります。ここで現れた

 H=X(XX)1X \boxed{\ H = X(X^\top X)^{-1}X^\top\ }

が**ハット行列(hat matrix)**です。

要するに:HH は観測ベクトル y\mathbf{y} に掛けると予測値 y^\hat{\mathbf{y}} を作り出す行列。「yy に帽子(ハット)をかぶせて y^\hat y にする」のでハット行列と呼びます。y^=Hy\hat{\mathbf{y}}=H\mathbf{y} は「予測値は観測値の線形結合(重み付き平均)である」ことを意味します。

ハット行列の3つの性質(準1級頻出)を導出します。

性質1:対称性 H=HH^\top = H

H=(X(XX)1X)=X((XX)1)XH^\top = \left(X(X^\top X)^{-1}X^\top\right)^\top = X\left((X^\top X)^{-1}\right)^\top X^\top

XXX^\top X は対称行列なのでその逆行列も対称、つまり ((XX)1)=(XX)1\left((X^\top X)^{-1}\right)^\top = (X^\top X)^{-1}。よって H=X(XX)1X=HH^\top = X(X^\top X)^{-1}X^\top = H

要するに:HH は左右対称。これは HH が「ある部分空間への直交射影」であることの現れです。

性質2:冪等性 H2=HH^2 = H

H2=X(XX)1XX(XX)1=IX=X(XX)1X=HH^2 = X(X^\top X)^{-1}\underbrace{X^\top X (X^\top X)^{-1}}_{=\,I}X^\top = X(X^\top X)^{-1}X^\top = H

途中で XXX^\top X とその逆行列が打ち消し合って単位行列 II になる点がカギです。

要するに:「2回射影しても1回と同じ」。y^\hat{\mathbf{y}} をもう一度射影しても動かない=すでに XX の張る空間の上にいる、ということ。HH は**XX の列空間への直交射影行列**です。

性質3:トレース tr(H)=p\mathrm{tr}(H)=p(=てこ比の和)

トレースの循環性 tr(AB)=tr(BA)\mathrm{tr}(AB)=\mathrm{tr}(BA) を使います。

tr(H)=tr ⁣(X(XX)1X)=tr ⁣((XX)1XX)=tr(Ip)=p\mathrm{tr}(H) = \mathrm{tr}\!\left(X(X^\top X)^{-1}X^\top\right) = \mathrm{tr}\!\left((X^\top X)^{-1}X^\top X\right) = \mathrm{tr}(I_p) = p

ここで IpI_pp×pp\times p 単位行列(pp はパラメータ総数)。トレースは対角成分の和なので

i=1nhii=tr(H)=p\sum_{i=1}^{n} h_{ii} = \mathrm{tr}(H) = p

要するに:てこ比の合計はパラメータ数 pp に等しいnn 個の点で pp を分け合うので、てこ比の平均は p/np/n。ある点の hiih_{ii} がこの平均 p/np/n より際立って大きければ「てこ比が高い点」です。

⚠️ 記法注意:教科書によっては「説明変数の個数 kk +切片」を分けて書き、tr(H)=k+1\mathrm{tr}(H)=k+1 と表記します。これは p=k+1p=k+1(切片込みのパラメータ総数)という意味で、本記事の tr(H)=p\mathrm{tr}(H)=p と同じです。混乱しやすいので、pp が切片を含むのかどうかを問題文ごとに確認してください。

てこ比(leverage)hiih_{ii}

ハット行列の対角成分 hiih_{ii} を**てこ比(leverage、梃子比)**と呼びます。ii 番目の点の説明変数ベクトルを xi\mathbf{x}_iXX の第 ii 行)とすると

hii=xi(XX)1xih_{ii} = \mathbf{x}_i^\top (X^\top X)^{-1}\mathbf{x}_i

と書けます。性質として 0hii10 \le h_{ii} \le 1、和は hii=p\sum h_{ii}=p

hiih_{ii} の意味y^i=jhijyj\hat{y}_i = \sum_{j} h_{ij}\,y_j より、hiih_{ii} は「自分の予測値 y^i\hat{y}_i が、自分自身の観測値 yiy_i にどれだけ引っ張られるか」の重みです。

要するに:てこ比が高い点とは「説明変数の値が他の点から離れた、データ空間の端っこにある点」。端の点は回帰直線を梃子(てこ)のように大きく動かす力を持つので「てこ比」と呼びます。yy の値が外れているかどうかとは無関係で、xx 側の位置だけで決まるのがポイントです。判定の目安は hii>2p/nh_{ii} > 2p/n(または 3p/n3p/n)。

標準化残差・スチューデント化残差

生の残差は分散 σ2(1hii)\sigma^2(1-h_{ii}) が点ごとに違うので、これを割って分散を揃えます。

まず V[ei]=σ2(1hii)V[e_i]=\sigma^2(1-h_{ii})導出します。残差ベクトルは e=yy^=(IH)y\mathbf{e} = \mathbf{y}-\hat{\mathbf{y}} = (I-H)\mathbf{y}y=Xβ+ε\mathbf{y}=X\boldsymbol\beta+\boldsymbol\varepsilon を代入すると、(IH)X=XHX=XX=O(I-H)X = X - HX = X - X = OHX=XHX=XHHXX を動かさないこと、性質2の射影性から)なので

e=(IH)(Xβ+ε)=(IH)ε\mathbf{e} = (I-H)(X\boldsymbol\beta + \boldsymbol\varepsilon) = (I-H)\boldsymbol\varepsilon

誤差の分散共分散行列は V[ε]=σ2IV[\boldsymbol\varepsilon]=\sigma^2 I(等分散・独立の仮定)だから

V[e]=(IH)σ2I(IH)=σ2(IH)(IH)=σ2(IH)V[\mathbf{e}] = (I-H)\,\sigma^2 I\,(I-H)^\top = \sigma^2 (I-H)(I-H) = \sigma^2 (I-H)

ここで (IH)(I-H) も対称かつ冪等(HH がそうだから IHI-H もそう)であることを使いました。対角成分を取り出すと

V[ei]=σ2(1hii)V[e_i] = \sigma^2 (1 - h_{ii})

要するに:上の式変形のキモは「残差は誤差を (IH)(I-H) で射影したもの」「(IH)(I-H) も射影行列なので2乗しても変わらない」の2点。これでてこ比が大きい点ほど残差の分散が小さくなることが数式で確定します。

そこで分散を揃えた残差を作ります。σ\sigma は未知なので、その推定量 σ^=s=1npei2\hat\sigma = s = \sqrt{\frac{1}{n-p}\sum e_i^2}(残差の標準偏差)で置き換えます。

内部スチューデント化残差(標準化残差)

ri=eis1hiir_i = \frac{e_i}{s\sqrt{1 - h_{ii}}}

これで各残差はおよそ分散1に揃い、点どうしを同じ物差しで比較できます。ri>2\lvert r_i \rvert > 2 あたりが外れ値の目安です。

外部スチューデント化残差(スチューデント化削除残差):分散の推定にその点 ii 自身を除いた推定量 s(i)s_{(i)} を使うバージョンです。

ti=eis(i)1hiit_i = \frac{e_i}{s_{(i)}\sqrt{1 - h_{ii}}}

この tit_i は自由度 np1n-p-1tt 分布に従うため、外れ値かどうかを tt 検定で正式に判定できます。

要するに:内部版は「全データで測った物差し」、外部版は「その点を抜いて測った物差し」。外れ値の点が物差し(ss)自体を膨らませてしまうと、その点の異常さが薄まって見える。外部版はその点を除いて物差しを作るので、本物の外れ値をより鋭く検出できます。準1級では「外部スチューデント化残差は tt 分布に従い外れ値検出の感度が高い」がポイント。

Cook の距離:影響点の検出

外れ値(yy が外れている)でも、てこ比が低ければ回帰係数はあまり動きません。逆にてこ比が高い点が外れていると、係数が大きく動きます。「その1点を除いたら回帰の予測がどれだけ動くか」を1つの数値にまとめたのがCook の距離です。

Di=ri2phii1hiiD_i = \frac{r_i^2}{p}\cdot\frac{h_{ii}}{1 - h_{ii}}

rir_i は内部スチューデント化残差、pp はパラメータ数)。

要するに:Cook距離は**「残差の大きさ ri2r_i^2」と「てこ比 hii/(1hii)h_{ii}/(1-h_{ii})」の掛け算**。残差が大きいほど、かつてこ比が高いほど大きくなる。外れ値とてこ比の両方が揃って初めて大きくなる——これが「影響点」の数学的定義です。目安は Di>1D_i > 1(または Di>4/nD_i > 4/n)で影響が大きいと判断。

別の見方として、Cook距離は「点 ii を除いて推定し直した予測値 y^(i)\hat{\mathbf{y}}_{(i)} が、全データでの予測値 y^\hat{\mathbf{y}} からどれだけずれるか」を標準化した量でもあります。

Di=(y^y^(i))(y^y^(i))ps2D_i = \frac{(\hat{\mathbf{y}} - \hat{\mathbf{y}}_{(i)})^\top(\hat{\mathbf{y}} - \hat{\mathbf{y}}_{(i)})}{p\,s^2}

この2つの式が一致することが、Cook距離が「影響度=予測の動き」を測っている根拠です。

外れ値 vs 影響点(準1級の核心)

混同しやすい2つを整理します。

概念定義検出指標係数への影響
外れ値(outlier)yy が回帰の傾向から大きく外れる点スチューデント化残差 ti\lvert t_i \rvertてこ比が低ければ小さい
てこ比の高い点(high leverage)xx が他の点から離れた端の点hiih_{ii}yy が傾向どおりなら小さい
影響点(influential point)除くと係数・予測が大きく変わる点Cook距離 DiD_i大きい

要するに:「外れ値」と「影響点」は別物。影響点は「外れ値である(残差大)」かつ「てこ比が高い(xx が端)」の両方が揃った点。てこ比が低い外れ値は係数をあまり動かさない(影響点ではない)し、傾向どおりの位置にあるてこ比の高い点も係数を動かさない。Cook距離はこの両条件を1つの式で掛け合わせているのが美しい点です。

ダービン・ワトソン比:誤差の自己相関の検出

時系列データなどで「隣り合う誤差が相関していないか(独立性)」を調べる統計量が**ダービン・ワトソン比(Durbin-Watson statistic)**です。

d=i=2n(eiei1)2i=1nei2d = \frac{\displaystyle\sum_{i=2}^{n}(e_i - e_{i-1})^2}{\displaystyle\sum_{i=1}^{n} e_i^2}

要するに:dd は「隣り合う残差の差の2乗和」を「残差の2乗和」で割ったもの。残差が正の相関を持つ(似た値が連なる)と分子 (eiei1)2(e_i-e_{i-1})^2 が小さくなり dd は0寄りに、交互に振れると分子が大きくなり dd は4寄りになります。標本での自己相関係数 ρ^\hat\rho を使うと d2(1ρ^)d \approx 2(1-\hat\rho) という近似関係があり、ρ^=0\hat\rho=0d=2d=2 になることが見て取れます。


⚠️ 引っかけポイント・頻出論点


よくある疑問(Q&A)

Q1. 外れ値があったら必ず除外すべきですか?

A. いいえ。まず外れ値が「影響点かどうか」をCook距離で確かめます。てこ比が低い外れ値なら係数をほとんど動かさないので、無理に除く必要はありません。さらに、外れ値が測定ミスなのか本質的に重要な稀なケースなのかも区別が要ります。後者を機械的に除くとモデルが現実を見落とします。除外は「理由を示して慎重に」が原則です。

Q2. 等分散性が崩れているのに「係数は不偏」とはどういう意味ですか? 何が困るのですか?

A. β^\hat\beta の期待値が真の β\beta に一致する(平均的には正しい)という意味で、これは不均一分散があっても保たれます。困るのは標準誤差です。OLS の標準誤差の公式は「等分散」を前提に導かれているので、不均一分散だと標準誤差の計算式が間違った値を返します。多くの場合標準誤差を過小評価し、その結果 tt 値が過大になって「本当は有意でない係数を有意と誤判定」します。つまり点推定は信じてよいが、検定・区間推定は信じられない、という状態です。

Q3. 標準化残差とスチューデント化残差はどう違うのですか?

A. どちらも残差を分散で割って揃えたものですが、分散の推定に使うデータが違います。内部スチューデント化残差(標準化残差)rir_i は全データで σ\sigma を推定します。外部スチューデント化残差 tit_iその点 ii を除いて σ\sigma を推定します。外れ値はそれ自身が σ\sigma の推定値(残差の散らばり)を膨らませるので、内部版だと自分の異常さが薄まる。外部版はその点を抜いて物差しを作るので外れ値に鋭敏で、しかも tt 分布に従うので正式な検定ができます。準1級では外部版の「tt 分布に従う・感度が高い」が問われます。

Q4. 正規Q-Qプロットが直線から外れたら、回帰分析はやり直しですか?

A. 状況次第です。正規性は係数の点推定(不偏性・BLUE)には不要なので、点推定だけが目的なら大きな問題にはなりません。困るのは区間推定・検定で、これらは誤差の正規性を前提にしています。ただしサンプルサイズが大きければ中心極限定理により β^\hat\beta の分布は正規に近づくので、軽い非正規性の影響は薄まります。対処としては従属変数の変換(対数変換など)で正規に近づける、サンプルを増やす、などがあります。

Q5. 決定係数 R2R^2 が0.95と高ければ、残差分析はしなくてよいですか?

A. いいえ、R2R^2 が高くても残差分析は必須です。R2R^2 は「当てはまりの良さ(予測値が観測値をどれだけ説明したか)」を測るだけで、仮定の妥当性とは別物です。たとえば真の関係が曲線なのに直線を当てても R2R^2 が高く出ることがありますが、残差プロットには明確なU字が現れます。この場合、線形モデルは不適切で、予測区間も信用できません。R2R^2 の高さと残差診断は独立にチェックすべき2つの観点です。


まとめ


関連ノート