重回帰分析｜統計検定テキスト

📊 対象級：準1級　|　重要度：A（頻出）

要点（BLUF）

複数の説明変数 $x_1,\dots,x_p$ で目的変数 $y$ を表す線形モデルです。準1級では「最小二乗解を行列で導出できるか」「偏回帰係数を解釈できるか」「多重共線性を診断できるか」「変数選択基準を使い分けられるか」が問われます。最小二乗解はこの一行に集約されます。

\boxed{\;\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y\;}

要するに「説明変数を並べた行列 $X$ と観測 $\mathbf y$ さえあれば、係数は機械的に計算できる」ということです。

1. モデルの定式化（行列形式）

観測が $n$ 個、説明変数が $p$ 個あるとします。 $i$ 番目の観測について

y_i=\beta_0+\beta_1 x_{i1}+\beta_2 x_{i2}+\dots+\beta_p x_{ip}+\varepsilon_i

これを $n$ 本まとめて行列で書くと、ぐっと見通しが良くなります。

\mathbf y=X\boldsymbol\beta+\boldsymbol\varepsilon

各記号の中身は次の通りです。

\mathbf y=\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix},\quad X=\begin{pmatrix}1 & x_{11} & \cdots & x_{1p}\\ \vdots & \vdots & & \vdots\\ 1 & x_{n1} & \cdots & x_{np}\end{pmatrix},\quad \boldsymbol\beta=\begin{pmatrix}\beta_0\\ \beta_1\\ \vdots\\ \beta_p\end{pmatrix},\quad \boldsymbol\varepsilon=\begin{pmatrix}\varepsilon_1\\ \vdots\\ \varepsilon_n\end{pmatrix}

$X$ は 計画行列（design matrix） と呼ぶ $n\times(p+1)$ 行列です。左端の「1」の列は切片 $\beta_0$ に対応します。
$\boldsymbol\beta$ は推定したい係数ベクトル（ $p+1$ 次元）。
$\boldsymbol\varepsilon$ は誤差項。標準的仮定は $\mathbb E[\boldsymbol\varepsilon]=\mathbf 0$ 、 $\mathrm{Var}(\boldsymbol\varepsilon)=\sigma^2 I_n$ （等分散・無相関）です。

要するに「単回帰の $y=a+bx$ を、説明変数を増やしてベクトル・行列で一括表記しただけ」です。単回帰については単回帰分析を参照してください。

2. 最小二乗解の導出（行列微分・省略しない）

2.1 最小化する対象

残差平方和（RSS）を $\boldsymbol\beta$ の関数として最小化します。

S(\boldsymbol\beta)=\lVert\mathbf y-X\boldsymbol\beta\rVert^2=(\mathbf y-X\boldsymbol\beta)^\top(\mathbf y-X\boldsymbol\beta)

これは「予測 $X\boldsymbol\beta$ と実測 $\mathbf y$ のズレの二乗和」です。これを一番小さくする $\boldsymbol\beta$ を探します。

2.2 展開する

内積を展開します。 $\mathbf y^\top X\boldsymbol\beta$ はスカラー（ $1\times1$ ）なので転置しても値が変わらず、 $\boldsymbol\beta^\top X^\top\mathbf y$ と等しい点に注意します。

\begin{aligned} S(\boldsymbol\beta) &=\mathbf y^\top\mathbf y-\mathbf y^\top X\boldsymbol\beta-\boldsymbol\beta^\top X^\top\mathbf y+\boldsymbol\beta^\top X^\top X\boldsymbol\beta\\ &=\mathbf y^\top\mathbf y-2\boldsymbol\beta^\top X^\top\mathbf y+\boldsymbol\beta^\top X^\top X\boldsymbol\beta \end{aligned}

要するに「定数項・ $\boldsymbol\beta$ の1次項・ $\boldsymbol\beta$ の2次項」の3つに分かれた、ということです。

2.3 $\boldsymbol\beta$ で微分する（ベクトル微分の公式）

ここで使うベクトル微分の2公式が、準1級で確実に押さえるべき道具です。

形	微分	要するに
$\dfrac{\partial}{\partial\boldsymbol\beta}\left(\boldsymbol\beta^\top\mathbf a\right)=\mathbf a$	（1次形式）	スカラーをベクトルで微分すると係数ベクトルが残る
$\dfrac{\partial}{\partial\boldsymbol\beta}\left(\boldsymbol\beta^\top A\boldsymbol\beta\right)=(A+A^\top)\boldsymbol\beta$	（2次形式）	$A$ が対称なら $2A\boldsymbol\beta$

$A=X^\top X$ は対称行列（ $(X^\top X)^\top=X^\top X$ ）なので、2次形式の微分は $2X^\top X\boldsymbol\beta$ になります。よって

\frac{\partial S}{\partial\boldsymbol\beta}=-2X^\top\mathbf y+2X^\top X\boldsymbol\beta

2.4 ゼロと置く → 正規方程式

最小化の必要条件は勾配ゼロです。

\frac{\partial S}{\partial\boldsymbol\beta}=\mathbf 0 \;\Longrightarrow\; \boxed{\;X^\top X\,\hat{\boldsymbol\beta}=X^\top\mathbf y\;}\quad\text{（正規方程式）}

これが 正規方程式（normal equation） です。要するに「残差ベクトル $\mathbf y-X\hat{\boldsymbol\beta}$ が、 $X$ の各列（各説明変数）と直交する」という条件 $X^\top(\mathbf y-X\hat{\boldsymbol\beta})=\mathbf0$ そのものです。幾何的には「 $\mathbf y$ を $X$ の張る空間へ正射影した点が予測値」という直交射影の話になっています。

2.5 解く

$X^\top X$ が正則（フルランク $\mathrm{rank}(X)=p+1$ ）なら逆行列を左から掛けて、

\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y

なお $S(\boldsymbol\beta)$ は $\boldsymbol\beta$ について下に凸（ヘッセ行列が $2X^\top X\succeq 0$ ）なので、この停留点は確かに最小です。導出はこれで完結します。

⚠️ $X^\top X$ が逆行列を持つには $X$ がフルランクである必要があります。これが崩れる（列がほぼ一次従属になる）のが、後述の 多重共線性 です。

3. 偏回帰係数の意味

flowchart LR
  subgraph 単回帰
    A1["x₁ → y"]
  end
  subgraph 重回帰
    B1["x₁ → y"]
    B2["x₂（一定に保つ）"]
    B2 -. 統制 .-> B1
  end

推定された $\hat\beta_j$ を 偏回帰係数（partial regression coefficient） と呼びます。解釈は次の一文に尽きます。

他のすべての説明変数を一定に保ったまま $x_j$ を1単位増やしたときの、 $y$ の平均的な変化量。

「偏（partial）」は「他の変数の影響を取り除いた純粋な効果」という意味です。これが単回帰係数と決定的に違う点です。

単回帰係数との違い（交絡）

単回帰係数： $x_j$ 単独で $y$ を回帰した傾き。他変数の影響が混ざったまま。
偏回帰係数：他変数を統制した上での $x_j$ の効果。

両者は値が違うだけでなく、符号すら逆転することがあります（後述の Q&A）。原因は 交絡（confounding） です。 $x_j$ と相関する別の説明変数 $x_k$ が $y$ に効いていると、単回帰では $x_k$ 経由の効果まで $x_j$ に押し付けてしまいます。重回帰はその $x_k$ を式に入れることで効果を分離します。同時分布・条件付き分布の考え方は同時分布・周辺分布・条件付き分布が下地になります。

4. 多重共線性とVIF

4.1 何が起きるか

説明変数どうしが強く相関すると、計画行列 $X$ の列がほぼ一次従属になり、 $X^\top X$ が 特異行列に近づきます（行列式 $\det(X^\top X)\to0$ ）。逆行列 $(X^\top X)^{-1}$ の成分が爆発的に大きくなり、係数推定 $\hat{\boldsymbol\beta}$ が不安定になります。これが 多重共線性（multicollinearity） です。

理論的裏付けは推定量の分散にあります。誤差が等分散 $\sigma^2 I$ のとき、

\mathrm{Var}(\hat{\boldsymbol\beta})=\sigma^2(X^\top X)^{-1}

$(X^\top X)^{-1}$ が大きい＝係数の分散が大きい＝データを少し変えるだけで係数が大きく振れる、ということです。

4.2 VIF（分散拡大要因）の導出

多重共線性の強さを変数ごとに測るのが VIF（Variance Inflation Factor、分散拡大要因／分散拡大係数） です。

定義は「説明変数 $x_j$ を、残りの説明変数で回帰したときの決定係数 $R_j^2$ 」を使います。

\boxed{\;\mathrm{VIF}_j=\frac{1}{1-R_j^2}\;}

ここで $R_j^2$ は 補助回帰（ $x_j$ を目的変数、他の $x_{k\ (k\ne j)}$ を説明変数とする回帰）の決定係数です。

なぜこの式になるのか（理論的裏付け）。 $\hat\beta_j$ の分散は次のように分解できます。

\mathrm{Var}(\hat\beta_j)=\frac{\sigma^2}{(n-1)\,s_j^2}\cdot\underbrace{\frac{1}{1-R_j^2}}_{=\ \mathrm{VIF}_j}

ここで $s_j^2$ は $x_j$ の標本分散です。右辺の第1因子 $\dfrac{\sigma^2}{(n-1)s_j^2}$ は「 $x_j$ が他変数と無相関なら得られる、本来の分散」に相当します。第2因子 $\dfrac{1}{1-R_j^2}$ が、他変数との相関によって分散が 何倍に膨らむか を表すので「分散拡大」要因と呼ぶわけです。

$R_j^2$	$\mathrm{VIF}_j$	解釈
0（他変数と無相関）	1	膨張なし。理想
0.9	10	分散が10倍。要警戒
$\to 1$ （完全な一次従属）	$\to\infty$	推定不能

実務の目安は $\mathrm{VIF}>10$ （または $5$ ）で多重共線性を疑う です（基準値は文献により異なるため、要最新確認）。

flowchart TD
  S["VIF_j = 1 / (1 - R_j²) を全変数で計算"] --> Q{"VIF > 10 の変数あり?"}
  Q -- いいえ --> OK["多重共線性の問題は小さい"]
  Q -- はい --> A["対処を検討"]
  A --> A1["相関の強い変数の一方を除外"]
  A --> A2["変数を合成・主成分回帰"]
  A --> A3["正則化（リッジ回帰など）"]

正則化による対処は正則化（リッジ・Lasso）で扱います。リッジ回帰は $(X^\top X+\lambda I)^{-1}$ とすることで逆行列の不安定さを直接やわらげる手法です。

5. 変数選択

説明変数は「多ければ良い」わけではありません。無関係な変数を足すと、当てはまりは見かけ上良くなるのに、予測は悪化します（過学習）。そこで「ペナルティ付き」の基準でモデルを選びます。

5.1 なぜ $R^2$ は変数を足すと必ず上がるのか

決定係数は $R^2=1-\dfrac{\text{RSS}}{\text{TSS}}$ です（TSS は $y$ の全変動で固定）。説明変数を1個追加すると、最小二乗法は「その変数の係数を0にすれば前と同じ」という選択肢を含むので、RSS が増えることは絶対にありません。必ず RSS は下がるか同じ、つまり $R^2$ は上がるか同じです。

要するに「 $R^2$ はモデルの良し悪しの公正な比較に使えない」ということです。無意味な変数でも $R^2$ は上がってしまうからです。

5.2 自由度調整済み決定係数 $\bar R^2$

そこで自由度で割って調整します。

\bar R^2=1-\frac{\text{RSS}/(n-p-1)}{\text{TSS}/(n-1)} =1-\frac{n-1}{n-p-1}\,(1-R^2)

ポイントは分子の自由度 $n-p-1$ です。変数 $p$ を増やすと $n-p-1$ が小さくなり、 $\dfrac{n-1}{n-p-1}$ という 罰金係数が大きくなります。RSS の減り（良いこと）と罰金の増え（悪いこと）が綱引きをするので、役に立たない変数を足すと $\bar R^2$ はむしろ下がることがあります。これが $R^2$ との決定的な違いです。

⚠️ $\bar R^2$ は 負の値を取りうる（モデルが平均予測より悪いとき）。準1級では「 $\bar R^2<0$ はあり得る／ $R^2<0$ は通常あり得ない」が論点になります。

5.3 AIC と BIC

尤度ベースの情報量規準です。 $L$ は最大対数尤度、 $k$ は推定したパラメータ数（係数 $p+1$ 個＋誤差分散 $\sigma^2$ で $k=p+2$ ）です。

\mathrm{AIC}=-2\log L+2k

\mathrm{BIC}=-2\log L+k\log n

どちらも 小さいほど良い モデルです。第1項 $-2\log L$ は当てはまりの悪さ（小さいほど当てはまる）、第2項がパラメータ数への罰金です。

正規誤差を仮定すると $-2\log L = n\log(\text{RSS}/n)+\text{定数}$ と書けるので、実務上は RSS が小さく、かつ変数が少ない モデルが選ばれます。

AIC と BIC の違い（頻出）。 罰金項を比べます。

\text{AIC の罰金}=2k,\qquad \text{BIC の罰金}=k\log n

$n\ge 8$ で $\log n>2$ なので、現実的な標本サイズでは BIC の方が罰金が重い。結果：

	罰金	残りやすさ	思想
AIC	$2k$ （ $n$ に依存しない）	変数が多く残りやすい	予測精度の最適化（真のモデルが候補内にあると仮定しない）
BIC	$k\log n$ （ $n$ で増える）	変数が少なくなりやすい	真のモデルの一致選択（ $n\to\infty$ で真のモデルを選ぶ一致性）

要するに「BIC はサンプル数 $n$ が大きいほど強くペナルティをかけるので、AIC より簡素なモデルを選ぶ」ということです。

5.4 ステップワイズ法

全部の変数の組み合わせ（ $2^p$ 通り）を試すのは大変なので、貪欲に1個ずつ出し入れします。

flowchart TD
  F["変数選択の戦略"] --> A["変数増加法（前進）"]
  F --> B["変数減少法（後退）"]
  F --> C["ステップワイズ法（増減）"]
  A --> A0["空モデルから開始<br/>基準が最も改善する変数を1個ずつ追加"]
  B --> B0["全変数モデルから開始<br/>基準が最も改善する変数を1個ずつ削除"]
  C --> C0["追加と削除を交互に検討<br/>一度入れた変数も後で外せる"]

変数増加法（前進選択, forward）：何もない状態から、AIC等が最も改善する変数を順に追加。
変数減少法（後退消去, backward）：全変数から、外しても基準が改善する変数を順に削除。
ステップワイズ法（stepwise）：追加と削除を両方検討。前進だと入れた変数を後で外せないが、ステップワイズなら外せる。

いずれも局所最適にとどまる（全部分集合探索ではない）点に注意します。

6. 標準化偏回帰係数とダミー変数

6.1 標準化偏回帰係数

偏回帰係数 $\hat\beta_j$ は 単位に依存 します。たとえば「身長(cm)」と「体重(kg)」の係数の大小を直接比べても、変数の重要度の比較にはなりません。単位が違うからです。

そこで各変数を標準化（平均0・分散1に変換）してから回帰した係数が 標準化偏回帰係数 です。元の係数との関係は、

\hat\beta_j^{\text{std}}=\hat\beta_j\cdot\frac{s_{x_j}}{s_y}

（ $s_{x_j}$ は $x_j$ の標準偏差、 $s_y$ は $y$ の標準偏差）。要するに「単位をそろえて、係数の大小で寄与の大きさを比較できるようにしたもの」です。

⚠️ 標準化しない生の偏回帰係数で「係数が大きい＝重要」と判断するのは誤り。これは引っかけ頻出です。

6.2 ダミー変数

質的変数（カテゴリ）は ダミー変数（0/1 のコード）で表します。 $K$ 水準のカテゴリは $K-1$ 個 のダミーで表し、残り1つを基準（ベースライン）とします。

例：血液型（A/B/O/AB）→ ダミー3個（B, O, AB）。A型が基準。
$K$ 個すべてをダミーにすると、ダミーの和が常に1となり切片の列と一次従属になります（ダミー変数トラップ）。 $X^\top X$ が特異化するので必ず1つ落とします。
各ダミーの偏回帰係数は「基準カテゴリに対する $y$ の差」を意味します。

ダミーは既に0/1なので、通常さらなる標準化はしません。

7. 試験での問われ方（準1級）

重回帰と時系列回帰は ほぼ毎回出題 される最重要分野です。準1級では次の角度で問われます。

最小二乗解の導出： $\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y$ を行列微分から導く、または正規方程式の意味を答える。
偏回帰係数の解釈：「他変数を一定に保ったときの効果」を選ばせる。単回帰係数との符号の違いの理由。
多重共線性とVIF： $\mathrm{VIF}_j=1/(1-R_j^2)$ を計算・解釈する。 $X^\top X$ が特異に近づく仕組み。
変数選択： $R^2$ と $\bar R^2$ ・AIC・BIC の使い分け。 $\bar R^2$ が負になりうること、AIC/BIC の罰金項の違い。
回帰診断：残差・てこ比（レバレッジ）・Cookの距離。これは残差分析・回帰診断で扱います。

推定量の評価（不偏性・分散）の一般論は推定量の評価（MSE・フィッシャー情報量・クラメール・ラオの不等式）、尤度に基づく推定（AIC/BIC の土台）は最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論）、係数の検定に使う分布は t分布・カイ二乗分布・F分布（標本分布の三役）が前提知識です。

よくある疑問（Q&A）

Q1. 単回帰では正だった係数が、重回帰では負になりました。計算ミスですか？

ミスではなく、起こりうる正常な現象です（符号の逆転）。交絡変数があると単回帰は他変数経由の効果まで拾うため、純粋な効果（偏回帰係数）と符号すら変わることがあります。有名な例がシンプソンのパラドックスです。要するに「他の変数を一定に保つ」という条件が付くだけで、効果の向きが変わりうる、ということです。これは重回帰が交絡を統制できている証拠でもあります。

Q2. $R^2$ が高ければ良いモデルでは？なぜ $\bar R^2$ や AIC を使うのですか？

$R^2$ は 変数を足すほど必ず上がる（無意味な変数でも下がらない）ため、モデルの優劣比較には使えません。 $\bar R^2$ は自由度で罰金をかけ、AIC/BIC は尤度＋パラメータ数で罰金をかけます。これらは「役に立たない変数を足すと悪化する」ので、変数選択に使えます。当てはまり（ $R^2$ ）と汎化（ $\bar R^2$ /AIC）を区別するのが要点です。

Q3. 多重共線性があると予測もダメになりますか？

いいえ。多重共線性が主に壊すのは 係数の解釈（と個々の係数の有意性） であって、予測精度そのものへの悪影響は小さいことが多いです。共線な変数群はまとめて似た情報を持つので、予測値 $\hat{\mathbf y}=X\hat{\boldsymbol\beta}$ は安定しがちです。問題になるのは「どの変数がどれだけ効くか」を語りたいとき。逆に「当てればよい（予測のみ）」なら多重共線性はそれほど気にしなくてよい、というのが準1級レベルの正しい理解です。

Q4. 係数が一番大きい変数が一番重要、と言ってよいですか？

生の偏回帰係数ではダメです。係数は 変数の単位に依存 するからです（cm と kg を比べるようなもの）。重要度を係数の大小で比較したいなら 標準化偏回帰係数 を使います。標準化すれば単位の影響が消え、寄与の大きさを比較できます。

Q5. AIC と BIC、どちらを使えばよいですか？

目的次第です。罰金項が $2k$ （AIC）か $k\log n$ （BIC）かが違い、 $n\ge8$ では BIC の方が罰金が重いので簡素なモデルを選びます。予測精度を重視するなら AIC（変数が残りやすい）、真に効く変数だけを絞り込みたい・ $n$ が大きいなら BIC（一致性があり簡素）が目安です。要するに「BIC はサンプル数が増えるほど厳しくペナルティを課す」ので、AIC より少ない変数を選ぶ傾向にあります。

まとめ

重回帰は $\mathbf y=X\boldsymbol\beta+\boldsymbol\varepsilon$ 。最小二乗解は $\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y$ で、 $\lVert\mathbf y-X\boldsymbol\beta\rVert^2$ を微分して正規方程式 $X^\top X\hat{\boldsymbol\beta}=X^\top\mathbf y$ から導く。
偏回帰係数は「他変数を一定に保った効果」。交絡により単回帰係数と符号すら変わりうる。
多重共線性は $X^\top X$ を特異に近づけ係数を不安定化。 $\mathrm{VIF}_j=1/(1-R_j^2)$ で診断（ $>10$ で警戒）。予測より解釈を壊す。
変数選択： $R^2$ は必ず増えるので $\bar R^2$ ・AIC・BIC で調整。BIC は $n$ で強く罰金をかけ、AIC より簡素なモデルを選ぶ。
重要度比較は標準化偏回帰係数で。カテゴリは $K-1$ 個のダミーで（全部入れると特異化）。