📊 対象級:準1級 | 重要度:A(頻出)
要点(BLUF)
複数の説明変数 で目的変数 を表す線形モデルです。準1級では「最小二乗解を行列で導出できるか」「偏回帰係数を解釈できるか」「多重共線性を診断できるか」「変数選択基準を使い分けられるか」が問われます。最小二乗解はこの一行に集約されます。
要するに「説明変数を並べた行列 と観測 さえあれば、係数は機械的に計算できる」ということです。
1. モデルの定式化(行列形式)
観測が 個、説明変数が 個あるとします。 番目の観測について
これを 本まとめて行列で書くと、ぐっと見通しが良くなります。
各記号の中身は次の通りです。
- は 計画行列(design matrix) と呼ぶ 行列です。左端の「1」の列は切片 に対応します。
- は推定したい係数ベクトル( 次元)。
- は誤差項。標準的仮定は 、(等分散・無相関)です。
要するに「単回帰の を、説明変数を増やしてベクトル・行列で一括表記しただけ」です。単回帰については 単回帰分析 を参照してください。
2. 最小二乗解の導出(行列微分・省略しない)
2.1 最小化する対象
残差平方和(RSS)を の関数として最小化します。
これは「予測 と実測 のズレの二乗和」です。これを一番小さくする を探します。
2.2 展開する
内積を展開します。 はスカラー()なので転置しても値が変わらず、 と等しい点に注意します。
要するに「定数項・ の1次項・ の2次項」の3つに分かれた、ということです。
2.3 で微分する(ベクトル微分の公式)
ここで使うベクトル微分の2公式が、準1級で確実に押さえるべき道具です。
| 形 | 微分 | 要するに |
|---|---|---|
| (1次形式) | スカラーをベクトルで微分すると係数ベクトルが残る | |
| (2次形式) | が対称なら |
は対称行列()なので、2次形式の微分は になります。よって
2.4 ゼロと置く → 正規方程式
最小化の必要条件は勾配ゼロです。
これが 正規方程式(normal equation) です。要するに「残差ベクトル が、 の各列(各説明変数)と直交する」という条件 そのものです。幾何的には「 を の張る空間へ正射影した点が予測値」という直交射影の話になっています。
2.5 解く
が正則(フルランク )なら逆行列を左から掛けて、
なお は について下に凸(ヘッセ行列が )なので、この停留点は確かに最小です。導出はこれで完結します。
⚠️ が逆行列を持つには がフルランクである必要があります。これが崩れる(列がほぼ一次従属になる)のが、後述の 多重共線性 です。
3. 偏回帰係数の意味
flowchart LR
subgraph 単回帰
A1["x₁ → y"]
end
subgraph 重回帰
B1["x₁ → y"]
B2["x₂(一定に保つ)"]
B2 -. 統制 .-> B1
end
推定された を 偏回帰係数(partial regression coefficient) と呼びます。解釈は次の一文に尽きます。
他のすべての説明変数を一定に保ったまま を1単位増やしたときの、 の平均的な変化量。
「偏(partial)」は「他の変数の影響を取り除いた純粋な効果」という意味です。これが単回帰係数と決定的に違う点です。
単回帰係数との違い(交絡)
- 単回帰係数: 単独で を回帰した傾き。他変数の影響が混ざったまま。
- 偏回帰係数:他変数を統制した上での の効果。
両者は値が違うだけでなく、符号すら逆転することがあります(後述の Q&A)。原因は 交絡(confounding) です。 と相関する別の説明変数 が に効いていると、単回帰では 経由の効果まで に押し付けてしまいます。重回帰はその を式に入れることで効果を分離します。同時分布・条件付き分布の考え方は 同時分布・周辺分布・条件付き分布 が下地になります。
4. 多重共線性とVIF
4.1 何が起きるか
説明変数どうしが強く相関すると、計画行列 の列がほぼ一次従属になり、 が 特異行列に近づきます(行列式 )。逆行列 の成分が爆発的に大きくなり、係数推定 が不安定になります。これが 多重共線性(multicollinearity) です。
理論的裏付けは推定量の分散にあります。誤差が等分散 のとき、
が大きい = 係数の分散が大きい = データを少し変えるだけで係数が大きく振れる、ということです。
4.2 VIF(分散拡大要因)の導出
多重共線性の強さを変数ごとに測るのが VIF(Variance Inflation Factor、分散拡大要因/分散拡大係数) です。
定義は「説明変数 を、残りの説明変数で回帰したときの決定係数 」を使います。
ここで は 補助回帰( を目的変数、他の を説明変数とする回帰)の決定係数です。
なぜこの式になるのか(理論的裏付け)。 の分散は次のように分解できます。
ここで は の標本分散です。右辺の第1因子 は「 が他変数と無相関なら得られる、本来の分散」に相当します。第2因子 が、他変数との相関によって分散が 何倍に膨らむか を表すので「分散拡大」要因と呼ぶわけです。
| 解釈 | ||
|---|---|---|
| 0(他変数と無相関) | 1 | 膨張なし。理想 |
| 0.9 | 10 | 分散が10倍。要警戒 |
| (完全な一次従属) | 推定不能 |
実務の目安は (または )で多重共線性を疑う です(基準値は文献により異なるため、要最新確認)。
flowchart TD
S["VIF_j = 1 / (1 - R_j²) を全変数で計算"] --> Q{"VIF > 10 の変数あり?"}
Q -- いいえ --> OK["多重共線性の問題は小さい"]
Q -- はい --> A["対処を検討"]
A --> A1["相関の強い変数の一方を除外"]
A --> A2["変数を合成・主成分回帰"]
A --> A3["正則化(リッジ回帰など)"]
正則化による対処は 正則化(リッジ・Lasso) で扱います。リッジ回帰は とすることで逆行列の不安定さを直接やわらげる手法です。
5. 変数選択
説明変数は「多ければ良い」わけではありません。無関係な変数を足すと、当てはまりは見かけ上良くなるのに、予測は悪化します(過学習)。そこで「ペナルティ付き」の基準でモデルを選びます。
5.1 なぜ は変数を足すと必ず上がるのか
決定係数は です(TSS は の全変動で固定)。説明変数を1個追加すると、最小二乗法は「その変数の係数を0にすれば前と同じ」という選択肢を含むので、RSS が増えることは絶対にありません。必ず RSS は下がるか同じ、つまり は上がるか同じです。
要するに「 はモデルの良し悪しの公正な比較に使えない」ということです。無意味な変数でも は上がってしまうからです。
5.2 自由度調整済み決定係数
そこで自由度で割って調整します。
ポイントは分子の自由度 です。変数 を増やすと が小さくなり、 という 罰金係数が大きくなります。RSS の減り(良いこと)と罰金の増え(悪いこと)が綱引きをするので、役に立たない変数を足すと はむしろ下がることがあります。これが との決定的な違いです。
⚠️ は 負の値を取りうる(モデルが平均予測より悪いとき)。準1級では「 はあり得る/ は通常あり得ない」が論点になります。
5.3 AIC と BIC
尤度ベースの情報量規準です。 は最大対数尤度、 は推定したパラメータ数(係数 個+誤差分散 で )です。
どちらも 小さいほど良い モデルです。第1項 は当てはまりの悪さ(小さいほど当てはまる)、第2項がパラメータ数への罰金です。
正規誤差を仮定すると と書けるので、実務上は RSS が小さく、かつ変数が少ない モデルが選ばれます。
AIC と BIC の違い(頻出)。 罰金項を比べます。
で なので、現実的な標本サイズでは BIC の方が罰金が重い。結果:
| 罰金 | 残りやすさ | 思想 | |
|---|---|---|---|
| AIC | ( に依存しない) | 変数が多く残りやすい | 予測精度の最適化(真のモデルが候補内にあると仮定しない) |
| BIC | ( で増える) | 変数が少なくなりやすい | 真のモデルの一致選択( で真のモデルを選ぶ一致性) |
要するに「BIC はサンプル数 が大きいほど強くペナルティをかけるので、AIC より簡素なモデルを選ぶ」ということです。
5.4 ステップワイズ法
全部の変数の組み合わせ( 通り)を試すのは大変なので、貪欲に1個ずつ出し入れします。
flowchart TD F["変数選択の戦略"] --> A["変数増加法(前進)"] F --> B["変数減少法(後退)"] F --> C["ステップワイズ法(増減)"] A --> A0["空モデルから開始<br/>基準が最も改善する変数を1個ずつ追加"] B --> B0["全変数モデルから開始<br/>基準が最も改善する変数を1個ずつ削除"] C --> C0["追加と削除を交互に検討<br/>一度入れた変数も後で外せる"]
- 変数増加法(前進選択, forward):何もない状態から、AIC等が最も改善する変数を順に追加。
- 変数減少法(後退消去, backward):全変数から、外しても基準が改善する変数を順に削除。
- ステップワイズ法(stepwise):追加と削除を両方検討。前進だと入れた変数を後で外せないが、ステップワイズなら外せる。
いずれも局所最適にとどまる(全部分集合探索ではない)点に注意します。
6. 標準化偏回帰係数とダミー変数
6.1 標準化偏回帰係数
偏回帰係数 は 単位に依存 します。たとえば「身長(cm)」と「体重(kg)」の係数の大小を直接比べても、変数の重要度の比較にはなりません。単位が違うからです。
そこで各変数を標準化(平均0・分散1に変換)してから回帰した係数が 標準化偏回帰係数 です。元の係数との関係は、
( は の標準偏差、 は の標準偏差)。要するに「単位をそろえて、係数の大小で寄与の大きさを比較できるようにしたもの」です。
⚠️ 標準化しない生の偏回帰係数で「係数が大きい=重要」と判断するのは誤り。これは引っかけ頻出です。
6.2 ダミー変数
質的変数(カテゴリ)は ダミー変数(0/1 のコード)で表します。 水準のカテゴリは 個 のダミーで表し、残り1つを基準(ベースライン)とします。
- 例:血液型(A/B/O/AB)→ ダミー3個(B, O, AB)。A型が基準。
- 個すべてをダミーにすると、ダミーの和が常に1となり切片の列と一次従属になります(ダミー変数トラップ)。 が特異化するので必ず1つ落とします。
- 各ダミーの偏回帰係数は「基準カテゴリに対する の差」を意味します。
ダミーは既に0/1なので、通常さらなる標準化はしません。
7. 試験での問われ方(準1級)
重回帰と時系列回帰は ほぼ毎回出題 される最重要分野です。準1級では次の角度で問われます。
- 最小二乗解の導出: を行列微分から導く、または正規方程式の意味を答える。
- 偏回帰係数の解釈:「他変数を一定に保ったときの効果」を選ばせる。単回帰係数との符号の違いの理由。
- 多重共線性とVIF: を計算・解釈する。 が特異に近づく仕組み。
- 変数選択: と ・AIC・BIC の使い分け。 が負になりうること、AIC/BIC の罰金項の違い。
- 回帰診断:残差・てこ比(レバレッジ)・Cookの距離。これは 残差分析・回帰診断 で扱います。
推定量の評価(不偏性・分散)の一般論は 推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式)、尤度に基づく推定(AIC/BIC の土台)は 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)、係数の検定に使う分布は t分布・カイ二乗分布・F分布(標本分布の三役) が前提知識です。
よくある疑問(Q&A)
Q1. 単回帰では正だった係数が、重回帰では負になりました。計算ミスですか?
ミスではなく、起こりうる正常な現象です(符号の逆転)。交絡変数があると単回帰は他変数経由の効果まで拾うため、純粋な効果(偏回帰係数)と符号すら変わることがあります。有名な例がシンプソンのパラドックスです。要するに「他の変数を一定に保つ」という条件が付くだけで、効果の向きが変わりうる、ということです。これは重回帰が交絡を統制できている証拠でもあります。
Q2. が高ければ良いモデルでは?なぜ や AIC を使うのですか?
は 変数を足すほど必ず上がる(無意味な変数でも下がらない)ため、モデルの優劣比較には使えません。 は自由度で罰金をかけ、AIC/BIC は尤度+パラメータ数で罰金をかけます。これらは「役に立たない変数を足すと悪化する」ので、変数選択に使えます。当てはまり()と汎化(/AIC)を区別するのが要点です。
Q3. 多重共線性があると予測もダメになりますか?
いいえ。多重共線性が主に壊すのは 係数の解釈(と個々の係数の有意性) であって、予測精度そのものへの悪影響は小さいことが多いです。共線な変数群はまとめて似た情報を持つので、予測値 は安定しがちです。問題になるのは「どの変数がどれだけ効くか」を語りたいとき。逆に「当てればよい(予測のみ)」なら多重共線性はそれほど気にしなくてよい、というのが準1級レベルの正しい理解です。
Q4. 係数が一番大きい変数が一番重要、と言ってよいですか?
生の偏回帰係数ではダメです。係数は 変数の単位に依存 するからです(cm と kg を比べるようなもの)。重要度を係数の大小で比較したいなら 標準化偏回帰係数 を使います。標準化すれば単位の影響が消え、寄与の大きさを比較できます。
Q5. AIC と BIC、どちらを使えばよいですか?
目的次第です。罰金項が (AIC)か (BIC)かが違い、 では BIC の方が罰金が重いので簡素なモデルを選びます。予測精度を重視するなら AIC(変数が残りやすい)、真に効く変数だけを絞り込みたい・ が大きいなら BIC(一致性があり簡素)が目安です。要するに「BIC はサンプル数が増えるほど厳しくペナルティを課す」ので、AIC より少ない変数を選ぶ傾向にあります。
まとめ
- 重回帰は 。最小二乗解は で、 を微分して正規方程式 から導く。
- 偏回帰係数は「他変数を一定に保った効果」。交絡により単回帰係数と符号すら変わりうる。
- 多重共線性は を特異に近づけ係数を不安定化。 で診断( で警戒)。予測より解釈を壊す。
- 変数選択: は必ず増えるので ・AIC・BIC で調整。BIC は で強く罰金をかけ、AIC より簡素なモデルを選ぶ。
- 重要度比較は標準化偏回帰係数で。カテゴリは 個のダミーで(全部入れると特異化)。
関連ノート
- 単回帰分析 説明変数1個の基本形。重回帰はこの一般化
- 残差分析・回帰診断 てこ比・Cookの距離など当てはめ後の診断
- 正則化(リッジ・Lasso) 多重共線性への対処(リッジ・ラッソ)
- 推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式) 不偏性・分散など推定量の一般論
- 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論) AIC/BIC の土台となる尤度
- t分布・カイ二乗分布・F分布(標本分布の三役) 係数の検定・分散分析で使う分布
- 同時分布・周辺分布・条件付き分布 交絡・条件付けの基礎