← 統計検定テキスト 一覧

📊 対象級:準1級 | 重要度:A(頻出)

要点(BLUF)

複数の説明変数 x1,,xpx_1,\dots,x_p で目的変数 yy を表す線形モデルです。準1級では「最小二乗解を行列で導出できるか」「偏回帰係数を解釈できるか」「多重共線性を診断できるか」「変数選択基準を使い分けられるか」が問われます。最小二乗解はこの一行に集約されます。

  β^=(XX)1Xy  \boxed{\;\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y\;}

要するに「説明変数を並べた行列 XX と観測 y\mathbf y さえあれば、係数は機械的に計算できる」ということです。


1. モデルの定式化(行列形式)

観測が nn 個、説明変数が pp 個あるとします。ii 番目の観測について

yi=β0+β1xi1+β2xi2++βpxip+εiy_i=\beta_0+\beta_1 x_{i1}+\beta_2 x_{i2}+\dots+\beta_p x_{ip}+\varepsilon_i

これを nn 本まとめて行列で書くと、ぐっと見通しが良くなります。

y=Xβ+ε\mathbf y=X\boldsymbol\beta+\boldsymbol\varepsilon

各記号の中身は次の通りです。

y=(y1yn),X=(1x11x1p1xn1xnp),β=(β0β1βp),ε=(ε1εn)\mathbf y=\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix},\quad X=\begin{pmatrix}1 & x_{11} & \cdots & x_{1p}\\ \vdots & \vdots & & \vdots\\ 1 & x_{n1} & \cdots & x_{np}\end{pmatrix},\quad \boldsymbol\beta=\begin{pmatrix}\beta_0\\ \beta_1\\ \vdots\\ \beta_p\end{pmatrix},\quad \boldsymbol\varepsilon=\begin{pmatrix}\varepsilon_1\\ \vdots\\ \varepsilon_n\end{pmatrix}

要するに「単回帰の y=a+bxy=a+bx を、説明変数を増やしてベクトル・行列で一括表記しただけ」です。単回帰については 単回帰分析 を参照してください。


2. 最小二乗解の導出(行列微分・省略しない)

2.1 最小化する対象

残差平方和(RSS)を β\boldsymbol\beta の関数として最小化します。

S(β)=yXβ2=(yXβ)(yXβ)S(\boldsymbol\beta)=\lVert\mathbf y-X\boldsymbol\beta\rVert^2=(\mathbf y-X\boldsymbol\beta)^\top(\mathbf y-X\boldsymbol\beta)

これは「予測 XβX\boldsymbol\beta と実測 y\mathbf y のズレの二乗和」です。これを一番小さくする β\boldsymbol\beta を探します。

2.2 展開する

内積を展開します。yXβ\mathbf y^\top X\boldsymbol\beta はスカラー(1×11\times1)なので転置しても値が変わらず、βXy\boldsymbol\beta^\top X^\top\mathbf y と等しい点に注意します。

S(β)=yyyXββXy+βXXβ=yy2βXy+βXXβ\begin{aligned} S(\boldsymbol\beta) &=\mathbf y^\top\mathbf y-\mathbf y^\top X\boldsymbol\beta-\boldsymbol\beta^\top X^\top\mathbf y+\boldsymbol\beta^\top X^\top X\boldsymbol\beta\\ &=\mathbf y^\top\mathbf y-2\boldsymbol\beta^\top X^\top\mathbf y+\boldsymbol\beta^\top X^\top X\boldsymbol\beta \end{aligned}

要するに「定数項・β\boldsymbol\beta の1次項・β\boldsymbol\beta の2次項」の3つに分かれた、ということです。

2.3 β\boldsymbol\beta で微分する(ベクトル微分の公式)

ここで使うベクトル微分の2公式が、準1級で確実に押さえるべき道具です。

微分要するに
β(βa)=a\dfrac{\partial}{\partial\boldsymbol\beta}\left(\boldsymbol\beta^\top\mathbf a\right)=\mathbf a(1次形式)スカラーをベクトルで微分すると係数ベクトルが残る
β(βAβ)=(A+A)β\dfrac{\partial}{\partial\boldsymbol\beta}\left(\boldsymbol\beta^\top A\boldsymbol\beta\right)=(A+A^\top)\boldsymbol\beta(2次形式)AA が対称なら 2Aβ2A\boldsymbol\beta

A=XXA=X^\top X は対称行列((XX)=XX(X^\top X)^\top=X^\top X)なので、2次形式の微分は 2XXβ2X^\top X\boldsymbol\beta になります。よって

Sβ=2Xy+2XXβ\frac{\partial S}{\partial\boldsymbol\beta}=-2X^\top\mathbf y+2X^\top X\boldsymbol\beta

2.4 ゼロと置く → 正規方程式

最小化の必要条件は勾配ゼロです。

Sβ=0      XXβ^=Xy  (正規方程式)\frac{\partial S}{\partial\boldsymbol\beta}=\mathbf 0 \;\Longrightarrow\; \boxed{\;X^\top X\,\hat{\boldsymbol\beta}=X^\top\mathbf y\;}\quad\text{(正規方程式)}

これが 正規方程式(normal equation) です。要するに「残差ベクトル yXβ^\mathbf y-X\hat{\boldsymbol\beta} が、XX の各列(各説明変数)と直交する」という条件 X(yXβ^)=0X^\top(\mathbf y-X\hat{\boldsymbol\beta})=\mathbf0 そのものです。幾何的には「y\mathbf yXX の張る空間へ正射影した点が予測値」という直交射影の話になっています。

2.5 解く

XXX^\top X が正則(フルランク rank(X)=p+1\mathrm{rank}(X)=p+1)なら逆行列を左から掛けて、

β^=(XX)1Xy\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y

なお S(β)S(\boldsymbol\beta)β\boldsymbol\beta について下に凸(ヘッセ行列が 2XX02X^\top X\succeq 0)なので、この停留点は確かに最小です。導出はこれで完結します。

⚠️ XXX^\top X が逆行列を持つには XX がフルランクである必要があります。これが崩れる(列がほぼ一次従属になる)のが、後述の 多重共線性 です。


3. 偏回帰係数の意味

flowchart LR
  subgraph 単回帰
    A1["x₁ → y"]
  end
  subgraph 重回帰
    B1["x₁ → y"]
    B2["x₂(一定に保つ)"]
    B2 -. 統制 .-> B1
  end

推定された β^j\hat\beta_j偏回帰係数(partial regression coefficient) と呼びます。解釈は次の一文に尽きます。

他のすべての説明変数を一定に保ったまま xjx_j を1単位増やしたときの、yy の平均的な変化量。

「偏(partial)」は「他の変数の影響を取り除いた純粋な効果」という意味です。これが単回帰係数と決定的に違う点です。

単回帰係数との違い(交絡)

両者は値が違うだけでなく、符号すら逆転することがあります(後述の Q&A)。原因は 交絡(confounding) です。xjx_j と相関する別の説明変数 xkx_kyy に効いていると、単回帰では xkx_k 経由の効果まで xjx_j に押し付けてしまいます。重回帰はその xkx_k を式に入れることで効果を分離します。同時分布・条件付き分布の考え方は 同時分布・周辺分布・条件付き分布 が下地になります。


4. 多重共線性とVIF

4.1 何が起きるか

説明変数どうしが強く相関すると、計画行列 XX の列がほぼ一次従属になり、XXX^\top X特異行列に近づきます(行列式 det(XX)0\det(X^\top X)\to0)。逆行列 (XX)1(X^\top X)^{-1} の成分が爆発的に大きくなり、係数推定 β^\hat{\boldsymbol\beta} が不安定になります。これが 多重共線性(multicollinearity) です。

理論的裏付けは推定量の分散にあります。誤差が等分散 σ2I\sigma^2 I のとき、

Var(β^)=σ2(XX)1\mathrm{Var}(\hat{\boldsymbol\beta})=\sigma^2(X^\top X)^{-1}

(XX)1(X^\top X)^{-1} が大きい = 係数の分散が大きい = データを少し変えるだけで係数が大きく振れる、ということです。

4.2 VIF(分散拡大要因)の導出

多重共線性の強さを変数ごとに測るのが VIF(Variance Inflation Factor、分散拡大要因/分散拡大係数) です。

定義は「説明変数 xjx_j を、残りの説明変数で回帰したときの決定係数 Rj2R_j^2」を使います。

  VIFj=11Rj2  \boxed{\;\mathrm{VIF}_j=\frac{1}{1-R_j^2}\;}

ここで Rj2R_j^2補助回帰xjx_j を目的変数、他の xk (kj)x_{k\ (k\ne j)} を説明変数とする回帰)の決定係数です。

なぜこの式になるのか(理論的裏付け)。 β^j\hat\beta_j の分散は次のように分解できます。

Var(β^j)=σ2(n1)sj211Rj2= VIFj\mathrm{Var}(\hat\beta_j)=\frac{\sigma^2}{(n-1)\,s_j^2}\cdot\underbrace{\frac{1}{1-R_j^2}}_{=\ \mathrm{VIF}_j}

ここで sj2s_j^2xjx_j の標本分散です。右辺の第1因子 σ2(n1)sj2\dfrac{\sigma^2}{(n-1)s_j^2} は「xjx_j が他変数と無相関なら得られる、本来の分散」に相当します。第2因子 11Rj2\dfrac{1}{1-R_j^2} が、他変数との相関によって分散が 何倍に膨らむか を表すので「分散拡大」要因と呼ぶわけです。

Rj2R_j^2VIFj\mathrm{VIF}_j解釈
0(他変数と無相関)1膨張なし。理想
0.910分散が10倍。要警戒
1\to 1(完全な一次従属)\to\infty推定不能

実務の目安は VIF>10\mathrm{VIF}>10(または 55)で多重共線性を疑う です(基準値は文献により異なるため、要最新確認)。

flowchart TD
  S["VIF_j = 1 / (1 - R_j²) を全変数で計算"] --> Q{"VIF > 10 の変数あり?"}
  Q -- いいえ --> OK["多重共線性の問題は小さい"]
  Q -- はい --> A["対処を検討"]
  A --> A1["相関の強い変数の一方を除外"]
  A --> A2["変数を合成・主成分回帰"]
  A --> A3["正則化(リッジ回帰など)"]

正則化による対処は 正則化(リッジ・Lasso) で扱います。リッジ回帰は (XX+λI)1(X^\top X+\lambda I)^{-1} とすることで逆行列の不安定さを直接やわらげる手法です。


5. 変数選択

説明変数は「多ければ良い」わけではありません。無関係な変数を足すと、当てはまりは見かけ上良くなるのに、予測は悪化します(過学習)。そこで「ペナルティ付き」の基準でモデルを選びます。

5.1 なぜ R2R^2 は変数を足すと必ず上がるのか

決定係数は R2=1RSSTSSR^2=1-\dfrac{\text{RSS}}{\text{TSS}} です(TSS は yy の全変動で固定)。説明変数を1個追加すると、最小二乗法は「その変数の係数を0にすれば前と同じ」という選択肢を含むので、RSS が増えることは絶対にありません。必ず RSS は下がるか同じ、つまり R2R^2 は上がるか同じです。

要するに「R2R^2 はモデルの良し悪しの公正な比較に使えない」ということです。無意味な変数でも R2R^2 は上がってしまうからです。

5.2 自由度調整済み決定係数 Rˉ2\bar R^2

そこで自由度で割って調整します。

Rˉ2=1RSS/(np1)TSS/(n1)=1n1np1(1R2)\bar R^2=1-\frac{\text{RSS}/(n-p-1)}{\text{TSS}/(n-1)} =1-\frac{n-1}{n-p-1}\,(1-R^2)

ポイントは分子の自由度 np1n-p-1 です。変数 pp を増やすと np1n-p-1 が小さくなり、n1np1\dfrac{n-1}{n-p-1} という 罰金係数が大きくなります。RSS の減り(良いこと)と罰金の増え(悪いこと)が綱引きをするので、役に立たない変数を足すと Rˉ2\bar R^2 はむしろ下がることがあります。これが R2R^2 との決定的な違いです。

⚠️ Rˉ2\bar R^2負の値を取りうる(モデルが平均予測より悪いとき)。準1級では「Rˉ2<0\bar R^2<0 はあり得る/R2<0R^2<0 は通常あり得ない」が論点になります。

5.3 AIC と BIC

尤度ベースの情報量規準です。LL は最大対数尤度、kk は推定したパラメータ数(係数 p+1p+1 個+誤差分散 σ2\sigma^2k=p+2k=p+2)です。

AIC=2logL+2k\mathrm{AIC}=-2\log L+2k BIC=2logL+klogn\mathrm{BIC}=-2\log L+k\log n

どちらも 小さいほど良い モデルです。第1項 2logL-2\log L は当てはまりの悪さ(小さいほど当てはまる)、第2項がパラメータ数への罰金です。

正規誤差を仮定すると 2logL=nlog(RSS/n)+定数-2\log L = n\log(\text{RSS}/n)+\text{定数} と書けるので、実務上は RSS が小さく、かつ変数が少ない モデルが選ばれます。

AIC と BIC の違い(頻出)。 罰金項を比べます。

AIC の罰金=2k,BIC の罰金=klogn\text{AIC の罰金}=2k,\qquad \text{BIC の罰金}=k\log n

n8n\ge 8logn>2\log n>2 なので、現実的な標本サイズでは BIC の方が罰金が重い。結果:

罰金残りやすさ思想
AIC2k2knn に依存しない)変数が多く残りやすい予測精度の最適化(真のモデルが候補内にあると仮定しない)
BICklognk\log nnn で増える)変数が少なくなりやすい真のモデルの一致選択(nn\to\infty で真のモデルを選ぶ一致性)

要するに「BIC はサンプル数 nn が大きいほど強くペナルティをかけるので、AIC より簡素なモデルを選ぶ」ということです。

5.4 ステップワイズ法

全部の変数の組み合わせ(2p2^p 通り)を試すのは大変なので、貪欲に1個ずつ出し入れします。

flowchart TD
  F["変数選択の戦略"] --> A["変数増加法(前進)"]
  F --> B["変数減少法(後退)"]
  F --> C["ステップワイズ法(増減)"]
  A --> A0["空モデルから開始<br/>基準が最も改善する変数を1個ずつ追加"]
  B --> B0["全変数モデルから開始<br/>基準が最も改善する変数を1個ずつ削除"]
  C --> C0["追加と削除を交互に検討<br/>一度入れた変数も後で外せる"]

いずれも局所最適にとどまる(全部分集合探索ではない)点に注意します。


6. 標準化偏回帰係数とダミー変数

6.1 標準化偏回帰係数

偏回帰係数 β^j\hat\beta_j単位に依存 します。たとえば「身長(cm)」と「体重(kg)」の係数の大小を直接比べても、変数の重要度の比較にはなりません。単位が違うからです。

そこで各変数を標準化(平均0・分散1に変換)してから回帰した係数が 標準化偏回帰係数 です。元の係数との関係は、

β^jstd=β^jsxjsy\hat\beta_j^{\text{std}}=\hat\beta_j\cdot\frac{s_{x_j}}{s_y}

sxjs_{x_j}xjx_j の標準偏差、sys_yyy の標準偏差)。要するに「単位をそろえて、係数の大小で寄与の大きさを比較できるようにしたもの」です。

⚠️ 標準化しない生の偏回帰係数で「係数が大きい=重要」と判断するのは誤り。これは引っかけ頻出です。

6.2 ダミー変数

質的変数(カテゴリ)は ダミー変数(0/1 のコード)で表します。KK 水準のカテゴリは K1K-1 のダミーで表し、残り1つを基準(ベースライン)とします。

ダミーは既に0/1なので、通常さらなる標準化はしません。


7. 試験での問われ方(準1級)

重回帰と時系列回帰は ほぼ毎回出題 される最重要分野です。準1級では次の角度で問われます。

  1. 最小二乗解の導出β^=(XX)1Xy\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y を行列微分から導く、または正規方程式の意味を答える。
  2. 偏回帰係数の解釈:「他変数を一定に保ったときの効果」を選ばせる。単回帰係数との符号の違いの理由。
  3. 多重共線性とVIFVIFj=1/(1Rj2)\mathrm{VIF}_j=1/(1-R_j^2) を計算・解釈する。XXX^\top X が特異に近づく仕組み。
  4. 変数選択R2R^2Rˉ2\bar R^2・AIC・BIC の使い分け。Rˉ2\bar R^2 が負になりうること、AIC/BIC の罰金項の違い。
  5. 回帰診断:残差・てこ比(レバレッジ)・Cookの距離。これは 残差分析・回帰診断 で扱います。

推定量の評価(不偏性・分散)の一般論は 推定量の評価(MSE・フィッシャー情報量・クラメール・ラオの不等式)、尤度に基づく推定(AIC/BIC の土台)は 最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)、係数の検定に使う分布は t分布・カイ二乗分布・F分布(標本分布の三役) が前提知識です。


よくある疑問(Q&A)

Q1. 単回帰では正だった係数が、重回帰では負になりました。計算ミスですか?

ミスではなく、起こりうる正常な現象です(符号の逆転)。交絡変数があると単回帰は他変数経由の効果まで拾うため、純粋な効果(偏回帰係数)と符号すら変わることがあります。有名な例がシンプソンのパラドックスです。要するに「他の変数を一定に保つ」という条件が付くだけで、効果の向きが変わりうる、ということです。これは重回帰が交絡を統制できている証拠でもあります。

Q2. R2R^2 が高ければ良いモデルでは?なぜ Rˉ2\bar R^2 や AIC を使うのですか?

R2R^2変数を足すほど必ず上がる(無意味な変数でも下がらない)ため、モデルの優劣比較には使えません。Rˉ2\bar R^2 は自由度で罰金をかけ、AIC/BIC は尤度+パラメータ数で罰金をかけます。これらは「役に立たない変数を足すと悪化する」ので、変数選択に使えます。当てはまり(R2R^2)と汎化(Rˉ2\bar R^2/AIC)を区別するのが要点です。

Q3. 多重共線性があると予測もダメになりますか?

いいえ。多重共線性が主に壊すのは 係数の解釈(と個々の係数の有意性) であって、予測精度そのものへの悪影響は小さいことが多いです。共線な変数群はまとめて似た情報を持つので、予測値 y^=Xβ^\hat{\mathbf y}=X\hat{\boldsymbol\beta} は安定しがちです。問題になるのは「どの変数がどれだけ効くか」を語りたいとき。逆に「当てればよい(予測のみ)」なら多重共線性はそれほど気にしなくてよい、というのが準1級レベルの正しい理解です。

Q4. 係数が一番大きい変数が一番重要、と言ってよいですか?

生の偏回帰係数ではダメです。係数は 変数の単位に依存 するからです(cm と kg を比べるようなもの)。重要度を係数の大小で比較したいなら 標準化偏回帰係数 を使います。標準化すれば単位の影響が消え、寄与の大きさを比較できます。

Q5. AIC と BIC、どちらを使えばよいですか?

目的次第です。罰金項が 2k2k(AIC)か klognk\log n(BIC)かが違い、n8n\ge8 では BIC の方が罰金が重いので簡素なモデルを選びます。予測精度を重視するなら AIC(変数が残りやすい)、真に効く変数だけを絞り込みたい・nn が大きいなら BIC(一致性があり簡素)が目安です。要するに「BIC はサンプル数が増えるほど厳しくペナルティを課す」ので、AIC より少ない変数を選ぶ傾向にあります。


まとめ


関連ノート