分散共分散行列・相関行列｜統計検定テキスト

📊 対象級：準1級　|　重要度：B（標準）

要点（BLUF）

複数の変数 $X_1,\dots,X_p$ の「散らばり」と「関係」をひとつの行列にまとめたものが 分散共分散行列 $\Sigma$ です。対角に各変数の分散、非対角に変数間の共分散を並べます。

\boxed{\;\Sigma=\mathbb E\!\left[(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^\top\right]\;}

要するに「1次元の分散 $\mathrm{Var}(X)$ を、変数ベクトル $\mathbf X$ 向けに拡張した行列版の分散」です。準1級では次の3点が問われます。

半正定値性（ $\mathbf a^\top\Sigma\mathbf a\ge0$ ）と、そこから従う「固有値が全て非負」。
線形変換の公式 $\mathrm{Var}(A\mathbf X)=A\Sigma A^\top$ 。
相関行列 $R=D^{-1/2}\Sigma D^{-1/2}$ への標準化と、スケール依存／不変の違い。

これらはすべて主成分分析（PCA）（ $\Sigma$ の固有値分解）と多変量正規分布の土台になります。

1. 分散共分散行列 $\Sigma$ の定義

1.1 確率変数ベクトルと平均ベクトル

$p$ 個の確率変数を縦に並べたベクトルを考えます。

\mathbf X=\begin{pmatrix}X_1\\ X_2\\ \vdots\\ X_p\end{pmatrix},\qquad \boldsymbol\mu=\mathbb E[\mathbf X]=\begin{pmatrix}\mathbb E[X_1]\\ \mathbb E[X_2]\\ \vdots\\ \mathbb E[X_p]\end{pmatrix}

$\boldsymbol\mu$ は 平均ベクトルで、各成分が各変数の期待値です。期待値・分散の1変数での性質は期待値・分散の性質（線形性・和の分散・共分散）が下地になります。

1.2 行列としての定義

中心化したベクトル $\mathbf X-\boldsymbol\mu$ の「外積の期待値」が分散共分散行列です。

\Sigma=\mathbb E\!\left[(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^\top\right]

ここで $(\mathbf X-\boldsymbol\mu)$ は $p\times1$ 、その転置は $1\times p$ なので、積は $p\times p$ 行列になります。中身を成分で書き下すと、 $(i,j)$ 成分は

\Sigma_{ij}=\mathbb E\!\left[(X_i-\mu_i)(X_j-\mu_j)\right]=\mathrm{Cov}(X_i,X_j)

となります。したがって行列全体は次の形です。

\Sigma= \begin{pmatrix} \mathrm{Var}(X_1) & \mathrm{Cov}(X_1,X_2) & \cdots & \mathrm{Cov}(X_1,X_p)\\ \mathrm{Cov}(X_2,X_1) & \mathrm{Var}(X_2) & \cdots & \mathrm{Cov}(X_2,X_p)\\ \vdots & \vdots & \ddots & \vdots\\ \mathrm{Cov}(X_p,X_1) & \mathrm{Cov}(X_p,X_2) & \cdots & \mathrm{Var}(X_p) \end{pmatrix}

要するに「対角に各変数の分散、非対角にペアの共分散を並べた表」です。2変数の共分散・相関の基礎は 2変数の記述（散布図・共分散・相関係数）── 相関≠因果／rは直線関係しか測れない／外れ値1点で激変、同時分布から共分散が出る仕組みは同時分布・周辺分布・条件付き分布を参照してください。

1.3 対称性

$\mathrm{Cov}(X_i,X_j)=\mathrm{Cov}(X_j,X_i)$ なので、 $\Sigma_{ij}=\Sigma_{ji}$ 、すなわち

\Sigma^\top=\Sigma\quad(\text{対称行列})

です。これが後の「直交行列で対角化できる」の前提になります。

別の便利な表現として $\Sigma=\mathbb E[\mathbf X\mathbf X^\top]-\boldsymbol\mu\boldsymbol\mu^\top$ があります。これは $\mathrm{Var}(X)=\mathbb E[X^2]-(\mathbb E X)^2$ の行列版で、モーメントの観点（確率変数の変換・モーメント母関数・積率）から見ると「2次の原点まわりモーメント行列 $\mathbb E[\mathbf X\mathbf X^\top]$ から平均の寄与を引いたもの」です。

2. 標本分散共分散行列 $S$

母集団の $\Sigma$ は理論量です。データから推定するのが 標本分散共分散行列 $S$ です。

2.1 定義

$n$ 個の観測ベクトル $\mathbf x_1,\dots,\mathbf x_n$ （各 $\mathbf x_i$ は $p$ 次元）と標本平均 $\bar{\mathbf x}=\frac1n\sum_{i}\mathbf x_i$ について、

\boxed{\;S=\frac{1}{n-1}\sum_{i=1}^{n}(\mathbf x_i-\bar{\mathbf x})(\mathbf x_i-\bar{\mathbf x})^\top\;}

これは1変数の不偏分散 $s^2=\frac{1}{n-1}\sum_i(x_i-\bar x)^2$ をそのまま行列に拡張したものです。 $n-1$ で割るのは、平均 $\bar{\mathbf x}$ を推定に使ったことで自由度が1減るためで、これにより $\mathbb E[S]=\Sigma$ （不偏性）が成り立ちます。

2.2 中心化行列を使った行列表記（重回帰と地続き）

観測を行ごとに積んだデータ行列 $X$ （ $n\times p$ ）を考えます。

X=\begin{pmatrix}\mathbf x_1^\top\\ \mathbf x_2^\top\\ \vdots\\ \mathbf x_n^\top\end{pmatrix}

各列（各変数）から平均を引いた 中心化データ行列 を $X_c$ とします。これは 中心化行列（centering matrix）

H=I_n-\frac{1}{n}\mathbf 1\mathbf 1^\top \qquad(\mathbf 1=(1,1,\dots,1)^\top)

を左から掛けて $X_c=HX$ で作れます（ $\frac1n\mathbf 1\mathbf 1^\top$ は「全行を平均で置き換える」作用なので、引くと各列が中心化される）。このとき標本分散共分散行列は

\boxed{\;S=\frac{1}{n-1}X_c^\top X_c\;}

と書けます。 $X_c^\top X_c$ の $(i,j)$ 成分が $\sum_k(x_{ki}-\bar x_i)(x_{kj}-\bar x_j)$ 、すなわち変数 $i,j$ の偏差積和になっているからです。

要するに「 $S$ は中心化データの グラム行列 $X_c^\top X_c$ を自由度で割っただけ」です。重回帰の正規方程式に現れる $X^\top X$ （重回帰分析）と同じ $(\text{行列})^\top(\text{同じ行列})$ の形をしている点に注目してください。重回帰の $X^\top X$ も、列を中心化すれば本質的に $(n-1)S$ になります。多変量解析の至るところでこの $X^\top X$ 型が顔を出すのは、すべて2次モーメントの集約だからです。

$H$ の性質： $H$ は対称（ $H^\top=H$ ）かつ冪等（ $H^2=H$ ）な射影行列です。よって $S=\frac{1}{n-1}X^\top H^\top HX=\frac{1}{n-1}X^\top HX$ とも書けます。

3. 相関行列 $R$

3.1 共分散行列の標準化

共分散はスケール（単位）に依存します。これを取り除いて「関係の強さ」だけを取り出したのが 相関行列 $R$ です。各変数の標準偏差 $\sigma_i=\sqrt{\Sigma_{ii}}$ を対角に並べた対角行列

D=\mathrm{diag}(\sigma_1,\sigma_2,\dots,\sigma_p),\qquad D^{-1/2}=\mathrm{diag}\!\left(\tfrac{1}{\sigma_1},\dots,\tfrac{1}{\sigma_p}\right)

を使って、

\boxed{\;R=D^{-1/2}\,\Sigma\,D^{-1/2}\;}

と定義します（ここで $D$ は分散を対角に並べた行列とみなし、 $D^{-1/2}$ は $1/\sigma_i$ の対角行列です）。 $(i,j)$ 成分を書き下すと、

R_{ij}=\frac{\Sigma_{ij}}{\sigma_i\sigma_j}=\frac{\mathrm{Cov}(X_i,X_j)}{\sqrt{\mathrm{Var}(X_i)}\sqrt{\mathrm{Var}(X_j)}}=\rho_{ij}

まさに 相関係数 です。要するに「 $R$ は $\Sigma$ の各成分を、対応する2変数の標準偏差で割って正規化した行列」です。

3.2 性質

対角成分は $R_{ii}=\dfrac{\Sigma_{ii}}{\sigma_i^2}=1$ 。
非対角成分は $-1\le\rho_{ij}\le1$ 。
$R$ も対称かつ半正定値（後述の半正定値性が $D^{-1/2}\Sigma D^{-1/2}$ にも遺伝する。 $\mathbf b^\top R\mathbf b=(D^{-1/2}\mathbf b)^\top\Sigma(D^{-1/2}\mathbf b)\ge0$ だから）。

3.3 「標準化したデータの共分散行列＝相関行列」

各変数を $Z_i=\dfrac{X_i-\mu_i}{\sigma_i}$ と標準化すると、 $Z_i$ は分散1になります。標準化後のベクトル $\mathbf Z$ の共分散行列は、定義から $\mathrm{Cov}(Z_i,Z_j)=\rho_{ij}$ なので

\mathrm{Var}(\mathbf Z)=R

つまり「先に標準化してから共分散行列を作る＝相関行列」です。 $R$ は $\Sigma$ より狭い概念（情報量が少ない）で、スケールの情報を捨てた代わりに単位に依存しなくなります。

4. 半正定値性の証明（省略しない）

これが準1級で最も問われる性質です。 $\Sigma$ は半正定値である、すなわち任意のベクトル $\mathbf a\in\mathbb R^p$ に対して $\mathbf a^\top\Sigma\mathbf a\ge0$ 。

4.1 鍵となる事実：二次形式は新しい確率変数の分散

任意の定数ベクトル $\mathbf a=(a_1,\dots,a_p)^\top$ に対し、変数の線形結合

Y=\mathbf a^\top\mathbf X=a_1X_1+a_2X_2+\dots+a_pX_p

という 1次元の確率変数 を作ります。これの分散を計算すると、 $\Sigma$ の二次形式そのものになります。

\begin{aligned} \mathrm{Var}(Y) &=\mathbb E\!\left[(Y-\mathbb E Y)^2\right]\\ &=\mathbb E\!\left[\big(\mathbf a^\top(\mathbf X-\boldsymbol\mu)\big)^2\right] &&(\because\ \mathbb E Y=\mathbf a^\top\boldsymbol\mu)\\ &=\mathbb E\!\left[\mathbf a^\top(\mathbf X-\boldsymbol\mu)\,(\mathbf X-\boldsymbol\mu)^\top\mathbf a\right] &&(\because\ c^2=c\,c^\top\ \text{for scalar }c)\\ &=\mathbf a^\top\,\mathbb E\!\left[(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^\top\right]\mathbf a &&(\mathbf a\ \text{は定数なので期待値の外へ})\\ &=\mathbf a^\top\Sigma\,\mathbf a \end{aligned}

3行目で「スカラー $c=\mathbf a^\top(\mathbf X-\boldsymbol\mu)$ は $c^2=c\cdot c=c\cdot c^\top$ 」を使い、転置 $(\mathbf a^\top(\mathbf X-\boldsymbol\mu))^\top=(\mathbf X-\boldsymbol\mu)^\top\mathbf a$ を当てています。

4.2 分散は非負だから半正定値

分散は定義上いつでも非負（二乗の期待値）なので、

\mathbf a^\top\Sigma\mathbf a=\mathrm{Var}(\mathbf a^\top\mathbf X)\ge0\qquad(\forall\,\mathbf a)

これがすべての $\mathbf a$ で成り立つので、 $\Sigma$ は 半正定値（positive semidefinite） です。要するに「どんな向きに変数を足し合わせても、その合成変数の分散は負になりえない」という当たり前の事実が、行列の言葉では半正定値性になる、ということです。

4.3 固有値が全て非負（PCAの前提）

$\Sigma$ は対称なのでスペクトル定理により実固有値を持ち、固有値 $\lambda$ と単位固有ベクトル $\mathbf v$ （ $\Sigma\mathbf v=\lambda\mathbf v$ 、 $\mathbf v^\top\mathbf v=1$ ）に対して

\lambda=\lambda\,\mathbf v^\top\mathbf v=\mathbf v^\top(\lambda\mathbf v)=\mathbf v^\top\Sigma\mathbf v\ge0

最後の不等号は 4.2 の半正定値性です。したがって

\boxed{\;\Sigma\ \text{の固有値はすべて}\ \lambda\ge0\;}

要するに「固有値＝その固有ベクトル方向の分散」なので、分散が非負である以上、固有値も非負です。この事実が主成分分析で「固有値＝各主成分が説明する分散」と読める根拠になります（第6節）。

5. 線形変換の公式 $\mathrm{Var}(A\mathbf X)=A\Sigma A^\top$

5.1 公式

$\mathbf X$ を行列 $A$ （ $m\times p$ ）で線形変換した $\mathbf Y=A\mathbf X$ の分散共分散行列は、

\boxed{\;\mathrm{Var}(A\mathbf X)=A\,\Sigma\,A^\top\;}

これは1変数の $\mathrm{Var}(aX)=a^2\mathrm{Var}(X)$ の行列版です（ $a^2$ が $A(\cdot)A^\top$ に化ける）。

5.2 導出

$\mathbf Y=A\mathbf X$ の平均は $\mathbb E[\mathbf Y]=A\boldsymbol\mu$ 。定義に当てはめて、

\begin{aligned} \mathrm{Var}(\mathbf Y) &=\mathbb E\!\left[(\mathbf Y-A\boldsymbol\mu)(\mathbf Y-A\boldsymbol\mu)^\top\right]\\ &=\mathbb E\!\left[(A\mathbf X-A\boldsymbol\mu)(A\mathbf X-A\boldsymbol\mu)^\top\right]\\ &=\mathbb E\!\left[A(\mathbf X-\boldsymbol\mu)\,\big(A(\mathbf X-\boldsymbol\mu)\big)^\top\right]\\ &=\mathbb E\!\left[A(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^\top A^\top\right] &&(\because\ (AB)^\top=B^\top A^\top)\\ &=A\,\mathbb E\!\left[(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^\top\right]A^\top &&(A\ \text{は定数行列なので期待値の外へ})\\ &=A\,\Sigma\,A^\top \end{aligned}

4行目で転置の反転則 $(A\mathbf z)^\top=\mathbf z^\top A^\top$ を使い、5行目で定数 $A,A^\top$ を期待値の外に出しています。要するに「線形変換 $A$ は分散を $A(\cdot)A^\top$ で挟むように作用する」ということです。

5.3 系：合成変数の分散・半正定値性の再確認

$A$ が1行（行ベクトル $\mathbf a^\top$ ）の特別な場合、 $\mathrm{Var}(\mathbf a^\top\mathbf X)=\mathbf a^\top\Sigma\mathbf a$ となり、第4節の二次形式に一致します。半正定値性はこの公式の $m=1$ の特別な姿だったわけです。

この公式は多変量正規分布で決定的に効きます。 $\mathbf X\sim\mathcal N(\boldsymbol\mu,\Sigma)$ なら $A\mathbf X\sim\mathcal N(A\boldsymbol\mu,\,A\Sigma A^\top)$ と、平均と共分散だけで変換後の分布が完全に決まります（多変量正規分布）。

6. 固有値分解の予告（主成分分析への橋渡し）

$\Sigma$ は 対称かつ半正定値 という、線形代数で最も扱いやすいクラスの行列です。スペクトル定理により、直交行列 $V=(\mathbf v_1,\dots,\mathbf v_p)$ （ $V^\top V=I$ ）と非負の固有値 $\lambda_1\ge\lambda_2\ge\dots\ge\lambda_p\ge0$ を使って

\boxed{\;\Sigma=V\Lambda V^\top=\sum_{k=1}^{p}\lambda_k\,\mathbf v_k\mathbf v_k^\top\;} \qquad\Lambda=\mathrm{diag}(\lambda_1,\dots,\lambda_p)

と 直交対角化 できます。第5節の公式で $A=V^\top$ と置くと、変換後の変数 $\mathbf Y=V^\top\mathbf X$ の共分散行列は

\mathrm{Var}(V^\top\mathbf X)=V^\top\Sigma V=V^\top(V\Lambda V^\top)V=\Lambda

つまり 対角行列 になります。要するに「固有ベクトル方向に座標を取り直すと、変数どうしの共分散がゼロ（無相関）になり、各方向の分散がちょうど固有値 $\lambda_k$ になる」。

graph LR
  A["分散共分散行列 Σ<br/>(対称・半正定値)"] -->|固有値分解 Σ=VΛVᵀ| B["固有値 λ₁≥…≥λ_p≥0<br/>固有ベクトル v₁…v_p"]
  B -->|分散最大の方向| C["主成分分析<br/>06-02"]
  A -->|"D^(-1/2)で標準化"| R["相関行列 R"]
  R -->|相関行列ベースのPCA| C
  A -->|"Var(AX)=AΣAᵀ"| D["多変量正規分布<br/>06-08"]
  A -->|クラス間/内の分散構造| E["判別分析<br/>06-04"]

固有値が大きい方向ほど分散が大きい＝情報が多い、という読み替えが主成分分析そのものです。詳細は主成分分析（PCA）で扱います。 $\Sigma$ は多変量正規分布多変量正規分布や判別分析判別分析でも共通の中心的な道具です。

⚠️ 引っかけポイント・頻出論点

共分散はスケール依存・相関はスケール不変： $X_i$ を $cX_i$ に変えると $\mathrm{Cov}$ は $c$ 倍になるが、 $\rho$ は不変。だから単位の異なる変数を扱うPCAでは「共分散行列ベース」か「相関行列ベース」かで結果が変わる（要最新確認だが、準1級ではこの違いが頻出）。スケールの大きい変数に第1主成分が引きずられるのを避けたいなら相関行列ベース。
半正定値だが正定値とは限らない：変数間に完全な一次従属（たとえば $X_3=2X_1-X_2$ ）があると、その方向の分散がゼロになり、 $\Sigma$ は特異（行列式 $\det\Sigma=0$ 、固有値に0が出る、逆行列が存在しない）。「分散共分散行列は常に正則」は誤り。正定値 ⟺ 固有値がすべて正（一次従属が無い）。
標本では $n$ 割りか $n-1$ 割りか：不偏推定量は $n-1$ で割る $S$ 。ライブラリによっては $n$ で割る「最尤推定版」を返すものもある（要最新確認）。試験では「不偏」と書かれていれば $n-1$ 。
共分散行列と相関行列の固有値は別物： $\Sigma$ の固有値と $R=D^{-1/2}\Sigma D^{-1/2}$ の固有値は一般に一致しない（相似変換ではないため）。PCAの結果が両者で変わる根本理由。
対角成分の意味： $R$ の対角は必ず1、 $\Sigma$ の対角は各分散。 $R$ のトレース $\mathrm{tr}(R)=p$ （変数の数）になる。

よくある疑問（Q&A）

Q1. 「共分散行列」と「分散共分散行列」は違うものですか？

同じものです。対角に分散、非対角に共分散が入るので、両方の語を込めて「分散共分散行列」と呼ぶことが多いですが、英語の covariance matrix を直訳した「共分散行列」も同義です。準1級でどちらの表記が出ても同じ $\Sigma$ を指します。

Q2. 相関行列と「標準化したデータの共分散行列」が同じになるのはなぜですか？

標準化 $Z_i=(X_i-\mu_i)/\sigma_i$ は各変数を平均0・分散1にする操作です。分散が1になると、共分散の定義 $\mathrm{Cov}(Z_i,Z_j)$ の分母にあたる正規化が済んでいるため、共分散がそのまま相関係数 $\rho_{ij}$ になります。式で言えば $R=D^{-1/2}\Sigma D^{-1/2}$ の $D^{-1/2}$ が、まさに「各変数を標準偏差で割る＝標準化」の作用なので、先に標準化しても後で標準化しても同じ $R$ にたどり着きます。

Q3. 分散共分散行列はいつも逆行列を持ちますか（正定値ですか）？

いいえ。 $\Sigma$ は半正定値（固有値 $\ge0$ ）であって、正定値（固有値 $>0$ ）とは限りません。変数間に完全な線形関係があると、その方向の分散が0になり固有値に0が現れ、 $\Sigma$ は特異になって逆行列を持ちません。たとえば「合計＝各項目の和」のように定義上従属な変数を一緒に入れると起こります。逆行列が必要な手法（マハラノビス距離・多変量正規の密度・判別分析）ではこの特異性が問題になるので、従属変数を除くか正則化します。

Q4. PCAをやるとき、共分散行列と相関行列のどちらを使えばよいですか？

変数のスケール（単位）がそろっているかで判断します。単位がバラバラ（例：年収[万円]と年齢[歳]）だと、共分散行列ベースのPCAは値の大きい変数（年収）に第1主成分が支配され、ほぼその変数の方向になってしまいます。これを避けるには、各変数を標準化して相関行列ベースでPCAします。逆に同じ単位・同程度のスケール（例：同一試験の各科目得点）なら、分散の大小も意味があるので共分散行列ベースでよいことが多いです。要するに「スケールの差を情報とみなすか、ノイズとみなすか」で選びます（詳細は主成分分析（PCA））。

Q5. なぜ二次形式 $\mathbf a^\top\Sigma\mathbf a$ が大事なのですか？

それが「変数を $\mathbf a$ という重みで合成した新しい変数 $\mathbf a^\top\mathbf X$ の分散」そのものだからです。半正定値性（分散は非負）も、線形変換の公式も、主成分分析（分散 $\mathbf a^\top\Sigma\mathbf a$ を $\lVert\mathbf a\rVert=1$ の制約で最大化する）も、すべてこの二次形式の読み替えです。 $\Sigma$ という行列を「向き $\mathbf a$ を入れると、その方向の分散を返す装置」と捉えると、多変量解析の見通しが一気に良くなります。

まとめ

分散共分散行列 $\Sigma=\mathbb E[(\mathbf X-\boldsymbol\mu)(\mathbf X-\boldsymbol\mu)^\top]$ 。対角に分散、非対角に共分散。対称行列。
標本版は $S=\frac{1}{n-1}\sum_i(\mathbf x_i-\bar{\mathbf x})(\mathbf x_i-\bar{\mathbf x})^\top=\frac{1}{n-1}X_c^\top X_c$ 。中心化データのグラム行列で、重回帰の $X^\top X$ と同型。
相関行列 $R=D^{-1/2}\Sigma D^{-1/2}$ は $\Sigma$ を標準偏差で標準化したもの。対角1、非対角は相関係数。スケール不変。
半正定値性 $\mathbf a^\top\Sigma\mathbf a=\mathrm{Var}(\mathbf a^\top\mathbf X)\ge0$ から、固有値はすべて非負。完全な一次従属があると固有値0（特異）。
線形変換は $\mathrm{Var}(A\mathbf X)=A\Sigma A^\top$ 。 $m=1$ の場合が二次形式。
対称・半正定値だから $\Sigma=V\Lambda V^\top$ と直交対角化でき、これが主成分分析の出発点。