多変量正規分布｜統計検定テキスト

📊 対象級：準1級・ 1級　|　重要度：A（頻出）

要点（BLUF）

多変量正規分布 $N_p(\boldsymbol\mu,\Sigma)$ は、1変量正規分布（正規分布（標準正規・標準化））を $p$ 次元へ拡張したもので、平均ベクトル $\boldsymbol\mu$ と共分散行列 $\Sigma$ の2つだけで完全に決まります。密度は次の一行に集約されます。

\boxed{\;f(\mathbf x)=\dfrac{1}{(2\pi)^{p/2}\lvert\Sigma\rvert^{1/2}}\exp\!\left(-\tfrac12(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)\right)\;}

要するに「指数の肩に乗っているのは中心 $\boldsymbol\mu$ からの マハラノビス距離の2乗で、分母の $\lvert\Sigma\rvert$ が全体の正規化（積分を1にする）を担う」というのが本体です。この分布の3大性質は (1) 線形変換に閉じる、(2) 周辺・条件付き分布も正規、(3) 同時正規なら無相関 ⇔ 独立 で、いずれも準1級・1級で頻出です。

1. 密度関数：1変量正規からの自然な拡張

1.1 1変量との対応

まず1変量正規分布の密度を思い出します（正規分布（標準正規・標準化））。

f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) =\frac{1}{(2\pi)^{1/2}(\sigma^2)^{1/2}}\exp\!\left(-\frac12\,(x-\mu)\,(\sigma^2)^{-1}\,(x-\mu)\right)

右側のように書き直すと、多変量版との対応が一目で見えます。

1変量	$p$ 変量	役割
$x,\ \mu$ （スカラー）	$\mathbf x,\ \boldsymbol\mu$ （ $p$ 次元ベクトル）	値・中心
$\sigma^2$ （分散）	$\Sigma$ （ $p\times p$ 共分散行列）	散らばり
$(x-\mu)^2/\sigma^2$	$(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)$	中心からの距離の2乗
$(2\pi)^{1/2}(\sigma^2)^{1/2}$	$(2\pi)^{p/2}\lvert\Sigma\rvert^{1/2}$	正規化定数

要するに「割り算 $/\sigma^2$ が逆行列 $\Sigma^{-1}$ に、分散の平方根 $\sigma$ が行列式の平方根 $\lvert\Sigma\rvert^{1/2}$ に置き換わっただけ」です。 $p=1$ なら $\Sigma=\sigma^2$ 、 $\lvert\Sigma\rvert=\sigma^2$ となり、両者は完全に一致します。共分散行列 $\Sigma$ の定義そのものは分散共分散行列・相関行列を参照してください。

1.2 指数部はマハラノビス距離

密度の指数の肩にある二次形式

D^2(\mathbf x)=(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)

を マハラノビス距離（の2乗） と呼びます。ユークリッド距離 $(\mathbf x-\boldsymbol\mu)^\top(\mathbf x-\boldsymbol\mu)$ との違いは、間に $\Sigma^{-1}$ が挟まることです。

$\Sigma=I$ （各成分が独立で分散1）なら、 $D^2$ は普通のユークリッド距離の2乗に一致します。
一般の $\Sigma$ では、ばらつきの大きい方向の差は割り引かれ、ばらつきの小さい方向の差は重く評価されます。 $\Sigma^{-1}$ が「各方向の散らばりで割る」働きをするからです。

要するに「マハラノビス距離は、分布の広がり方を考慮した『標準化された距離』」です。中心 $\boldsymbol\mu$ から見て同じマハラノビス距離にある点は、同じ確率密度を持ちます（ $D^2$ が大きいほど密度は小さい）。なお $\mathbf X\sim N_p(\boldsymbol\mu,\Sigma)$ のとき $D^2(\mathbf X)$ は自由度 $p$ のカイ二乗分布に従う、という事実は後述の標本分布・異常検知で効いてきます。

1.3 行列式 $\lvert\Sigma\rvert$ の役割

分母の $\lvert\Sigma\rvert^{1/2}$ （行列式の平方根）は 正規化定数です。1変量で $\sigma$ で割って全積分を1にしたのと同じ役割を、多変量では $\lvert\Sigma\rvert^{1/2}$ が担います。

直観的には、 $\lvert\Sigma\rvert$ は「分布が占める体積の大きさ」を表します。 $\Sigma$ を固有値分解すると $\lvert\Sigma\rvert=\lambda_1\lambda_2\cdots\lambda_p$ （固有値の積）で、各固有値が各主軸方向の分散に対応します。散らばりが大きい（楕円が大きい）ほど $\lvert\Sigma\rvert$ が大きくなり、ピークの高さ $1/\lvert\Sigma\rvert^{1/2}$ は低くなります。全体の確率1を広い範囲に薄く配分する、という関係です。

⚠️ $\Sigma$ が特異（ $\lvert\Sigma\rvert=0$ 、ランク落ち）だと $\Sigma^{-1}$ も $\lvert\Sigma\rvert^{1/2}$ も計算できず、上の密度は存在しません。これを退化した（degenerate）多変量正規分布と呼びます。確率質量が $p$ 次元空間の中の低次元の平面（超平面）に集中している状態で、その平面上でしか確率を持ちません。

2. 等確率楕円： $\Sigma$ の固有値・固有ベクトルが形を決める

2変量正規分布：相関で傾く等確率楕円・条件付き期待値＝回帰直線・条件付き分布のスライス

図は simulations/nihen_seiki_toukousen.py で生成。

密度が一定 $f(\mathbf x)=\text{const}$ となる点の集合（等高線）は、指数部が一定の集合

(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)=c\quad(c>0)

です。これは中心 $\boldsymbol\mu$ の 楕円体（2次元なら楕円） を描きます。 $\Sigma$ が正定値対称なので $\Sigma^{-1}$ も正定値、上式は楕円の方程式になるからです。

楕円の向きと長さは、 $\Sigma$ のスペクトル分解で決まります。 $\Sigma$ を

\Sigma=\sum_{j=1}^{p}\lambda_j\,\mathbf u_j\mathbf u_j^\top,\qquad \Sigma\mathbf u_j=\lambda_j\mathbf u_j

と固有値分解します（ $\lambda_j>0$ は固有値、 $\mathbf u_j$ は正規直交固有ベクトル）。このとき：

軸の向き：各主軸は固有ベクトル $\mathbf u_j$ の方向を向く。
軸の長さ：第 $j$ 主軸の半径は $\sqrt{c\,\lambda_j}$ に比例する（固有値の平方根に比例）。

graph LR
  S["共分散行列 Σ"] --> ED["固有値分解 Σ=Σ λ_j u_j u_jᵀ"]
  ED --> DIR["固有ベクトル u_j<br/>= 楕円の主軸の向き"]
  ED --> LEN["固有値 λ_j<br/>軸の長さ ∝ √λ_j"]
  DIR --> EL["等確率楕円<br/>(x-μ)ᵀΣ⁻¹(x-μ)=c"]
  LEN --> EL

要するに「散らばりが大きい方向（固有値が大きい固有ベクトル方向）に楕円が長く伸びる」ということです。固有値がすべて等しければ楕円は円（球）になり、固有値の差が大きいほど細長い楕円になります。

この固有値・固有ベクトルが楕円の主軸を決めるという事実は、主成分分析そのものです（主成分分析（PCA））。主成分分析は「等確率楕円の長軸＝最大分散方向（第1固有ベクトル）」を順に取り出す手法と理解できます。多変量正規分布の幾何と主成分は同じ固有構造を見ています。

3. モーメント母関数（性質証明の起点）

多変量正規分布のモーメント母関数（MGF, 多変量版は確率変数の変換・モーメント母関数・積率）は次の通りです。

\boxed{\;M_{\mathbf X}(\mathbf t)=\mathbb E\!\left[e^{\mathbf t^\top\mathbf X}\right]=\exp\!\left(\mathbf t^\top\boldsymbol\mu+\tfrac12\,\mathbf t^\top\Sigma\,\mathbf t\right)\;}

要するに「指数の肩が、平均についての1次項 $\mathbf t^\top\boldsymbol\mu$ と、共分散についての2次項 $\tfrac12\mathbf t^\top\Sigma\mathbf t$ だけ」です。1変量の $M(t)=\exp(\mu t+\tfrac12\sigma^2t^2)$ をそのままベクトル化した形になっています。

MGFが重要なのは、分布はMGFで一意に決まるためです。「ある量のMGFを計算したら多変量正規のMGFの形になった」と示せれば、その量は多変量正規に従うと結論できます。以下の線形変換閉性も無相関⇔独立も、この事実を使って証明できます。これが1級で性質の証明を問う際の標準的な道具立てです。

4. 線形変換に閉じる

4.1 命題

$\mathbf X\sim N_p(\boldsymbol\mu,\Sigma)$ とし、 $A$ を $m\times p$ 行列、 $\mathbf b$ を $m$ 次元ベクトルとします。アフィン変換 $\mathbf Y=A\mathbf X+\mathbf b$ について、

\boxed{\;A\mathbf X+\mathbf b\sim N_m\!\left(A\boldsymbol\mu+\mathbf b,\ A\Sigma A^\top\right)\;}

要するに「正規分布を行列で線形変換しても、また正規分布のまま。平均は同じ変換で動き、共分散は $A\Sigma A^\top$ という形（共分散の変換則）で変わる」ということです。

4.2 MGFによる証明（省略しない）

$\mathbf Y=A\mathbf X+\mathbf b$ のMGFを計算します。

\begin{aligned} M_{\mathbf Y}(\mathbf t) &=\mathbb E\!\left[e^{\mathbf t^\top(A\mathbf X+\mathbf b)}\right] =e^{\mathbf t^\top\mathbf b}\,\mathbb E\!\left[e^{(A^\top\mathbf t)^\top\mathbf X}\right]\\[2pt] &=e^{\mathbf t^\top\mathbf b}\,M_{\mathbf X}(A^\top\mathbf t) =e^{\mathbf t^\top\mathbf b}\,\exp\!\left((A^\top\mathbf t)^\top\boldsymbol\mu+\tfrac12(A^\top\mathbf t)^\top\Sigma(A^\top\mathbf t)\right)\\[2pt] &=\exp\!\left(\mathbf t^\top(A\boldsymbol\mu+\mathbf b)+\tfrac12\,\mathbf t^\top(A\Sigma A^\top)\mathbf t\right) \end{aligned}

途中、 $\mathbf t^\top A\mathbf X=(A^\top\mathbf t)^\top\mathbf X$ と置き換え、 $\mathbf X$ のMGFに引数 $A^\top\mathbf t$ を代入しました。最後の行は、平均 $A\boldsymbol\mu+\mathbf b$ ・共分散 $A\Sigma A^\top$ をもつ多変量正規分布のMGFそのものです。MGFが一致したので $\mathbf Y\sim N_m(A\boldsymbol\mu+\mathbf b,\,A\Sigma A^\top)$ が示せました。

要するに「正規のMGFは指数の肩が1次＋2次形式なので、線形変換しても肩の次数が増えず、また正規のMGFの形に収まる」のが閉性の本質です。

4.3 重要な帰結

任意の線形結合 $\mathbf a^\top\mathbf X$ が1変量正規： $A=\mathbf a^\top$ （ $1\times p$ ）とすれば $\mathbf a^\top\mathbf X\sim N(\mathbf a^\top\boldsymbol\mu,\ \mathbf a^\top\Sigma\mathbf a)$ 。実はこれを定義に採用することもあります（「すべての線形結合が1変量正規 ⇔ 多変量正規」）。退化した場合まで含めて扱えるので、こちらを定義とする教科書も多いです。
成分の和や差： $X_1+X_2$ や $X_1-X_2$ も正規。これは準1級頻出（後述）。
標準化： $\Sigma$ の平方根分解 $\Sigma=LL^\top$ を使い $\mathbf Z=L^{-1}(\mathbf X-\boldsymbol\mu)$ とすれば $\mathbf Z\sim N_p(\mathbf 0,I)$ （各成分が独立な標準正規）。逆に $\mathbf X=L\mathbf Z+\boldsymbol\mu$ と書けるので、多変量正規は「独立標準正規ベクトルのアフィン変換」と理解できます。

5. 周辺分布・条件付き分布も正規

ベクトルを2つのブロックに分割します。

\mathbf X=\begin{pmatrix}\mathbf X_1\\ \mathbf X_2\end{pmatrix},\quad \boldsymbol\mu=\begin{pmatrix}\boldsymbol\mu_1\\ \boldsymbol\mu_2\end{pmatrix},\quad \Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{pmatrix}

ここで $\Sigma_{12}=\Sigma_{21}^\top$ は2ブロック間の共分散です。同時・周辺・条件付き分布の一般論は同時分布・周辺分布・条件付き分布を参照してください。

5.1 周辺分布

$\mathbf X_1$ の周辺分布は、対応するブロックを そのまま抜き出すだけ です。

\boxed{\;\mathbf X_1\sim N\!\left(\boldsymbol\mu_1,\ \Sigma_{11}\right)\;}

要するに「興味のある成分の平均と共分散の該当ブロックだけ取り出せば、それが周辺分布」です。証明は線形変換閉性で済みます。 $\mathbf X_1=[\,I\ \ 0\,]\mathbf X$ という選択行列をかけた線形変換なので、4節より $N([\,I\,0\,]\boldsymbol\mu,\ [\,I\,0\,]\Sigma[\,I\,0\,]^\top)=N(\boldsymbol\mu_1,\Sigma_{11})$ 。積分計算は不要です。

5.2 条件付き分布

$\mathbf X_2=\mathbf x_2$ を与えたときの $\mathbf X_1$ の条件付き分布も正規で、

\boxed{\;\mathbf X_1\mid \mathbf X_2=\mathbf x_2\ \sim\ N\!\left(\ \underbrace{\boldsymbol\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf x_2-\boldsymbol\mu_2)}_{\text{条件付き平均}},\ \ \underbrace{\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}_{\text{条件付き共分散}}\ \right)\;}

それぞれの意味は次の通りです。

条件付き平均 $\boldsymbol\mu_{1\mid2}=\boldsymbol\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf x_2-\boldsymbol\mu_2)$ 。 $\mathbf x_2$ が自分の平均 $\boldsymbol\mu_2$ からずれた分だけ、行列 $\Sigma_{12}\Sigma_{22}^{-1}$ を係数として $\mathbf X_1$ の予測平均を補正します。要するに「観測した $\mathbf x_2$ の情報で $\mathbf X_1$ の見込みを更新する」式です。
条件付き共分散 $\Sigma_{1\mid2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$ 。これは行列代数で $\Sigma_{22}$ の シューア補行列（Schur complement） と呼ばれます。元の不確かさ $\Sigma_{11}$ から、 $\mathbf X_2$ を知ることで減らせる不確かさ $\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$ を差し引いた残りです。条件付き共分散は $\mathbf x_2$ の値に依らない定数行列である点が要注意（情報を得て減る不確かさは、観測値そのものではなく相関構造で決まる）。

5.3 条件付き期待値は「回帰式」の形

条件付き平均を $\mathbf x_2$ の関数として見ると、

\mathbb E[\mathbf X_1\mid \mathbf X_2=\mathbf x_2] =\underbrace{\big(\boldsymbol\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\boldsymbol\mu_2\big)}_{\text{切片}} +\underbrace{\Sigma_{12}\Sigma_{22}^{-1}}_{\text{回帰係数行列}}\mathbf x_2

これは $\mathbf x_2$ について 線形（アフィン）な式、すなわち回帰式そのものです。係数行列 $\Sigma_{12}\Sigma_{22}^{-1}$ は 回帰係数行列 と呼ばれます。実際、最小二乗回帰の母数版を計算すると、説明変数を $\mathbf X_2$ 、目的変数を $\mathbf X_1$ としたときの理論的な回帰係数がこの形になります（重回帰分析の $\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y$ は、この母数版 $\Sigma_{12}\Sigma_{22}^{-1}$ の標本対応物です）。

要するに「正規分布のもとでは、条件付き期待値が自動的に線形回帰の形になる」ということです。線形回帰モデルがなぜあれほど自然に使えるのか、その理論的根拠の一つがこれです。

1次元同士の場合（ $\mathbf X_1=X,\ \mathbf X_2=Y$ 、相関係数 $\rho$ ）には、よく見る次の形になります。

\mathbb E[X\mid Y=y]=\mu_X+\rho\frac{\sigma_X}{\sigma_Y}(y-\mu_Y),\qquad \mathrm{Var}(X\mid Y=y)=\sigma_X^2(1-\rho^2)

条件付き分散 $\sigma_X^2(1-\rho^2)$ は「 $Y$ を知ることで $1-\rho^2$ 倍に縮む」ことを示し、相関が強い（ $\lvert\rho\rvert\to1$ ）ほど不確かさが消えます。これは準1級で計算問題として頻出です。

6. 無相関 ⇔ 独立（同時正規という前提あってこそ）

6.1 命題

一般の確率変数では「独立 ⇒ 無相関」は成り立ちますが、逆「無相関 ⇒ 独立」は 成り立ちません。ところが、

\boxed{\;\mathbf X\sim N_p(\boldsymbol\mu,\Sigma)\ \text{が同時に多変量正規なら}\quad \text{無相関}\ \Longleftrightarrow\ \text{独立}\;}

具体的には、共分散行列 $\Sigma$ が 対角行列（非対角成分＝共分散がすべて0）であることと、各成分が互いに独立であることが同値です。

6.2 なぜ成り立つか（密度の積分解）

$\Sigma$ が対角 $\Sigma=\mathrm{diag}(\sigma_1^2,\dots,\sigma_p^2)$ なら、 $\Sigma^{-1}=\mathrm{diag}(1/\sigma_1^2,\dots,1/\sigma_p^2)$ 、 $\lvert\Sigma\rvert=\prod_j\sigma_j^2$ です。マハラノビス距離の2乗が成分ごとの和に分解します。

(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)=\sum_{j=1}^{p}\frac{(x_j-\mu_j)^2}{\sigma_j^2}

すると指数関数は積に分かれ、正規化定数も分かれて、密度が 各成分の周辺密度の積 になります。

f(\mathbf x)=\prod_{j=1}^{p}\frac{1}{\sqrt{2\pi}\,\sigma_j}\exp\!\left(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}\right)=\prod_{j=1}^{p}f_j(x_j)

同時密度が周辺密度の積に分解する、これが独立の定義そのものです。要するに「対角共分散 ⇒ 指数の和分解 ⇒ 密度の積分解 ⇒ 独立」という流れです。逆向き（独立 ⇒ 無相関）は一般の確率変数でも常に成り立つので、同値になります。

⚠️ この同値が成り立つのは 同時に多変量正規であるという前提のもとだけです。各成分が（周辺的に）正規であっても、同時分布が多変量正規でないなら「無相関でも独立とは限らない」に逆戻りします（次節の引っかけ）。

7. ⚠️ 引っかけポイント（級共通で頻出）

7.1 「各成分が正規」≠「同時に多変量正規」

最大の誤解です。 $X$ が正規、 $Y$ が正規でも、ペア $(X,Y)$ が多変量正規とは限りません。

具体的な反例： $X\sim N(0,1)$ とし、ある定数 $c>0$ について

Y=\begin{cases}\ \ X & (\lvert X\rvert>c)\\[-2pt] -X & (\lvert X\rvert\le c)\end{cases}

と定めます。対称性から $Y$ も周辺的には $N(0,1)$ ですが、 $(X,Y)$ は折り返しによって直線 $y=x$ と $y=-x$ に張り付いた分布になり、楕円状の同時正規にはなりません。 $c$ をうまく選ぶと $X,Y$ を無相関にもできますが、 $Y$ は $X$ で完全に決まる（独立でない）ので、「無相関だが独立でない」例にもなります。

同時正規であることの正しい特徴づけ：「任意の線形結合 $aX+bY$ （ $a,b$ は同時に0でない）が1変量正規になること」。各成分が正規というだけでは足りず、すべての方向への射影が正規でなければなりません。試験では「正規な周辺分布を2つ持つ＝多変量正規」と早合点させる選択肢が引っかけです。

7.2 無相関⇔独立は「多変量正規」という前提つき

6節の同値は同時正規が前提です。7.1の反例のように、周辺が正規でも同時正規でなければ「無相関なのに独立でない」が起こります。「正規分布なら無相関と独立は同じ」と無条件に覚えるのは誤り。同時に多変量正規という条件を必ずセットで思い出してください。

7.3 $\Sigma$ が特異だと密度が存在しない（退化）

$\lvert\Sigma\rvert=0$ （ランク落ち）のとき、 $\Sigma^{-1}$ が存在せず1節の密度は書けません。確率質量がより低次元の超平面に集中した退化分布です。たとえば $X_2=2X_1$ のように成分間に完全な線形関係があると共分散行列が特異になります。「共分散行列さえあれば常に密度が書ける」は誤り。密度の存在には $\Sigma$ の 正定値性（フルランク）が必要です。

8. 試験での問われ方（級ごとの差）

多変量正規分布は判別分析・主成分分析・回帰の土台で、準1級・1級とも頻出です。級で問われる深さが異なります。

準1級

密度の意味：指数部がマハラノビス距離であること、 $\lvert\Sigma\rvert$ の役割を読み取れるか。
周辺・条件付き分布：2変量正規で、 $Y$ を固定したときの $X$ の条件付き平均 $\mu_X+\rho\frac{\sigma_X}{\sigma_Y}(y-\mu_Y)$ ・条件付き分散 $\sigma_X^2(1-\rho^2)$ を計算させる（計算問題として頻出）。成分の和 $X_1+X_2$ ・差 $X_1-X_2$ の分布を線形変換閉性で求める。
等確率楕円：楕円の主軸が $\Sigma$ の固有ベクトル、軸長が固有値の平方根に比例することを問う。主成分分析（PCA）と接続。
判別分析での利用：2群がともに多変量正規で共分散が等しいと仮定したときの線形判別関数の導出根拠（マハラノビス距離が小さい群へ分類）。詳細は判別分析。

1級

性質の証明：線形変換閉性・無相関⇔独立・条件付き分布の正規性を、MGFや密度の分解から証明させる。シューア補行列としての条件付き共分散。
標本分布：多変量正規からの標本に基づく標本平均ベクトルと標本共分散行列の分布。標本共分散行列が従う ウィシャート分布、平均ベクトルの検定に使う ホテリングの $T^2$ 統計量 は名称・役割レベルで押さえる（1変量のカイ二乗・ $t$ の多変量版にあたる）。詳細な分布論は出題範囲・年度により扱いが変わるため 要最新確認。
漸近論：中心極限定理の多変量版（標本平均ベクトルが漸近的に多変量正規）、最尤推定量の漸近正規性の基盤として多変量正規が現れる。

よくある疑問（Q&A）

Q1. $X$ も $Y$ も正規分布なら、 $(X,Y)$ は2変量正規分布ですよね？

いいえ、それが最大の落とし穴です。各成分（周辺分布）が正規でも、同時分布が2変量正規とは限りません。7.1の反例（ $\lvert X\rvert$ の大小で符号を反転させる $Y$ ）では、 $X,Y$ ともに周辺は $N(0,1)$ なのに同時分布は楕円状になりません。同時正規であるためには「任意の線形結合 $aX+bY$ が1変量正規」という、もっと強い条件が必要です。要するに「周辺が正規」は「同時が正規」の必要条件にすぎず、十分条件ではありません。

Q2. 「正規分布では無相関なら独立」と習いました。常に正しいですか？

条件付きで正しい、が答えです。正しくは「同時に多変量正規であれば、無相関 ⇔ 独立」です。前提の「同時正規」が抜けると成り立ちません。Q1の反例は周辺が正規でも同時正規でないため、 $X,Y$ を無相関に設定しても独立にはなりません。一般の確率変数では「独立 ⇒ 無相関」は常に成り立ちますが、逆は同時正規という特別な構造があって初めて言えます。

Q3. 条件付き分散 $\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$ が、条件づける値 $\mathbf x_2$ に依らないのは変では？値が大きいほど不確かさも変わりそうです。

正規分布の特殊性です。条件付き分散は 相関構造（ $\Sigma$ の各ブロック）だけで決まり、観測した $\mathbf x_2$ の値には依存しません。直観的には「 $\mathbf X_2$ を観測することで $\mathbf X_1$ について減らせる不確かさの量」は、 $\mathbf X_2$ がどんな値だったかではなく、両者がどれだけ強く相関しているか（情報量）で決まる、ということです。一方、条件付き平均の方は $\mathbf x_2$ に線形に依存します。「平均は観測値に動くが、分散は動かない」と覚えてください。これは正規分布だからこそ成り立つ性質で、一般の分布では条件付き分散が $\mathbf x_2$ に依存しても構いません。

Q4. 条件付き期待値がなぜ回帰式になるのですか？回帰は別のモデルでは？

実は同じものを別角度から見ています。 $\mathbf X$ が多変量正規なら、 $\mathbb E[\mathbf X_1\mid\mathbf X_2=\mathbf x_2]=\boldsymbol\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf x_2-\boldsymbol\mu_2)$ という $\mathbf x_2$ について線形な式が 自動的に出てきます。係数 $\Sigma_{12}\Sigma_{22}^{-1}$ は回帰係数行列そのもので、重回帰の $\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y$ の母数版です（重回帰分析）。要するに「線形回帰モデルは、説明変数と目的変数が同時に正規分布する状況での条件付き期待値を推定している」と解釈でき、これが線形回帰の自然さの理論的根拠になっています。

Q5. 行列式 $\lvert\Sigma\rvert$ が密度に現れる意味は？1変量の $\sigma$ で割るのと同じですか？

はい、同じ役割（正規化）です。1変量では $\sigma$ で割って全積分を1にしました。多変量では $\lvert\Sigma\rvert^{1/2}$ で割ります。 $\lvert\Sigma\rvert=\lambda_1\cdots\lambda_p$ （固有値の積）は分布が占める「体積」に対応し、楕円が大きい（散らばりが大きい）ほど $\lvert\Sigma\rvert$ が大きく、ピークの高さ $1/\lvert\Sigma\rvert^{1/2}$ は低くなります。全確率1を広い範囲に薄く配分するための調整です。なお $\lvert\Sigma\rvert=0$ だと割れない（密度が存在しない）ので、密度を書くには $\Sigma$ が正則（正定値）である必要があります。

まとめ

多変量正規 $N_p(\boldsymbol\mu,\Sigma)$ の密度は $f(\mathbf x)=\dfrac{1}{(2\pi)^{p/2}\lvert\Sigma\rvert^{1/2}}\exp\!\big(-\tfrac12(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)\big)$ 。指数部はマハラノビス距離、分母の $\lvert\Sigma\rvert^{1/2}$ は正規化。1変量正規（正規分布（標準正規・標準化））の自然な拡張。
等確率楕円 $(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)=c$ の主軸は $\Sigma$ の固有ベクトル、軸長は固有値の平方根に比例（主成分分析（PCA）と同じ固有構造）。
線形変換に閉じる： $A\mathbf X+\mathbf b\sim N(A\boldsymbol\mu+\mathbf b,\,A\Sigma A^\top)$ 。MGF $\exp(\mathbf t^\top\boldsymbol\mu+\tfrac12\mathbf t^\top\Sigma\mathbf t)$ から証明できる。
周辺分布は該当ブロックの抜き出し $N(\boldsymbol\mu_1,\Sigma_{11})$ 。条件付き分布も正規で、平均 $\boldsymbol\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf x_2-\boldsymbol\mu_2)$ （回帰式の形）、共分散 $\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$ （シューア補行列、 $\mathbf x_2$ に非依存）。
同時正規なら無相関 ⇔ 独立（ $\Sigma$ 対角 ⇔ 独立）。ただし各成分が正規でも同時正規とは限らず、その場合この同値は成り立たない。 $\Sigma$ が特異だと密度は存在しない。