← 統計検定テキスト 一覧

📊 対象級:準1級 ・ 1級 | 重要度:A(頻出)

要点(BLUF)

多変量正規分布 Np(μ,Σ)N_p(\boldsymbol\mu,\Sigma) は、1変量正規分布(正規分布(標準正規・標準化))を pp 次元へ拡張したもので、平均ベクトル μ\boldsymbol\mu と共分散行列 Σ\Sigma の2つだけで完全に決まります。密度は次の一行に集約されます。

  f(x)=1(2π)p/2Σ1/2exp ⁣(12(xμ)Σ1(xμ))  \boxed{\;f(\mathbf x)=\dfrac{1}{(2\pi)^{p/2}\lvert\Sigma\rvert^{1/2}}\exp\!\left(-\tfrac12(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)\right)\;}

要するに「指数の肩に乗っているのは中心 μ\boldsymbol\mu からの マハラノビス距離の2乗で、分母の Σ\lvert\Sigma\rvert が全体の正規化(積分を1にする)を担う」というのが本体です。この分布の3大性質は (1) 線形変換に閉じる、(2) 周辺・条件付き分布も正規、(3) 同時正規なら無相関 ⇔ 独立 で、いずれも準1級・1級で頻出です。


1. 密度関数:1変量正規からの自然な拡張

1.1 1変量との対応

まず1変量正規分布の密度を思い出します(正規分布(標準正規・標準化))。

f(x)=12πσexp ⁣((xμ)22σ2)=1(2π)1/2(σ2)1/2exp ⁣(12(xμ)(σ2)1(xμ))f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\!\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) =\frac{1}{(2\pi)^{1/2}(\sigma^2)^{1/2}}\exp\!\left(-\frac12\,(x-\mu)\,(\sigma^2)^{-1}\,(x-\mu)\right)

右側のように書き直すと、多変量版との対応が一目で見えます。

1変量pp 変量役割
x, μx,\ \mu(スカラー)x, μ\mathbf x,\ \boldsymbol\mupp 次元ベクトル)値・中心
σ2\sigma^2(分散)Σ\Sigmap×pp\times p 共分散行列)散らばり
(xμ)2/σ2(x-\mu)^2/\sigma^2(xμ)Σ1(xμ)(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)中心からの距離の2乗
(2π)1/2(σ2)1/2(2\pi)^{1/2}(\sigma^2)^{1/2}(2π)p/2Σ1/2(2\pi)^{p/2}\lvert\Sigma\rvert^{1/2}正規化定数

要するに「割り算 /σ2/\sigma^2 が逆行列 Σ1\Sigma^{-1} に、分散の平方根 σ\sigma が行列式の平方根 Σ1/2\lvert\Sigma\rvert^{1/2} に置き換わっただけ」です。p=1p=1 なら Σ=σ2\Sigma=\sigma^2Σ=σ2\lvert\Sigma\rvert=\sigma^2 となり、両者は完全に一致します。共分散行列 Σ\Sigma の定義そのものは 分散共分散行列・相関行列 を参照してください。

1.2 指数部はマハラノビス距離

密度の指数の肩にある二次形式

D2(x)=(xμ)Σ1(xμ)D^2(\mathbf x)=(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)

マハラノビス距離(の2乗) と呼びます。ユークリッド距離 (xμ)(xμ)(\mathbf x-\boldsymbol\mu)^\top(\mathbf x-\boldsymbol\mu) との違いは、間に Σ1\Sigma^{-1} が挟まることです。

要するに「マハラノビス距離は、分布の広がり方を考慮した『標準化された距離』」です。中心 μ\boldsymbol\mu から見て同じマハラノビス距離にある点は、同じ確率密度を持ちます(D2D^2 が大きいほど密度は小さい)。なお XNp(μ,Σ)\mathbf X\sim N_p(\boldsymbol\mu,\Sigma) のとき D2(X)D^2(\mathbf X) は自由度 pp のカイ二乗分布に従う、という事実は後述の標本分布・異常検知で効いてきます。

1.3 行列式 Σ\lvert\Sigma\rvert の役割

分母の Σ1/2\lvert\Sigma\rvert^{1/2}(行列式の平方根)は 正規化定数です。1変量で σ\sigma で割って全積分を1にしたのと同じ役割を、多変量では Σ1/2\lvert\Sigma\rvert^{1/2} が担います。

直観的には、Σ\lvert\Sigma\rvert は「分布が占める体積の大きさ」を表します。Σ\Sigma を固有値分解すると Σ=λ1λ2λp\lvert\Sigma\rvert=\lambda_1\lambda_2\cdots\lambda_p(固有値の積)で、各固有値が各主軸方向の分散に対応します。散らばりが大きい(楕円が大きい)ほど Σ\lvert\Sigma\rvert が大きくなり、ピークの高さ 1/Σ1/21/\lvert\Sigma\rvert^{1/2} は低くなります。全体の確率1を広い範囲に薄く配分する、という関係です。

⚠️ Σ\Sigma特異Σ=0\lvert\Sigma\rvert=0、ランク落ち)だと Σ1\Sigma^{-1}Σ1/2\lvert\Sigma\rvert^{1/2} も計算できず、上の密度は存在しません。これを退化した(degenerate)多変量正規分布と呼びます。確率質量が pp 次元空間の中の低次元の平面(超平面)に集中している状態で、その平面上でしか確率を持ちません。


2. 等確率楕円:Σ\Sigma の固有値・固有ベクトルが形を決める

2変量正規分布:相関で傾く等確率楕円・条件付き期待値=回帰直線・条件付き分布のスライス

図は simulations/nihen_seiki_toukousen.py で生成。

密度が一定 f(x)=constf(\mathbf x)=\text{const} となる点の集合(等高線)は、指数部が一定の集合

(xμ)Σ1(xμ)=c(c>0)(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)=c\quad(c>0)

です。これは中心 μ\boldsymbol\mu楕円体(2次元なら楕円) を描きます。Σ\Sigma が正定値対称なので Σ1\Sigma^{-1} も正定値、上式は楕円の方程式になるからです。

楕円の 向き長さ は、Σ\Sigma のスペクトル分解で決まります。Σ\Sigma

Σ=j=1pλjujuj,Σuj=λjuj\Sigma=\sum_{j=1}^{p}\lambda_j\,\mathbf u_j\mathbf u_j^\top,\qquad \Sigma\mathbf u_j=\lambda_j\mathbf u_j

と固有値分解します(λj>0\lambda_j>0 は固有値、uj\mathbf u_j は正規直交固有ベクトル)。このとき:

graph LR
  S["共分散行列 Σ"] --> ED["固有値分解 Σ=Σ λ_j u_j u_jᵀ"]
  ED --> DIR["固有ベクトル u_j<br/>= 楕円の主軸の向き"]
  ED --> LEN["固有値 λ_j<br/>軸の長さ ∝ √λ_j"]
  DIR --> EL["等確率楕円<br/>(x-μ)ᵀΣ⁻¹(x-μ)=c"]
  LEN --> EL

要するに「散らばりが大きい方向(固有値が大きい固有ベクトル方向)に楕円が長く伸びる」ということです。固有値がすべて等しければ楕円は円(球)になり、固有値の差が大きいほど細長い楕円になります。

この固有値・固有ベクトルが楕円の主軸を決めるという事実は、主成分分析そのものです(主成分分析(PCA))。主成分分析は「等確率楕円の長軸=最大分散方向(第1固有ベクトル)」を順に取り出す手法と理解できます。多変量正規分布の幾何と主成分は同じ固有構造を見ています。


3. モーメント母関数(性質証明の起点)

多変量正規分布のモーメント母関数(MGF, 多変量版は 確率変数の変換・モーメント母関数・積率)は次の通りです。

  MX(t)=E ⁣[etX]=exp ⁣(tμ+12tΣt)  \boxed{\;M_{\mathbf X}(\mathbf t)=\mathbb E\!\left[e^{\mathbf t^\top\mathbf X}\right]=\exp\!\left(\mathbf t^\top\boldsymbol\mu+\tfrac12\,\mathbf t^\top\Sigma\,\mathbf t\right)\;}

要するに「指数の肩が、平均についての1次項 tμ\mathbf t^\top\boldsymbol\mu と、共分散についての2次項 12tΣt\tfrac12\mathbf t^\top\Sigma\mathbf t だけ」です。1変量の M(t)=exp(μt+12σ2t2)M(t)=\exp(\mu t+\tfrac12\sigma^2t^2) をそのままベクトル化した形になっています。

MGFが重要なのは、分布はMGFで一意に決まるためです。「ある量のMGFを計算したら多変量正規のMGFの形になった」と示せれば、その量は多変量正規に従うと結論できます。以下の線形変換閉性も無相関⇔独立も、この事実を使って証明できます。これが1級で性質の証明を問う際の標準的な道具立てです。


4. 線形変換に閉じる

4.1 命題

XNp(μ,Σ)\mathbf X\sim N_p(\boldsymbol\mu,\Sigma) とし、AAm×pm\times p 行列、b\mathbf bmm 次元ベクトルとします。アフィン変換 Y=AX+b\mathbf Y=A\mathbf X+\mathbf b について、

  AX+bNm ⁣(Aμ+b, AΣA)  \boxed{\;A\mathbf X+\mathbf b\sim N_m\!\left(A\boldsymbol\mu+\mathbf b,\ A\Sigma A^\top\right)\;}

要するに「正規分布を行列で線形変換しても、また正規分布のまま。平均は同じ変換で動き、共分散は AΣAA\Sigma A^\top という形(共分散の変換則)で変わる」ということです。

4.2 MGFによる証明(省略しない)

Y=AX+b\mathbf Y=A\mathbf X+\mathbf b のMGFを計算します。

MY(t)=E ⁣[et(AX+b)]=etbE ⁣[e(At)X]=etbMX(At)=etbexp ⁣((At)μ+12(At)Σ(At))=exp ⁣(t(Aμ+b)+12t(AΣA)t)\begin{aligned} M_{\mathbf Y}(\mathbf t) &=\mathbb E\!\left[e^{\mathbf t^\top(A\mathbf X+\mathbf b)}\right] =e^{\mathbf t^\top\mathbf b}\,\mathbb E\!\left[e^{(A^\top\mathbf t)^\top\mathbf X}\right]\\[2pt] &=e^{\mathbf t^\top\mathbf b}\,M_{\mathbf X}(A^\top\mathbf t) =e^{\mathbf t^\top\mathbf b}\,\exp\!\left((A^\top\mathbf t)^\top\boldsymbol\mu+\tfrac12(A^\top\mathbf t)^\top\Sigma(A^\top\mathbf t)\right)\\[2pt] &=\exp\!\left(\mathbf t^\top(A\boldsymbol\mu+\mathbf b)+\tfrac12\,\mathbf t^\top(A\Sigma A^\top)\mathbf t\right) \end{aligned}

途中、tAX=(At)X\mathbf t^\top A\mathbf X=(A^\top\mathbf t)^\top\mathbf X と置き換え、X\mathbf X のMGFに引数 AtA^\top\mathbf t を代入しました。最後の行は、平均 Aμ+bA\boldsymbol\mu+\mathbf b・共分散 AΣAA\Sigma A^\top をもつ多変量正規分布のMGFそのものです。MGFが一致したので YNm(Aμ+b,AΣA)\mathbf Y\sim N_m(A\boldsymbol\mu+\mathbf b,\,A\Sigma A^\top) が示せました。

要するに「正規のMGFは指数の肩が1次+2次形式なので、線形変換しても肩の次数が増えず、また正規のMGFの形に収まる」のが閉性の本質です。

4.3 重要な帰結


5. 周辺分布・条件付き分布も正規

ベクトルを2つのブロックに分割します。

X=(X1X2),μ=(μ1μ2),Σ=(Σ11Σ12Σ21Σ22)\mathbf X=\begin{pmatrix}\mathbf X_1\\ \mathbf X_2\end{pmatrix},\quad \boldsymbol\mu=\begin{pmatrix}\boldsymbol\mu_1\\ \boldsymbol\mu_2\end{pmatrix},\quad \Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{pmatrix}

ここで Σ12=Σ21\Sigma_{12}=\Sigma_{21}^\top は2ブロック間の共分散です。同時・周辺・条件付き分布の一般論は 同時分布・周辺分布・条件付き分布 を参照してください。

5.1 周辺分布

X1\mathbf X_1 の周辺分布は、対応するブロックを そのまま抜き出すだけ です。

  X1N ⁣(μ1, Σ11)  \boxed{\;\mathbf X_1\sim N\!\left(\boldsymbol\mu_1,\ \Sigma_{11}\right)\;}

要するに「興味のある成分の平均と共分散の該当ブロックだけ取り出せば、それが周辺分布」です。証明は線形変換閉性で済みます。X1=[I  0]X\mathbf X_1=[\,I\ \ 0\,]\mathbf X という選択行列をかけた線形変換なので、4節より N([I0]μ, [I0]Σ[I0])=N(μ1,Σ11)N([\,I\,0\,]\boldsymbol\mu,\ [\,I\,0\,]\Sigma[\,I\,0\,]^\top)=N(\boldsymbol\mu_1,\Sigma_{11})。積分計算は不要です。

5.2 条件付き分布

X2=x2\mathbf X_2=\mathbf x_2 を与えたときの X1\mathbf X_1 の条件付き分布も正規で、

  X1X2=x2  N ⁣( μ1+Σ12Σ221(x2μ2)条件付き平均,  Σ11Σ12Σ221Σ21条件付き共分散 )  \boxed{\;\mathbf X_1\mid \mathbf X_2=\mathbf x_2\ \sim\ N\!\left(\ \underbrace{\boldsymbol\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf x_2-\boldsymbol\mu_2)}_{\text{条件付き平均}},\ \ \underbrace{\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}_{\text{条件付き共分散}}\ \right)\;}

それぞれの意味は次の通りです。

5.3 条件付き期待値は「回帰式」の形

条件付き平均を x2\mathbf x_2 の関数として見ると、

E[X1X2=x2]=(μ1Σ12Σ221μ2)切片+Σ12Σ221回帰係数行列x2\mathbb E[\mathbf X_1\mid \mathbf X_2=\mathbf x_2] =\underbrace{\big(\boldsymbol\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\boldsymbol\mu_2\big)}_{\text{切片}} +\underbrace{\Sigma_{12}\Sigma_{22}^{-1}}_{\text{回帰係数行列}}\mathbf x_2

これは x2\mathbf x_2 について 線形(アフィン)な式、すなわち回帰式そのものです。係数行列 Σ12Σ221\Sigma_{12}\Sigma_{22}^{-1}回帰係数行列 と呼ばれます。実際、最小二乗回帰の母数版を計算すると、説明変数を X2\mathbf X_2、目的変数を X1\mathbf X_1 としたときの理論的な回帰係数がこの形になります(重回帰分析β^=(XX)1Xy\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y は、この母数版 Σ12Σ221\Sigma_{12}\Sigma_{22}^{-1} の標本対応物です)。

要するに「正規分布のもとでは、条件付き期待値が自動的に線形回帰の形になる」ということです。線形回帰モデルがなぜあれほど自然に使えるのか、その理論的根拠の一つがこれです。

1次元同士の場合(X1=X, X2=Y\mathbf X_1=X,\ \mathbf X_2=Y、相関係数 ρ\rho)には、よく見る次の形になります。

E[XY=y]=μX+ρσXσY(yμY),Var(XY=y)=σX2(1ρ2)\mathbb E[X\mid Y=y]=\mu_X+\rho\frac{\sigma_X}{\sigma_Y}(y-\mu_Y),\qquad \mathrm{Var}(X\mid Y=y)=\sigma_X^2(1-\rho^2)

条件付き分散 σX2(1ρ2)\sigma_X^2(1-\rho^2) は「YY を知ることで 1ρ21-\rho^2 倍に縮む」ことを示し、相関が強い(ρ1\lvert\rho\rvert\to1)ほど不確かさが消えます。これは準1級で計算問題として頻出です。


6. 無相関 ⇔ 独立(同時正規という前提あってこそ)

6.1 命題

一般の確率変数では「独立 ⇒ 無相関」は成り立ちますが、逆「無相関 ⇒ 独立」は 成り立ちません。ところが、

  XNp(μ,Σ) が同時に多変量正規なら無相関  独立  \boxed{\;\mathbf X\sim N_p(\boldsymbol\mu,\Sigma)\ \text{が同時に多変量正規なら}\quad \text{無相関}\ \Longleftrightarrow\ \text{独立}\;}

具体的には、共分散行列 Σ\Sigma対角行列(非対角成分=共分散がすべて0)であることと、各成分が互いに独立であることが同値です。

6.2 なぜ成り立つか(密度の積分解)

Σ\Sigma が対角 Σ=diag(σ12,,σp2)\Sigma=\mathrm{diag}(\sigma_1^2,\dots,\sigma_p^2) なら、Σ1=diag(1/σ12,,1/σp2)\Sigma^{-1}=\mathrm{diag}(1/\sigma_1^2,\dots,1/\sigma_p^2)Σ=jσj2\lvert\Sigma\rvert=\prod_j\sigma_j^2 です。マハラノビス距離の2乗が成分ごとの和に分解します。

(xμ)Σ1(xμ)=j=1p(xjμj)2σj2(\mathbf x-\boldsymbol\mu)^\top\Sigma^{-1}(\mathbf x-\boldsymbol\mu)=\sum_{j=1}^{p}\frac{(x_j-\mu_j)^2}{\sigma_j^2}

すると指数関数は積に分かれ、正規化定数も分かれて、密度が 各成分の周辺密度の積 になります。

f(x)=j=1p12πσjexp ⁣((xjμj)22σj2)=j=1pfj(xj)f(\mathbf x)=\prod_{j=1}^{p}\frac{1}{\sqrt{2\pi}\,\sigma_j}\exp\!\left(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}\right)=\prod_{j=1}^{p}f_j(x_j)

同時密度が周辺密度の積に分解する、これが独立の定義そのものです。要するに「対角共分散 ⇒ 指数の和分解 ⇒ 密度の積分解 ⇒ 独立」という流れです。逆向き(独立 ⇒ 無相関)は一般の確率変数でも常に成り立つので、同値になります。

⚠️ この同値が成り立つのは 同時に多変量正規であるという前提のもとだけです。各成分が(周辺的に)正規であっても、同時分布が多変量正規でないなら「無相関でも独立とは限らない」に逆戻りします(次節の引っかけ)。


7. ⚠️ 引っかけポイント(級共通で頻出)

7.1 「各成分が正規」≠「同時に多変量正規」

最大の誤解です。XX が正規、YY が正規でも、ペア (X,Y)(X,Y) が多変量正規とは限りません。

具体的な反例:XN(0,1)X\sim N(0,1) とし、ある定数 c>0c>0 について

Y={  X(X>c)X(Xc)Y=\begin{cases}\ \ X & (\lvert X\rvert>c)\\[-2pt] -X & (\lvert X\rvert\le c)\end{cases}

と定めます。対称性から YY も周辺的には N(0,1)N(0,1) ですが、(X,Y)(X,Y) は折り返しによって直線 y=xy=xy=xy=-x に張り付いた分布になり、楕円状の同時正規にはなりません。cc をうまく選ぶと X,YX,Y を無相関にもできますが、YYXX で完全に決まる(独立でない)ので、「無相関だが独立でない」例にもなります。

同時正規であることの正しい特徴づけ:「任意の線形結合 aX+bYaX+bYa,ba,b は同時に0でない)が1変量正規になること」。各成分が正規というだけでは足りず、すべての方向への射影が正規でなければなりません。試験では「正規な周辺分布を2つ持つ=多変量正規」と早合点させる選択肢が引っかけです。

7.2 無相関⇔独立は「多変量正規」という前提つき

6節の同値は同時正規が前提です。7.1の反例のように、周辺が正規でも同時正規でなければ「無相関なのに独立でない」が起こります。「正規分布なら無相関と独立は同じ」と無条件に覚えるのは誤り。同時に多変量正規という条件を必ずセットで思い出してください。

7.3 Σ\Sigma が特異だと密度が存在しない(退化)

Σ=0\lvert\Sigma\rvert=0(ランク落ち)のとき、Σ1\Sigma^{-1} が存在せず1節の密度は書けません。確率質量がより低次元の超平面に集中した退化分布です。たとえば X2=2X1X_2=2X_1 のように成分間に完全な線形関係があると共分散行列が特異になります。「共分散行列さえあれば常に密度が書ける」は誤り。密度の存在には Σ\Sigma正定値性(フルランク)が必要です。


8. 試験での問われ方(級ごとの差)

多変量正規分布は判別分析・主成分分析・回帰の土台で、準1級・1級とも頻出です。級で問われる深さが異なります。

準1級

1級


よくある疑問(Q&A)

Q1. XXYY も正規分布なら、(X,Y)(X,Y) は2変量正規分布ですよね?

いいえ、それが最大の落とし穴です。各成分(周辺分布)が正規でも、同時分布が2変量正規とは限りません。7.1の反例(X\lvert X\rvert の大小で符号を反転させる YY)では、X,YX,Y ともに周辺は N(0,1)N(0,1) なのに同時分布は楕円状になりません。同時正規であるためには「任意の線形結合 aX+bYaX+bY が1変量正規」という、もっと強い条件が必要です。要するに「周辺が正規」は「同時が正規」の必要条件にすぎず、十分条件ではありません。

Q2. 「正規分布では無相関なら独立」と習いました。常に正しいですか?

条件付きで正しい、が答えです。正しくは「同時に多変量正規であれば、無相関 ⇔ 独立」です。前提の「同時正規」が抜けると成り立ちません。Q1の反例は周辺が正規でも同時正規でないため、X,YX,Y を無相関に設定しても独立にはなりません。一般の確率変数では「独立 ⇒ 無相関」は常に成り立ちますが、逆は同時正規という特別な構造があって初めて言えます。

Q3. 条件付き分散 Σ11Σ12Σ221Σ21\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} が、条件づける値 x2\mathbf x_2 に依らないのは変では?値が大きいほど不確かさも変わりそうです。

正規分布の特殊性です。条件付き分散は 相関構造(Σ\Sigma の各ブロック)だけで決まり、観測した x2\mathbf x_2 の値には依存しません。直観的には「X2\mathbf X_2 を観測することで X1\mathbf X_1 について減らせる不確かさの量」は、X2\mathbf X_2 がどんな値だったかではなく、両者がどれだけ強く相関しているか(情報量)で決まる、ということです。一方、条件付き 平均 の方は x2\mathbf x_2 に線形に依存します。「平均は観測値に動くが、分散は動かない」と覚えてください。これは正規分布だからこそ成り立つ性質で、一般の分布では条件付き分散が x2\mathbf x_2 に依存しても構いません。

Q4. 条件付き期待値がなぜ回帰式になるのですか?回帰は別のモデルでは?

実は同じものを別角度から見ています。X\mathbf X が多変量正規なら、E[X1X2=x2]=μ1+Σ12Σ221(x2μ2)\mathbb E[\mathbf X_1\mid\mathbf X_2=\mathbf x_2]=\boldsymbol\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf x_2-\boldsymbol\mu_2) という x2\mathbf x_2 について線形な式が 自動的に出てきます。係数 Σ12Σ221\Sigma_{12}\Sigma_{22}^{-1} は回帰係数行列そのもので、重回帰の β^=(XX)1Xy\hat{\boldsymbol\beta}=(X^\top X)^{-1}X^\top\mathbf y の母数版です(重回帰分析)。要するに「線形回帰モデルは、説明変数と目的変数が同時に正規分布する状況での条件付き期待値を推定している」と解釈でき、これが線形回帰の自然さの理論的根拠になっています。

Q5. 行列式 Σ\lvert\Sigma\rvert が密度に現れる意味は?1変量の σ\sigma で割るのと同じですか?

はい、同じ役割(正規化)です。1変量では σ\sigma で割って全積分を1にしました。多変量では Σ1/2\lvert\Sigma\rvert^{1/2} で割ります。Σ=λ1λp\lvert\Sigma\rvert=\lambda_1\cdots\lambda_p(固有値の積)は分布が占める「体積」に対応し、楕円が大きい(散らばりが大きい)ほど Σ\lvert\Sigma\rvert が大きく、ピークの高さ 1/Σ1/21/\lvert\Sigma\rvert^{1/2} は低くなります。全確率1を広い範囲に薄く配分するための調整です。なお Σ=0\lvert\Sigma\rvert=0 だと割れない(密度が存在しない)ので、密度を書くには Σ\Sigma が正則(正定値)である必要があります。


まとめ


関連ノート