← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

コレスポンデンス分析(対応分析)は、分割表(クロス集計表)の行カテゴリと列カテゴリを、同じ低次元の散布図(バイプロット)に同時に布置する手法です。狙いは「どの行カテゴリとどの列カテゴリが結びつきやすいか」を目で見える距離に翻訳すること。やっていることは、ピアソンのカイ二乗統計量が測る『独立からのズレ』を、特異値分解(SVD)で軸(次元)ごとに分解することに尽きます。

数学的には数量化III類・双対尺度法と同等で、カイ二乗距離を計量とした主成分分析(PCA)とも見なせます。1級(統計応用)では「慣性=χ²/n の意味」「布置の読み方」「III類・PCAとの関係」が問われます(範囲・配点は改訂されうるため要最新確認)。

graph TD
  CT["分割表(クロス集計表)<br/>行カテゴリ × 列カテゴリ"] --> PROF["行プロファイル・列プロファイル<br/>(行和/列和で割った相対頻度)"]
  PROF --> MASS["重心=平均プロファイル<br/>質量=周辺相対度数"]
  CT --> CHI["ピアソンのカイ二乗 χ²<br/>独立からのズレ"]
  CHI --> INERTIA["総慣性 = χ²/n<br/>ズレの総量"]
  MASS --> DIST["カイ二乗距離<br/>期待割合で重み付け"]
  DIST --> Z["標準化残差行列 z_ij"]
  INERTIA --> Z
  Z --> SVD["特異値分解 SVD"]
  SVD --> DIM["各次元の主慣性 λ_k = 特異値²<br/>寄与率 λ_k / Σλ_k"]
  DIM --> BI["バイプロット<br/>行スコア・列スコアを同時布置"]
  BI --> READ["双対関係(遷移公式)で解釈<br/>近い=結びつきが強い"]

1. 何の手法か — 分割表を「見える距離」に翻訳する

二元分割表(例:性別 × 好きな飲料)があると、カイ二乗検定(カイ二乗検定(適合度・独立性))は「行と列が独立か」をイエス/ノーで判定します。しかし「独立でないとして、誰と誰が結びついているのか」までは教えてくれません。コレスポンデンス分析は、この「結びつきの構造」を散布図上の距離として可視化します。

コレスポンデンス分析の目的:分割表の行カテゴリ・列カテゴリを、両方とも**同じ低次元空間(ふつう2次元)**に点として配置し、「近い点ほど結びつきが強い」という形で連関構造を読み取れるようにする。

要するに「カイ二乗検定が測った『独立からのズレ』を、軸ごとに分解して地図にする」。連続変数を扱う主成分分析(主成分分析(PCA))の「カテゴリ版」「分割表版」と捉えると位置づけが掴めます。

1.1 記号の準備

II×\times JJ 列の分割表を考えます。セル度数を nijn_{ij}、総度数を n=i,jnijn=\sum_{i,j}n_{ij} とします。まず全体を nn で割って**相対度数(対応行列)**にします。

pij=nijn,i,jpij=1p_{ij}=\frac{n_{ij}}{n},\qquad \sum_{i,j}p_{ij}=1

行和・列和(周辺相対度数)を

ri=jpij (行 i の質量),cj=ipij (列 j の質量)r_i=\sum_{j}p_{ij}\ (\text{行 }i\text{ の質量}),\qquad c_j=\sum_{i}p_{ij}\ (\text{列 }j\text{ の質量})

とします。要するに「各セルを全体の割合に直し、行ごと・列ごとの合計割合を質量(mass)と呼ぶ」。この ri,cjr_i, c_j が後で「点の重み」として効きます。


2. プロファイル・重心・質量

2.1 行プロファイル・列プロファイル

行プロファイルは、各行をその行和で割った相対頻度のベクトルです。第 ii 行のプロファイルは

(pi1ri, pi2ri, , piJri),pijri=nijni\Big(\frac{p_{i1}}{r_i},\ \frac{p_{i2}}{r_i},\ \dots,\ \frac{p_{iJ}}{r_i}\Big), \qquad \frac{p_{ij}}{r_i}=\frac{n_{ij}}{n_{i\cdot}}

要するに「その行の中での列の構成比」(行内で足すと1)。例えば「男性」行のプロファイルなら、男性のうちコーヒー派が何%・紅茶派が何%…という内訳です。列プロファイルは対称に、各列を列和で割った「列の中での行の構成比」です。

コレスポンデンス分析はこの行プロファイル(または列プロファイル)を点として空間に置き、その散らばりを分析する手法です。

2.2 重心=平均プロファイル、質量=周辺相対度数

すべての行プロファイルを質量 rir_i で加重平均すると、列の周辺相対度数 cjc_j に一致します。

iripijri=ipij=cj\sum_{i} r_i \cdot \frac{p_{ij}}{r_i}=\sum_i p_{ij}=c_j

つまり行プロファイル群の重心(中心)は、列の周辺相対度数 (c1,,cJ)(c_1,\dots,c_J)=平均プロファイルです。要するに「各行プロファイルを、その行の重み(質量)で平均すると、ちょうど全体の列構成比になる」。

ここで質量 ri,cjr_i, c_j は「そのカテゴリがどれだけのデータ量を背負っているか」の重みです。度数が少ない(質量が小さい)カテゴリは散布図の解釈で軽く扱われ、度数の多いカテゴリが布置を強く引っ張ります。

直観:行プロファイルが全部「平均プロファイル(重心)」に重なっていれば、どの行も同じ列構成=行と列は独立。重心からプロファイルが離れているほど、その行は「独立から外れた偏った内訳」を持つ。コレスポンデンス分析はこの重心からの離れ具合の全体量を分解する。


3. カイ二乗距離 — なぜユークリッド距離ではないのか

プロファイル間の距離を測るとき、素朴なユークリッド距離は使いません。カイ二乗距離を使います。行 ii と行 ii' のプロファイル間のカイ二乗距離は

d2(i,i)=j=1J1cj(pijripijri)2d^2(i,i')=\sum_{j=1}^{J}\frac{1}{c_j}\left(\frac{p_{ij}}{r_i}-\frac{p_{i'j}}{r_{i'}}\right)^2

要するに「各列での構成比の差を二乗して足すが、その際に列の質量 cjc_j の逆数で重み付けする」。ユークリッド距離との唯一の違いは、各項に 1/cj1/c_j という重みが付くことです。

3.1 なぜ 1/cj1/c_j で重み付けするのか

理由は「各列カテゴリの寄与を均す(標準化する)ため」です。cjc_j が小さい列=めったに選ばれないレアなカテゴリでは、構成比のわずかな差でも「相対的には大きな違い」と見なすべきです。逆に cjc_j が大きい(ありふれた)列での同じ差は相対的に小さい。1/cj1/c_j で割ることで、頻度の大きいカテゴリが距離を独占するのを防ぎ、すべての列カテゴリを公平に扱うのです。

これはカイ二乗統計量 (OE)2/E\sum (O-E)^2/E で「期待度数 EE で割る」のと同じ発想です。要するに「期待割合(cjc_j)で割って、ズレを期待値に対する相対的な大きさで測る」。この距離を使うからこそ、後で布置上の距離がカイ二乗統計量と整合します。

⚠️ カイ二乗距離は 1/cj1/c_j 重みのため、レアカテゴリのプロファイル差を強調します。これがコレスポンデンス分析の長所(低頻度カテゴリも拾う)でもあり、注意点(少数例外が布置を歪めうる)でもあります。


4. 総慣性 = χ²/n — ズレの総量

4.1 総慣性の定義と χ² への直結

**総慣性(total inertia)**は、すべての行プロファイルの「重心からのカイ二乗距離の二乗」を、質量で加重平均したものです。

総慣性=i=1Irid2(i, 重心)=i=1Irij=1J1cj(pijricj)2\text{総慣性}=\sum_{i=1}^{I} r_i\, d^2(i,\ \text{重心}) =\sum_{i=1}^{I} r_i \sum_{j=1}^{J}\frac{1}{c_j}\left(\frac{p_{ij}}{r_i}-c_j\right)^2

これを展開すると、ピアソンのカイ二乗統計量を nn で割った値にぴったり一致します。この恒等式がコレスポンデンス分析の心臓部なので、丁寧に導出します。

ステップ1:括弧の中を通分する。

pijricj=pijricjri\frac{p_{ij}}{r_i}-c_j=\frac{p_{ij}-r_i c_j}{r_i}

要するに「プロファイルと重心の差を、(pijricj)(p_{ij}-r_ic_j) という『観測 - 独立期待』の形に直す」。ここで ricjr_i c_j は「行と列が独立なら pijp_{ij} がこうなるはず」という独立モデルの期待割合です。

ステップ2:総慣性の式に代入する。

総慣性=irij1cj(pijricj)2ri2=ij(pijricj)2ricj\text{総慣性}=\sum_i r_i\sum_j \frac{1}{c_j}\cdot\frac{(p_{ij}-r_ic_j)^2}{r_i^2} =\sum_i\sum_j \frac{(p_{ij}-r_ic_j)^2}{r_i c_j}

要するに「rir_i で割られて、残るのは (pijricj)2/(ricj)(p_{ij}-r_ic_j)^2/(r_ic_j)。これは『(観測割合 - 期待割合)² ÷ 期待割合』そのもの」。ricjr_ic_j がまさに期待割合なので、形はカイ二乗の各項と同じです。

ステップ3:割合を度数に戻す。 pij=nij/np_{ij}=n_{ij}/n、期待度数 Eij=nricj=ninjnE_{ij}=n\,r_ic_j=\dfrac{n_{i\cdot}n_{\cdot j}}{n} を代入します。

総慣性=ij(nijnEijn)2Eij/n=1nij(nijEij)2Eij=χ2n\text{総慣性}=\sum_i\sum_j \frac{\left(\frac{n_{ij}}{n}-\frac{E_{ij}}{n}\right)^2}{E_{ij}/n} =\frac{1}{n}\sum_i\sum_j \frac{(n_{ij}-E_{ij})^2}{E_{ij}} =\frac{\chi^2}{n}

要するに「割合を度数に戻すと 1/n1/n が一個くくり出され、残りはピアソンのカイ二乗そのもの」。よって

  総慣性=χ2n  \boxed{\;\text{総慣性}=\frac{\chi^2}{n}\;}

4.2 この恒等式が言っていること

総慣性 =χ2/n=\chi^2/n は「コレスポンデンス分析が可視化している『ズレの総量』は、カイ二乗検定が測る独立からのズレと同じものだ」という意味です。χ2/n\chi^2/n は標本サイズに依存しない「連関の強さ」の指標(ファイ二乗 ϕ2\phi^2 とも呼ぶ)で、00 なら完全独立(全プロファイルが重心に一致、布置は1点に潰れる)、大きいほど連関が強く布置が広がります。要するに「カイ二乗検定が『独立か否か』の合否判定なら、コレスポンデンス分析は同じズレを軸ごとに分解して中身を見せる」。

⚠️ 総慣性は χ2/n\chi^2/n であって χ2\chi^2 ではありません。標本サイズで割るので、nn が大きくても小さくても「連関の強さ」を公平に比べられます。検定の有意性(nn が大きいほど有意になりやすい)とは別物です。


5. 特異値分解(SVD)による次元分解

5.1 標準化残差行列とそのSVD

総慣性の式 i,j(pijricj)2ricj\displaystyle\sum_{i,j}\frac{(p_{ij}-r_ic_j)^2}{r_ic_j} は、各項を

zij=pijricjricjz_{ij}=\frac{p_{ij}-r_i c_j}{\sqrt{r_i c_j}}

と置くと i,jzij2\sum_{i,j} z_{ij}^2 と書けます。この zijz_{ij} を並べた I×JI\times J 行列 ZZ標準化残差行列です。要するに「標準化残差は『独立からのズレ』を期待割合の平方根で割ったもので、二乗して全部足すと総慣性(=χ²/n)になる」。ZZ の要素の二乗和(フロベニウスノルムの二乗)が総慣性、というのが出発点です。

この ZZ を**特異値分解(SVD)**します。

Z=UDαVZ = U\,D_\alpha\,V^\top

要するに「ズレを表す行列 ZZ を、行方向のパターン UU・強さ αk\alpha_k・列方向のパターン VV に分解する」。これはPCAが分散共分散行列(または標準化データ行列)をSVDするのと同型で、コレスポンデンス分析が「分割表のPCA」と呼ばれる所以です。

5.2 主慣性による総慣性の分解

SVDの基本性質「行列の要素二乗和は特異値の二乗和に等しい」(フロベニウスノルムの直交不変性)から、

総慣性=i,jzij2=kαk2\text{総慣性}=\sum_{i,j} z_{ij}^2 = \sum_{k} \alpha_k^2

αk2\alpha_k^2 を第 kk 次元の**主慣性(principal inertia)**または固有値 λk=αk2\lambda_k=\alpha_k^2 と呼びます。要するに「総慣性(=χ²/n)が、次元ごとの主慣性 λk\lambda_k にきれいに足し算で分解される」。

なぜ要素二乗和=特異値二乗和になるのかを一言で補足します。U,VU,V の列が正規直交なので、Z=UDαVZ=UD_\alpha V^\top の各要素を二乗して全部足す操作は、直交変換で長さを変えません。結果として残るのは対角の αk\alpha_k の二乗和だけ、という線形代数の基本事実です(特異値が行列の「大きさ」を成分分解する)。

5.3 寄与率と次元の決定

kk 次元が連関全体のどれだけを説明するかは寄与率

寄与率k=λklλl=αk2総慣性\text{寄与率}_k=\frac{\lambda_k}{\sum_{l}\lambda_l}=\frac{\alpha_k^2}{\text{総慣性}}

で測ります。要するに「その軸だけで分割表のズレの何割を再現できるか」。第1・第2次元の累積寄与率が高ければ(実務目安として累積80%以上などが一つの基準、ただし絶対的な閾値ではない)、2次元の散布図で連関構造をほぼ表現できたと判断します。

flowchart TD
  A["分割表 → 相対度数 p_ij"] --> B["標準化残差 z_ij = (p_ij − r_i c_j)/√(r_i c_j)"]
  B --> C["行列 Z をSVD:Z = U D_α Vᵀ"]
  C --> D["主慣性 λ_k = α_k²<br/>(Σλ_k = 総慣性 = χ²/n)"]
  D --> E["寄与率 λ_k / Σλ_k で次元数を決定"]
  E --> F["標準座標 → 主座標を計算"]
  F --> G["バイプロットに行・列を同時布置"]

6. 行スコア・列スコアと双対関係(遷移公式)

6.1 標準座標と主座標

SVDの結果から、各カテゴリの座標を作ります。質量で標準化するため Dr=diag(ri)D_r=\mathrm{diag}(r_i)Dc=diag(cj)D_c=\mathrm{diag}(c_j) を使います。

標準座標(standard coordinates)

F~=Dr1/2U(),G~=Dc1/2V()\tilde{F}=D_r^{-1/2}U\quad(\text{行}),\qquad \tilde{G}=D_c^{-1/2}V\quad(\text{列})

主座標(principal coordinates):標準座標に特異値を掛けたもの。

F=Dr1/2UDα(),G=Dc1/2VDα()F=D_r^{-1/2}U D_\alpha\quad(\text{行}),\qquad G=D_c^{-1/2}V D_\alpha\quad(\text{列})

要するに「特異ベクトルを質量の平方根で割って座標にし、さらに特異値 αk\alpha_k を掛けると主座標になる」。主座標で布置すると、点の重心からの距離(の二乗を質量で加重した和)がちょうど主慣性 λk\lambda_k に一致し、散布図上の距離がカイ二乗距離を近似します(これが「距離が意味を持つ」根拠)。

6.2 遷移公式(双対関係)

行スコアと列スコアは独立に決まるのではなく、互いに相手の加重平均(重心)になるという関係で結ばれます。これを**遷移公式(transition formula)**と呼びます。第 kk 次元について、行 ii の主座標 fikf_{ik} と列 jj の主座標 gjkg_{jk}

fik=1αkjpijrigjk,gjk=1αkipijcjfikf_{ik}=\frac{1}{\alpha_k}\sum_{j}\frac{p_{ij}}{r_i}\,g_{jk}, \qquad g_{jk}=\frac{1}{\alpha_k}\sum_{i}\frac{p_{ij}}{c_j}\,f_{ik}

要するに「ii の位置は、その行プロファイル pij/rip_{ij}/r_i を重みにした列スコアの加重平均(を 1/αk1/\alpha_k で引き伸ばしたもの)。逆も同様」。j(pij/ri)gjk\sum_j (p_{ij}/r_i)g_{jk} は行プロファイルで列スコアを平均した重心そのものです。

1/αk1/\alpha_k の役割(重要)。 もし 1/αk1/\alpha_k がなければ「行スコア=列スコアの重心」「列スコア=行スコアの重心」が同時には成り立ちません(行を列の重心に置くと、その重心は元の列より中央に縮むため、互いに重心という関係が潰れて1点に collapse する)。特異値 αk<1\alpha_k<1 の逆数 1/αk>11/\alpha_k>1引き伸ばすことで、行と列の双方が「相手の重心」という対称な関係を保てます。要するに「αk\alpha_k は『行と列を互いの重心にしつつ潰れないようにする伸縮率』」。

6.3 相互平均化(reciprocal averaging)としての解釈

遷移公式は、コレスポンデンス分析を反復アルゴリズムとしても説明します。

  1. 列に適当な初期スコアを与える。
  2. 各行を「その行プロファイルで重み付けした列スコアの加重平均」に置く(行スコア更新)。
  3. 各列を「その列プロファイルで重み付けした行スコアの加重平均」に置く(列スコア更新)。
  4. 標準化して 2〜3 を収束まで繰り返す。

これが**相互平均化(reciprocal averaging)**で、収束先が第1次元の解、その際の伸縮率が特異値 α1\alpha_1 です。要するに「行は列の重心、列は行の重心、を交互に課して落ち着いた配置がコレスポンデンス分析の解」。この見方は次節の数量化III類(カテゴリへの最適スコア付与)の発想と直結します。

6.4 バイプロットの読み方

行スコア・列スコアを同じ散布図に重ねたものが**バイプロット(同時布置図)**です。読み方の原則:

⚠️ 行と列の点間距離そのものは直接のカイ二乗距離ではない(行同士・列同士の距離はカイ二乗距離を近似するが、行—列間は「方向の一致」で解釈する)。混同しやすい最大の落とし穴です。行—列は「同じ向きにあるか」で連関を読み、距離の絶対値を測らないのが安全です(厳密な行—列解釈には対称・非対称バイプロットの区別がある)。


7. 数量化III類・双対尺度法・PCAとの関係

7.1 数量化III類との同等性

コレスポンデンス分析は数量化III類(林知己夫)と数学的に同等です。数量化III類は「個体 ×\times 項目(反応した/しない)の0-1行列に対し、行(個体)と列(カテゴリ)に同時に数値(スコア)を与え、両者の相関が最大になるよう決める」手法です。

この「行と列のスコアの相関を最大化」という目的は、6.3 の相互平均化(互いの重心に置く)と同じ最適化に帰着します。実際、数量化III類の固有値問題とコレスポンデンス分析のSVDは同じ解を与えます。要するに「コレスポンデンス分析(フランス・Benzécri)、数量化III類(日本・林)、双対尺度法(カナダ・西里)、相互平均化(生態学)は、別々の国・分野で独立に生まれた同じ手法」です。試験では「数量化III類 = コレスポンデンス分析(呼び名と出自が違うだけ)」と押さえておけば十分です。

7.2 カイ二乗距離を計量としたPCAとの関係

コレスポンデンス分析は「カイ二乗距離を計量(メトリック)とした、重み付き主成分分析」とも定式化できます。通常のPCA(主成分分析(PCA))は連続変数のデータ行列を、ユークリッド距離・等重みでSVDします。コレスポンデンス分析は、

という3点を変えたPCAに相当します。要するに「PCAの『分散最大化・次元削減』の枠組みを、分割表+カイ二乗距離+質量重みに移植したのがコレスポンデンス分析」。だから「主慣性=固有値」「寄与率」「散布図での次元削減」といったPCAの語彙がそのまま通用します。

7.3 関連手法の整理

graph LR
  CA["コレスポンデンス分析<br/>(対応分析)"]
  Q3["数量化III類<br/>(林知己夫)"]
  DS["双対尺度法<br/>(dual scaling)"]
  RA["相互平均化<br/>(reciprocal averaging)"]
  PCA["主成分分析<br/>(ユークリッド・等重み)"]
  MDS["多次元尺度構成法<br/>(距離→布置)"]
  CA ---|数学的に同等| Q3
  CA ---|数学的に同等| DS
  CA ---|数学的に同等| RA
  CA -.->|カイ二乗距離・質量重みに拡張| PCA
  CA -.->|どちらも低次元布置で可視化| MDS
手法出自入力距離・計量点の重み
コレスポンデンス分析仏(Benzécri)分割表カイ二乗距離質量 ri,cjr_i, c_j
数量化III類日(林知己夫)0-1反応行列同上(同値)同上
双対尺度法加(西里静彦)分割表・選択同上(同値)同上
主成分分析英(Pearson/Hotelling)連続変数行列ユークリッド等重み
多次元尺度構成法心理計量距離行列与えられた距離等重み

8. 具体例(イメージ)

ブランド(A〜D)× イメージ語(高級・若々しい・安心・斬新)の分割表を考えます。コレスポンデンス分析にかけると、

要するに「分割表の数字の塊を、ブランドとイメージ語が一緒に並ぶ1枚の地図に翻訳し、近さで連関を読む」。これがマーケティング・社会調査で多用される理由です。多次元尺度構成法(多次元尺度構成法(MDS))が「距離データ→布置」なのに対し、コレスポンデンス分析は「分割表→(カイ二乗距離を経て)布置」という違いです。


9. 試験での問われ方(1級)

統計応用(人文科学)でコレスポンデンス分析が問われるときの典型は、計算そのものより概念の正確な理解です。

数式の重さより「χ2\chi^2 → 総慣性 → SVDで次元分解 → バイプロット」という一本のストーリーを、各段の意味とともに説明できるかが鍵です。


10. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. コレスポンデンス分析とカイ二乗検定は何が違うのですか? 同じ χ2\chi^2 を使うなら片方でよいのでは?

役割が違います。カイ二乗検定は「行と列が独立か否か」のイエス/ノー判定(有意性検定)です。コレスポンデンス分析は、その同じ χ2\chi^2 が測る「独立からのズレ」を軸ごとにSVDで分解し、誰と誰が結びついているのかを散布図で可視化します。総慣性 =χ2/n=\chi^2/n という関係が両者を橋渡ししていて、「検定で連関ありと分かった後、その**中身(構造)**を見るのがコレスポンデンス分析」という補完関係です。検定が「連関の有無」、コレスポンデンス分析が「連関の内訳」。

Q2. なぜユークリッド距離ではなくカイ二乗距離を使うのですか?

各列カテゴリの寄与を公平に均すためです。ユークリッド距離だと、頻度の大きい(cjc_j が大きい)列での構成比の差が距離を独占し、めったに選ばれないレアな列での差が無視されます。1/cj1/c_j で重み付けすると、レアなカテゴリでの差も「期待値に対する相対的な大きさ」として適切に効きます。これはカイ二乗統計量が (OE)2/E(O-E)^2/E と期待度数で割るのと同じ標準化で、だからこそ布置上の距離が χ2\chi^2(総慣性)と整合します。「全カテゴリを期待割合で標準化して公平に扱う」のがカイ二乗距離の狙いです。

Q3. 「慣性(inertia)」という物理っぽい言葉は何を意味しているのですか?

統計では「重心まわりの散らばり(分散に相当する量)」を慣性と呼びます。物理の慣性モーメント(質量 ×\times 距離²)の比喩で、コレスポンデンス分析では「質量 rir_i ×\times(重心からのカイ二乗距離)²」の総和が総慣性です。プロファイルが重心(=独立の状態)から散らばっているほど慣性が大きく、それが χ2/n\chi^2/n に等しい。要するに「慣性=連関の強さ=独立からのズレの総量」で、PCAの「分散」に対応する語です。各次元の取り分が主慣性(固有値)です。

Q4. 数量化III類とコレスポンデンス分析は、結局どう違うのですか?

数学的には同じ手法で、違うのは出自と呼び名だけです。コレスポンデンス分析はフランスのBenzécriが分割表の可視化として、数量化III類は日本の林知己夫がアンケートの0-1反応へのスコア付与として、それぞれ独立に開発しました。さらにカナダの西里静彦の双対尺度法、生態学の相互平均化も同じものです。固有値問題・SVDの解が一致するので、「III類で計算してもコレスポンデンス分析で計算しても同じ布置が出る」。試験では「同等な手法」と理解しておけば足ります。強いて言えばIII類は「個体×カテゴリの反応行列」を入口にし、コレスポンデンス分析は「分割表」を入口にする説明の違いがある程度です。

Q5. バイプロットで「行カテゴリと列カテゴリが近い」とき、具体的に何が言えるのですか?

原点(重心)から見て同じ方向にあって近いなら、その行カテゴリと列カテゴリは「独立を仮定したときの期待頻度より、実際の頻度が多い(正の連関)」と読めます。例えば「20代」行と「SNS利用」列が同方向に近ければ、20代はSNS利用が(独立より)多い。逆向きに離れていれば連関が弱い(期待より少ない)。ただし注意点として、行—列間の距離の絶対値を直接カイ二乗距離として読むのは危険で、「向きが一致しているか」で連関を判断するのが安全です(行同士・列同士なら距離の近さ=プロファイルの類似として読める)。

Q6. 第3次元以降は無視してよいのですか? 何次元まで見るべきですか?

寄与率(λk/λl\lambda_k/\sum\lambda_l)で判断します。第1・第2次元の累積寄与率が高ければ(例えば80〜90%以上が一つの目安、ただし絶対的閾値ではない)、2次元の散布図で連関構造をほぼ説明できたと見なし、第3次元以降は「残りの細かいズレ」として無視できることが多いです。ただし寄与率が第1・第2で稼げない(連関が高次元に散らばる)場合は、2次元の布置だけで判断すると誤読します。寄与率を必ず確認し、「2次元で何%説明できているか」を明示するのが正しい作法です。PCAでスクリープロットや累積寄与率を見るのと全く同じ判断です。


まとめ


関連ノート