📊 対象級:1級 | 重要度:B(標準)
要点(BLUF)
コレスポンデンス分析(対応分析)は、分割表(クロス集計表)の行カテゴリと列カテゴリを、同じ低次元の散布図(バイプロット)に同時に布置する手法です。狙いは「どの行カテゴリとどの列カテゴリが結びつきやすいか」を目で見える距離に翻訳すること。やっていることは、ピアソンのカイ二乗統計量が測る『独立からのズレ』を、特異値分解(SVD)で軸(次元)ごとに分解することに尽きます。
- 何を布置するか:各行を行和で割った行プロファイル、各列を列和で割った列プロファイル。これらの「重心(平均プロファイル=周辺相対度数)」からの離れ具合を、カイ二乗距離(期待割合で重み付けしたユークリッド距離)で測る。
- 何を分解するか:標準化残差行列 を SVD すると、全体のズレの量=総慣性 が、各次元の**主慣性 (特異値の二乗)**に分かれる。寄与率 で「何次元で十分か」を判断する。
- どう読むか:行スコアと列スコアは双対関係(遷移公式)で結ばれ、互いに相手の加重平均(重心)になる。だから散布図上で近い行カテゴリ同士は似たプロファイル、ある行と列が近ければ結びつきが強い(独立より頻度が多い)と読む。
数学的には数量化III類・双対尺度法と同等で、カイ二乗距離を計量とした主成分分析(PCA)とも見なせます。1級(統計応用)では「慣性=χ²/n の意味」「布置の読み方」「III類・PCAとの関係」が問われます(範囲・配点は改訂されうるため要最新確認)。
graph TD CT["分割表(クロス集計表)<br/>行カテゴリ × 列カテゴリ"] --> PROF["行プロファイル・列プロファイル<br/>(行和/列和で割った相対頻度)"] PROF --> MASS["重心=平均プロファイル<br/>質量=周辺相対度数"] CT --> CHI["ピアソンのカイ二乗 χ²<br/>独立からのズレ"] CHI --> INERTIA["総慣性 = χ²/n<br/>ズレの総量"] MASS --> DIST["カイ二乗距離<br/>期待割合で重み付け"] DIST --> Z["標準化残差行列 z_ij"] INERTIA --> Z Z --> SVD["特異値分解 SVD"] SVD --> DIM["各次元の主慣性 λ_k = 特異値²<br/>寄与率 λ_k / Σλ_k"] DIM --> BI["バイプロット<br/>行スコア・列スコアを同時布置"] BI --> READ["双対関係(遷移公式)で解釈<br/>近い=結びつきが強い"]
1. 何の手法か — 分割表を「見える距離」に翻訳する
二元分割表(例:性別 × 好きな飲料)があると、カイ二乗検定(カイ二乗検定(適合度・独立性))は「行と列が独立か」をイエス/ノーで判定します。しかし「独立でないとして、誰と誰が結びついているのか」までは教えてくれません。コレスポンデンス分析は、この「結びつきの構造」を散布図上の距離として可視化します。
コレスポンデンス分析の目的:分割表の行カテゴリ・列カテゴリを、両方とも**同じ低次元空間(ふつう2次元)**に点として配置し、「近い点ほど結びつきが強い」という形で連関構造を読み取れるようにする。
要するに「カイ二乗検定が測った『独立からのズレ』を、軸ごとに分解して地図にする」。連続変数を扱う主成分分析(主成分分析(PCA))の「カテゴリ版」「分割表版」と捉えると位置づけが掴めます。
1.1 記号の準備
行 列の分割表を考えます。セル度数を 、総度数を とします。まず全体を で割って**相対度数(対応行列)**にします。
行和・列和(周辺相対度数)を
とします。要するに「各セルを全体の割合に直し、行ごと・列ごとの合計割合を質量(mass)と呼ぶ」。この が後で「点の重み」として効きます。
2. プロファイル・重心・質量
2.1 行プロファイル・列プロファイル
行プロファイルは、各行をその行和で割った相対頻度のベクトルです。第 行のプロファイルは
要するに「その行の中での列の構成比」(行内で足すと1)。例えば「男性」行のプロファイルなら、男性のうちコーヒー派が何%・紅茶派が何%…という内訳です。列プロファイルは対称に、各列を列和で割った「列の中での行の構成比」です。
コレスポンデンス分析はこの行プロファイル(または列プロファイル)を点として空間に置き、その散らばりを分析する手法です。
2.2 重心=平均プロファイル、質量=周辺相対度数
すべての行プロファイルを質量 で加重平均すると、列の周辺相対度数 に一致します。
つまり行プロファイル群の重心(中心)は、列の周辺相対度数 =平均プロファイルです。要するに「各行プロファイルを、その行の重み(質量)で平均すると、ちょうど全体の列構成比になる」。
ここで質量 は「そのカテゴリがどれだけのデータ量を背負っているか」の重みです。度数が少ない(質量が小さい)カテゴリは散布図の解釈で軽く扱われ、度数の多いカテゴリが布置を強く引っ張ります。
直観:行プロファイルが全部「平均プロファイル(重心)」に重なっていれば、どの行も同じ列構成=行と列は独立。重心からプロファイルが離れているほど、その行は「独立から外れた偏った内訳」を持つ。コレスポンデンス分析はこの重心からの離れ具合の全体量を分解する。
3. カイ二乗距離 — なぜユークリッド距離ではないのか
プロファイル間の距離を測るとき、素朴なユークリッド距離は使いません。カイ二乗距離を使います。行 と行 のプロファイル間のカイ二乗距離は
要するに「各列での構成比の差を二乗して足すが、その際に列の質量 の逆数で重み付けする」。ユークリッド距離との唯一の違いは、各項に という重みが付くことです。
3.1 なぜ で重み付けするのか
理由は「各列カテゴリの寄与を均す(標準化する)ため」です。 が小さい列=めったに選ばれないレアなカテゴリでは、構成比のわずかな差でも「相対的には大きな違い」と見なすべきです。逆に が大きい(ありふれた)列での同じ差は相対的に小さい。 で割ることで、頻度の大きいカテゴリが距離を独占するのを防ぎ、すべての列カテゴリを公平に扱うのです。
これはカイ二乗統計量 で「期待度数 で割る」のと同じ発想です。要するに「期待割合()で割って、ズレを期待値に対する相対的な大きさで測る」。この距離を使うからこそ、後で布置上の距離がカイ二乗統計量と整合します。
⚠️ カイ二乗距離は 重みのため、レアカテゴリのプロファイル差を強調します。これがコレスポンデンス分析の長所(低頻度カテゴリも拾う)でもあり、注意点(少数例外が布置を歪めうる)でもあります。
4. 総慣性 = χ²/n — ズレの総量
4.1 総慣性の定義と χ² への直結
**総慣性(total inertia)**は、すべての行プロファイルの「重心からのカイ二乗距離の二乗」を、質量で加重平均したものです。
これを展開すると、ピアソンのカイ二乗統計量を で割った値にぴったり一致します。この恒等式がコレスポンデンス分析の心臓部なので、丁寧に導出します。
ステップ1:括弧の中を通分する。
要するに「プロファイルと重心の差を、 という『観測 独立期待』の形に直す」。ここで は「行と列が独立なら がこうなるはず」という独立モデルの期待割合です。
ステップ2:総慣性の式に代入する。
要するに「 で割られて、残るのは 。これは『(観測割合 期待割合)² ÷ 期待割合』そのもの」。 がまさに期待割合なので、形はカイ二乗の各項と同じです。
ステップ3:割合を度数に戻す。 、期待度数 を代入します。
要するに「割合を度数に戻すと が一個くくり出され、残りはピアソンのカイ二乗そのもの」。よって
4.2 この恒等式が言っていること
総慣性 は「コレスポンデンス分析が可視化している『ズレの総量』は、カイ二乗検定が測る独立からのズレと同じものだ」という意味です。 は標本サイズに依存しない「連関の強さ」の指標(ファイ二乗 とも呼ぶ)で、 なら完全独立(全プロファイルが重心に一致、布置は1点に潰れる)、大きいほど連関が強く布置が広がります。要するに「カイ二乗検定が『独立か否か』の合否判定なら、コレスポンデンス分析は同じズレを軸ごとに分解して中身を見せる」。
⚠️ 総慣性は であって ではありません。標本サイズで割るので、 が大きくても小さくても「連関の強さ」を公平に比べられます。検定の有意性( が大きいほど有意になりやすい)とは別物です。
5. 特異値分解(SVD)による次元分解
5.1 標準化残差行列とそのSVD
総慣性の式 は、各項を
と置くと と書けます。この を並べた 行列 が標準化残差行列です。要するに「標準化残差は『独立からのズレ』を期待割合の平方根で割ったもので、二乗して全部足すと総慣性(=χ²/n)になる」。 の要素の二乗和(フロベニウスノルムの二乗)が総慣性、というのが出発点です。
この を**特異値分解(SVD)**します。
- ():左特異ベクトル(行の固有ベクトル)。列は正規直交。
- ():右特異ベクトル(列の固有ベクトル)。列は正規直交。
- :特異値(降順)。 個。
要するに「ズレを表す行列 を、行方向のパターン ・強さ ・列方向のパターン に分解する」。これはPCAが分散共分散行列(または標準化データ行列)をSVDするのと同型で、コレスポンデンス分析が「分割表のPCA」と呼ばれる所以です。
5.2 主慣性による総慣性の分解
SVDの基本性質「行列の要素二乗和は特異値の二乗和に等しい」(フロベニウスノルムの直交不変性)から、
各 を第 次元の**主慣性(principal inertia)**または固有値 と呼びます。要するに「総慣性(=χ²/n)が、次元ごとの主慣性 にきれいに足し算で分解される」。
なぜ要素二乗和=特異値二乗和になるのかを一言で補足します。 の列が正規直交なので、 の各要素を二乗して全部足す操作は、直交変換で長さを変えません。結果として残るのは対角の の二乗和だけ、という線形代数の基本事実です(特異値が行列の「大きさ」を成分分解する)。
5.3 寄与率と次元の決定
第 次元が連関全体のどれだけを説明するかは寄与率
で測ります。要するに「その軸だけで分割表のズレの何割を再現できるか」。第1・第2次元の累積寄与率が高ければ(実務目安として累積80%以上などが一つの基準、ただし絶対的な閾値ではない)、2次元の散布図で連関構造をほぼ表現できたと判断します。
flowchart TD A["分割表 → 相対度数 p_ij"] --> B["標準化残差 z_ij = (p_ij − r_i c_j)/√(r_i c_j)"] B --> C["行列 Z をSVD:Z = U D_α Vᵀ"] C --> D["主慣性 λ_k = α_k²<br/>(Σλ_k = 総慣性 = χ²/n)"] D --> E["寄与率 λ_k / Σλ_k で次元数を決定"] E --> F["標準座標 → 主座標を計算"] F --> G["バイプロットに行・列を同時布置"]
6. 行スコア・列スコアと双対関係(遷移公式)
6.1 標準座標と主座標
SVDの結果から、各カテゴリの座標を作ります。質量で標準化するため 、 を使います。
標準座標(standard coordinates):
主座標(principal coordinates):標準座標に特異値を掛けたもの。
要するに「特異ベクトルを質量の平方根で割って座標にし、さらに特異値 を掛けると主座標になる」。主座標で布置すると、点の重心からの距離(の二乗を質量で加重した和)がちょうど主慣性 に一致し、散布図上の距離がカイ二乗距離を近似します(これが「距離が意味を持つ」根拠)。
6.2 遷移公式(双対関係)
行スコアと列スコアは独立に決まるのではなく、互いに相手の加重平均(重心)になるという関係で結ばれます。これを**遷移公式(transition formula)**と呼びます。第 次元について、行 の主座標 と列 の主座標 は
要するに「行 の位置は、その行プロファイル を重みにした列スコアの加重平均(を で引き伸ばしたもの)。逆も同様」。 は行プロファイルで列スコアを平均した重心そのものです。
の役割(重要)。 もし がなければ「行スコア=列スコアの重心」「列スコア=行スコアの重心」が同時には成り立ちません(行を列の重心に置くと、その重心は元の列より中央に縮むため、互いに重心という関係が潰れて1点に collapse する)。特異値 の逆数 で引き伸ばすことで、行と列の双方が「相手の重心」という対称な関係を保てます。要するに「 は『行と列を互いの重心にしつつ潰れないようにする伸縮率』」。
6.3 相互平均化(reciprocal averaging)としての解釈
遷移公式は、コレスポンデンス分析を反復アルゴリズムとしても説明します。
- 列に適当な初期スコアを与える。
- 各行を「その行プロファイルで重み付けした列スコアの加重平均」に置く(行スコア更新)。
- 各列を「その列プロファイルで重み付けした行スコアの加重平均」に置く(列スコア更新)。
- 標準化して 2〜3 を収束まで繰り返す。
これが**相互平均化(reciprocal averaging)**で、収束先が第1次元の解、その際の伸縮率が特異値 です。要するに「行は列の重心、列は行の重心、を交互に課して落ち着いた配置がコレスポンデンス分析の解」。この見方は次節の数量化III類(カテゴリへの最適スコア付与)の発想と直結します。
6.4 バイプロットの読み方
行スコア・列スコアを同じ散布図に重ねたものが**バイプロット(同時布置図)**です。読み方の原則:
- 行カテゴリ同士の近さ:近い行はプロファイルが似ている(似た列構成を持つ)。原点(重心)に近い行は「平均的な内訳=特徴が薄い」。
- 列カテゴリ同士の近さ:同様に、近い列は似た行構成を持つ。
- 行と列の近さ:ある行カテゴリとある列カテゴリが(原点から見て)同じ方向で近くにあるなら、両者は独立より頻度が多い(結びつきが強い)。逆向きなら結びつきが弱い。
- 原点からの距離:重心から遠いカテゴリほど、独立モデルからの偏りが大きく、布置への寄与(慣性)が大きい。
⚠️ 行と列の点間距離そのものは直接のカイ二乗距離ではない(行同士・列同士の距離はカイ二乗距離を近似するが、行—列間は「方向の一致」で解釈する)。混同しやすい最大の落とし穴です。行—列は「同じ向きにあるか」で連関を読み、距離の絶対値を測らないのが安全です(厳密な行—列解釈には対称・非対称バイプロットの区別がある)。
7. 数量化III類・双対尺度法・PCAとの関係
7.1 数量化III類との同等性
コレスポンデンス分析は数量化III類(林知己夫)と数学的に同等です。数量化III類は「個体 項目(反応した/しない)の0-1行列に対し、行(個体)と列(カテゴリ)に同時に数値(スコア)を与え、両者の相関が最大になるよう決める」手法です。
この「行と列のスコアの相関を最大化」という目的は、6.3 の相互平均化(互いの重心に置く)と同じ最適化に帰着します。実際、数量化III類の固有値問題とコレスポンデンス分析のSVDは同じ解を与えます。要するに「コレスポンデンス分析(フランス・Benzécri)、数量化III類(日本・林)、双対尺度法(カナダ・西里)、相互平均化(生態学)は、別々の国・分野で独立に生まれた同じ手法」です。試験では「数量化III類 = コレスポンデンス分析(呼び名と出自が違うだけ)」と押さえておけば十分です。
7.2 カイ二乗距離を計量としたPCAとの関係
コレスポンデンス分析は「カイ二乗距離を計量(メトリック)とした、重み付き主成分分析」とも定式化できます。通常のPCA(主成分分析(PCA))は連続変数のデータ行列を、ユークリッド距離・等重みでSVDします。コレスポンデンス分析は、
- データ:プロファイル(相対頻度)
- 距離:ユークリッドではなくカイ二乗距離( 重み)
- 点の重み:等重みではなく質量
という3点を変えたPCAに相当します。要するに「PCAの『分散最大化・次元削減』の枠組みを、分割表+カイ二乗距離+質量重みに移植したのがコレスポンデンス分析」。だから「主慣性=固有値」「寄与率」「散布図での次元削減」といったPCAの語彙がそのまま通用します。
7.3 関連手法の整理
graph LR CA["コレスポンデンス分析<br/>(対応分析)"] Q3["数量化III類<br/>(林知己夫)"] DS["双対尺度法<br/>(dual scaling)"] RA["相互平均化<br/>(reciprocal averaging)"] PCA["主成分分析<br/>(ユークリッド・等重み)"] MDS["多次元尺度構成法<br/>(距離→布置)"] CA ---|数学的に同等| Q3 CA ---|数学的に同等| DS CA ---|数学的に同等| RA CA -.->|カイ二乗距離・質量重みに拡張| PCA CA -.->|どちらも低次元布置で可視化| MDS
| 手法 | 出自 | 入力 | 距離・計量 | 点の重み |
|---|---|---|---|---|
| コレスポンデンス分析 | 仏(Benzécri) | 分割表 | カイ二乗距離 | 質量 |
| 数量化III類 | 日(林知己夫) | 0-1反応行列 | 同上(同値) | 同上 |
| 双対尺度法 | 加(西里静彦) | 分割表・選択 | 同上(同値) | 同上 |
| 主成分分析 | 英(Pearson/Hotelling) | 連続変数行列 | ユークリッド | 等重み |
| 多次元尺度構成法 | 心理計量 | 距離行列 | 与えられた距離 | 等重み |
8. 具体例(イメージ)
ブランド(A〜D)× イメージ語(高級・若々しい・安心・斬新)の分割表を考えます。コレスポンデンス分析にかけると、
- 第1・第2次元の累積寄与率が例えば 90% なら、2次元の散布図でほぼ説明できたと判断。
- 散布図で「ブランドA」と「高級」が原点から同じ方向の近くに布置されれば、A は独立より『高級』と結びつきが強い(A の回答者は高級を選びやすい)。
- 「ブランドB」と「ブランドC」が近ければ、両者は**似たイメージ構成(似たプロファイル)**を持つ競合と読める。
- 原点近くのブランドは「これといった特徴が薄い(平均的内訳)」。
要するに「分割表の数字の塊を、ブランドとイメージ語が一緒に並ぶ1枚の地図に翻訳し、近さで連関を読む」。これがマーケティング・社会調査で多用される理由です。多次元尺度構成法(多次元尺度構成法(MDS))が「距離データ→布置」なのに対し、コレスポンデンス分析は「分割表→(カイ二乗距離を経て)布置」という違いです。
9. 試験での問われ方(1級)
統計応用(人文科学)でコレスポンデンス分析が問われるときの典型は、計算そのものより概念の正確な理解です。
- 総慣性=χ²/n の意味と導出:「総慣性が何に等しいか」「なぜ標本サイズで割るのか」。 そのものではなく (連関の強さ・)である点、独立なら総慣性0で布置が1点に潰れる点。
- 主慣性と寄与率:各次元の固有値 が総慣性をどう分解するか、寄与率 で次元数をどう決めるか。「累積寄与率が高い=低次元で連関を再現できた」。
- カイ二乗距離の役割:なぜユークリッドでなく 重みのカイ二乗距離か(各カテゴリの寄与を均す/期待割合で標準化)。カイ二乗統計量の各項と整合する点。
- 布置(バイプロット)の読み方:近い行同士=似たプロファイル、行と列が同方向で近い=結びつき強い、原点=平均的。行—列間の距離を直接カイ二乗距離と読まない注意。
- 数量化III類・双対尺度法との同等性:呼び名・出自が違うだけで同じ手法であること。
- PCAとの関係:カイ二乗距離・質量重みのPCAに相当すること。固有値・寄与率の語彙が共通すること。
- SVDの位置づけ:標準化残差行列 のSVDで次元分解する流れ。特異値の二乗=主慣性。
数式の重さより「 → 総慣性 → SVDで次元分解 → バイプロット」という一本のストーリーを、各段の意味とともに説明できるかが鍵です。
10. 引っかけ・頻出論点
- ⚠️ 総慣性は ではなく :標本サイズで割る。 そのものは標本サイズに比例して大きくなるが、総慣性は連関の強さ()であり に依存しない。「総慣性=カイ二乗値」と書いたら誤り。
- ⚠️ 距離はカイ二乗距離( 重み)であってユークリッド距離ではない:プロファイル差の各項を列の質量で割る。この重みがあるからレアカテゴリも公平に扱え、布置がカイ二乗統計量と整合する。素のユークリッド距離だと頻度の大きいカテゴリに距離が支配される。
- ⚠️ SVDするのは生の分割表ではなく標準化残差行列 :「観測 独立期待」を期待割合の平方根で割った行列。 の要素二乗和が総慣性。生の度数行列をそのままSVDするのではない。
- ⚠️ 主慣性(固有値 )は特異値 の二乗:寄与率は 。特異値そのものの比ではない(特異値は固有値の平方根、別名「正準相関」)。
- ⚠️ 次元数は : 分割表から得られる非自明な次元は 個。重心方向(自明な次元)は除かれるので「」が付く。 と答えると誤り。
- ⚠️ 行—列間の距離を直接カイ二乗距離と読まない:バイプロットで行同士・列同士の距離はカイ二乗距離を近似するが、行と列の点間距離は「方向の一致」で連関を読むもの。「行Aと列Xが近いから距離0.3」のような直接解釈は危険。
- ⚠️ 数量化III類とコレスポンデンス分析は別手法ではない:出自(仏 Benzécri vs 日 林)と呼び名が違うだけで数学的に同等。双対尺度法・相互平均化も同じ。「III類はコレスポンデンス分析の特殊ケース」も不正確で、本質は同値。
- ⚠️ 遷移公式の伸縮率 を落とさない:行スコア=列スコアの単純な重心では1点に潰れる。 で引き伸ばして初めて行と列が互いの重心という対称関係を保つ。
- ⚠️ 検定の有意性と連関の強さ(慣性)は別物:カイ二乗検定が有意でも、 が大きいだけで総慣性(連関の強さ)は小さいことがある。布置が広がる=総慣性が大きい=連関が強い、であって「有意=強い連関」ではない。
よくある疑問(Q&A)
Q1. コレスポンデンス分析とカイ二乗検定は何が違うのですか? 同じ を使うなら片方でよいのでは?
役割が違います。カイ二乗検定は「行と列が独立か否か」のイエス/ノー判定(有意性検定)です。コレスポンデンス分析は、その同じ が測る「独立からのズレ」を軸ごとにSVDで分解し、誰と誰が結びついているのかを散布図で可視化します。総慣性 という関係が両者を橋渡ししていて、「検定で連関ありと分かった後、その**中身(構造)**を見るのがコレスポンデンス分析」という補完関係です。検定が「連関の有無」、コレスポンデンス分析が「連関の内訳」。
Q2. なぜユークリッド距離ではなくカイ二乗距離を使うのですか?
各列カテゴリの寄与を公平に均すためです。ユークリッド距離だと、頻度の大きい( が大きい)列での構成比の差が距離を独占し、めったに選ばれないレアな列での差が無視されます。 で重み付けすると、レアなカテゴリでの差も「期待値に対する相対的な大きさ」として適切に効きます。これはカイ二乗統計量が と期待度数で割るのと同じ標準化で、だからこそ布置上の距離が (総慣性)と整合します。「全カテゴリを期待割合で標準化して公平に扱う」のがカイ二乗距離の狙いです。
Q3. 「慣性(inertia)」という物理っぽい言葉は何を意味しているのですか?
統計では「重心まわりの散らばり(分散に相当する量)」を慣性と呼びます。物理の慣性モーメント(質量 距離²)の比喩で、コレスポンデンス分析では「質量 (重心からのカイ二乗距離)²」の総和が総慣性です。プロファイルが重心(=独立の状態)から散らばっているほど慣性が大きく、それが に等しい。要するに「慣性=連関の強さ=独立からのズレの総量」で、PCAの「分散」に対応する語です。各次元の取り分が主慣性(固有値)です。
Q4. 数量化III類とコレスポンデンス分析は、結局どう違うのですか?
数学的には同じ手法で、違うのは出自と呼び名だけです。コレスポンデンス分析はフランスのBenzécriが分割表の可視化として、数量化III類は日本の林知己夫がアンケートの0-1反応へのスコア付与として、それぞれ独立に開発しました。さらにカナダの西里静彦の双対尺度法、生態学の相互平均化も同じものです。固有値問題・SVDの解が一致するので、「III類で計算してもコレスポンデンス分析で計算しても同じ布置が出る」。試験では「同等な手法」と理解しておけば足ります。強いて言えばIII類は「個体×カテゴリの反応行列」を入口にし、コレスポンデンス分析は「分割表」を入口にする説明の違いがある程度です。
Q5. バイプロットで「行カテゴリと列カテゴリが近い」とき、具体的に何が言えるのですか?
原点(重心)から見て同じ方向にあって近いなら、その行カテゴリと列カテゴリは「独立を仮定したときの期待頻度より、実際の頻度が多い(正の連関)」と読めます。例えば「20代」行と「SNS利用」列が同方向に近ければ、20代はSNS利用が(独立より)多い。逆向きに離れていれば連関が弱い(期待より少ない)。ただし注意点として、行—列間の距離の絶対値を直接カイ二乗距離として読むのは危険で、「向きが一致しているか」で連関を判断するのが安全です(行同士・列同士なら距離の近さ=プロファイルの類似として読める)。
Q6. 第3次元以降は無視してよいのですか? 何次元まで見るべきですか?
寄与率()で判断します。第1・第2次元の累積寄与率が高ければ(例えば80〜90%以上が一つの目安、ただし絶対的閾値ではない)、2次元の散布図で連関構造をほぼ説明できたと見なし、第3次元以降は「残りの細かいズレ」として無視できることが多いです。ただし寄与率が第1・第2で稼げない(連関が高次元に散らばる)場合は、2次元の布置だけで判断すると誤読します。寄与率を必ず確認し、「2次元で何%説明できているか」を明示するのが正しい作法です。PCAでスクリープロットや累積寄与率を見るのと全く同じ判断です。
まとめ
- コレスポンデンス分析は、分割表の行カテゴリ・列カテゴリを同一の低次元バイプロットに同時布置し、連関構造を「距離・方向」で可視化する手法。
- 各行/列を行和/列和で割ったプロファイルを、重心(平均プロファイル=周辺相対度数 )からのカイ二乗距離( 重み)で測る。重みは各カテゴリの寄与を均すため。
- 総慣性 (、連関の強さ)。標準化残差行列 のSVD により、総慣性が各次元の主慣性 に分解される。寄与率 で次元数を決定。
- 行スコア・列スコアは遷移公式(双対関係)で互いの加重平均(重心)になる(伸縮率 付き)。これは相互平均化としても解釈でき、近い行=似たプロファイル、行と列が同方向で近い=結びつき強い、と読む。
- 数量化III類・双対尺度法と数学的に同等。カイ二乗距離・質量重みのPCAに相当し、固有値・寄与率の語彙が共通する。
- 引っかけ:総慣性は ( ではない)/距離はカイ二乗距離(ユークリッドではない)/SVDするのは標準化残差行列/主慣性は特異値の二乗/次元数は /行—列間距離は方向で読む/III類と同等/有意性と連関の強さは別。
関連ノート
- カイ二乗検定(適合度・独立性) 分割表の独立性検定。コレスポンデンス分析の総慣性はこの を で割ったもの()。検定が「連関の有無」、コレスポンデンス分析が「連関の内訳」
- 主成分分析(PCA) コレスポンデンス分析は「カイ二乗距離・質量重みのPCA」。固有値・寄与率・次元削減の枠組みが共通。連続変数版がPCA、分割表版がコレスポンデンス分析
- 多次元尺度構成法(MDS) どちらも低次元布置で可視化。MDSは「距離データ→布置」、コレスポンデンス分析は「分割表→カイ二乗距離→布置」という入口の違い
- 数量化理論(I〜IV類) 数量化III類はコレスポンデンス分析と数学的に同等。質的データへのスコア付与の体系
- 人文科学分野ハブ(Phase 9) 統計応用・人文科学分野の全体地図
- 1級「統計応用」(Phase 9 目次) 統計応用ドメインの全体地図