📊 対象級:1級 | 重要度:B(標準)
要点(BLUF)
数量化理論は林知己夫が1950年前後に作った日本独自の体系で、性別・職業・好き嫌いといった質的(カテゴリカル)データに数量を与えて多変量解析にかける一群の手法です。最大のポイントは「4つの類が、西洋の標準的多変量手法と1対1で対応する」こと。試験ではこの対応と「どのデータ型にどの類を使うか」が問われます。
- 対応関係(最重要):I類⇄重回帰(重回帰分析)、II類⇄判別分析(判別分析)、III類⇄コレスポンデンス分析/双対尺度法(コレスポンデンス分析)、IV類⇄多次元尺度構成法 MDS(多次元尺度構成法(MDS))。
- 数量の決め方は共通の発想:カテゴリに割り当てる数値(カテゴリ数量)を、相関比や相関を最大化するように決める。多くは固有値問題に帰着する(最大固有値=最も説明力の高い軸)。
- 外的基準の有無で2分:I類・II類は目的変数(外的基準)あり=予測・判別。III類・IV類は外的基準なし=データ内部の構造を探る(分類・布置)。
範囲・配点は改訂されうるため要最新確認(典拠は2015.5.8版範囲表)。
graph TD
ROOT["数量化理論<br/>(質的データに数量を与える)"] --> EXT{"外的基準<br/>(目的変数)はあるか"}
EXT -->|あり:予測・判別| SUP["I類・II類"]
EXT -->|なし:内部構造の探索| UNS["III類・IV類"]
SUP --> Q1["I類<br/>目的変数=量的"]
SUP --> Q2["II類<br/>目的変数=質的(群)"]
UNS --> Q3["III類<br/>反応パターン・分割表"]
UNS --> Q4["IV類<br/>親近性(類似度)行列"]
Q1 -.->|等価| REG["重回帰分析"]
Q2 -.->|等価| DA["判別分析"]
Q3 -.->|数学的に同等| CA["コレスポンデンス分析<br/>双対尺度法"]
Q4 -.->|包含される| MDS["多次元尺度構成法<br/>MDS"]
1. 共通の枠組み — アイテム・カテゴリ・カテゴリ数量
まず4類すべてに共通する用語と発想を押さえます。これが分かれば各類は「何を最大化するか」の違いだけになります。
1.1 用語
質的データを表で考えます。たとえば「個体(回答者)× 質問項目」の表です。
- アイテム(item):質的な変数・項目そのもの。例:「性別」「職業」「好きな色」。重回帰でいう説明変数1本に当たる。
- カテゴリ(category):各アイテムが取る選択肢(水準)。例:アイテム「性別」のカテゴリは {男, 女}、アイテム「職業」のカテゴリは {会社員, 自営, 学生, …}。
- カテゴリ数量(category score / category quantification):各カテゴリに割り当てる数値。これが数量化理論で求めたい未知数。例:「男→0.3, 女→−0.5」のように、カテゴリに数を与える。
- アイテム数量/サンプルスコア:個体ごとに、その個体が選んだ各カテゴリの数量を合計したもの。個体を1つの数(または低次元の点)で表す。
要するに「アイテム=質的変数、カテゴリ=その選択肢、カテゴリ数量=選択肢に与える数値(これを最適化で決める)」。
1.2 ダミー変数(指示変数)による表現
カテゴリは**ダミー変数(0/1の指示変数)**で表します。個体 がアイテム のカテゴリ を選んでいれば 、そうでなければ 。
カテゴリ に数量 を与えると、個体 のスコアは「選んだカテゴリの数量の合計」
要するに「各個体のスコアは、その人が選んだカテゴリの数量を足し上げただけ」。この が、目的(量的予測値・群の判別・軸への布置)にとって最も都合よくなるように を決める、というのが全類に共通する骨格です。あとは「都合よく」の基準が類ごとに違います。
| 類 | 入力(説明側) | 出力(目的・外的基準) | 何を最大化するか | 等価な西洋手法 |
|---|---|---|---|---|
| I類 | 質的(アイテム×カテゴリ) | 量的な目的変数 | 予測値との相関(決定係数 ) | 重回帰分析 |
| II類 | 質的 | 質的(群・クラス) | 群を分ける相関比(級間/全) | 判別分析 |
| III類 | 質的(反応パターン・分割表) | なし(内部構造) | 行と列の数量の相関 | コレスポンデンス分析・双対尺度法 |
| IV類 | 親近性(類似度)行列 | なし(内部構造) | 親近性と布置距離の整合 | 多次元尺度構成法(MDS) |
2. I類 — 質的説明変数 → 量的目的変数(重回帰と等価)
2.1 何をするか
目的変数が量的(売上、点数、所要時間など)で、説明変数が質的(地域、職種、曜日など)のときに使います。各カテゴリに数量 を与え、個体のスコア が目的変数 をよく予測するように決めます。
要するに「カテゴリを数値化して重回帰する」。数量化I類はダミー変数による重回帰分析そのものです。
2.2 重回帰との等価性(導出)
カテゴリ数量 を「ダミー変数 の回帰係数」とみなします。すると個体のスコアは
で、これは説明変数をダミー変数、係数をカテゴリ数量とした線形予測子に他なりません。残差平方和
を最小化する を求めるのは、**ダミー変数を説明変数とした最小二乗(重回帰)**と完全に同じ計算です。要するに「目的=予測誤差の最小化、未知数=カテゴリ数量=回帰係数。両者は同一問題」。
2.3 基準カテゴリを1つ落とす理由(多重共線性)
ここが試験の頻出論点です。1つのアイテム では、どの個体も必ずどれか1つのカテゴリを選ぶので、そのアイテムのダミーをすべて足すと全個体で1になります。
これは「定数項(切片)の列」と完全に線形従属です。さらにアイテムごとにこの関係が成り立つので、ダミーをすべて入れると計画行列がランク落ちし、多重共線性で係数が一意に決まりません(重回帰分析 の正規方程式 が正則でなくなる)。
そこで各アイテムで基準カテゴリを1つ選んで除き、残りのカテゴリだけをダミーに入れます。すると除いたカテゴリの数量は0(基準)となり、他のカテゴリ数量は基準との差として解釈されます。
要するに「各アイテムでカテゴリを全部入れると切片と被って一意に決まらない。基準カテゴリを1つ抜けば回避でき、数量は基準からの差になる」。
⚠️ 抜くカテゴリは任意に選べます(どれを基準にしても予測値 は不変、カテゴリ数量の差も不変)。基準を変えると各数量の絶対値はずれますが、カテゴリ間の差は変わりません。これは回帰のダミー変数の基準水準を変えるのと同じ話です。
2.4 具体例
「アパートの家賃(量的)」を「最寄り駅(A/B/C)」「築年数区分(新/中/古)」で説明する。最寄り駅Aと築年数「新」を基準に取ると、
たとえば (万円)なら「駅Cは駅Aより家賃が1.2万円低い」と読めます。これはまさに重回帰の係数解釈です。
3. II類 — 質的説明変数 → 質的目的変数(判別分析と等価)
3.1 何をするか
目的変数が質的(群・クラス)、説明変数も質的のときに使います。質的な特徴から「購入者か非購入者か」「合格群か不合格群か」を判別します。各カテゴリに数量を与え、個体スコア が群をできるだけよく分離するように決めます。
要するに「カテゴリを数値化して判別分析する」。数量化II類は判別分析を質的説明変数で行うものです。
3.2 相関比の最大化(数理)
「群をよく分離する」を定量化するのが相関比 (correlation ratio)です。スコア の全変動を、群間変動と群内変動に分解します。 個の群、群 の標本数 、群 のスコア平均 、全体平均 とすると
(これは一元配置分散分析の平方和分解と同型です)。相関比は
要するに「相関比=全体のばらつきのうち群の違いで説明できる割合」。 が大きい=群間が離れ群内がまとまっている=よく判別できている。そこでカテゴリ数量 を が最大になるように決めます。
3.3 固有値問題への帰着
を最大化する問題は、スケールの自由度( を定数倍しても は不変)を で固定し、ラグランジュ未定乗数法で解きます。
はともに の二次形式(, と書ける)なので、ラグランジュ関数を微分して0とおくと
という一般化固有値問題になります。要するに「相関比を最大化する数量=群間行列 と全体行列 の一般化固有値問題の、最大固有値に対応する固有ベクトル。固有値そのものが達成された相関比 」。判別分析(判別分析)が「級間分散/級内分散」を最大化して同じ一般化固有値問題に行き着くのと完全に並行しており、これが「II類=判別分析」の数理的な中身です。
⚠️ 判別軸は群数 本まで取れます( のランクが のため)。2群なら軸は1本、3群なら最大2本。これも判別分析と同じです。
4. III類 — 反応パターンの分類(コレスポンデンス分析と同等)
4.1 何をするか
外的基準(目的変数)がない質的データ、典型的には「個体×カテゴリ」の0/1反応パターンや**分割表(クロス集計表)**を入力に、行(個体・カテゴリ)と列(カテゴリ)の両方に同時に数量を与え、似た反応をするもの同士が近くに来るように布置します。
要するに「行と列に同時に数値を与えて、関連の強い行・列が近くに並ぶよう分類する」。数量化III類はコレスポンデンス分析(対応分析)・双対尺度法と数学的に同等です(コレスポンデンス分析)。
4.2 行と列の数量の相関を最大化(数理)
データを「行=個体(または行カテゴリ)、列=列カテゴリ」の表とします。行に数量 、列に数量 を与えます。発想は「反応1がある(i,j)のペアで、 と がよく揃う(相関が高い)ように両方を決める」。
行数量と列数量の相関 (反応 のセルにわたる の相関)を最大化します。スケールを基準化(平均0・分散1)したうえで
をラグランジュ未定乗数法で解きます。ここで「行を固定して最適な列数量は行数量の(重みつき)平均」「列を固定して最適な行数量は列数量の平均」という**相互平均関係(reciprocal averaging)**が出ます。これを連立させると
という固有値問題に帰着します。要するに「行数量↔列数量を交互に平均で更新すると相関最大の解に収束し、それは分割表から作る行列の固有値問題の解。固有値 が達成された相関の2乗(説明力)」。
最大固有値(自明な定数解を除く)に対応する固有ベクトルが第1軸、次が第2軸…と続き、コレスポンデンス分析の散布図(行カテゴリと列カテゴリを同一平面に布置)が得られます。
4.3 主成分分析・コレスポンデンス分析との関係
III類は「質的データに与えた数量に対して分散を最大化する軸を順に取る」点で主成分分析の発想(主成分分析(PCA))を質的データに移したものとも言えます。実際、0/1指示行列に主成分分析を施す操作と数学的に深く結びついています。ただし試験での標準的な対応づけは**III類⇄コレスポンデンス分析(双対尺度法・等質性分析)**で、これらは「分割表の行・列を同時布置する」という同じ解を各国で独立に再発見したものです(ベンゼクリの対応分析、西里静彦の双対尺度法、Gifi の等質性分析)。
⚠️ 「III類=主成分分析」と「III類=コレスポンデンス分析」は矛盾しません。量的データの分散最大化が主成分分析、質的(分割表)データの同等操作がコレスポンデンス分析という関係で、III類は後者に位置づけるのが正確です。
5. IV類 — 親近性データから低次元布置(MDSと等価)
5.1 何をするか
入力が「個体×変数」の表ではなく、対象間の親近性(類似度・近さ)を直接与えた行列 (対象 と がどれだけ似ているか)のときに使います。この親近性をできるだけ忠実に再現するように、各対象を**低次元空間の点 として配置(布置)**します。似た対象を近くに、似ていない対象を遠くに置きます。
要するに「「どれだけ似ているか」という関係データだけから、対象を地図のように2次元・3次元に並べる」。数量化IV類は多次元尺度構成法(MDS)に包含される手法です(多次元尺度構成法(MDS))。
5.2 布置の基準(数理)
親近性 (大きいほど似ている)と、配置後の点間距離 が逆の対応(似ている=近い)になるよう配置します。IV類は親近性を「近さ」に対応づける目的関数(似ているペアを近くに引き寄せる二次形式)を最大化/最小化し、結果として
の固有値問題を解いて、大きい固有値に対応する固有ベクトルを座標軸として採用します。要するに「親近性行列を適当に中心化・変換した行列の固有ベクトルが布置の座標。大きい固有値の軸ほど親近性をよく説明する」。これは古典的MDS(計量MDS)が距離行列を二重中心化してスペクトル分解し座標を得る手続きと同じ構造です。
5.3 MDS・III類との違い
- 入力が違う:IV類・MDSは対象間の関係(親近性・距離)行列が入力。III類・コレスポンデンス分析は個体×カテゴリの反応表・分割表が入力。
- III類 vs IV類:どちらも外的基準なしで低次元布置を作るが、III類は「変数×変数(カテゴリ)の表」から、IV類は「対象×対象の親近性」から布置する。知覚マップ作成ではコレスポンデンス分析(III類系)とMDS(IV類系)が競合・併用される。
graph LR
subgraph 外的基準あり["外的基準(目的変数)あり"]
I1["I類<br/>目的=量的"] --> R1["重回帰"]
I2["II類<br/>目的=質的"] --> R2["判別分析"]
end
subgraph 外的基準なし["外的基準なし(内部構造)"]
I3["III類<br/>入力=反応表/分割表"] --> R3["コレスポンデンス分析<br/>双対尺度法"]
I4["IV類<br/>入力=親近性行列"] --> R4["MDS"]
end
R1 -.->|ダミー変数| BASE["線形モデル・固有値問題<br/>に共通帰着"]
R2 -.->|相関比 → 一般化固有値| BASE
R3 -.->|相互平均 → 固有値| BASE
R4 -.->|親近性 → 固有値| BASE
6. 試験での問われ方(1級)
統計応用(人文科学)では、数量化理論は次の角度で問われます。
- 対応関係の暗記と運用:「数量化II類と数学的に等価な手法はどれか」→ 判別分析。「分割表の行・列を同時に布置する手法」→ III類=コレスポンデンス分析。この4対応(I⇄重回帰、II⇄判別、III⇄コレスポンデンス、IV⇄MDS)は確実に。
- 適用データ型の判別:問題文のデータ(目的変数が量的か質的か、外的基準があるか、入力が反応表か親近性行列か)からどの類を使うべきかを選ばせる。判断は §1.2 の表の通り、(1)外的基準の有無→I/IIかIII/IV、(2)目的変数が量的か質的か→I類かII類、(3)入力が分割表か親近性行列か→III類かIV類、の順で切り分ける。
- I類の基準カテゴリ:「なぜ各アイテムでカテゴリを1つ除くのか」→ ダミーの和が定数項と線形従属になり多重共線性で一意に決まらないから。
- II類・III類の数理:相関比 の最大化(II類)、行・列数量の相関最大化=固有値問題(III類)。「カテゴリ数量は固有値問題で決まる」「最大固有値が達成された相関比・説明力」という理解。
- 数量化理論の位置づけ:林知己夫による日本独自の体系で、西洋手法と独立に同等の解を与える点(III類=対応分析=双対尺度法=等質性分析が各国で再発見された歴史)。
7. 引っかけ・頻出論点
- ⚠️ 4対応を取り違えない:I類⇄重回帰、II類⇄判別分析、III類⇄コレスポンデンス分析、IV類⇄MDS。特にII類とIII類の混同に注意。II類は外的基準(群)ありの判別、III類は外的基準なしの分類。「群を当てる」がII類、「内部構造を探す」がIII類。
- ⚠️ 外的基準の有無が一次の分かれ目:I類・II類は目的変数(外的基準)あり=予測・判別。III類・IV類は外的基準なし=探索。まずここで2分してから細分する。
- ⚠️ I類は係数について線形=普通の重回帰:カテゴリ数量=ダミー変数の回帰係数。難しい新手法ではなく、ダミー変数回帰の言い換え。最小二乗で解ける。
- ⚠️ 基準カテゴリを抜くのは多重共線性回避:各アイテムのダミーの総和が1(=定数項と従属)になるため。抜かないと一意に決まらない。どのカテゴリを基準にしてもカテゴリ間の差と予測値は不変。
- ⚠️ III類の入力とIV類の入力は別物:III類=個体×カテゴリの反応表・分割表。IV類=対象×対象の親近性(類似度)行列。「親近性行列を入れたらIV類(MDS系)」「分割表を入れたらIII類(対応分析系)」。
- ⚠️ 「III類=主成分分析」と「III類=コレスポンデンス分析」は両立:量的データの分散最大化が主成分分析、質的(分割表)データの同等操作がコレスポンデンス分析。III類は後者に置くのが正確で、両者は矛盾しない。
- ⚠️ カテゴリ数量は固有値問題で決まる(II・III・IV類):II類は相関比最大化の一般化固有値問題、III類は相関最大化の固有値問題、IV類は親近性行列のスペクトル分解。最大固有値の固有ベクトルが第1軸の数量、固有値が達成された相関比・説明力。「最小固有値を取る」は誤り。
- ⚠️ 数量化理論は分布を仮定しない記述的手法:正規分布などの確率モデルを前提とせず、データ内部の数量関係を最適化で決める(探索的・記述的多変量解析の系譜)。検定や区間推定が主目的ではない。
よくある疑問(Q&A)
Q1. 数量化理論は西洋の手法と等価なら、なぜ別に学ぶ必要があるのですか?
歴史的・思想的な背景と、1級が人文科学分野の固有手法として明示的に出題するからです。林知己夫は1950年前後、コンピュータも整わない時代に、社会調査の質的データを分析するため独立にこの体系を作りました。後にベンゼクリの対応分析や Torgerson のMDSと「同じ解」だと分かりましたが、これは各国が独立に同じ数学に到達したことを示す好例です。試験では「数量化II類=判別分析」のような対応の理解が問われるので、西洋手法と接続して覚えるのが効率的です。手法そのものは新規ではなく、質的データへの数量付与という視点を学ぶものと捉えてよいです。
Q2. I類で「各アイテムのカテゴリを1つ除く」のは、情報を捨てることになりませんか?
情報は捨てていません。除いたカテゴリは「基準(数量0)」になり、他のカテゴリ数量がその基準からの差として推定されるだけです。たとえば性別を {男(基準), 女} とすれば、女の数量は「男に対する差」を表し、男は差0(基準)。予測値 もカテゴリ間の差もどの基準を選んでも同じで、表現の仕方が変わるだけです。むしろ全カテゴリを入れると多重共線性で係数が一意に決まらず、推定不能になります。回帰のダミー変数で 水準なら 本入れるのと同じ約束です。
Q3. II類の相関比と判別分析のフィッシャー基準は同じものですか?
本質的に同じです。判別分析(判別分析)のフィッシャー基準は「級間分散/級内分散を最大化する射影」を探し、一般化固有値問題 に帰着します。II類の相関比 は「群間変動/全変動」で、 なので と一対一に対応します。つまり相関比を最大化することとフィッシャー基準を最大化することは同値で、得られる軸(係数)も同じ。II類は「説明変数が質的(ダミー)な判別分析」と理解すれば過不足ありません。
Q4. III類で「行と列の両方に数量を与える」とはどういうことですか? なぜ両方なのですか?
分割表(例:年代×好きなジャンル)には行カテゴリ(年代)と列カテゴリ(ジャンル)があります。III類は両方に同時に数値を与え、関連の強い行と列が散布図上で近くに来るようにします。「両方」なのは、行だけ・列だけでは関連を表せないからです。たとえば「20代と若者向けジャンル」が強く結びつくなら、その行数量と列数量が近い値になるよう決める。数理的には「行を固定すると最適な列数量は対応する行数量の平均、逆も同様」という相互平均が成り立ち、これを解くと固有値問題になります。これがコレスポンデンス分析で行・列を同一平面に同時布置できる理由です。
Q5. III類とIV類はどちらも「低次元に布置する」ですが、どう使い分けますか?
入力データの型で決まります。手元にあるのが「個体×カテゴリの反応表/分割表」ならIII類(コレスポンデンス分析)。「対象どうしの類似度・親近性の行列」(例:ブランド間の似ている度合いを直接評定したもの)ならIV類(MDS)。たとえば「商品Aと商品Bはどれくらい似ているか」を直接聞いた行列があるならIV類、「各回答者がどの商品を選んだか」の0/1表ならIII類です。両者とも知覚マップ(ブランドの布置図)を作れるので競合しますが、出発点のデータが違います。
まとめ
- 数量化理論は林知己夫による日本独自の体系で、質的データにカテゴリ数量を与えて多変量解析にかける。用語はアイテム(質的変数)・カテゴリ(選択肢)・カテゴリ数量(選択肢に与える数値、最適化で決める)。各個体のスコアは選んだカテゴリ数量の和。
- 4対応(最重要):I類⇄重回帰(目的=量的、ダミー変数回帰、基準カテゴリを1つ除いて多重共線性回避)、II類⇄判別分析(目的=質的、相関比 を最大化→一般化固有値問題 )、III類⇄コレスポンデンス分析・双対尺度法(反応表/分割表、行・列数量の相関最大化→相互平均→固有値問題)、IV類⇄MDS(親近性行列、似ている対象を近くに布置→スペクトル分解)。
- 一次の分かれ目は外的基準の有無:I・II類は予測・判別(外的基準あり)、III・IV類は内部構造の探索(外的基準なし)。
- 数理の共通項:II・III・IV類はいずれも相関比・相関の最大化が固有値問題に帰着し、最大固有値の固有ベクトルが第1軸の数量、固有値が達成された説明力。
- 引っかけ:II類とIII類の混同(群あり判別 vs 群なし分類)/III類とIV類の入力の違い(反応表 vs 親近性行列)/I類の基準カテゴリは多重共線性回避/カテゴリ数量は最大固有値で決まる/分布を仮定しない記述的手法。
関連ノート
- 重回帰分析 I類はダミー変数による重回帰そのもの。基準カテゴリを1つ除く話は回帰のダミー変数の約束と同じ
- 判別分析 II類と等価。相関比の最大化=フィッシャー基準(級間/級内)の最大化で同じ一般化固有値問題に帰着
- コレスポンデンス分析 III類と数学的に同等。分割表の行・列を同時布置する手法の本体
- 多次元尺度構成法(MDS) IV類が包含される手法。親近性行列から低次元布置を作る
- 主成分分析(PCA) III類は質的(分割表)データへの分散最大化の移植とも見える。量的データの分散最大化が主成分分析
- 人文科学分野ハブ(Phase 9) 人文科学分野の固有手法の全体地図(質的データの数量化・潜在変数モデル)
- 1級「統計応用」(Phase 9 目次) 統計応用ドメインの全体地図