← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:B(標準)

要点(BLUF)

数量化理論は林知己夫が1950年前後に作った日本独自の体系で、性別・職業・好き嫌いといった質的(カテゴリカル)データに数量を与えて多変量解析にかける一群の手法です。最大のポイントは「4つの類が、西洋の標準的多変量手法と1対1で対応する」こと。試験ではこの対応と「どのデータ型にどの類を使うか」が問われます。

範囲・配点は改訂されうるため要最新確認(典拠は2015.5.8版範囲表)。

graph TD
  ROOT["数量化理論<br/>(質的データに数量を与える)"] --> EXT{"外的基準<br/>(目的変数)はあるか"}
  EXT -->|あり:予測・判別| SUP["I類・II類"]
  EXT -->|なし:内部構造の探索| UNS["III類・IV類"]
  SUP --> Q1["I類<br/>目的変数=量的"]
  SUP --> Q2["II類<br/>目的変数=質的(群)"]
  UNS --> Q3["III類<br/>反応パターン・分割表"]
  UNS --> Q4["IV類<br/>親近性(類似度)行列"]
  Q1 -.->|等価| REG["重回帰分析"]
  Q2 -.->|等価| DA["判別分析"]
  Q3 -.->|数学的に同等| CA["コレスポンデンス分析<br/>双対尺度法"]
  Q4 -.->|包含される| MDS["多次元尺度構成法<br/>MDS"]

1. 共通の枠組み — アイテム・カテゴリ・カテゴリ数量

まず4類すべてに共通する用語と発想を押さえます。これが分かれば各類は「何を最大化するか」の違いだけになります。

1.1 用語

質的データを表で考えます。たとえば「個体(回答者)× 質問項目」の表です。

要するに「アイテム=質的変数、カテゴリ=その選択肢、カテゴリ数量=選択肢に与える数値(これを最適化で決める)」。

1.2 ダミー変数(指示変数)による表現

カテゴリは**ダミー変数(0/1の指示変数)**で表します。個体 ii がアイテム jj のカテゴリ kk を選んでいれば δi(jk)=1\delta_{i(jk)}=1、そうでなければ 00

δi(jk)={1個体 i がアイテム j でカテゴリ k を選択0それ以外\delta_{i(jk)}=\begin{cases}1 & \text{個体 }i\text{ がアイテム }j\text{ でカテゴリ }k\text{ を選択}\\ 0 & \text{それ以外}\end{cases}

カテゴリ jkjk に数量 ajka_{jk} を与えると、個体 ii のスコアは「選んだカテゴリの数量の合計」

zi=jkδi(jk)ajkz_i=\sum_{j}\sum_{k} \delta_{i(jk)}\,a_{jk}

要するに「各個体のスコアは、その人が選んだカテゴリの数量を足し上げただけ」。この ziz_i が、目的(量的予測値・群の判別・軸への布置)にとって最も都合よくなるように ajka_{jk} を決める、というのが全類に共通する骨格です。あとは「都合よく」の基準が類ごとに違います。

入力(説明側)出力(目的・外的基準)何を最大化するか等価な西洋手法
I類質的(アイテム×カテゴリ)量的な目的変数予測値との相関(決定係数 R2R^2重回帰分析
II類質的質的(群・クラス)群を分ける相関比(級間/全)判別分析
III類質的(反応パターン・分割表)なし(内部構造)行と列の数量の相関コレスポンデンス分析・双対尺度法
IV類親近性(類似度)行列なし(内部構造)親近性と布置距離の整合多次元尺度構成法(MDS)

2. I類 — 質的説明変数 → 量的目的変数(重回帰と等価)

2.1 何をするか

目的変数が量的(売上、点数、所要時間など)で、説明変数が質的(地域、職種、曜日など)のときに使います。各カテゴリに数量 ajka_{jk} を与え、個体のスコア zi=jkδi(jk)ajkz_i=\sum_{jk}\delta_{i(jk)}a_{jk} が目的変数 yiy_i をよく予測するように決めます。

要するに「カテゴリを数値化して重回帰する」。数量化I類はダミー変数による重回帰分析そのものです。

2.2 重回帰との等価性(導出)

カテゴリ数量 ajka_{jk} を「ダミー変数 δ(jk)\delta_{(jk)} の回帰係数」とみなします。すると個体のスコアは

zi=jkδi(jk)ajkz_i=\sum_{j}\sum_{k}\delta_{i(jk)}\,a_{jk}

で、これは説明変数をダミー変数、係数をカテゴリ数量とした線形予測子に他なりません。残差平方和

S=i=1n(yizi)2=i(yijkδi(jk)ajk)2S=\sum_{i=1}^{n}\big(y_i - z_i\big)^2 = \sum_{i}\Big(y_i - \sum_{jk}\delta_{i(jk)}a_{jk}\Big)^2

を最小化する ajka_{jk} を求めるのは、**ダミー変数を説明変数とした最小二乗(重回帰)**と完全に同じ計算です。要するに「目的=予測誤差の最小化、未知数=カテゴリ数量=回帰係数。両者は同一問題」。

2.3 基準カテゴリを1つ落とす理由(多重共線性)

ここが試験の頻出論点です。1つのアイテム jj では、どの個体も必ずどれか1つのカテゴリを選ぶので、そのアイテムのダミーをすべて足すと全個体で1になります。

kδi(jk)=1(全 i)\sum_{k}\delta_{i(jk)}=1\quad(\text{全 }i)

これは「定数項(切片)の列」と完全に線形従属です。さらにアイテムごとにこの関係が成り立つので、ダミーをすべて入れると計画行列がランク落ちし、多重共線性で係数が一意に決まりません(重回帰分析 の正規方程式 XXX^\top X が正則でなくなる)。

そこで各アイテムで基準カテゴリを1つ選んで除き、残りのカテゴリだけをダミーに入れます。すると除いたカテゴリの数量は0(基準)となり、他のカテゴリ数量は基準との差として解釈されます。

要するに「各アイテムでカテゴリを全部入れると切片と被って一意に決まらない。基準カテゴリを1つ抜けば回避でき、数量は基準からの差になる」。

⚠️ 抜くカテゴリは任意に選べます(どれを基準にしても予測値 ziz_i は不変、カテゴリ数量のも不変)。基準を変えると各数量の絶対値はずれますが、カテゴリ間のは変わりません。これは回帰のダミー変数の基準水準を変えるのと同じ話です。

2.4 具体例

「アパートの家賃(量的)」を「最寄り駅(A/B/C)」「築年数区分(新/中/古)」で説明する。最寄り駅Aと築年数「新」を基準に取ると、

家賃^=β0+a駅Bδ駅B+a駅Cδ駅C+aδ+aδ\widehat{\text{家賃}} = \beta_0 + a_{\text{駅B}}\delta_{\text{駅B}} + a_{\text{駅C}}\delta_{\text{駅C}} + a_{\text{中}}\delta_{\text{中}} + a_{\text{古}}\delta_{\text{古}}

たとえば a駅C=1.2a_{\text{駅C}}=-1.2(万円)なら「駅Cは駅Aより家賃が1.2万円低い」と読めます。これはまさに重回帰の係数解釈です。


3. II類 — 質的説明変数 → 質的目的変数(判別分析と等価)

3.1 何をするか

目的変数が質的(群・クラス)、説明変数も質的のときに使います。質的な特徴から「購入者か非購入者か」「合格群か不合格群か」を判別します。各カテゴリに数量を与え、個体スコア ziz_i群をできるだけよく分離するように決めます。

要するに「カテゴリを数値化して判別分析する」。数量化II類は判別分析を質的説明変数で行うものです。

3.2 相関比の最大化(数理)

「群をよく分離する」を定量化するのが相関比 η2\eta^2(correlation ratio)です。スコア ziz_i の全変動を、群間変動と群内変動に分解します。GG 個の群、群 gg の標本数 ngn_g、群 gg のスコア平均 zˉg\bar z_g、全体平均 zˉ\bar z とすると

gig(zizˉ)2全変動 ST=gng(zˉgzˉ)2群間変動 SB+gig(zizˉg)2群内変動 SW\underbrace{\sum_{g}\sum_{i\in g}(z_i-\bar z)^2}_{\text{全変動 }S_T} =\underbrace{\sum_{g} n_g(\bar z_g-\bar z)^2}_{\text{群間変動 }S_B} +\underbrace{\sum_{g}\sum_{i\in g}(z_i-\bar z_g)^2}_{\text{群内変動 }S_W}

(これは一元配置分散分析の平方和分解と同型です)。相関比は

  η2=SBST=群間変動全変動=1SWST  \boxed{\;\eta^2=\frac{S_B}{S_T}=\frac{\text{群間変動}}{\text{全変動}}=1-\frac{S_W}{S_T}\;}

要するに「相関比=全体のばらつきのうち群の違いで説明できる割合」。η2\eta^2 が大きい=群間が離れ群内がまとまっている=よく判別できている。そこでカテゴリ数量 ajka_{jk}η2\eta^2 が最大になるように決めます。

3.3 固有値問題への帰着

η2=SB/ST\eta^2 = S_B/S_T を最大化する問題は、スケールの自由度(ziz_i を定数倍しても η2\eta^2 は不変)を ST=1S_T=1 で固定し、ラグランジュ未定乗数法で解きます。

maxa SB(a)s.t.ST(a)=1\max_{a}\ S_B(a)\quad \text{s.t.}\quad S_T(a)=1

SB,STS_B,S_T はともに aa の二次形式(SB=aBaS_B=a^\top B a, ST=aTaS_T=a^\top T a と書ける)なので、ラグランジュ関数を微分して0とおくと

Ba=η2TaB\,a=\eta^2\,T\,a

という一般化固有値問題になります。要するに「相関比を最大化する数量=群間行列 BB と全体行列 TT の一般化固有値問題の、最大固有値に対応する固有ベクトル。固有値そのものが達成された相関比 η2\eta^2」。判別分析(判別分析)が「級間分散/級内分散」を最大化して同じ一般化固有値問題に行き着くのと完全に並行しており、これが「II類=判別分析」の数理的な中身です。

⚠️ 判別軸は群数 1-1 本まで取れます(BB のランクが G1G-1 のため)。2群なら軸は1本、3群なら最大2本。これも判別分析と同じです。


4. III類 — 反応パターンの分類(コレスポンデンス分析と同等)

4.1 何をするか

外的基準(目的変数)がない質的データ、典型的には「個体×カテゴリ」の0/1反応パターンや**分割表(クロス集計表)**を入力に、行(個体・カテゴリ)と列(カテゴリ)の両方に同時に数量を与え、似た反応をするもの同士が近くに来るように布置します。

要するに「行と列に同時に数値を与えて、関連の強い行・列が近くに並ぶよう分類する」。数量化III類はコレスポンデンス分析(対応分析)・双対尺度法と数学的に同等です(コレスポンデンス分析)。

4.2 行と列の数量の相関を最大化(数理)

データを「行=個体(または行カテゴリ)、列=列カテゴリ」の表とします。行に数量 xix_i、列に数量 yjy_j を与えます。発想は「反応1がある(i,j)のペアで、xix_iyjy_j がよく揃う(相関が高い)ように両方を決める」。

行数量と列数量の相関 ρ\rho(反応 δij=1\delta_{ij}=1 のセルにわたる xi,yjx_i,y_j の相関)を最大化します。スケールを基準化(平均0・分散1)したうえで

maxx,y ρ(x,y)s.t.Var(x)=Var(y)=1\max_{x,y}\ \rho(x,y)\quad \text{s.t.}\quad \text{Var}(x)=\text{Var}(y)=1

をラグランジュ未定乗数法で解きます。ここで「行を固定して最適な列数量は行数量の(重みつき)平均」「列を固定して最適な行数量は列数量の平均」という**相互平均関係(reciprocal averaging)**が出ます。これを連立させると

  (行・列の対応行列)v=λv  \boxed{\;\text{(行・列の対応行列)}\,v=\lambda\,v\;}

という固有値問題に帰着します。要するに「行数量↔列数量を交互に平均で更新すると相関最大の解に収束し、それは分割表から作る行列の固有値問題の解。固有値 λ=ρ2\lambda=\rho^2 が達成された相関の2乗(説明力)」。

最大固有値(自明な定数解を除く)に対応する固有ベクトルが第1軸、次が第2軸…と続き、コレスポンデンス分析の散布図(行カテゴリと列カテゴリを同一平面に布置)が得られます。

4.3 主成分分析・コレスポンデンス分析との関係

III類は「質的データに与えた数量に対して分散を最大化する軸を順に取る」点で主成分分析の発想主成分分析(PCA))を質的データに移したものとも言えます。実際、0/1指示行列に主成分分析を施す操作と数学的に深く結びついています。ただし試験での標準的な対応づけは**III類⇄コレスポンデンス分析(双対尺度法・等質性分析)**で、これらは「分割表の行・列を同時布置する」という同じ解を各国で独立に再発見したものです(ベンゼクリの対応分析、西里静彦の双対尺度法、Gifi の等質性分析)。

⚠️ 「III類=主成分分析」と「III類=コレスポンデンス分析」は矛盾しません。量的データの分散最大化が主成分分析、質的(分割表)データの同等操作がコレスポンデンス分析という関係で、III類は後者に位置づけるのが正確です。


5. IV類 — 親近性データから低次元布置(MDSと等価)

5.1 何をするか

入力が「個体×変数」の表ではなく、対象間の親近性(類似度・近さ)を直接与えた行列 eije_{ij}(対象 iijj がどれだけ似ているか)のときに使います。この親近性をできるだけ忠実に再現するように、各対象を**低次元空間の点 xix_i として配置(布置)**します。似た対象を近くに、似ていない対象を遠くに置きます。

要するに「「どれだけ似ているか」という関係データだけから、対象を地図のように2次元・3次元に並べる」。数量化IV類は多次元尺度構成法(MDS)に包含される手法です(多次元尺度構成法(MDS))。

5.2 布置の基準(数理)

親近性 eije_{ij}(大きいほど似ている)と、配置後の点間距離 dij=xixjd_{ij}=\lVert x_i - x_j\rVert逆の対応(似ている=近い)になるよう配置します。IV類は親近性を「近さ」に対応づける目的関数(似ているペアを近くに引き寄せる二次形式)を最大化/最小化し、結果として

  (親近性から作る行列)x=λx  \boxed{\;\text{(親近性から作る行列)}\,x=\lambda\,x\;}

固有値問題を解いて、大きい固有値に対応する固有ベクトルを座標軸として採用します。要するに「親近性行列を適当に中心化・変換した行列の固有ベクトルが布置の座標。大きい固有値の軸ほど親近性をよく説明する」。これは古典的MDS(計量MDS)が距離行列を二重中心化してスペクトル分解し座標を得る手続きと同じ構造です。

5.3 MDS・III類との違い

graph LR
  subgraph 外的基準あり["外的基準(目的変数)あり"]
    I1["I類<br/>目的=量的"] --> R1["重回帰"]
    I2["II類<br/>目的=質的"] --> R2["判別分析"]
  end
  subgraph 外的基準なし["外的基準なし(内部構造)"]
    I3["III類<br/>入力=反応表/分割表"] --> R3["コレスポンデンス分析<br/>双対尺度法"]
    I4["IV類<br/>入力=親近性行列"] --> R4["MDS"]
  end
  R1 -.->|ダミー変数| BASE["線形モデル・固有値問題<br/>に共通帰着"]
  R2 -.->|相関比 → 一般化固有値| BASE
  R3 -.->|相互平均 → 固有値| BASE
  R4 -.->|親近性 → 固有値| BASE

6. 試験での問われ方(1級)

統計応用(人文科学)では、数量化理論は次の角度で問われます。


7. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. 数量化理論は西洋の手法と等価なら、なぜ別に学ぶ必要があるのですか?

歴史的・思想的な背景と、1級が人文科学分野の固有手法として明示的に出題するからです。林知己夫は1950年前後、コンピュータも整わない時代に、社会調査の質的データを分析するため独立にこの体系を作りました。後にベンゼクリの対応分析や Torgerson のMDSと「同じ解」だと分かりましたが、これは各国が独立に同じ数学に到達したことを示す好例です。試験では「数量化II類=判別分析」のような対応の理解が問われるので、西洋手法と接続して覚えるのが効率的です。手法そのものは新規ではなく、質的データへの数量付与という視点を学ぶものと捉えてよいです。

Q2. I類で「各アイテムのカテゴリを1つ除く」のは、情報を捨てることになりませんか?

情報は捨てていません。除いたカテゴリは「基準(数量0)」になり、他のカテゴリ数量がその基準からの差として推定されるだけです。たとえば性別を {男(基準), 女} とすれば、女の数量は「男に対する差」を表し、男は差0(基準)。予測値 ziz_i もカテゴリ間の差もどの基準を選んでも同じで、表現の仕方が変わるだけです。むしろ全カテゴリを入れると多重共線性で係数が一意に決まらず、推定不能になります。回帰のダミー変数で kk 水準なら k1k-1 本入れるのと同じ約束です。

Q3. II類の相関比と判別分析のフィッシャー基準は同じものですか?

本質的に同じです。判別分析(判別分析)のフィッシャー基準は「級間分散/級内分散を最大化する射影」を探し、一般化固有値問題 SBa=λSWaS_B a=\lambda S_W a に帰着します。II類の相関比 η2=SB/ST\eta^2=S_B/S_T は「群間変動/全変動」で、ST=SB+SWS_T=S_B+S_W なので η2/(1η2)=SB/SW\eta^2/(1-\eta^2)=S_B/S_W と一対一に対応します。つまり相関比を最大化することとフィッシャー基準を最大化することは同値で、得られる軸(係数)も同じ。II類は「説明変数が質的(ダミー)な判別分析」と理解すれば過不足ありません。

Q4. III類で「行と列の両方に数量を与える」とはどういうことですか? なぜ両方なのですか?

分割表(例:年代×好きなジャンル)には行カテゴリ(年代)と列カテゴリ(ジャンル)があります。III類は両方に同時に数値を与え、関連の強い行と列が散布図上で近くに来るようにします。「両方」なのは、行だけ・列だけでは関連を表せないからです。たとえば「20代と若者向けジャンル」が強く結びつくなら、その行数量と列数量が近い値になるよう決める。数理的には「行を固定すると最適な列数量は対応する行数量の平均、逆も同様」という相互平均が成り立ち、これを解くと固有値問題になります。これがコレスポンデンス分析で行・列を同一平面に同時布置できる理由です。

Q5. III類とIV類はどちらも「低次元に布置する」ですが、どう使い分けますか?

入力データの型で決まります。手元にあるのが「個体×カテゴリの反応表/分割表」ならIII類(コレスポンデンス分析)。「対象どうしの類似度・親近性の行列」(例:ブランド間の似ている度合いを直接評定したもの)ならIV類(MDS)。たとえば「商品Aと商品Bはどれくらい似ているか」を直接聞いた行列があるならIV類、「各回答者がどの商品を選んだか」の0/1表ならIII類です。両者とも知覚マップ(ブランドの布置図)を作れるので競合しますが、出発点のデータが違います。


まとめ


関連ノート