← 統計検定テキスト 一覧

📊 対象級:1級 | 重要度:A(頻出)

要点(BLUF)

「テストの良し悪し(信頼性・妥当性)をどう数量化するか」を扱うのがテスト理論です。1級(統計応用・人文科学)では古典的テスト理論(CTT)と項目反応理論(IRT)の対比が頻出。両者の根本的な違いは「項目の難しさ・能力の指標が、たまたま受けた受験者集団に依存するか否か」です。

1級(統計応用)では a・b・c の読み取り、情報量と測定精度の関係、CTT/IRTの対比が問われます(範囲・配点は改訂されうるため要最新確認)。

graph TD
  ROOT["テスト理論<br/>テストの良さを数量化する"] --> CTT["古典的テスト理論 CTT"]
  ROOT --> IRT["項目反応理論 IRT"]
  CTT --> XTE["観測得点モデル<br/>X = T + E"]
  XTE --> REL["信頼性係数<br/>ρ = V[T]/V[X]"]
  REL --> ALPHA["クロンバックα<br/>内的整合性で近似"]
  CTT --> VAL["妥当性<br/>内容・基準関連・構成概念"]
  CTT -.->|弱点| DEP["標本依存・テスト依存<br/>指標が集団で変わる"]
  IRT --> ICC["項目特性曲線 ICC<br/>能力θ→正答確率"]
  ICC --> MODELS["ロジスティックモデル<br/>1PL / 2PL / 3PL"]
  MODELS --> PARAMS["a 識別力 / b 困難度 / c 当て推量"]
  IRT --> INFO["項目情報量・テスト情報量<br/>SE(θ)=1/√I(θ)"]
  IRT -.->|強み| INV["項目パラメータの不変性<br/>集団に依存しない"]
  DEP -.->|IRTが克服| INV

1. 古典的テスト理論(CTT)

1.1 観測得点モデル X=T+EX=T+E

CTTの出発点は、テストで観測される得点 XX を、その人が本来持つ真の得点(true score) TT誤差(error) EE の和に分解することです。

  X=T+E  \boxed{\;X = T + E\;}

ここで真の得点 TT は「同じテストを(記憶などの影響なしに)無限回繰り返したときの観測得点の期待値」と定義されます。すなわち TE[X]T \equiv E[X]。要するに「真の得点とは、その人にこの種の測定を繰り返したときの平均的な得点」であって、プラトン的な「真の能力」そのものではなく、あくまで測定の期待値である点が重要です。

このモデルには次の仮定が置かれます。

E[E]=0,Cov(T,E)=0E[E] = 0, \qquad \mathrm{Cov}(T, E) = 0

要するに「誤差は平均すればゼロ(系統誤差はない、ランダムな揺れだけ)」「真の得点と誤差は無相関(能力が高い人ほど誤差が大きい、といった関係はない)」。TE[X]T \equiv E[X] から E[E]=E[XT]=E[X]T=0E[E]=E[X-T]=E[X]-T=0 は自動的に従います。

この2仮定から、観測得点の分散が真の得点の分散と誤差分散にきれいに分解されます。

V[X]=V[T+E]=V[T]+V[E]+2Cov(T,E)=V[T]+V[E]V[X] = V[T+E] = V[T] + V[E] + 2\,\mathrm{Cov}(T,E) = V[T] + V[E]

要するに「観測得点のばらつきは『本物のばらつき』と『誤差のばらつき』の足し算」。Cov(T,E)=0\mathrm{Cov}(T,E)=0 という仮定があるからこそ、交差項が消えてこの分解が成り立ちます。

1.2 信頼性係数 ρ=V[T]/V[X]\rho=V[T]/V[X]

信頼性(reliability)は「測定がどれだけ安定して同じ結果を出すか」の指標で、観測得点の分散のうち真の得点で説明される割合として定義されます。

  ρXX=V[T]V[X]=V[T]V[T]+V[E]  \boxed{\;\rho_{XX'} = \frac{V[T]}{V[X]} = \frac{V[T]}{V[T]+V[E]}\;}

要するに「観測得点のばらつきのうち、本物(真の得点)由来は何割か。残りは誤差」。0ρ10 \le \rho \le 1 で、1に近いほど誤差が小さく信頼性が高い。ρ=1\rho=1 なら V[E]=0V[E]=0(誤差ゼロ)、ρ=0\rho=0 なら観測得点はすべて誤差(測定の体をなさない)。

なぜ「真の得点分散の割合」が信頼性なのかは、**平行測定(parallel measurements)**を考えると腑に落ちます。平行測定とは、同じ真の得点 TT を測る2つのテスト X=T+EX=T+EX=T+EX'=T+E' で、誤差が独立同分散(V[E]=V[E]V[E]=V[E'])のものです。この2回の測定の相関を計算すると

Corr(X,X)=Cov(X,X)V[X]V[X]=Cov(T+E, T+E)V[X]=V[T]V[X]=ρ\mathrm{Corr}(X, X') = \frac{\mathrm{Cov}(X,X')}{\sqrt{V[X]\,V[X']}} = \frac{\mathrm{Cov}(T+E,\ T+E')}{V[X]} = \frac{V[T]}{V[X]} = \rho

となります(途中、Cov(T+E,T+E)=V[T]+Cov(T,E)+Cov(E,T)+Cov(E,E)=V[T]\mathrm{Cov}(T+E,T+E')=V[T]+\mathrm{Cov}(T,E')+\mathrm{Cov}(E,T)+\mathrm{Cov}(E,E')=V[T]、誤差同士・誤差と真値はすべて無相関)。要するに「信頼性係数とは、同じものを2回測ったときの2つの得点の相関」。これが再検査信頼性(test-retest reliability)——同じテストを時間を空けて2回実施し、その相関を信頼性の推定値とする——の理論的根拠です。

1.3 クロンバックα:内的整合性

平行測定や再検査は2回測定が必要ですが、現実には1回のテスト内の複数項目から信頼性を推定したい。そのための代表的指標がクロンバックのα係数で、内的整合性(internal consistency)——項目同士がどれだけ「同じ構成概念」を一貫して測っているか——を表します。

kk 個の項目があり、項目 ii の得点の分散を σi2\sigma_i^2、合計得点 X=i=1kXiX=\sum_{i=1}^{k}X_i の分散を σX2\sigma_X^2 とすると

  α=kk1(1i=1kσi2σX2)  \boxed{\;\alpha = \frac{k}{k-1}\left(1 - \frac{\sum_{i=1}^{k}\sigma_i^2}{\sigma_X^2}\right)\;}

要するに「合計得点の分散のうち、項目間の共分散(=項目が同じものを測っている部分)が占める割合を、項目数で補正したもの」。なぜこの式が内的整合性を表すのかは導出(3節)で示します。直観的には、項目が互いに強く相関する(同じ概念を測る)ほど合計分散 σX2\sigma_X^2 が各項目分散の和より大きくなり、括弧内が1に近づいてαが上がります。

慣習的に α ≥ 0.7〜0.8 で「内的整合性が十分」とされますが、これは絶対基準ではなく、αは項目数に依存して上がる(項目を増やすだけで上がる)ため、高ければ良いとは限りません。

1.4 妥当性(validity)

信頼性が「測定の安定性・再現性」なのに対し、**妥当性(validity)**は「測りたいものを本当に測れているか」です。両者は独立で、信頼性が高くても妥当でないことはあり得ます(精密だが的外れな物差し)。逆に妥当であるには一定の信頼性が前提になります。古典的には3種に分類されます(妥当性の概念は歴史的に変遷し、現在は「すべて構成概念妥当性に収斂する」という統合的見方が主流である点も要最新確認の論点)。

妥当性の種類問うこと評価の仕方
内容的妥当性テスト項目が測定領域を過不足なく代表しているか専門家による論理的・理論的判断
基準関連妥当性測定結果が外部の基準とどれだけ相関するか外的基準との相関係数。予測的(将来の基準を予測)と併存的(同時点の基準と一致)に分かれる
構成概念妥当性測りたい構成概念(知能・不安など)を実際に測れているか因子分析(因子分析)・収束的妥当性/弁別的妥当性の検討など

要するに「内容=項目の網羅性(専門家判断)、基準関連=外部指標との相関、構成概念=理論上の概念をとらえているか」。1級では3種の区別と、信頼性と妥当性が別物(信頼性は妥当性の必要条件だが十分条件でない)という関係が問われます。

1.5 CTTの限界:標本依存・テスト依存

CTTの実務上の最大の弱点は、項目や受験者の指標が「たまたま受けた集団・たまたま使ったテスト」に依存することです。

要するに「CTTでは『項目の難しさ』と『受験者の能力』が、測定の文脈(集団・テスト)と分かちがたく絡み合っている」。この標本依存・テスト依存を断ち切り、項目パラメータと能力を文脈から独立に表現するのが、次のIRTの動機です。


2. 項目反応理論(IRT)

2.1 項目特性曲線(ICC)と潜在能力 θ\theta

IRTは、受験者ごとに潜在能力(latent trait) θ\theta という連続量を仮定し、「能力 θ\theta の人がある項目に正答する確率」を θ\theta の関数としてモデル化します。この関数のグラフが**項目特性曲線(Item Characteristic Curve, ICC)**です。

Pj(θ)=P(項目jに正答θ)P_j(\theta) = P(\text{項目}\,j\,\text{に正答} \mid \theta)

ICCは横軸が能力 θ\theta(通常 3-3+3+3 程度、平均0・標準偏差1に基準化)、縦軸が正答確率(0〜1)のS字(ロジスティック)曲線です。能力が高いほど正答確率が上がる、という単調増加を表します。CTTが「素点」という観測量を直接扱ったのに対し、IRTは観測できない θ\theta を介して項目反応を確率的にモデル化する点が本質的に異なります。

2.2 ロジスティックモデル:1PL / 2PL / 3PL

ICCの具体的な関数形として、ロジスティック関数を使う3つのモデルが標準です。最も一般的な**2パラメータロジスティックモデル(2PL)**から書きます。

  Pj(θ)=11+eaj(θbj)  \boxed{\;P_j(\theta) = \frac{1}{1+e^{-a_j(\theta - b_j)}}\;}

このうち aj=1a_j = 1(全項目で識別力が等しい)と固定したのが1パラメータロジスティックモデル(1PL)=ラッシュモデルで、困難度 bjb_j だけを項目パラメータとします。

Pj(θ)=11+e(θbj)(1PL / ラッシュモデル)P_j(\theta) = \frac{1}{1+e^{-(\theta - b_j)}}\qquad(\text{1PL / ラッシュモデル})

さらに、選択式問題では能力が低くても当て推量(guessing)で正答することがあります。これを表すため、ICCの下限を cjc_j まで持ち上げるのが**3パラメータロジスティックモデル(3PL)**です。

Pj(θ)=cj+(1cj)11+eaj(θbj)(3PL)P_j(\theta) = c_j + (1 - c_j)\cdot\frac{1}{1+e^{-a_j(\theta - b_j)}}\qquad(\text{3PL})

注意:3PLでは θ=bj\theta = b_j のとき Pj=cj+(1cj)0.5=(1+cj)/2P_j = c_j + (1-c_j)\cdot 0.5 = (1+c_j)/2 であり、ちょうど0.5ではありません。「bjb_j は正答確率50%の位置」という解釈は厳密には1PL・2PLでのものです。

パラメータ名称意味ICCへの効果登場モデル
bjb_j困難度正答率50%(1PL/2PL)になる能力位置曲線を左右に平行移動(大きいほど右=難しい)1PL, 2PL, 3PL
aja_j識別力bjb_j 付近での曲線の傾き(×1/4\times 1/4大きいほどS字が急峻(能力を鋭く識別)2PL, 3PL
cjc_j当て推量θ\theta\to-\infty での正答確率曲線の下漸近線cjc_j まで持ち上げる3PL

要するに「bb は左右位置(難しさ)、aa は傾き(識別の鋭さ)、cc は下げ止まり(まぐれ正答)」。モデルが複雑になるほど現実をよく表すが、推定に必要なデータも増えます。

graph LR
  M1["1PL ラッシュ<br/>困難度 b のみ<br/>(a=1 固定, c=0)"] -->|識別力 a を追加| M2["2PL<br/>困難度 b + 識別力 a"]
  M2 -->|当て推量 c を追加| M3["3PL<br/>困難度 b + 識別力 a + 当て推量 c"]
  M1 -.->|パラメータ少→推定が安定| SIMPLE["少データでも安定<br/>表現力は低い"]
  M3 -.->|パラメータ多→大量データ必要| RICH["現実をよく表す<br/>推定に多データ"]

2.3 項目情報量・テスト情報量

IRTでは、CTTの「単一の信頼性係数」に代わって**情報量(information)**で測定精度を表します。決定的な違いは、測定精度が能力 θ\theta ごとに変わることです(ある項目は能力中程度の人を精密に測れるが、極端な人にはほとんど情報を与えない)。

2PLモデルの**項目情報量(item information)**は

  Ij(θ)=aj2Pj(θ)(1Pj(θ))  \boxed{\;I_j(\theta) = a_j^2\, P_j(\theta)\,\big(1 - P_j(\theta)\big)\;}

要するに「項目 jj が能力 θ\theta の受験者についてどれだけ精密な情報を与えるか」。この式から重要な性質が読めます。

テスト情報量(test information)は、項目反応が互いに独立(局所独立)という仮定のもとで、各項目情報量の単純和になります。

  I(θ)=j=1nIj(θ)=j=1naj2Pj(θ)(1Pj(θ))  \boxed{\;I(\theta) = \sum_{j=1}^{n} I_j(\theta) = \sum_{j=1}^{n} a_j^2\, P_j(\theta)\big(1 - P_j(\theta)\big)\;}

要するに「テスト全体の測定精度は、各項目の情報量を足し合わせたもの」。情報量が加法的なので、「能力 θ=1.5\theta=1.5 付近を精密に測りたいなら bj1.5b_j \approx 1.5 の項目を多く集める」といったテスト設計が可能になります。これがCTTにはないIRTの実務的強みです。

そして、能力推定値 θ^\hat\theta の**標準誤差(測定の精度)**は、テスト情報量の平方根の逆数で与えられます。

  SE(θ^)=1I(θ)  \boxed{\;\mathrm{SE}(\hat\theta) = \frac{1}{\sqrt{I(\theta)}}\;}

要するに「情報量が多い能力帯ほど、その能力の人を誤差小さく(精密に)測れる」。CTTの信頼性が「テスト全体で1つの値」だったのに対し、IRTでは能力 θ\theta ごとに測定精度が違う——これが情報量という概念の核心です。

2.4 能力 θ\theta の推定(最尤・ベイズ EAP)

項目パラメータ (aj,bj,cj)(a_j, b_j, c_j) が既知(先行調査で推定済み)として、ある受験者の反応パターン u=(u1,,un)u = (u_1, \dots, u_n)uju_j は項目 jj の正誤、正答1・誤答0)から能力 θ\theta を推定します。局所独立の仮定から尤度は各項目の積で書け、

L(θu)=j=1nPj(θ)uj(1Pj(θ))1ujL(\theta \mid u) = \prod_{j=1}^{n} P_j(\theta)^{u_j}\,\big(1 - P_j(\theta)\big)^{1-u_j}

これを最大にする θ^\hat\theta を求めるのが最尤推定(MLE)です。要するに「観測された正誤パターンが最も起こりやすくなる能力値を選ぶ」。ただしMLEは全問正答・全問誤答だと θ^=±\hat\theta = \pm\infty に発散する欠点があります(情報がないため)。

これを避けるため、θ\theta事前分布(通常 θN(0,1)\theta \sim N(0,1))を置くベイズ推定が広く使われます。事後分布 p(θu)L(θu)p(θ)p(\theta\mid u) \propto L(\theta\mid u)\,p(\theta) を求め、その要約量で推定します。

要するに「最尤推定はデータだけ見て極端な値になりがち(全問正解で発散)、ベイズ(EAP/MAP)は『能力は標準正規くらいだろう』という事前知識を加えて穏当な推定にする」。MAPは正則化付き最尤と同型で、EAPは事後分布全体を平均する分だけ安定します。

2.5 CTTとIRTの違い:項目パラメータの不変性

IRTの理論的に最も重要な性質が**不変性(invariance)**です。

項目パラメータの不変性:項目パラメータ (aj,bj,cj)(a_j, b_j, c_j) は、どんな能力分布の受験者集団で推定しても(理論上)同じ値になる。逆に、能力 θ\theta の推定値も、どの項目セット(テスト)で測っても同じ尺度で得られる。

CTTでは通過率(項目の難しさ)が集団依存、素点(能力)がテスト依存でした(1.5節)。IRTはこれを克服します。なぜ不変になるかというと、IRTは「能力 θ\theta と項目パラメータ」を最初から分離してモデル化しているからです。ICC Pj(θ)P_j(\theta) は「能力 θ\theta の人が項目 jj に正答する確率」という**θ\theta と項目の関係そのもの**を表すので、たまたまどんな θ\theta の集団が受けたかには依存しません(CTTの通過率は「集団の θ\theta 分布で平均した正答率」なので集団依存になる)。

これにより、IRTでは能力と項目困難度を同一の尺度(同じ θ\theta 軸)上に置けます。「困難度 bj=1.2b_j = 1.2 の項目」と「能力 θ=1.2\theta = 1.2 の受験者」を直接比較でき、θ=bj\theta = b_j ならその人はその項目に50%(1PL/2PL)で正答する、と即座に読めます。

観点古典的テスト理論(CTT)項目反応理論(IRT)
分析の単位テスト全体の得点 XX項目ごとの反応 Pj(θ)P_j(\theta)
能力の表現素点(合計得点)潜在能力 θ\theta(連続尺度)
項目の難しさ通過率(正答割合)困難度 bjb_jθ\theta 軸上の位置)
集団依存性あり(通過率・素点が集団/テストに依存)なし(項目パラメータ・能力が不変)
能力と項目の尺度別々(直接比較不可)同一尺度θ\theta 軸上で比較可)
測定精度の表現単一の信頼性係数(テスト全体で1つ)情報量 I(θ)I(\theta)能力ごとに変わる
必要なサンプル比較的少なくてよいパラメータ推定に多数の受験者が必要
主な用途尺度の信頼性・妥当性の確認項目バンク・テスト等化・CAT(適応型テスト)

要するに「CTTは素点ベースで手軽だが集団・テストに依存。IRTは潜在能力ベースで集団に依存しない(不変)が、推定に多データが要る」。IRTの不変性は、項目を蓄積した項目バンク、異なるテストの得点を共通尺度に乗せるテスト等化、受験者の能力に応じて出題を変える**コンピュータ適応型テスト(CAT)**を可能にし、TOEFLなど大規模試験で実用されています。


3. 数式の導出

3.1 信頼性係数の分解(なぜ V[T]/V[X]V[T]/V[X] か)

1.1〜1.2節の流れを導出として再掲・整理します。出発点は2仮定 E[E]=0E[E]=0Cov(T,E)=0\mathrm{Cov}(T,E)=0。観測得点の分散は

V[X]=V[T+E]=V[T]+2Cov(T,E)+V[E]=V[T]+V[E]V[X] = V[T+E] = V[T] + 2\,\mathrm{Cov}(T,E) + V[E] = V[T] + V[E]

第1ステップの「要するに」Cov(T,E)=0\mathrm{Cov}(T,E)=0 という仮定が交差項を消し、観測分散が「本物の分散+誤差分散」に二分される。この分解ができるからこそ「本物が占める割合」を信頼性と定義できる。

ρ=V[T]V[X]=1V[E]V[X]\rho = \frac{V[T]}{V[X]} = 1 - \frac{V[E]}{V[X]}

第2ステップの「要するに」:信頼性は「誤差分散の割合 V[E]/V[X]V[E]/V[X] を1から引いたもの」とも書ける。誤差が小さいほど1に近づく。

平行測定 X=T+EX=T+EX=T+EX'=T+E'E,EE,E' は独立同分散で TT とも無相関)の相関を取ると

Corr(X,X)=Cov(X,X)V[X]V[X]=V[T]V[X]=ρ\mathrm{Corr}(X,X') = \frac{\mathrm{Cov}(X,X')}{\sqrt{V[X]V[X']}} = \frac{V[T]}{V[X]} = \rho

第3ステップの「要するに」Cov(X,X)=Cov(T+E,T+E)=V[T]\mathrm{Cov}(X,X')=\mathrm{Cov}(T+E,T+E')=V[T](誤差絡みの共分散はすべて0)。つまり信頼性係数は「同じものを2回測った得点の相関」に等しい。これが再検査信頼性の正体。

3.2 クロンバックαの構造(なぜ内的整合性を表すか)

合計得点 X=j=1kXjX=\sum_{j=1}^{k}X_j の分散は、分散・共分散の展開公式から

σX2=V ⁣[j=1kXj]=j=1kσj2+ijCov(Xi,Xj)\sigma_X^2 = V\!\left[\sum_{j=1}^{k}X_j\right] = \sum_{j=1}^{k}\sigma_j^2 + \sum_{i\ne j}\mathrm{Cov}(X_i, X_j)

第1ステップの「要するに」:合計分散は「各項目の分散の和」+「異なる項目間の共分散の総和」。後者の共分散項こそ「項目が同じものを測っている度合い」を表す。これを移項すると ijCov(Xi,Xj)=σX2jσj2\sum_{i\ne j}\mathrm{Cov}(X_i,X_j) = \sigma_X^2 - \sum_j\sigma_j^2

αの定義式

α=kk1(1jσj2σX2)=kk1σX2jσj2σX2=kk1ijCov(Xi,Xj)σX2\alpha = \frac{k}{k-1}\left(1 - \frac{\sum_j \sigma_j^2}{\sigma_X^2}\right) = \frac{k}{k-1}\cdot\frac{\sigma_X^2 - \sum_j\sigma_j^2}{\sigma_X^2} = \frac{k}{k-1}\cdot\frac{\sum_{i\ne j}\mathrm{Cov}(X_i,X_j)}{\sigma_X^2}

第2ステップの「要するに」:αは結局「合計分散のうち項目間共分散が占める割合」を k/(k1)k/(k-1) で補正したもの。項目同士が強く相関する(同じ概念を一貫して測る=内的整合性が高い)ほど共分散項が大きくなり、αが1に近づく。逆に項目が無関係なら共分散がゼロでαも0付近。これがαが内的整合性の指標である理由。

k/(k1)k/(k-1) 補正の意味:もし全項目が完全に等価(同じ分散・同じ共分散)なら ijCov\sum_{i\ne j}\mathrm{Cov}k(k1)k(k-1) 個の項、jσj2\sum_j\sigma_j^2kk 個の項からなる。係数 k/(k1)k/(k-1) はこの項数のアンバランスを補正し、αが信頼性のスケール(最大1)に乗るよう調整する役割を持つ。

3.3 αは信頼性の下限(タウ等価測定で等号)

αと真の信頼性 ρ\rho の関係には重要な定理があります。

定理:一般にαは信頼性の下限(過小評価)である:αρ\alpha \le \rho。等号 α=ρ\alpha = \rho が成り立つのは、項目が本質的タウ等価測定(essentially tau-equivalent)——各項目の真の得点が定数差を除いて等しい(Tj=T+djT_j = T + d_jdjd_j は定数)——のとき。

「要するに」:αは「項目が皆ほぼ同等の重みで同じ概念を測る」という強めの条件下では信頼性そのものを与えるが、項目の質(識別力)がバラバラだと信頼性を低めに見積もる。だから「α=0.6 だから信頼性が低い」とは限らず、真の信頼性はそれ以上かもしれない。逆に「αが高ければ安心」でもなく、αは項目数を増やすだけでも上がる(次節)。実務でαを”信頼性そのもの”と断言するのは、本質的タウ等価という前提を暗黙に置いていることになる。この前提の妥当性は確認的因子分析(因子分析)で検証できる。

3.4 αは項目数とともに上がる(スピアマン・ブラウン)

3.2節の係数 k/(k1)k/(k-1) と、項目を増やすと共分散項(k(k1)k(k-1) 個)が分散項(kk 個)より速く増えることから、他の条件が同じなら項目数 kk を増やすほどαは上がります。これを定量化するのがスピアマン・ブラウンの公式で、テスト長を mm 倍にしたときの信頼性 ρm\rho_m

ρm=mρ1+(m1)ρ\rho_m = \frac{m\,\rho}{1 + (m-1)\,\rho}

「要するに」:信頼性 ρ\rho のテストを mm 倍の長さにすると信頼性は単調に上がる(mm\to\infty で1に近づく)。項目を増やせば誤差が平均化されて相対的に小さくなるから。裏を返せば、αが高いのは「項目が良い」からとは限らず「項目が多い」だけかもしれない——αを信頼性指標として使うときの最大の注意点。

3.5 項目情報量 a2P(1P)a^2 P(1-P) の導出(フィッシャー情報量との一致)

2.3節の項目情報量 Ij(θ)=aj2Pj(1Pj)I_j(\theta) = a_j^2 P_j(1-P_j) が、なぜこの形になるかをフィッシャー情報量から導きます。項目 jj への反応 uj{0,1}u_j \in \{0,1\} はベルヌーイ分布 Pj(θ)uj(1Pj(θ))1ujP_j(\theta)^{u_j}(1-P_j(\theta))^{1-u_j} に従い、その対数尤度は

j(θ)=ujlogPj+(1uj)log(1Pj)\ell_j(\theta) = u_j \log P_j + (1-u_j)\log(1-P_j)

フィッシャー情報量は(1パラメータの場合)Ij(θ)=E ⁣[2jθ2]I_j(\theta) = -E\!\left[\dfrac{\partial^2 \ell_j}{\partial\theta^2}\right] で、これはスコア関数の分散にも等しい。スコアを計算すると(Pj=dPj/dθP_j' = dP_j/d\theta

jθ=ujPjPj1uj1PjPj=(ujPj)PjPj(1Pj)\frac{\partial \ell_j}{\partial\theta} = \frac{u_j}{P_j}P_j' - \frac{1-u_j}{1-P_j}P_j' = \frac{(u_j - P_j)\,P_j'}{P_j(1-P_j)}

第1ステップの「要するに」:スコアは「観測 uju_j と予測 PjP_j のズレ (ujPj)(u_j - P_j) に、ICCの傾き PjP_j' を掛けて分散で正規化したもの」。uju_j はベルヌーイなので V[uj]=Pj(1Pj)V[u_j] = P_j(1-P_j)E[ujPj]=0E[u_j-P_j]=0。よってスコアの分散=フィッシャー情報量は

Ij(θ)=V ⁣[(ujPj)PjPj(1Pj)]=(Pj)2(Pj(1Pj))2V[uj]=(Pj)2(Pj(1Pj))2Pj(1Pj)=(Pj)2Pj(1Pj)I_j(\theta) = V\!\left[\frac{(u_j-P_j)P_j'}{P_j(1-P_j)}\right] = \frac{(P_j')^2}{\big(P_j(1-P_j)\big)^2}\cdot V[u_j] = \frac{(P_j')^2}{\big(P_j(1-P_j)\big)^2}\cdot P_j(1-P_j) = \frac{(P_j')^2}{P_j(1-P_j)}

第2ステップの「要するに」:一般のICCで項目情報量は Ij(θ)=(Pj)2Pj(1Pj)I_j(\theta) = \dfrac{(P_j')^2}{P_j(1-P_j)}。「ICCの傾きの2乗を P(1P)P(1-P) で割ったもの」で、これは2PLに限らず成り立つ一般形。

ここで2PLの場合、ロジスティック関数の微分は Pj=ajPj(1Pj)P_j' = a_j\,P_j(1-P_j)(ロジスティックの性質)。これを代入すると

Ij(θ)=(ajPj(1Pj))2Pj(1Pj)=aj2Pj(1Pj)(Pj(1Pj))1Pj(1Pj)=aj2Pj(θ)(1Pj(θ))I_j(\theta) = \frac{\big(a_j P_j(1-P_j)\big)^2}{P_j(1-P_j)} = a_j^2\,P_j(1-P_j)\,\big(P_j(1-P_j)\big) \cdot \frac{1}{P_j(1-P_j)} = a_j^2\,P_j(\theta)\big(1-P_j(\theta)\big)

第3ステップの「要するに」:2PLでは傾き Pj=ajPj(1Pj)P_j' = a_j P_j(1-P_j) なので、一般形に代入すると a2P(1P)a^2 P(1-P) にきれいに収まる。識別力 aa の2乗が前に出るのは傾きが aa に比例するから(情報は傾きの2乗で効く=フィッシャー情報の本質)。P(1P)P(1-P) が残るのはベルヌーイ反応の分散構造から。P=0.5P=0.5θ=b\theta=b)で P(1P)P(1-P) が最大になるので、項目はその困難度付近で最大の情報を与える。

最後に、最尤推定量の漸近分散はフィッシャー情報量の逆数(クラメール・ラオの下限)なので、テスト情報量 I(θ)=jIj(θ)I(\theta)=\sum_j I_j(\theta) から

V[θ^]1I(θ)SE(θ^)=1I(θ)V[\hat\theta] \approx \frac{1}{I(\theta)} \quad\Longrightarrow\quad \mathrm{SE}(\hat\theta) = \frac{1}{\sqrt{I(\theta)}}

第4ステップの「要するに」:標準誤差が 1/I(θ)1/\sqrt{I(\theta)} になるのは、最尤推定量の分散がフィッシャー情報量の逆数になるという一般原理(クラメール・ラオ)の直接の帰結。情報量が能力ごとに違うから、測定精度も能力ごとに違う。


4. 試験での問われ方(1級)

1級(統計応用・人文科学)でのテスト理論の出題は、次の3系統が中心です。

(a) ICCパラメータ a・b・c の読み取り。 与えられたICCのグラフや式から、困難度 bb(50%正答=1PL/2PLの位置)・識別力 aa(傾き)・当て推量 cc(下漸近線)を読み取る/比較する問題。「2つの項目のICCが交差している、どちらが難しいか・識別力が高いか」「cc が大きい項目は何を意味するか」といった形。bb は左右位置、aa は急峻さ、cc は下げ止まりの対応を即答できることが要。3PLでは bb が50%正答位置ではない点(P(b)=(1+c)/2P(b)=(1+c)/2)も狙われる。

(b) 情報量と測定精度の関係。 「項目情報量が最大になる能力は?」(→ θ=bj\theta=b_j、すなわち P=0.5P=0.5 の位置)、「識別力 aa を上げると情報量はどうなるか」(→ a2a^2 で効くので急増)、「テスト情報量が高い能力帯では SE(θ)\mathrm{SE}(\theta) はどうか」(→ 1/I1/\sqrt{I} で小さい=精密)といった、Ij=a2P(1P)I_j=a^2P(1-P)I=IjI=\sum I_jSE=1/I\mathrm{SE}=1/\sqrt{I} の三式を結びつける問題。「特定の能力帯を精密に測るにはどんな項目を集めるか」というテスト設計の視点も問われる。

(c) CTTとIRTの対比。 「CTTの通過率はなぜ集団依存か」「IRTの不変性とは何か」「αは信頼性の何にあたるか(下限)」「能力と項目を同一尺度に乗せられるのはどちらか」といった、両理論の本質的差異を問う概念問題。特に標本依存(CTT)vs 不変性(IRT)は最頻出。クロンバックαが本質的タウ等価測定の下で信頼性に一致し、一般には下限であること、項目数を増やすだけで上がることの2点は誤解されやすく狙われやすい。


5. 引っかけ・頻出論点


よくある疑問(Q&A)

Q1. CTTとIRT、結局どちらが優れているのですか? IRTがあればCTTは不要?

優劣ではなく目的とデータ量で使い分けます。IRTは項目パラメータの不変性という強力な利点を持ち、項目バンク・テスト等化・適応型テスト(CAT)といった高度な運用を可能にしますが、パラメータ推定に多数の受験者(2PLで数百人、3PLでさらに多く)が必要で、モデルが当てはまることの確認も要ります。小規模な尺度開発や、手早く内的整合性を確認したい場面ではCTT(クロンバックα)で十分です。実務では「まずCTTで尺度の素性を見て、大規模運用ならIRTへ」という流れが一般的で、両者は補完関係にあります。

Q2. 困難度 bb と通過率(正答割合)はどう違うのですか? どちらも難しさの指標では?

両方とも「難しさ」を表しますが、集団依存性が決定的に違います。通過率(CTT)は「ある集団でその項目に正答した割合」なので、能力の高い集団なら高く、低い集団なら低く出ます——同じ項目でも集団で値が変わる。困難度 bb(IRT)は「正答率50%になる能力 θ\theta の値」で、ICCそのものから決まり、どんな集団で推定しても理論上同じ値になります(不変性)。さらに bb は能力 θ\theta と同じ軸上の値なので「能力 θ=1.0\theta=1.0 の人にとって b=1.0b=1.0 の項目はちょうど五分五分」と能力と直接比較できます。通過率にはこの比較可能性がありません。

Q3. 項目情報量の式に出てくる P(1P)P(1-P) は何を意味しているのですか?

P(1P)P(1-P) はベルヌーイ反応(正答/誤答)の分散そのものです。P=0.5P=0.5 のとき最大(0.250.25)、PP が0や1に近いとほぼ0になります。直観的には、正答確率が五分五分の項目が、その人の能力について最も情報を与えるということ。簡単すぎて誰でも解ける項目(P1P\approx1)や、難しすぎて誰も解けない項目(P0P\approx0)は、正誤を見ても能力の区別がつかない(皆同じ結果)ので情報が乏しい。P=0.5P=0.5 は「解けるか解けないかが能力に最も敏感に反応する」点で、ここで情報が最大になります。これに識別力 a2a^2(傾きの効き)が掛かって Ij=a2P(1P)I_j=a^2P(1-P) になります。

Q4. なぜ識別力 aa は2乗で情報量に効くのですか? 1乗ではダメ?

フィッシャー情報量がスコア(対数尤度の傾き)の分散だからです(3.5節)。情報量は「ICCの傾き PP' の2乗を P(1P)P(1-P) で割った」一般形 (P)2/[P(1P)](P')^2/[P(1-P)] を持ち、2PLでは傾き P=aP(1P)P'=aP(1-P)aa に比例するので、傾きの2乗を取ると a2a^2 が出てきます。本質は「推定精度は曲線の傾きの2乗で決まる」——傾きが急なほど、能力のわずかな違いが正答確率の大きな違いに変換され、観測(正誤)から能力を精密に逆算できる。傾きが2倍なら情報は4倍(222^2)になる、というのがフィッシャー情報量の一般的性質で、IRTの a2a^2 もその現れです。

Q5. クロンバックαが「項目を増やすだけで上がる」なら、信頼性の指標として使う意味があるのですか?

意味はありますが、αだけで質を判断しないのが正しい使い方です。αが上がる要因は2つ——(1)項目同士が同じ概念をよく測る(内的整合性が高い=望ましい)、(2)単に項目数が多い(スピアマン・ブラウン)。同じ項目数で比べればαは内的整合性を反映する有用な指標ですが、項目数が違うテスト間でαを比べたり、「α=0.9 だから良い尺度」と項目数を無視して断じるのは誤りです。項目を10問から30問に増やせば、たとえ追加項目の質が並でもαは上がります。だから「αが0.7を超えた」ことよりも「少ない項目数でも高いα」や「項目間相関の分布」を見るべきで、αは複数ある信頼性証拠の一つとして相対的に扱います。


まとめ


関連ノート