← 統計検定テキスト 一覧

📊 対象級:4級 | 重要度:A(頻出)

データの種類と尺度水準(名義・順序・間隔・比率)

要点(BLUF)

対象級について:4級が中心ですが、ここで学ぶ「尺度水準」の考え方は3級・2級でも形を変えて問われ続けます(記事後半で「3級・2級ではどう問われるか」を示します)。統計を学ぶ一番最初の土台になる話なので、ここを曖昧にすると後の代表値・相関・回帰すべてがぐらつきます。

結論:データには「種類」があり、種類ごとに「やっていい計算」が決まっている

最初に結論をまとめます。

この3つ目がこのトピックの核心です。たとえば「背番号(名義尺度)の平均」を計算しても意味がありません。逆に「身長(比率尺度)」なら平均も比率も自由に計算できます。何ができて何ができないかは、データの尺度水準が決める ── これが分かれば、このトピックの8割は終わりです。

質的データと量的データ

まず一番おおまかな2分類です。

区分意味
質的データ(カテゴリデータ)種類・区別を表す。数量ではない性別、血液型、好きな色、アンケートの「はい/いいえ」
量的データ(数量データ)数量・大きさを表す。足し引きなどの計算ができる身長、体重、テストの点数、気温、人数

見分け方のコツは「その値を足したり引いたりして意味があるか?」です。

量的データはさらに「離散」と「連続」に分かれる

量的データは、もう一段細かく分けられます。これも4級で問われます。

ざっくり「数えるものが離散、測るものが連続」と覚えると外しません。

4つの尺度水準(スティーブンスの分類)

ここが本題です。質的・量的をさらに細かくした4分類で、心理学者スティーブンス(S. S. Stevens)が1946年に提案したものが標準になっています。

下にいくほど「情報量が多く」「許される計算が増えて」いきます。

① 名義尺度(nominal scale)

ただの区別・名前としての数字。大小も順序も意味がない。

② 順序尺度(ordinal scale)

順序・大小には意味があるが、間隔(差)には意味がない。

③ 間隔尺度(interval scale)

差(間隔)には意味があるが、比率には意味がない。ゼロ点が「便宜的」で、絶対的な原点ではない。

④ 比率尺度(比例尺度, ratio scale)

差にも比率にも意味がある。ゼロ点が「絶対原点(0=無)」を意味する。すべての計算ができる。

4尺度の包含関係(上位は下位を含む)

4つの尺度は 「名義 ⊂ 順序 ⊂ 間隔 ⊂ 比率」 という入れ子(包含)の関係にあります。上位の尺度は、下位の尺度でできることを全部できます。たとえば比率尺度のデータは、順序として扱うことも(中央値を出すことも)名義として扱うこと(カテゴリ分けすること)もできます。逆はできません。

flowchart LR
    N["① 名義<br/>区別だけ<br/>(質的)"] -->|+大小| O["② 順序<br/>+順位<br/>(質的)"]
    O -->|+差| I["③ 間隔<br/>+足し引き<br/>(量的)"]
    I -->|+比| R["④ 比率<br/>+割り算・絶対原点<br/>(量的)"]

↑ 左から右へ、一段進むごとに「できる計算」が一つ増える(区別→大小→差→比)。名義・順序=質的、間隔・比率=量的。

要するに、右へ行くほど「数字が持つ情報」が増え、できる計算が増えていきます。

厳密な定義:許容変換群(変換に対する不変性で尺度を定義する)

上の4分類は直観的ですが、尺度水準は本来「どんな変換を許しても情報が保たれるか(許容変換群)」で厳密に定義されます。これがStevens分類の数学的な根拠です(準1級的な理解として押さえておくと、代表値・相関係数の選択の根拠が腑に落ちます)。

要するに:許せる変換が「狭い」ほど上位の尺度。間隔尺度が原点 bb をずらせる(ax+bax+b)=原点が便宜的=比率に意味がない。比率尺度は b=0b=0 固定=絶対原点を持つ=比率に意味がある。

尺度ごとの「許される演算・代表値・可視化」早見表

このトピックで最も大事な表です。ここだけ覚えれば実戦で困りません。

名義尺度順序尺度間隔尺度比率尺度
質的/量的質的質的量的量的
区別(=, ≠)
大小(<, >)×
差(+, −)××
比(×, ÷)×××
最頻値
中央値×
算術平均××(注)
標準偏差××
絶対原点(0=無)なしあり
適した可視化棒グラフ・円グラフ棒グラフ(順序を保つ)ヒストグラム・折れ線ヒストグラム・折れ線・散布図

(注)順序尺度の算術平均は理論上は不可です。ただし実務では条件つきで近似的に使われます(後述の「よくある疑問」を参照)。

具体例で総ざらい

身近なデータを尺度に振り分けてみます。試験で問われるのはまさにこの「振り分け」です。

データ尺度水準理由
電話番号名義ただの識別ラベル。大小に意味なし
都道府県名名義カテゴリ。順序なし
震度(5弱・5強・6弱…)順序大小はあるが「6は3の2倍」は不成立
アンケートの満足度5段階順序順序はあるが間隔が等しい保証なし
マラソンの着順順序1位2位3位の差は等間隔でない
西暦(2026年)間隔差は意味あり(年数)。だが「0年」は基準で絶対原点でない
摂氏温度(℃)間隔差は意味あり。0℃は基準点で「無」でない
テストの点数間隔0点は「学力ゼロ」でなく基準点。比率は言いにくい
身長・体重比率0は「無」。180は90の2倍と言える
年齢比率0歳は誕生時点(絶対原点)。20歳は10歳の2倍
金額・速度比率0円・0km/hは「無」。比率に意味あり
絶対温度(K)比率0K=絶対零度=「分子運動がゼロ」=絶対原点

ここで一番ハッとしてほしいのが 「摂氏温度は間隔尺度、絶対温度(ケルビン)は比率尺度」 という対比です。同じ温度なのに尺度が違う。理由はただ一点、0の意味が違う から。0℃は「水が凍る基準点」(便宜的)、0Kは「分子運動が完全に止まる絶対的なゼロ」。だから摂氏では「2倍暑い」と言えず、ケルビンでは言える。尺度水準を分けているのは結局「ゼロ点が絶対原点か便宜的か」だ という感覚を、この例でつかんでください。

3級・2級ではどう問われるか(級が上がると深くなる)

このトピックは4級が中心ですが、同じ概念が上の級で「より実戦的に」問われます。4級では「分類できるか」、3級・2級では「分類を踏まえて正しい手法を選べるか」が問われる、というのが級差の本質です。

このトピックで問われること具体例
4級このデータは何尺度か(質的/量的・離散/連続)を分類できる「気温は何尺度か」を判定
3級尺度に応じた代表値・グラフを選べる質的データに算術平均を当てない
2級尺度に応じた分析手法・相関係数を選べる順序尺度には順位相関(スピアマン)

3級での問われ方:代表値・グラフの選択

3級になると「このデータにふさわしい代表値はどれか」「このグラフは適切か」が問われます。たとえば:

2級での問われ方:相関係数・手法の選択

2級では尺度水準が 相関係数の選択 に直結します。これは頻出かつ間違えやすい論点です。

データの尺度使う相関係数
2つとも間隔・比率尺度(量的)ピアソンの積率相関係数
2つとも順序尺度(順位データ)スピアマンの順位相関係数、ケンドールの順位相関係数
名義尺度どうしの関連クラメールの連関係数 など(相関係数ではなく連関の指標)

つまり 「順序尺度のデータにピアソンの相関係数を機械的に当てはめてはいけない(順位相関を使う)」 という判断が2級レベルで効いてきます。4級で「順序尺度は差に意味がない」と理解しておくと、2級の「だから差を前提とするピアソンではなく順位ベースのスピアマンを使う」という話に自然につながります。下の級の理解が上の級の土台になる、その典型がこのトピックです。

数式の直観的意味

「許容変換群」が尺度水準の正体であることの直観:

この「ある統計量が、その尺度の許容変換に対して不変(意味を保つ)か」という視点が、尺度ごとに使える統計量が決まる根本理由。代表値選択・相関係数選択(上位級の論点)もすべてここに帰着する。

⚠️ 引っかけポイント・頻出論点

よくある疑問

Q1. 順序尺度(5段階評価など)の平均を取ってはいけないの?実務ではよく見るけど。

理論上はNG、実務では条件つきで使われる、というのが正確な答えです。

順序尺度は「間隔が等しい保証がない」ので、足し算を前提とする平均は厳密には意味を持ちません。「満足=5、やや満足=4」と数字を振っても、5と4の差が4と3の差と等しい保証はどこにもないからです。

ただし実務(特にアンケート分析)では、5段階評価のようなリッカート尺度を 「間隔尺度とみなして」平均を計算する ことが広く行われています。「回答者は心理的にほぼ等間隔に受け取っているはず」という近似的な仮定を置いているわけです。これは便利な一方で、厳密には順序尺度を間隔尺度に格上げして扱う、根拠のある割り切り です。心理学・社会調査では今も議論が続いている論点です。

試験対策としては、「理論上、順序尺度の平均は意味を持たない(中央値を使うのが正しい)」が原則 と覚えてください。「順序尺度のデータに平均を使っている選択肢」は、原則として誤りの選択肢として作られます。

Q2. テストの点数は比率尺度では?0点があるし、80点は40点の2倍に見えるけど。

これはこのトピックで 最も引っかかる論点 です。テストの点数は 間隔尺度 に分類するのが標準です。

理由は「0点の意味」にあります。0点は「学力が完全に存在しない(無)」を意味しません。たまたまそのテストで正解がゼロだっただけで、別の(やさしい)テストなら点が取れるかもしれない。つまり 0点は絶対原点ではなく便宜的なゼロ です。絶対原点がないので比率に意味がなく、「80点は40点の2倍の学力」とは厳密には言えません。だから間隔尺度です。

(補足:これは「測定論的に何を測っているか」という解釈の問題で、文脈によっては比率尺度として扱う流儀もあります。ただし統計検定の標準的な理解としては「テストの点数=間隔尺度」「0点=便宜的なゼロ」を押さえておけば十分です。)

Q3. 名義尺度に数字(1=男, 2=女 のようなコード)を振ったら、量的データになる?

なりません。 これも頻出の誤解です。

「男=1、女=2」のように名義尺度にコード番号を振るのは、コンピュータで処理しやすくするための便宜にすぎません。その1や2に 大小の意味はなく、足し引きもできません。「(1+2)/2 = 1.5」を計算しても「男女の平均は1.5」という意味不明な結果になるだけです。

数字が振られていても、その数字が区別のためのラベルなら名義尺度のまま です。「数値コードがついている=量的データ」ではない、と肝に銘じてください。試験では「数値コード化された名義尺度データの平均を計算している」選択肢が誤りとして登場します。

Q4. 結局どこで「質的/量的」と「4尺度」の線が引かれるの?

対応はシンプルです。

境界は 「足し算・引き算に意味があるか」 です。これがある(間隔・比率)なら量的、ないなら質的。この一本の線を引ければ、4尺度と質的・量的の対応で迷うことはなくなります。

まとめ

このトピックは統計のすべての出発点です。代表値・散らばり・相関・回帰── これから学ぶ手法は全部「どの尺度のデータに使えるか」がついて回ります。ここでの「尺度が計算を決める」という感覚が、後のすべての判断の土台になります。

対応するシミュレーション

関連ノート