📊 対象級:4級 | 重要度:A(頻出)
データの種類と尺度水準(名義・順序・間隔・比率)
要点(BLUF)
- データは 質的(名義・順序)/量的(間隔・比率) に分かれ、4つの尺度水準 名義 ⊂ 順序 ⊂ 間隔 ⊂ 比率 を成す(下位ほど許される計算が多い)。
- 尺度水準が「許される演算・使える代表値・適切な可視化」を決める。名義=最頻値のみ、順序=+中央値、間隔・比率=+算術平均。
- 4尺度を分ける決め手は 「順序の有無」と「ゼロ点が絶対原点(0=無)か便宜的か」。摂氏(間隔)とケルビン(比率)の差はゼロ点の意味だけ。
対象級について:4級が中心ですが、ここで学ぶ「尺度水準」の考え方は3級・2級でも形を変えて問われ続けます(記事後半で「3級・2級ではどう問われるか」を示します)。統計を学ぶ一番最初の土台になる話なので、ここを曖昧にすると後の代表値・相関・回帰すべてがぐらつきます。
結論:データには「種類」があり、種類ごとに「やっていい計算」が決まっている
最初に結論をまとめます。
- データは大きく 質的データ と 量的データ の2つに分かれます。
- さらに細かく 名義・順序・間隔・比率 の4つの「尺度水準(しゃくどすいじゅん)」に分類できます。
- 尺度水準が決まると、そのデータに対して「許される計算」「使える代表値」「適切なグラフ」が自動的に決まります。
この3つ目がこのトピックの核心です。たとえば「背番号(名義尺度)の平均」を計算しても意味がありません。逆に「身長(比率尺度)」なら平均も比率も自由に計算できます。何ができて何ができないかは、データの尺度水準が決める ── これが分かれば、このトピックの8割は終わりです。
質的データと量的データ
まず一番おおまかな2分類です。
| 区分 | 意味 | 例 |
|---|---|---|
| 質的データ(カテゴリデータ) | 種類・区別を表す。数量ではない | 性別、血液型、好きな色、アンケートの「はい/いいえ」 |
| 量的データ(数量データ) | 数量・大きさを表す。足し引きなどの計算ができる | 身長、体重、テストの点数、気温、人数 |
見分け方のコツは「その値を足したり引いたりして意味があるか?」です。
- 血液型のA型とB型を「足す」ことに意味はない → 質的データ
- 身長150cmと160cmを比べて「10cm差」と言えば意味がある → 量的データ
量的データはさらに「離散」と「連続」に分かれる
量的データは、もう一段細かく分けられます。これも4級で問われます。
- 離散変数:とびとびの値しか取らない。数えられるもの。例:人数(3人と4人の間に3.5人はいない)、サイコロの目
- 連続変数:切れ目なく連続した値を取る。測るもの。例:身長、体重、時間(150.0cmと151.0cmの間に150.5cmが存在しうる)
ざっくり「数えるものが離散、測るものが連続」と覚えると外しません。
4つの尺度水準(スティーブンスの分類)
ここが本題です。質的・量的をさらに細かくした4分類で、心理学者スティーブンス(S. S. Stevens)が1946年に提案したものが標準になっています。
下にいくほど「情報量が多く」「許される計算が増えて」いきます。
① 名義尺度(nominal scale)
ただの区別・名前としての数字。大小も順序も意味がない。
- 例:背番号、電話番号、郵便番号、血液型、性別、バスの系統番号
- 背番号10番が5番の「2倍すごい」わけではないし、「10 > 5」と比べる意味もありません。番号は単なるラベルです。
- できる計算:同じか違うか(=, ≠)の判定、度数(個数)を数えることだけ
- 使える代表値:最頻値(モード)だけ
② 順序尺度(ordinal scale)
順序・大小には意味があるが、間隔(差)には意味がない。
- 例:成績の順位(1位・2位・3位)、震度、アンケートの5段階評価(不満・やや不満・普通・やや満足・満足)、モース硬度
- 1位と2位の「差」と、2位と3位の「差」が等しいとは限りません。1位がダントツで、2位3位が僅差ということは普通に起こります。
- だから 足し算・引き算に意味がありません。「1位+2位=3位」は成り立たない。
- できる計算:大小比較(<, >)まで
- 使える代表値:最頻値、中央値(順序が決まるので「真ん中」が定義できる)
③ 間隔尺度(interval scale)
差(間隔)には意味があるが、比率には意味がない。ゼロ点が「便宜的」で、絶対的な原点ではない。
- 例:摂氏温度(℃)、西暦、テストの点数、時刻
- 20℃と30℃の差「10℃」は、10℃と20℃の差「10℃」と等しい。だから 足し算・引き算ができる。
- しかし 「30℃は20℃の1.5倍暑い」とは言えません。なぜなら摂氏の0℃は「水が凍る基準点」を便宜的に0としただけで、「温度がゼロ(何もない)」を意味しないからです。原点が便宜的なので、比(割り算)が意味を持ちません。
- できる計算:足し算・引き算まで(差は意味がある)
- 使える代表値:最頻値、中央値、算術平均、そして標準偏差も使える
④ 比率尺度(比例尺度, ratio scale)
差にも比率にも意味がある。ゼロ点が「絶対原点(0=無)」を意味する。すべての計算ができる。
- 例:身長、体重、年齢、時間(長さ)、金額、速度、絶対温度(K)
- 身長0cmは「長さが存在しない」を意味する絶対原点です。だから 「180cmは90cmの2倍」と比率で言えます。
- できる計算:四則すべて(足し引き掛け割り、すべて意味を持つ)
- 使える代表値:最頻値、中央値、算術平均、幾何平均、変動係数なども使える
4尺度の包含関係(上位は下位を含む)
4つの尺度は 「名義 ⊂ 順序 ⊂ 間隔 ⊂ 比率」 という入れ子(包含)の関係にあります。上位の尺度は、下位の尺度でできることを全部できます。たとえば比率尺度のデータは、順序として扱うことも(中央値を出すことも)名義として扱うこと(カテゴリ分けすること)もできます。逆はできません。
flowchart LR
N["① 名義<br/>区別だけ<br/>(質的)"] -->|+大小| O["② 順序<br/>+順位<br/>(質的)"]
O -->|+差| I["③ 間隔<br/>+足し引き<br/>(量的)"]
I -->|+比| R["④ 比率<br/>+割り算・絶対原点<br/>(量的)"]
↑ 左から右へ、一段進むごとに「できる計算」が一つ増える(区別→大小→差→比)。名義・順序=質的、間隔・比率=量的。
要するに、右へ行くほど「数字が持つ情報」が増え、できる計算が増えていきます。
厳密な定義:許容変換群(変換に対する不変性で尺度を定義する)
上の4分類は直観的ですが、尺度水準は本来「どんな変換を許しても情報が保たれるか(許容変換群)」で厳密に定義されます。これがStevens分類の数学的な根拠です(準1級的な理解として押さえておくと、代表値・相関係数の選択の根拠が腑に落ちます)。
- 名義:1対1の置換 (全単射)まで許す。ラベルの貼り替えだけ。, は単射。
- 順序:単調増加変換 まで許す。順序を保てば中身は自由。。
- 間隔:正の1次変換 まで許す。 が単位、 が原点のずれ。摂氏↔華氏 がまさにこの形。
- 比率:原点固定の相似変換 のみ許す()。単位換算(m↔cm)はできるが原点はずらせない。
要するに:許せる変換が「狭い」ほど上位の尺度。間隔尺度が原点 をずらせる()=原点が便宜的=比率に意味がない。比率尺度は 固定=絶対原点を持つ=比率に意味がある。
尺度ごとの「許される演算・代表値・可視化」早見表
このトピックで最も大事な表です。ここだけ覚えれば実戦で困りません。
| 名義尺度 | 順序尺度 | 間隔尺度 | 比率尺度 | |
|---|---|---|---|---|
| 質的/量的 | 質的 | 質的 | 量的 | 量的 |
| 区別(=, ≠) | ◯ | ◯ | ◯ | ◯ |
| 大小(<, >) | × | ◯ | ◯ | ◯ |
| 差(+, −) | × | × | ◯ | ◯ |
| 比(×, ÷) | × | × | × | ◯ |
| 最頻値 | ◯ | ◯ | ◯ | ◯ |
| 中央値 | × | ◯ | ◯ | ◯ |
| 算術平均 | × | ×(注) | ◯ | ◯ |
| 標準偏差 | × | × | ◯ | ◯ |
| 絶対原点(0=無) | — | — | なし | あり |
| 適した可視化 | 棒グラフ・円グラフ | 棒グラフ(順序を保つ) | ヒストグラム・折れ線 | ヒストグラム・折れ線・散布図 |
(注)順序尺度の算術平均は理論上は不可です。ただし実務では条件つきで近似的に使われます(後述の「よくある疑問」を参照)。
具体例で総ざらい
身近なデータを尺度に振り分けてみます。試験で問われるのはまさにこの「振り分け」です。
| データ | 尺度水準 | 理由 |
|---|---|---|
| 電話番号 | 名義 | ただの識別ラベル。大小に意味なし |
| 都道府県名 | 名義 | カテゴリ。順序なし |
| 震度(5弱・5強・6弱…) | 順序 | 大小はあるが「6は3の2倍」は不成立 |
| アンケートの満足度5段階 | 順序 | 順序はあるが間隔が等しい保証なし |
| マラソンの着順 | 順序 | 1位2位3位の差は等間隔でない |
| 西暦(2026年) | 間隔 | 差は意味あり(年数)。だが「0年」は基準で絶対原点でない |
| 摂氏温度(℃) | 間隔 | 差は意味あり。0℃は基準点で「無」でない |
| テストの点数 | 間隔 | 0点は「学力ゼロ」でなく基準点。比率は言いにくい |
| 身長・体重 | 比率 | 0は「無」。180は90の2倍と言える |
| 年齢 | 比率 | 0歳は誕生時点(絶対原点)。20歳は10歳の2倍 |
| 金額・速度 | 比率 | 0円・0km/hは「無」。比率に意味あり |
| 絶対温度(K) | 比率 | 0K=絶対零度=「分子運動がゼロ」=絶対原点 |
ここで一番ハッとしてほしいのが 「摂氏温度は間隔尺度、絶対温度(ケルビン)は比率尺度」 という対比です。同じ温度なのに尺度が違う。理由はただ一点、0の意味が違う から。0℃は「水が凍る基準点」(便宜的)、0Kは「分子運動が完全に止まる絶対的なゼロ」。だから摂氏では「2倍暑い」と言えず、ケルビンでは言える。尺度水準を分けているのは結局「ゼロ点が絶対原点か便宜的か」だ という感覚を、この例でつかんでください。
3級・2級ではどう問われるか(級が上がると深くなる)
このトピックは4級が中心ですが、同じ概念が上の級で「より実戦的に」問われます。4級では「分類できるか」、3級・2級では「分類を踏まえて正しい手法を選べるか」が問われる、というのが級差の本質です。
| 級 | このトピックで問われること | 具体例 |
|---|---|---|
| 4級 | このデータは何尺度か(質的/量的・離散/連続)を分類できる | 「気温は何尺度か」を判定 |
| 3級 | 尺度に応じた代表値・グラフを選べる | 質的データに算術平均を当てない |
| 2級 | 尺度に応じた分析手法・相関係数を選べる | 順序尺度には順位相関(スピアマン) |
3級での問われ方:代表値・グラフの選択
3級になると「このデータにふさわしい代表値はどれか」「このグラフは適切か」が問われます。たとえば:
- 質的データ(名義尺度)に算術平均を当てはめている選択肢を「誤り」と見抜く 問題。血液型の「平均」は無意味、と判断できるか。
- 外れ値があるデータで「平均より中央値が代表値として適切」と判断できるか(これは尺度というより分布の話ですが、代表値選択の文脈で一緒に問われます)。
2級での問われ方:相関係数・手法の選択
2級では尺度水準が 相関係数の選択 に直結します。これは頻出かつ間違えやすい論点です。
| データの尺度 | 使う相関係数 |
|---|---|
| 2つとも間隔・比率尺度(量的) | ピアソンの積率相関係数 |
| 2つとも順序尺度(順位データ) | スピアマンの順位相関係数、ケンドールの順位相関係数 |
| 名義尺度どうしの関連 | クラメールの連関係数 など(相関係数ではなく連関の指標) |
つまり 「順序尺度のデータにピアソンの相関係数を機械的に当てはめてはいけない(順位相関を使う)」 という判断が2級レベルで効いてきます。4級で「順序尺度は差に意味がない」と理解しておくと、2級の「だから差を前提とするピアソンではなく順位ベースのスピアマンを使う」という話に自然につながります。下の級の理解が上の級の土台になる、その典型がこのトピックです。
数式の直観的意味
「許容変換群」が尺度水準の正体であることの直観:
- 尺度水準とは「データの数値表現のうち、どこまでが本質的な情報で、どこからが恣意的な約束事か」を切り分ける枠組み。
- 名義尺度の数字(男=1, 女=2)は 置換で自由に貼り替えられる → 数字そのものに情報はゼロ。だから平均 は無意味。
- 間隔尺度で平均が許されるのは、平均が1次変換 に対して「整合的に」変換されるから:標本平均を とすると、 のとき 。つまり平均は1次変換と可換で、原点・単位を変えても代表値としての意味が壊れない。
- 一方 比(割り算)は の で壊れる:( なら不変でない)。だから間隔尺度で比率は無意味。比率尺度()でのみ と比が保たれ、初めて「◯倍」が言える。
この「ある統計量が、その尺度の許容変換に対して不変(意味を保つ)か」という視点が、尺度ごとに使える統計量が決まる根本理由。代表値選択・相関係数選択(上位級の論点)もすべてここに帰着する。
⚠️ 引っかけポイント・頻出論点
- 順序尺度の平均は理論上NG(中央値が正しい代表値)。実務ではリッカート尺度を間隔尺度とみなして平均する慣行があるが、これは近似であり議論が続く論点。試験では「順序尺度を平均している選択肢=誤り」が原則。
- 名義尺度の数値コードに大小を読むのは誤り。「1=男, 2=女」に平均・大小は無意味。数字が振られていても区別ラベルなら名義のまま。「数値コード=量的」ではない。
- テストの点数は間隔尺度(比率尺度ではない)。0点は「学力ゼロ」でなく便宜的なゼロ=絶対原点がない=「80点は40点の2倍」と言えない。最頻出の引っかけ。
- 西暦・時刻も間隔尺度(0年・0時は基準点であり絶対原点でない)。年齢・経過時間は比率尺度なので混同注意。
- 包含関係は一方向:比率→順序→名義へ「落とす」ことはできる(連続変数をカテゴリ化など)が、逆に上げることはできない。情報は下位に落とすと失われる。
- 質的/量的の境界=「足し引きに意味があるか」 の一本。間隔・比率なら量的、名義・順序なら質的。
よくある疑問
Q1. 順序尺度(5段階評価など)の平均を取ってはいけないの?実務ではよく見るけど。
理論上はNG、実務では条件つきで使われる、というのが正確な答えです。
順序尺度は「間隔が等しい保証がない」ので、足し算を前提とする平均は厳密には意味を持ちません。「満足=5、やや満足=4」と数字を振っても、5と4の差が4と3の差と等しい保証はどこにもないからです。
ただし実務(特にアンケート分析)では、5段階評価のようなリッカート尺度を 「間隔尺度とみなして」平均を計算する ことが広く行われています。「回答者は心理的にほぼ等間隔に受け取っているはず」という近似的な仮定を置いているわけです。これは便利な一方で、厳密には順序尺度を間隔尺度に格上げして扱う、根拠のある割り切り です。心理学・社会調査では今も議論が続いている論点です。
試験対策としては、「理論上、順序尺度の平均は意味を持たない(中央値を使うのが正しい)」が原則 と覚えてください。「順序尺度のデータに平均を使っている選択肢」は、原則として誤りの選択肢として作られます。
Q2. テストの点数は比率尺度では?0点があるし、80点は40点の2倍に見えるけど。
これはこのトピックで 最も引っかかる論点 です。テストの点数は 間隔尺度 に分類するのが標準です。
理由は「0点の意味」にあります。0点は「学力が完全に存在しない(無)」を意味しません。たまたまそのテストで正解がゼロだっただけで、別の(やさしい)テストなら点が取れるかもしれない。つまり 0点は絶対原点ではなく便宜的なゼロ です。絶対原点がないので比率に意味がなく、「80点は40点の2倍の学力」とは厳密には言えません。だから間隔尺度です。
(補足:これは「測定論的に何を測っているか」という解釈の問題で、文脈によっては比率尺度として扱う流儀もあります。ただし統計検定の標準的な理解としては「テストの点数=間隔尺度」「0点=便宜的なゼロ」を押さえておけば十分です。)
Q3. 名義尺度に数字(1=男, 2=女 のようなコード)を振ったら、量的データになる?
なりません。 これも頻出の誤解です。
「男=1、女=2」のように名義尺度にコード番号を振るのは、コンピュータで処理しやすくするための便宜にすぎません。その1や2に 大小の意味はなく、足し引きもできません。「(1+2)/2 = 1.5」を計算しても「男女の平均は1.5」という意味不明な結果になるだけです。
数字が振られていても、その数字が区別のためのラベルなら名義尺度のまま です。「数値コードがついている=量的データ」ではない、と肝に銘じてください。試験では「数値コード化された名義尺度データの平均を計算している」選択肢が誤りとして登場します。
Q4. 結局どこで「質的/量的」と「4尺度」の線が引かれるの?
対応はシンプルです。
- 質的データ = 名義尺度 + 順序尺度(区別や順序を表すが、数量ではない)
- 量的データ = 間隔尺度 + 比率尺度(差や比率という「数量」を扱える)
境界は 「足し算・引き算に意味があるか」 です。これがある(間隔・比率)なら量的、ないなら質的。この一本の線を引ければ、4尺度と質的・量的の対応で迷うことはなくなります。
まとめ
- データは 質的(名義・順序) と 量的(間隔・比率) に分かれ、合わせて4つの尺度水準になる。
- 尺度の階層は 名義 ⊂ 順序 ⊂ 間隔 ⊂ 比率。下にいくほど許される計算が増える(区別→大小→差→比率)。
- 使える代表値も尺度で決まる:名義=最頻値のみ、順序=+中央値、間隔・比率=+算術平均。
- 尺度を厳密に分けるのは許容変換群(名義=置換、順序=単調、間隔=、比率=)。「どの変換まで許しても意味が保たれるか」が尺度の正体。
- 4尺度を分ける決め手は2つ ──「順序があるか」「ゼロ点が絶対原点(0=無)か便宜的か」。摂氏(間隔)とケルビン(比率)の対比がその典型。
- 頻出の誤解は3つ:①順序尺度を平均する ②名義尺度の数値コードに大小を読む ③テスト点数を比率尺度と思い込む。いずれも「ゼロ点と間隔の意味」を問い直せば判定できる。
- 級が上がると問われ方が深くなる:4級=分類できる → 3級=代表値・グラフを選べる → 2級=相関係数・手法を選べる(順序尺度には順位相関)。
このトピックは統計のすべての出発点です。代表値・散らばり・相関・回帰── これから学ぶ手法は全部「どの尺度のデータに使えるか」がついて回ります。ここでの「尺度が計算を決める」という感覚が、後のすべての判断の土台になります。
対応するシミュレーション
- なし(
has_simulation: false)。本トピックは定義・分類が主で数値実験に馴染まないため作成しない。可視化は記事内のMermaid図(4尺度の包含関係)と早見表で担保。
関連ノート
- 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係)(代表値:平均・中央値・最頻値 ── 尺度ごとに使える代表値が決まる)
- 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか)(散らばり:分散・標準偏差・変動係数 ── 間隔/比率尺度で意味を持つ)
- 2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変(2変数の記述:散布図・相関係数 ── 2級でピアソン vs スピアマンの選択が尺度に依存。回帰はPhase5)
- 統計グラフの読み方(棒・折れ線・円・帯)と誤解を招くグラフ(データの可視化 ── 棒/円グラフ・ヒストグラム・散布図の尺度別使い分け)