← 統計検定テキスト 一覧

📊 対象級:4級 ・ 3級 | 重要度:A(頻出)

度数分布表とヒストグラム ── 階級・相対度数・累積度数とスタージェスの公式

要点(BLUF)

対象級について:4級〜3級が中心です。4級では「ヒストグラムから何が読み取れるか」「分布の形の違い」が問われます。3級では一歩進んで「度数分布表を自分で作る」「相対度数・累積度数を計算する」「適切な階級の取り方」が問われます。相対度数・累積度数の考え方は2級(確率分布の累積分布関数)にもつながる土台なので、後半でその接続も示します。前トピック 統計グラフの読み方(棒・折れ線・円・帯)と誤解を招くグラフ では「棒グラフとヒストグラムは別物」とだけ予告しました。ここでその”別物”の中身、つまり量的データを階級に区切って分布の形を見るという記述統計の根幹を固めます。

結論:度数分布表は「区間ごとに数を数えた表」、ヒストグラムはそれを「隙間なしの柱」で描いた図

最初に結論です。連続的な数値データ(身長・点数・売上など)は、一つひとつの値をそのまま眺めても全体像がつかめません。そこで値の範囲(階級)に区切って、各範囲に何個入るか(度数)を数えた表が度数分布表、それを柱の高さで表した図がヒストグラムです。

用語意味一言でいうと
階級(かいきゅう)データを区切る区間(例:150以上160未満cm)「箱」
階級幅1つの階級の幅(上の例なら10cm)「箱の大きさ」
階級値階級を代表する値=階級の真ん中「箱の代表選手」
度数(どすう)各階級に入ったデータの個数「箱の中身の数」
相対度数度数 ÷ 全データ数(=その階級が占める割合)「全体に対する割合」
累積度数その階級までの度数を下から足し上げた合計「ここまでで何個」
累積相対度数その階級までの相対度数の合計(最後は必ず1「ここまでで何割」

そして最大の注意点を先に言います。ヒストグラムは棒グラフではありません。 見た目はそっくりですが、横軸の意味も棒の隙間も別物です。ここを混同すると4級でも3級でも失点します。本記事はこの2つの違いを軸に進めます。

度数分布表をつくる ── 5つのステップ

身長や点数のような量的データが手元にあるとして、度数分布表を作る手順は決まっています。「いきなり表を埋める」のではなく、範囲を決める → 区切る → 数える → 割合を出すの順です。

flowchart TD
    A["生データを集める"] --> B["最大値と最小値を見る<br/>(範囲を把握)"]
    B --> C["階級数・階級幅を決める"]
    C --> D["各階級に度数を数える"]
    D --> E["相対度数・累積度数を計算"]
    E --> F["度数分布表の完成"]

↑ 度数分布表づくりの流れ。山場は「階級をどう区切るか(ステップC)」と「数えて割合に直す(D〜E)」の2か所です。

ステップ1:データの範囲(レンジ)をつかむ

まず最大値と最小値を見ます。この差を**範囲(レンジ, range)**と呼びます。

範囲=最大値最小値\text{範囲} = \text{最大値} - \text{最小値}

要するに「データが端から端まで、どれだけ広がっているか」です。この幅をいくつの箱に分けるかを次で決めます。

ステップ2:階級数を決める(スタージェスの公式)

箱をいくつ用意するか(=階級数 kk)の目安が、有名な**スタージェスの公式(Sturges’ rule)**です。

k=1+log2nk = 1 + \log_2 n

ここで nn はデータの個数です。これは要するに「データが2倍になるごとに、箱を1個増やせばよい」という目安です(log2\log_2 がそれを表しています)。なぜこの式になるのかは後半の「数式の直観」で導出します。

具体的な値の早見表はこうなります。

データ数 nnlog2n\log_2 n階級数 k=1+log2nk = 1+\log_2 n
1645
3256
6467
12878
25689
512910

log2n\log_2 n が整数にならないときは四捨五入します(例:n=100n=100 なら log21006.6\log_2 100 \approx 6.6k7.68k \approx 7.6 \to 8 階級)。

⚠️ スタージェスの公式はあくまで目安です。「これが唯一の正解」ではありません。実務でも試験でも、問題文で階級幅が指定されることが多いです。公式を暗記するより「データが多いほど階級を増やす」という方向感を押さえてください。

ステップ3:階級幅を決める

階級数 kk が決まれば、階級幅の目安は範囲を kk で割ったものです。

階級幅範囲k=最大値最小値k\text{階級幅} \approx \frac{\text{範囲}}{k} = \frac{\text{最大値} - \text{最小値}}{k}

要するに「データの広がりを、箱の数で等分する」だけです。実際にはキリのいい数(5刻み・10刻みなど)に丸めて使います。

ステップ4:度数を数える

各階級に入るデータの個数を数えます。ここで区間の境界の扱いが問題になります。慣習として「○以上△未満」(左を含み右を含まない)で区切ります。たとえば「150以上160未満」と「160以上170未満」なら、ちょうど160の人は**後者(160以上170未満)**に入れます。

⚠️ この「以上・未満」の境界処理は試験で狙われます。150cmの人を「140以上150未満」に入れるか「150以上160未満」に入れるかで度数が変わります。ふつうは下の階級が”未満”で切れ、上の階級が”以上”で始まると覚えてください。

ステップ5:相対度数・累積度数・累積相対度数を計算する

度数が出たら、割合と累積を計算します。

検算ポイントは2つ。相対度数の合計は必ず 1(=100%)、累積相対度数の最後の階級も必ず 1になります。ここがズレていたら計算ミスです。

具体例:営業30人の売上で度数分布表を作る

営業担当30人の月間売上(万円)を、85〜200万円の範囲で5つの階級に区切った例です(範囲115を約23幅で5分割)。実際の数値で各列がどうつながるかを見てください。

階級(万円)階級値度数相対度数累積度数累積相対度数
85以上 108未満96.550.16750.167
108以上 131未満119.580.267130.433
131以上 154未満142.580.267210.700
154以上 177未満165.550.167260.867
177以上 200未満188.540.133301.000
合計301.000

読み取りの練習をしましょう。

累積相対度数の最後が 1.000 になっていることを必ず確認してください。これが「全データを漏れなく数えた」という検算になります。

ヒストグラム ── 度数分布表を「隙間なしの柱」で描く

度数分布表を図にしたものがヒストグラムです。横軸に階級(数値の区間)、縦軸に度数を取り、各階級の度数を柱の高さで表します。先ほどの30人の売上なら、「131以上154未満」の柱が一番高く(度数8)、両端に向かって低くなる山型になります。

ここからが核心です。ヒストグラムと棒グラフは見た目が似ていますが、まったくの別物です。最頻出の混同ポイントなので、表で徹底的に整理します。

観点ヒストグラム棒グラフ
横軸数値の区間(連続量・階級)カテゴリー(東京・大阪…)
扱うデータ量的データ(身長・点数)質的データ(名義・順序)
棒の間隙間なし(区間が連続するから)隙間あり(項目が独立だから)
横軸の並べ替え不可(数値順に固定)可(大小順に並べ替えてよい)
見るものデータの散らばり・分布の形項目間の量の大小比較

覚え方は単純です。「横軸が数値の区間で、棒に隙間がなければヒストグラム」「横軸がカテゴリーで、棒に隙間があれば棒グラフ」。この2点(横軸の中身・隙間の有無)だけで確実に見分けられます。

なぜ隙間をあけないのか。ヒストグラムの横軸は「150〜160〜170…」と切れ目なく連続しているからです。160という値はどこかの階級に必ず属します。区間がつながっている以上、柱もくっつけて描くのが自然なのです。一方、棒グラフの「東京」と「大阪」の間には何もありません(連続していない)。だから隙間をあけます。

発展(2級への接続):本記事の例のように階級幅がすべて等しければ「柱の高さ=度数」で問題ありません。しかし階級幅が不揃いのときは、高さを度数のままにすると幅の広い階級が不当に大きく見えてしまいます。そこで縦軸を**度数密度(=度数 ÷ 階級幅)**にし、柱の「面積」が度数(や相対度数)に比例するように描きます。これは2級以降で確率密度関数を学ぶときの「面積=確率」という考え方に直結します。3級までは等幅が基本なので深入り不要ですが、「ヒストグラムの本質は高さでなく面積」という一段深い理解として頭の隅に置いてください。

ヒストグラムの形 ── 形から何が読めるか

ヒストグラムを描く最大のメリットは、分布の「形」が一目でわかることです。試験(特に4級)では「このヒストグラムの形は次のどれか」「2つのヒストグラムを比べて何が言えるか」が問われます。代表的な4つの形を押さえましょう。

xychart-beta
    title "ヒストグラムの代表的な形(イメージ)"
    x-axis "階級(小 → 大)" [1, 2, 3, 4, 5, 6, 7]
    y-axis "度数" 0 --> 30
    bar [2, 8, 20, 28, 20, 8, 2]

↑ これは「左右対称・単峰型」のイメージ。中央が一番高く、左右になだらかに減る。平均・中央値・最頻値がほぼ一致する、最も基本的な形です。

特徴そこから読めること歪度の符号
左右対称・単峰型山が1つ、中央が最高で左右になだらか平均・中央値・最頻値がほぼ一致。正規分布的ほぼ 0
右に裾を引く型山がに寄り、に長く尾を引く一部に大きな値(外れ値)。例:年収・売上(プラス)
左に裾を引く型山がに寄り、に長く尾を引く一部に小さな値。例:満点が多いテスト(マイナス)
二峰型(ふた山)山(ピーク)が2つ異質な2集団が混ざっているサイン

ここで一番の引っかけは**「右に裾を引く」と「左に裾を引く」の向き**です。

「右に裾を引く」のに山はにある、というねじれが混乱の元です。“裾(尾)がどちらに伸びているか”でその名前と歪度の符号が決まる、と固定してください。「右に裾を引く=正の歪度=平均が中央値より大きい」という連鎖は2級でも頻出です(→ 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係) で平均と中央値の大小関係として再登場します)。

そして**二峰型(ふた山)**は実務で特に重要なサインです。たとえば「ある工場の製品寸法」が二峰型になっていたら、2台の機械の設定がズレているといった「混ざりもの」を疑います。1つの山に見えていたデータが、実は2つの集団だったと気づける ── これがヒストグラムの読解力です。

数式の直観的意味

スタージェスの公式 k=1+log2nk = 1 + \log_2 n はなぜこの形か(導出)

結論:データが正規分布(左右対称な山型)に近いと仮定し、その理想的な度数の並びを二項分布の度数で近似することから導かれる。

発想の核は「kk 個の階級の度数を、二項係数 (k1i)\binom{k-1}{i}i=0,1,,k1i=0,1,\dots,k-1)の並びで表す」こと。二項係数の列 (k10),(k11),,(k1k1)\binom{k-1}{0}, \binom{k-1}{1}, \dots, \binom{k-1}{k-1} は、中央が最大で両端が小さい左右対称の山型になり、正規分布のヒストグラムの理想形そのものになっている。Sturges はこの二項係数を「各階級に入るべき理想度数」と見なした。

このとき全データ数 nn は、各階級の理想度数(二項係数)を全部足し合わせたものに等しいはず:

n=i=0k1(k1i)n = \sum_{i=0}^{k-1} \binom{k-1}{i}

ここで二項定理 i=0m(mi)=2m\sum_{i=0}^{m}\binom{m}{i} = 2^{m}m=k1m=k-1)を使うと、右辺は 2k12^{k-1} になる:

n=2k1n = 2^{k-1}

要するに「kk 階級の理想度数を全部足すとちょうど 2k12^{k-1} になり、それが全データ数 nn に等しい」。あとはこれを kk について解くだけ。両辺の log2\log_2 を取ると:

log2n=k1k=1+log2n\log_2 n = k - 1 \quad\Longrightarrow\quad k = 1 + \log_2 n

これがスタージェスの公式。**直観的には「データが2倍になる(n2nn \to 2n)と 2k12^{k-1} の指数が1増える、つまり階級を1個増やせばよい」**という意味で、log2\log_2 がその「2倍ごとに+1」を表している。

導出が示す前提と限界:この式は「データが正規分布的な山型」かつ「n=2k1n=2^{k-1} がきれいに成り立つ」という理想化に依存する。log2n\log_2 nnn が大きくてもゆっくりしか増えない(n=10000n=10000 でも k14k\approx14)ので、大標本では階級が少なすぎる。だからあくまで目安。

階級値=区間の真ん中、を代表に使う近似の意味

階級「aa 以上 bb 未満」に入ったデータは本来 aabb のどこかにバラけているが、度数分布表には個々の値は残らない。そこで**「その階級のデータは全員、真ん中 (a+b)/2(a+b)/2 にいると見なす」**のが階級値。

なぜ真ん中か:階級内でデータがほぼ一様に散らばっていると仮定すれば、その平均的な位置(区間内の期待値)は中点になるから。これにより度数分布表だけから平均を概算できる:

xˉ1nj(階級値j)×(度数j)\bar{x} \approx \frac{1}{n}\sum_{j} (\text{階級値}_j) \times (\text{度数}_j)

ただし「真ん中に全員いる」は近似なので、元の生データから計算した平均とは微妙にズレる(→ 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係))。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q1. 棒グラフとヒストグラム、結局どこを見れば見分けられるの?

「横軸の中身」と「棒の隙間」の2点だけで確実です。

迷ったら「この横軸は連続した数値か?」と自問してください。連続量ならヒストグラム、バラバラのカテゴリーなら棒グラフです。意味の違いは「ヒストグラム=散らばりの形を見る」「棒グラフ=項目の大小を比べる」でした(→ 統計グラフの読み方(棒・折れ線・円・帯)と誤解を招くグラフ)。

Q2. 階級値はなぜ「区間の真ん中」なの?

その階級を1つの代表値で代表させるためです。「150以上160未満」に入った人は本当は150〜160のどこかにバラけていますが、いちいち個々の値は分布表に残りません。そこで「みんな真ん中(155)にいると見なす」と便宜的に決めるのが階級値です。

真ん中を選ぶのは、階級内でデータがだいたい一様に散らばっていると仮定すれば、平均的な位置が真ん中になるからです。この階級値を使えば、度数分布表だけから平均を概算できます(各階級値 × 度数 を全部足して nn で割る。詳しくは 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係))。ただしこれは近似で、元の生データから計算した平均とは微妙にズレます。

Q3. 累積度数・累積相対度数は何の役に立つの?

「○○以下(未満)が何個・何割か」を一発で読むためです。

たとえば「154万円未満の営業は何人?」と聞かれたとき、累積度数を見れば21人と即答できます。毎回度数を足し上げる必要がありません。「下から何割の位置か」を見れば、**中央値(50%の位置)やパーセンタイル(代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係))**の見当もつきます。

さらに2級では、この累積相対度数の考え方が**累積分布関数(CDF)**へと一般化されます。「ある値以下になる確率」を表す関数で、まさに累積相対度数の連続版です。3級で累積相対度数に慣れておくと、2級の確率分布がスムーズに入ります。

Q4. スタージェスの公式は絶対に使わなきゃダメ?大標本だと変な気がする。

いいえ、目安にすぎません。 むしろ大標本では階級が少なすぎるという欠点が知られています。

スタージェスの公式 k=1+log2nk = 1+\log_2 n は、後述するようにデータが正規分布に近い山型であることを前提に導かれています。log2n\log_2 nnn が大きくなってもゆっくりしか増えないので、たとえば n=10000n=10000 でも k1+13.3=14k \approx 1+13.3 = 14 程度。大きなデータに対しては階級数が少なすぎて、分布の細部がつぶれることがあります。

そのため実務では、より細かく刻むスコットの公式やフリードマン=ダイアコニスの公式なども使われます(これらは準1級以降の話で、3級では不要)。3級レベルでは「データが多いほど階級を増やす」という方向感だけ押さえ、具体的な階級は問題文の指定に従うのが正解です。なお、どの公式を使うかや出題範囲は改訂されうるので、受験前に公式の最新版で要確認です。

Q5. ヒストグラムの「右に裾を引く」と「左に裾を引く」、どっちがどっちか毎回わからなくなる。

“裾(しっぽ)が伸びている方向”が名前です。 これだけ固定すれば混乱しません。

混乱の原因は「右に裾なのに山は左」というねじれです。山の位置ではなく、尾の伸びる向きで名前が決まると覚えてください。「裾を引く方向=歪度の符号の向き=平均がズレる向き」が3点セットで連動します(代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係) で平均と中央値の大小として再確認します)。

まとめ

度数分布表とヒストグラムは、生のデータを「分布」として捉えるための最初の道具です。次は、この分布を1つの数値に要約する代表値(平均・中央値・最頻値)へ進みます(→ 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係))。「右に裾を引くと平均が中央値より大きくなる」という今回の伏線が、そこで本格的に回収されます。

対応するシミュレーション

階級幅を変えるとヒストグラムの印象が変わる

関連ノート