← 統計検定テキスト 一覧

📊 対象級:3級 ・ 2級 | 重要度:A(頻出)

散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか)

要点(BLUF)

対象級について:4級〜3級が中心です。4級では「範囲(レンジ)」とばらつきの考え方を扱います。3級では「四分位範囲・四分位偏差」「分散・標準偏差」「変動係数」が問われます。記事の途中で、2級につながる標本分散の n−1(不偏分散)の理由にも踏み込みます(ここは「なぜ n−1 なのか」を数式で納得したい人向けの山場です)。前トピック 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係) では「中心(代表値)が同じでも散らばり方が全然違うデータがある」と予告しました。ここでその散らばりを測る道具を一通りそろえます。

結論:中心が同じでもばらつきは別物。散らばりの指標は「順位ベース(外れ値に強い)」と「平均ベース(外れ値に弱い)」の2系統

最初に結論です。データを要約するには中心(代表値)だけでは足りません。平均が同じでも、ぎゅっと固まっているデータと、広くばらけているデータは「別物」だからです。そのばらけ具合を1つの数値にしたものが散らばり(ばらつき)の指標です。

主な指標は次の5つ。大きく**「順位ベース(外れ値に強い)」と「平均からの距離ベース(外れ値に弱い)」**の2系統に分かれます。

指標定義(求め方)単位外れ値への強さ主な級
範囲(レンジ)最大値 − 最小値元データと同じ弱い(両端しか見ない)4級
四分位範囲 IQR第3四分位数 Q3 − 第1四分位数 Q1元データと同じ強い(順位ベース)3級
四分位偏差IQR ÷ 2元データと同じ強い(順位ベース)3級
分散平均からのズレ(偏差)の2乗の平均元データの2乗弱い(2乗するので極端値に過敏)3級〜
標準偏差分散の平方根元データと同じ弱い(分散と同じ)3級〜
変動係数 CV標準偏差 ÷ 平均無次元(単位なし)弱い(分散ベース)3級

本記事の核心を先に3つ言っておきます。

  1. 分散はなぜ偏差を「2乗」するのか ── ただ足すと (xixˉ)=0\sum(x_i-\bar{x})=0 で消えてしまうから。2乗(または絶対値)で正にする。2乗を選ぶのは「微分しやすく・大きなズレを重く見て・正規分布や分散分解と整合する」ため。
  2. 標本分散はなぜ「n−1」で割るのか ── 偏差を測る基準が真の平均 μ\mu ではなく、手元データに最もフィットする標本平均 xˉ\bar{x} だから。xˉ\bar{x} で測ると偏差の2乗和が小さめに出る → n で割ると母分散を過小評価 → n−1 で割って補正する。
  3. 変動係数はなぜ単位が消えるのか ── 標準偏差 σ\sigma と平均 xˉ\bar{x} が同じ単位なので、比をとると単位が約分されて消える。だから単位や桁が違うデータ同士のばらつきを比べられる。

直感をつかむ日常例を1つ。2つのクラスの数学のテストを考えます。A組もB組も平均点は60点で同じ。でもA組は「みんな55〜65点」に固まっていて、B組は「30点と90点に真っ二つ」。平均だけ見ると2クラスは同じですが、中身はまったく違います。A組は全員が似た理解度、B組は「できる人とできない人に割れている」。この違いを数値で捉えるのが散らばりの指標です。「平均60点」だけでは、このクラスの実態は半分しか語れない ── これが散らばりを測る一番の理由です。

この「平均は同じでも散らばりが違う」様子を図にすると一目です。下の2つはどちらも**平均が同じ(中心の位置が同じ)**ですが、片方は幅が狭く(ばらつき小)、片方は幅が広い(ばらつき大)。

xychart-beta
    title "平均は同じ・散らばりが違う2つの分布(中心は同じでも別物)"
    x-axis "値(中心を50とする)" [20, 30, 40, 50, 60, 70, 80]
    y-axis "度数" 0 --> 40
    bar [1, 6, 22, 36, 22, 6, 1]
    bar [8, 14, 20, 24, 20, 14, 8]

↑ 1本目(細い山)はばらつきが小さく中心に集中、2本目(平たい山)はばらつきが大きく広がっている。山の頂点(中心)の位置は両方とも同じなのに分布の形はまるで違う。代表値だけでは捉えられないこの「広がりの差」を数値化するのが、これから扱う散らばりの指標です。

範囲(レンジ)── 一番単純だが外れ値に弱い

範囲(range, レンジ)は、データの最大値から最小値を引いたもの。一番単純なばらつきの指標です。

範囲=(最大値)(最小値)\text{範囲} = (\text{最大値}) - (\text{最小値})

要するに「データが端から端まで何ぶん広がっているか」です。計算は楽ですが、弱点があります。両端の2つの値しか使わないので、その片方が外れ値だと範囲が一気に大きくなります。

例:テストの点が {52,55,58,60,62,65}\{52, 55, 58, 60, 62, 65\} なら範囲は 6552=1365-52=13。ここに1人だけ 100100 点が混じると {52,,100}\{52, \dots, 100\} で範囲は 10052=48100-52=48たった1つの値で範囲が3倍以上に。中身(多くの人が52〜65に固まっている事実)は変わらないのに、範囲はそれを反映できません。だから範囲は「ばらつきのざっくりした目安」にはなりますが、外れ値があると当てになりません。

四分位数と四分位範囲 ── 順位ベースで外れ値に強い

範囲の「外れ値に弱い」弱点を解決するのが四分位範囲です。発想は「両端の極端な値を捨てて、**真ん中の50%**がどれくらい広がっているかを見る」こと。

四分位数(Q1・Q2・Q3)

データを小さい順に並べ、4等分する位置の値を四分位数(quartile)と呼びます。

名前記号意味
第1四分位数Q1Q_1下から 25% の位置の値(下位1/4の境目)
第2四分位数Q2Q_2下から 50%中央値代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係) の中央値と同じ)
第3四分位数Q3Q_3下から 75% の位置の値(上位1/4の境目)

Q2Q_2 は中央値そのものです。Q1Q_1 は「下半分のデータの中央値」、Q3Q_3 は「上半分のデータの中央値」と考えると求めやすいです(細かい計算規約は流派が複数ありますが、3級ではこの素朴な定義で足ります)。

四分位範囲(IQR)と四分位偏差

IQR=Q3Q1\text{IQR} = Q_3 - Q_1 四分位偏差=Q3Q12=IQR2\text{四分位偏差} = \frac{Q_3 - Q_1}{2} = \frac{\text{IQR}}{2}

IQR は要するに「上下の極端な25%ずつを無視して、中央の50%だけの幅を見る」指標です。両端を捨てるので、外れ値が混じっても値がほとんど変わりません。これが順位ベースの指標が外れ値に強い理由です(中央値が外れ値に強いのと同じ理屈 → 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係))。

IQR と四分位数の位置関係、そして「Q1−1.5×IQR より小さい/Q3+1.5×IQR より大きい値を外れ値とみなす」という外れ値の判定ルール、それらを一目で見せる箱ひげ図は、次のトピックでまとめて扱います(→ 箱ひげ図と外れ値 ── 5数要約・ひげの2流派・1.5×IQRルール(なぜ係数が1.5なのか/約2.7σ・0.7%))。ここでは「IQR は中央50%の幅で、外れ値に強い」ことだけ押さえてください。

分散と標準偏差 ── 平均からの距離で測る主役の指標

四分位範囲が「順位」で散らばりを測るのに対し、分散と標準偏差は「平均からどれだけ離れているか(距離)」で測ります。統計学でいちばんよく使う散らばりの指標で、推定・検定・回帰すべての土台になります。

偏差 ── 平均からのズレ

まず各データ xix_i が平均 xˉ\bar{x} からどれだけ離れているかを偏差と呼びます。

偏差i=xixˉ\text{偏差}_i = x_i - \bar{x}

「この値は平均より何ぶん上(下)か」です。散らばりは「偏差が全体としてどれくらい大きいか」で測りたい。ところが、偏差をそのまま全部足すと必ず 0 になります

i=1n(xixˉ)=xinxˉ=nxˉnxˉ=0\sum_{i=1}^{n}(x_i - \bar{x}) = \sum x_i - n\bar{x} = n\bar{x} - n\bar{x} = 0

プラスの偏差とマイナスの偏差がちょうど打ち消し合うからです(これは平均の定義そのものから来る性質)。これでは散らばりの大きさを測れません。そこで偏差を正の値に変えてから足す必要があります。方法は2つ ──「2乗する」か「絶対値をとる」か。統計学では主に2乗を使います(理由は後の「数式の直観的意味」で詳しく述べます)。

母分散(÷ n)と標準偏差

データ全体(母集団)が手元にあるときの分散を母分散(population variance) σ2\sigma^2 と呼び、偏差の2乗の平均で定義します。

σ2=1ni=1n(xixˉ)2\sigma^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

要するに「平均からのズレを2乗して、その平均をとった」もの。値が大きいほど散らばりが大きい。ただし偏差を2乗したので、分散の単位は元データの2乗になります(点数なら「点²」、円なら「円²」)。単位が2乗だと直感的に解釈しづらいので、平方根をとって元の単位に戻したものが標準偏差(standard deviation) σ\sigma です。

σ=σ2=1ni=1n(xixˉ)2\sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}

標準偏差は「だいたい平均からどれくらいズレているか」を、元データと同じ単位で表したものと考えてください。点数の標準偏差が8点なら「平均から上下8点くらいが標準的なバラつき」というイメージです。

分散の別公式(2乗の平均 − 平均の2乗)

分散は次の形に変形できます。試験の計算ではこちらの方が速いことが多い、頻出の公式です。

σ2=x2(xˉ)2=1nxi2(1nxi)2\sigma^2 = \overline{x^2} - (\bar{x})^2 = \frac{1}{n}\sum x_i^2 - \left(\frac{1}{n}\sum x_i\right)^2

「2乗の平均」から「平均の2乗」を引くだけ。導出は定義式を展開するだけです。

σ2=1n(xixˉ)2=1n(xi22xˉxi+xˉ2)=1nxi22xˉ1nxi+xˉ2\sigma^2 = \frac{1}{n}\sum(x_i-\bar{x})^2 = \frac{1}{n}\sum(x_i^2 - 2\bar{x}x_i + \bar{x}^2) = \frac{1}{n}\sum x_i^2 - 2\bar{x}\cdot\frac{1}{n}\sum x_i + \bar{x}^2

ここで 1nxi=xˉ\frac{1}{n}\sum x_i = \bar{x} なので、2xˉxˉ+xˉ2=xˉ2-2\bar{x}\cdot\bar{x} + \bar{x}^2 = -\bar{x}^2 となり、σ2=x2xˉ2\sigma^2 = \overline{x^2} - \bar{x}^2 が出ます。偏差をいちいち計算しなくても、「値の2乗の合計」と「値の合計」さえあれば分散が出るのがこの公式の便利なところです。

標本分散(不偏分散・÷ n−1)── 2級への接続

ここが本トピックの山場です。手元のデータが「母集団の一部(標本)」で、そこから母集団の分散 σ2\sigma^2 を推定したいとき、さきほどの「÷ n」では母分散を小さめに見積もってしまうことが知られています。これを補正したのが標本分散(不偏分散, unbiased variance) s2s^2 で、n ではなく n−1 で割ります

s2=1n1i=1n(xixˉ)2s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2

そして不偏分散の平方根を**(不偏)標準偏差** ss と呼びます。

s=s2=1n1i=1n(xixˉ)2s = \sqrt{s^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}

「なぜ n ではなく n−1 なのか」は、ただ覚えるだけでは試験で取りこぼします。次のセクションで数式で導出します。ここでは用語だけ整理しておきます。

名前割る数記号使う場面
母分散nnσ2\sigma^2データ全体(母集団)が手元にある/記述統計として散らばりを述べる
標本分散(不偏分散)n1n-1s2s^2標本から母集団の分散を推定する

⚠️ 関数電卓には標準偏差のキーが2つあります。σn\sigma_n(または σ)が母分散ベース(÷ n)、**σn1\sigma_{n-1}(または s)が不偏分散ベース(÷ n−1)**です。どちらを使うべきかは「母集団そのものか/標本からの推定か」で決まります。試験ではこの取り違えが頻出の失点ポイントです。

変動係数 ── 単位に依存しない相対的な散らばり

標準偏差は「絶対的な散らばり」を元データの単位で測ります。しかし、単位や桁がまるで違うデータ同士のばらつきを比べたいときには使えません。たとえば「成人男性の身長(cm)のばらつき」と「成人男性の体重(kg)のばらつき」、どちらが相対的に大きいか? 単位が違うので標準偏差を直接比べても無意味です。

そこで使うのが変動係数(Coefficient of Variation, CV)。標準偏差を平均で割ったものです。

CV=σxˉ\text{CV} = \frac{\sigma}{\bar{x}}

要するに「平均に対して、どれくらいの割合で散らばっているか」。標準偏差を「平均何個ぶんか」に換算した相対的なばらつきです。百分率(%)で表すこともあります。

変動係数は単位を持ちません(無次元)σ\sigmaxˉ\bar{x} も同じ単位なので、割り算で単位が約分されて消えるからです(例:cm ÷ cm = 単位なし)。だから「身長のCV」と「体重のCV」のように、単位の違うデータ同士でもばらつきの大小を比較できます

⚠️ 変動係数が意味を持つのは「比率尺度の、正の値のデータ」だけです。平均が 0 に近いと分母が小さくなって CV が暴れますし、負の値を含むデータ(気温℃など間隔尺度)では平均が 0 や負になりCVが無意味になります。「金額・身長・回数」のような0が原点で必ず正のデータ(比率尺度 → データの種類と尺度水準)でだけ使ってください。

数式の直観的意味

ここからが本トピックの理論的な肝です。3つの「なぜ」を順に潰します。

1. なぜ偏差を「2乗」するのか(絶対値ではなく)

出発点:散らばりは「偏差 xixˉx_i-\bar{x} が全体としてどれくらい大きいか」で測りたい。でも前述のとおり、偏差をそのまま足すと

(xixˉ)=0\sum(x_i-\bar{x}) = 0

で必ず消える。プラスとマイナスが打ち消し合うから。だから偏差を正の量に変えてから足す必要がある。正に変える方法は2つ ──「絶対値 xixˉ|x_i-\bar{x}|」か「2乗 (xixˉ)2(x_i-\bar{x})^2」。

絶対値を使ったものは平均絶対偏差(MAD: Mean Absolute Deviation) 1nxixˉ\frac{1}{n}\sum|x_i-\bar{x}| と呼ばれ、これはこれで立派な散らばりの指標です。それでも統計学が2乗(分散)を主役にするのには、明確な理由があります。

まとめると、**「2乗は数学的に扱いやすく、大きなズレを重視し、正規分布や分散分解という統計の主要な枠組みと噛み合う」**から主役に選ばれている、ということです。絶対偏差(MAD)は外れ値に強いという長所があり、ロバスト統計では使われます(→ 準1級以降)。

2. なぜ標本分散は「n−1」で割るのか(不偏性・自由度・ベッセル補正)

核心を一言で:偏差を測る基準が、真の平均 μ\mu ではなく手元データから計算した標本平均 xˉ\bar{x} だから。xˉ\bar{x} は「そのデータに最もよくフィットする点」なので、xˉ\bar{x} からの偏差の2乗和は、真の μ\mu からの偏差の2乗和より必ず小さくなる。だから n で割ると母分散を過小評価してしまい、n−1 で割って補正する。

なぜ xˉ\bar{x} からの2乗和が一番小さいか:前述の(a)の性質です。関数 f(c)=(xic)2f(c)=\sum(x_i-c)^2cc で微分して0と置くと、最小になるのは c=xˉc=\bar{x}。つまり「どの点 cc から測った2乗和も、c=xˉc=\bar{x} のときが最小」。真の平均 μ\mu は一般に xˉ\bar{x} とずれているので、(xiμ)2>(xixˉ)2\sum(x_i-\mu)^2 > \sum(x_i-\bar{x})^2 となる。本来 μ\mu を基準に測りたいのに、より小さく出る xˉ\bar{x} 基準で測っているぶん、分散が過小評価される。

導出スケッチ(E[s2]=σ2E[s^2]=\sigma^2 になることの確認):偏差平方和 (xixˉ)2\sum(x_i-\bar{x})^2 の期待値を計算します。μ\mu を足して引く形に分解するのがコツです。

i=1n(xixˉ)2=i=1n((xiμ)(xˉμ))2\sum_{i=1}^{n}(x_i-\bar{x})^2 = \sum_{i=1}^{n}\big((x_i-\mu)-(\bar{x}-\mu)\big)^2

これを展開すると(クロス項 2(xˉμ)(xiμ)-2(\bar{x}-\mu)\sum(x_i-\mu)(xiμ)=n(xˉμ)\sum(x_i-\mu)=n(\bar{x}-\mu) を使うと 2n(xˉμ)2-2n(\bar{x}-\mu)^2 になり、最後の項 n(xˉμ)2n(\bar{x}-\mu)^2 と合わせて整理できて)、

i=1n(xixˉ)2=i=1n(xiμ)2n(xˉμ)2\sum_{i=1}^{n}(x_i-\bar{x})^2 = \sum_{i=1}^{n}(x_i-\mu)^2 - n(\bar{x}-\mu)^2

xˉ\bar{x} からの2乗和」は「真の μ\mu からの2乗和」より、ちょうど n(xˉμ)2n(\bar{x}-\mu)^2 ぶん小さいことがこの式から見えます(過小評価のぶんが定量化された)。両辺の期待値をとります。

したがって

E[i=1n(xixˉ)2]=nσ2σ2=(n1)σ2E\Big[\sum_{i=1}^{n}(x_i-\bar{x})^2\Big] = n\sigma^2 - \sigma^2 = (n-1)\sigma^2

偏差平方和の期待値は (n1)σ2(n-1)\sigma^2 であって nσ2n\sigma^2 ではない。だから n で割ると E[1n()]=n1nσ2<σ2E\big[\frac{1}{n}\sum(\cdots)\big] = \frac{n-1}{n}\sigma^2 < \sigma^2 で過小評価。n−1 で割れば

E[s2]=E[1n1(xixˉ)2]=(n1)σ2n1=σ2E[s^2] = E\Big[\frac{1}{n-1}\sum(x_i-\bar{x})^2\Big] = \frac{(n-1)\sigma^2}{n-1} = \sigma^2

ぴたりと母分散に一致する。これが「期待値が真の値に一致する=不偏(unbiased)」という性質で、n−1 で割る操作を**ベッセル補正(Bessel’s correction)**と呼びます。

自由度(degrees of freedom)の視点:別の言い方をすると、偏差 xixˉx_i-\bar{x} には (xixˉ)=0\sum(x_i-\bar{x})=0 という1本の束縛(制約)がかかっています。nn 個の偏差のうち n1n-1 個を自由に決めると、残り1個は「合計が0」から自動的に決まってしまう。つまり自由に動ける偏差は実質 n1n-1しかない。これが「自由度 n1n-1」の意味です。「標本平均 xˉ\bar{x} を1つ推定に使ったぶん、自由度が1減った」と理解してください。分散は「平均的な散らばり」なので、自由に動ける個数 n1n-1 で割るのが理にかなっている、というわけです。

「n が大きければ n と n−1 の差は誤差じゃないの?」 ── そのとおりで、nn が大きいと nn11\frac{n}{n-1}\approx 1 なので両者はほぼ一致します。差が効くのは nn が小さいときn=5n=5 なら n で割ると母分散の 4/5=80%4/5=80\% しか見積もれず、2割も過小評価する)。だから小標本ほど不偏分散が重要になります。

3. なぜ変動係数は無次元(単位なし)なのか

σ\sigmaxˉ\bar{x} がまったく同じ単位だから、比をとると単位が約分されて消えます。

CV=σ[単位]xˉ[単位]=σxˉ[無次元]\text{CV} = \frac{\sigma\,[\text{単位}]}{\bar{x}\,[\text{単位}]} = \frac{\sigma}{\bar{x}}\,[\text{無次元}]

たとえば身長なら σ\sigmaxˉ\bar{x} も cm。cmcm\frac{\text{cm}}{\text{cm}} で単位が消える。体重なら kg ÷ kg で消える。単位が消えるからこそ、cm の世界の値と kg の世界の値を同じ土俵で比べられるわけです。これが「単位や桁が違うデータ同士の相対的なばらつきを比較できる」理由です。標準偏差そのものは単位を持つ(cm のまま、kg のまま)ので、この比較ができません。

別の見方をすると、CV は「スケール変換 xaxx \to axa>0a>0)で値が変わらない」量です。全データを2倍すれば σ\sigmaxˉ\bar{x} も2倍になり、比は不変。単位換算(m→cm は100倍)もスケール変換の一種なので、CV は単位の選び方に依らない ── これが「無次元」の数学的な意味です。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q1. 結局、分散は n で割るの? n−1 で割るの? どっちが正解?

「何をしたいか」で決まります。 二択ではなく使い分けです。

統計検定の推定・検定の文脈ではほぼ常に「標本から母集団を推定する」ので **n−1(不偏分散)**を使います。一方、純粋に記述統計として目の前のデータの散らばりを言うだけなら n でも構いません。問題文が「標本」「推定」と言っているか「母集団全体」と言っているかを必ず確認してください。

Q2. n−1 で割る理由、結局どう理解すればいい?

**「偏差を測る基準を、真の平均 μ\mu ではなく標本平均 xˉ\bar{x} で代用しているから」**の一点です。

xˉ\bar{x} は手元データに最もフィットする点なので、xˉ\bar{x} からの偏差の2乗和は、本当に測りたい μ\mu からの2乗和より必ず小さめに出ます。だから n で割ると母分散を小さく見積もる。その「小さめに出るぶん」がちょうど自由度1個ぶんに相当するので、n ではなく n−1 で割ると過小評価が補正され、期待値が母分散にぴたり一致します(本文の導出で E[(xixˉ)2]=(n1)σ2E\big[\sum(x_i-\bar{x})^2\big]=(n-1)\sigma^2 を示したとおり)。**「xˉ\bar{x} を1個推定に使った → 自由に動ける偏差が1個減った → だから n−1」**と覚えてください。

Q3. 分散と標準偏差、どっちを使えばいいの? 違いは?

値の意味は同じ(散らばりの大きさ)。違いは単位です。 標準偏差 = √分散 という関係で、分散の単位は元データの2乗、標準偏差は元データと同じ単位です。

要するに「計算は分散で進め、最後に√して標準偏差で解釈する」のが定石です。

Q4. 変動係数はいつ使うの? 標準偏差じゃダメなの?

単位や平均の桁がまるで違うデータ同士で、ばらつきの大小を比べたいときに使います。

標準偏差は単位付きの絶対的なばらつきなので、「身長の標準偏差6cm」と「体重の標準偏差10kg」を直接比べても、どちらが相対的にばらついているかは言えません(単位が違う)。変動係数なら単位が消えるので、「身長のCV ≈ 0.035、体重のCV ≈ 0.15」のように同じ土俵で比較でき、「体重のほうが相対的にばらつきが大きい」と言えます。平均が大きく違うデータ同士でも同様です(平均1000のデータと平均10のデータでは、同じ標準偏差5でも意味がまるで違う ── 前者は相対的に小さなばらつき、後者は大きなばらつき。CVがこれを正しく捉える)。ただしQ5の注意があります。

Q5. 変動係数を使ってはいけないのはどんなとき?

平均が0に近いデータ、負の値を含むデータ、間隔尺度のデータでは使えません。

CV = 標準偏差 ÷ 平均 なので、平均(分母)が0に近いと値が爆発して無意味になります。また気温(℃)のように**負の値をとる/原点が便宜的なデータ(間隔尺度 → データの種類と尺度水準)**では、平均が0や負になりCVの符号や大きさが意味をなしません。「平均5℃のときCV」と言っても、同じ寒暖差を℉で測れば平均が変わってCVも変わってしまう(単位の取り方でCVが動く=無次元の利点が崩れる)。CVが意味を持つのは「金額・身長・重さ・回数」のように原点0が絶対的で必ず正の値をとる比率尺度のデータだけ、と覚えてください。

Q6. 範囲・四分位範囲・分散・標準偏差、外れ値に強いのはどれ?

順位ベースの「範囲以外」── つまり四分位範囲・四分位偏差が外れ値に強いです。整理すると:

だから「外れ値・強い歪みのあるデータの散らばり」を語るときは、分散・標準偏差より四分位範囲のほうが実態を表します(中央値とセットで使うのが定石)。これも箱ひげ図の話につながります(→ 箱ひげ図と外れ値 ── 5数要約・ひげの2流派・1.5×IQRルール(なぜ係数が1.5なのか/約2.7σ・0.7%))。

まとめ

散らばりを測る道具がそろいました。次は、四分位数を使った箱ひげ図でばらつきと外れ値を視覚化する方法へ進みます(→ 箱ひげ図と外れ値 ── 5数要約・ひげの2流派・1.5×IQRルール(なぜ係数が1.5なのか/約2.7σ・0.7%))。

対応するシミュレーション

標本分散はnで過小評価・n−1で不偏(ベッセル補正)

関連ノート