← 統計検定テキスト 一覧

📊 対象級:2級 | 重要度:A(頻出)

標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め

要点(BLUF)

対象級について:標準化(zz得点)と偏差値は統計検定3級が中心です。チェビシェフの不等式は2級の頻出論点で、準1級以降(大数の法則の証明など)にもつながります。前トピック 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか) でそろえた標準偏差 σ\sigma・変動係数を土台に、ここでは「データを共通のものさしに乗せ替える」発想を扱います。さらに、正規分布を前提とする経験則(68-95-99.7)と、分布の形を一切仮定しないチェビシェフの不等式の違いを、不等式の導出まで踏み込んで整理します。

結論:標準化は「ものさしの貼り替え」、偏差値はその目盛り替え、チェビシェフは「どんな分布でも効く歯止め」

最初に結論です。本記事の3つの主役を一言ずつで。

概念一言でいうと
標準化(zz得点)z=xμσz=\dfrac{x-\mu}{\sigma}平均を0・標準偏差を1にそろえる「ものさしの貼り替え」。zzは「平均から σ\sigma 何個ぶん離れているか」
偏差値T=50+10zT=50+10zzzを「平均50・標準偏差10」に目盛り替えしただけ。偏差値60=+1σ+1\sigma、70=+2σ+2\sigma
チェビシェフの不等式$P(X-\mu

そして本記事で絶対に外してほしくない核心を、先に3つ挙げます。

  1. 標準化 ≠ 正規化(標準化しても正規分布にはならない)。標準化は位置(平均)と尺度(標準偏差)を動かすだけの線形変換で、分布の形は変えません。歪んだ分布は標準化しても歪んだまま。最頻出の誤解です。
  2. 偏差値に上限・下限はありません。偏差値100超も、負の偏差値もあり得ます。「偏差値70=上位約2.3%」は正規分布を仮定したときだけ成り立つ話です(条件付き)。
  3. 経験則(68-95-99.7)は正規分布前提、チェビシェフはどんな分布でもOK。そのかわりチェビシェフの保証は緩い(±2σ\sigmaで「75%以上」しか言えない。正規分布なら実際は約95%)。「形がわかれば正確に、わからなければ緩くても確実に」という使い分けです。

標準化(z得点)── データを共通のものさしに乗せ替える

定義と意味

**標準化(standardization)**とは、データから平均 μ\mu を引き、標準偏差 σ\sigma で割る操作です。変換後の値を zz得点(z-score、標準得点) と呼びます。

z=xμσz = \frac{x - \mu}{\sigma}

要するに「そのデータが、平均から標準偏差何個ぶん離れているか」を表す数です。z=2z=2 なら「平均より 2σ2\sigma 上」、z=1z=-1 なら「平均より 1σ1\sigma 下」。

標準化すると、変換後のデータは必ず平均0・標準偏差1になります。これはあとで証明しますが、直観的には「平均を引いて中心を0に移し、σ\sigma で割って単位を σ\sigma にそろえた」だけなので当然です。

なぜ標準化するのか ── 単位・スケールの違うものを比較するため

標準化の最大の用途は、単位やスケールの違うデータを同じ土俵で比較することです。

たとえば「国語のテスト(平均60点・σ\sigma=10点)で70点」と「数学のテスト(平均50点・σ\sigma=20点)で74点」、どちらが相対的に優秀でしょうか。素点(70 vs 74)では数学のほうが高く見えますが、標準化すると:

…と、どちらも「平均から σ\sigma 何個ぶん上か」という共通のものさしに乗ります。この例では数学のほうがやや上位、と判断できます。

これは前トピック 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか)変動係数(CV)と同じ「単位をなくして比較する」発想です。ただし違いがあります。変動係数はデータセット全体のばらつきを表す1つの指標CV=σ/μ\text{CV}=\sigma/\mu)であるのに対し、zz得点は個々のデータ点を1つずつ変換するものです。CVは「分布の散らばり具合の比較」、zzは「データ点の相対的な位置の比較」に使います。

標準化は線形変換 ── だから分布の形は変わらない(標準化≠正規化)

ここが最頻出の誤解ポイントです。結論を先に。

標準化は線形変換であり、分布の形を一切変えません。標準化しても、元のデータが正規分布でなければ正規分布にはなりません。

「標準化(standardization)」と「正規化(normalization)」は名前が似ているうえ、「標準化すると標準正規分布に従う」という誤解が蔓延していますが、これは間違いです。

線形変換とは何か

z=(xμ)/σz = (x-\mu)/\sigma を変形すると、

z=1σxμσz = \frac{1}{\sigma}x - \frac{\mu}{\sigma}

これは z=ax+bz = ax + b(ただし a=1/σ>0a=1/\sigma>0, b=μ/σb=-\mu/\sigma)という**1次関数(線形変換)**です。線形変換が分布に対してやることは、たった2つだけ。

つまり標準化がやるのは、グラフの横軸の原点と単位(ものさし)を貼り替えることだけです。山が右に歪んでいれば、貼り替えた後も右に歪んだまま。山が2つ(二峰性)あれば、貼り替えた後も山は2つのまま。相対的な形・順序は完全に保たれます

flowchart LR
    A["元データ(歪んだ分布)"] -->|"−μ:中心を0へ平行移動"| B["平均0の分布<br/>(形は同じ)"]
    B -->|"÷σ:単位をσにそろえる"| C["平均0・標準偏差1<br/>(形は依然として歪んだまま)"]

↑ 標準化は「平行移動」と「単位の縮尺替え」の2段階。位置と尺度は動くが、分布の形(歪み・山の数)は変わらない。だから「標準化=正規分布化」ではない。

「標準化=標準正規分布化」が誤りである理由

「正規分布を標準化すると標準正規分布になる」は正しいです。しかしこれは「もともと正規分布だったものを」標準化した場合の話。逆は言えません。

標準化が保証するのは「平均0・標準偏差1」という2つの数値(モーメント)だけであって、分布の形(全体の確率の分布のしかた)までは保証しません。「平均と標準偏差が同じでも、形が違う分布はいくらでもある」── これを押さえておけば誤解しません。

偏差値 ── z得点の目盛りを「平均50・標準偏差10」に替えただけ

定義

**偏差値(deviation value、TT得点)**は、zz得点を「平均50・標準偏差10」のスケールに変換したものです。

T=50+10z=50+10xμσT = 50 + 10z = 50 + 10\cdot\frac{x-\mu}{\sigma}

要するに「zz得点を10倍して50を足しただけ」。これも線形変換なので、当然分布の形は変わりません(偏差値の分布が正規分布になるわけではない)。

zzと偏差値の対応は、T=50+10zT=50+10z から一目です。

zz得点偏差値 TT意味
2-230平均より 2σ2\sigma
1-140平均より 1σ1\sigma
0050ちょうど平均
+1+160平均より 1σ1\sigma
+2+270平均より 2σ2\sigma
+3+380平均より 3σ3\sigma

偏差値60=+1σ+1\sigma、偏差値70=+2σ+2\sigma、偏差値80=+3σ+3\sigma。この対応はそのまま覚えておくと便利です。

偏差値に上限・下限はない

よくある誤解:「偏差値は0〜100の範囲」。これは間違いです。 偏差値に上限・下限はありません。

T=50+10zT=50+10z で、zz はいくらでも大きく(小さく)なれます。平均から 6σ6\sigma 離れた値があれば z=6z=6 なので偏差値は 50+60=11050+60=110。逆に z=6z=-6 なら偏差値 10-10偏差値100超も負の偏差値も理論上あり得ます(実際、極端に簡単・難しいテストや、人数が少ない試験では起こります)。「0〜100に収まる」と思い込むと失点します。

「偏差値70=上位約2.3%」は正規分布を仮定したときだけ

もう一つの重要な注意。「偏差値70は上位約2.3%」というよく聞く話は、得点の分布が正規分布だと仮定したときにだけ成り立ちます。

偏差値70は z=+2z=+2、つまり平均より 2σ2\sigma 上です。正規分布なら +2σ+2\sigma より上側の面積は約2.3%(後述の経験則「±2σ\sigmaに約95%」から、外側の5%の半分=約2.5%、より正確には2.28%)。だから「偏差値70=上位約2.3%」。

しかし得点分布が正規分布でなければ、この対応は崩れます。たとえば得点が二極化している(高得点層と低得点層に割れている)テストなら、偏差値70の位置に何%いるかは分布次第で、2.3%とは限りません。「偏差値→上位何%」の換算は正規分布の仮定が前提だと必ず意識してください。

経験則(68-95-99.7ルール)── ただし正規分布前提

正規分布のデータでは、平均からの距離(σ\sigma単位)と、その範囲に入るデータの割合に、有名な対応があります。これを経験則(empirical rule) または 68-95-99.7ルールと呼びます。

範囲入る割合(正規分布の場合)
平均 ±1σ\sigma68%
平均 ±2σ\sigma95%
平均 ±3σ\sigma99.7%

要するに「正規分布なら、±1σ\sigma にざっくり7割、±2σ\sigma にほぼ95%、±3σ\sigma にほぼ全部(99.7%)が入る」ということ。検定の信頼区間や外れ値判定(±3σ\sigmaルール)の感覚は、これが土台になっています。

ただし大前提として、これは分布が正規分布のときの話です。 分布が歪んでいたり山が2つあったりすると、この割合は成り立ちません。「±2σ\sigmaなら必ず95%」と無条件に思い込まないこと。「正規分布なら」という条件が必ず付きます。ここが次のチェビシェフの不等式との決定的な違いです。

チェビシェフの不等式 ── どんな分布でも成り立つ歯止め

定義

**チェビシェフの不等式(Chebyshev’s inequality)**は、k>1k>1 に対して次が成り立つ、という主張です。

P(Xμkσ)1k2P(|X-\mu|\ge k\sigma)\le \frac{1}{k^2}

要するに「どんな分布でも、平均から kσk\sigma 以上離れた値が出る確率は、1/k21/k^2 より大きくならない」。裏を返せば(余事象を取れば):

P(Xμ<kσ)11k2P(|X-\mu| < k\sigma)\ge 1-\frac{1}{k^2}

平均±kσk\sigma の中には、少なくとも 11/k21-1/k^2 のデータが入る」。具体的な数値は次のとおり。

kkチェビシェフの下限 11k21-\dfrac{1}{k^2}「平均±kσk\sigmaの中に少なくとも」(参考)正規分布での実際
1100(無意味)約68%
22114=0.751-\frac14 = 0.7575%以上約95%
331190.8891-\frac19 \approx 0.889約88.9%以上約99.7%
4411160.93751-\frac{1}{16}\approx 0.9375約93.75%以上約99.99%

最大の価値:分布の形を仮定しない(distribution-free)

チェビシェフの不等式が経験則と決定的に違うのは、分布の形を一切仮定しないことです。正規分布だろうが、歪んだ分布だろうが、山が2つあろうが、平均 μ\mu と標準偏差 σ\sigma さえ存在すれば、必ず成り立ちます。これを distribution-free(分布によらない) といいます。

そのかわり、保証は緩いです。k=2k=2 で「75%以上」しか言えません。正規分布なら実際は約95%入るのに、チェビシェフは「最低でも75%は保証する」としか言えない。この「緩いが確実」という性質が肝で、次の節で「なぜ緩いのか」を理論的に説明します。

経験則 vs チェビシェフ ── 数量比較

同じ「±kσk\sigmaの中に入る割合」を、正規前提の経験則とチェビシェフの保証下限で比べると、差が一目でわかります。

xychart-beta
    title "±kσ内に入る割合:チェビシェフ下限(保証)vs 正規分布での実際"
    x-axis "k(標準偏差の何倍か)" [k=2, k=3]
    y-axis "範囲内に入る割合(%)" 0 --> 100
    bar [75, 88.9]
    bar [95, 99.7]

↑ 左の棒=チェビシェフの保証下限(75%, 88.9%)、右の棒=正規分布での実際(95%, 99.7%)。チェビシェフは「最低でもこれだけは入る」という下限なので、正規分布の実際の割合はそれをずっと上回る。チェビシェフが緩い(保守的)ことが見て取れる。

観点経験則(68-95-99.7)チェビシェフの不等式
前提正規分布であることどんな分布でもOK(分布不問)
±2σ\sigma の中身約95%(正確な値)75%以上(緩い下限)
性質正確だが前提が必要緩いが必ず成り立つ(保証)
使いどころ分布が正規とわかっている分布の形がわからない・歪んでいる

数式の直観的意味

ここからが本トピックの理論的な肝です。3つの「なぜ」を潰します。

1. チェビシェフの不等式の導出(直接版)

結論:分散の定義 σ2=E[(Xμ)2]\sigma^2=E[(X-\mu)^2] から、3行の不等式評価で導けます。 マルコフの不等式を経由する方法もありますが、まず直接版を示します。

出発点は分散の定義です。

σ2=E[(Xμ)2]=(xμ)2f(x)dx\sigma^2 = E[(X-\mu)^2] = \int (x-\mu)^2 f(x)\,dx

この積分(期待値)を、「平均から kσk\sigma 以上離れた領域 A={Xμkσ}A=\{|X-\mu|\ge k\sigma\}」だけに絞った積分で下から評価します。

【第1の不等号】全体の期待値 ≥ 一部の領域だけの期待値

σ2=E[(Xμ)2]    E[(Xμ)21{Xμkσ}]\sigma^2 = E[(X-\mu)^2] \;\ge\; E\big[(X-\mu)^2\,\mathbf{1}_{\{|X-\mu|\ge k\sigma\}}\big]

ここで 1{}\mathbf{1}_{\{\cdots\}} は「条件を満たすとき1、満たさないとき0」を返す指示関数です。なぜこの不等号が成り立つか:(Xμ)2(X-\mu)^2常に0以上なので、積分範囲を全体から一部(領域 AA だけ)に狭めれば、足し込む量が減る(か同じ)。非負の量を一部だけ足したものは、全部足したものを超えない ── これが第1の不等号の理由です。

【第2の不等号】領域 AA の中では (Xμ)2(kσ)2(X-\mu)^2\ge(k\sigma)^2

領域 A={Xμkσ}A=\{|X-\mu|\ge k\sigma\} の中では、定義より Xμkσ|X-\mu|\ge k\sigma、つまり (Xμ)2(kσ)2(X-\mu)^2\ge (k\sigma)^2 が成り立っています。だから領域 AA 上の積分で、被積分関数 (Xμ)2(X-\mu)^2 をそれより小さい定数 (kσ)2(k\sigma)^2 に置き換えても、不等式は保たれます。

E[(Xμ)21A]    (kσ)2E[1A]=(kσ)2P(Xμkσ)E\big[(X-\mu)^2\,\mathbf{1}_{A}\big] \;\ge\; (k\sigma)^2\,E[\mathbf{1}_{A}] = (k\sigma)^2\,P(|X-\mu|\ge k\sigma)

最後の等号は「指示関数の期待値=その事象の確率」(E[1A]=P(A)E[\mathbf{1}_A]=P(A))という基本事実です。

【まとめ】

2つの不等号をつなぐと、

σ2    (kσ)2P(Xμkσ)\sigma^2 \;\ge\; (k\sigma)^2\,P(|X-\mu|\ge k\sigma)

両辺を (kσ)2=k2σ2(k\sigma)^2 = k^2\sigma^2 で割ると(σ>0, k>0\sigma>0,\ k>0 なので割れる)、

P(Xμkσ)σ2k2σ2=1k2P(|X-\mu|\ge k\sigma)\le \frac{\sigma^2}{k^2\sigma^2} = \frac{1}{k^2}

これでチェビシェフの不等式が出ました。証明の本質は「分散(全体の散らばりの期待値)は、遠い領域の散らばりだけを取り出した量より大きい」という、たった1つの当たり前を2回使っているだけです。

マルコフの不等式経由の別証:マルコフの不等式「非負の確率変数 Y0Y\ge0a>0a>0 に対し P(Ya)E[Y]/aP(Y\ge a)\le E[Y]/a」に、Y=(Xμ)2Y=(X-\mu)^2a=(kσ)2a=(k\sigma)^2 を代入すると、P((Xμ)2(kσ)2)E[(Xμ)2]/(kσ)2=σ2/(k2σ2)=1/k2P((X-\mu)^2\ge (k\sigma)^2)\le E[(X-\mu)^2]/(k\sigma)^2 = \sigma^2/(k^2\sigma^2)=1/k^2。左辺の事象 (Xμ)2(kσ)2(X-\mu)^2\ge(k\sigma)^2Xμkσ|X-\mu|\ge k\sigma と同じなので、同じ式が得られます。実は上の直接証明は、マルコフの不等式の証明をこの場合に展開したものです。

2. なぜチェビシェフは緩いのか

結論:分布の形を一切仮定しない「最悪ケース」の保証だからです。

導出を振り返ると、チェビシェフの不等式は「分散 ≥ 遠い領域の散らばり」という一番ゆるい評価しか使っていません。途中で「分布が正規である」「左右対称である」といった情報を一切使っていないのがポイントです。

だから、チェビシェフの 1/k21/k^2 という上限は、考えうるすべての分布の中で最悪のもの(一番外れやすい分布)でも破れないように設定された下限・上限です。実際、チェビシェフの等号が成り立つ(ぴったり 1/k21/k^2 になる)のは、確率が「平均1点と、±kσ\pm k\sigma の2点」だけに集中した特殊な分布のときで、これが「最悪ケース」に当たります。

一方、正規分布のように形がわかっていれば、その情報を使ってもっと精密に評価できます。正規分布で k=2k=2 なら実際は約95%が入る ── チェビシェフの「75%以上」という保証よりずっと多い。形を知っていれば95%と言えるのに、形を知らないと「最低75%」としか言えない。これが「チェビシェフは緩い」の正体です。

では緩いチェビシェフに何の価値があるのか。 価値は「分布の形がまったくわからなくても、確実に成り立つ歯止めを与えてくれる」ことです。現実には「データの分布が正規かどうかわからない」「むしろ歪んでいそう」という場面が山ほどあります。そういうとき、経験則(正規前提)は使えません。チェビシェフなら「形は知らないが、少なくとも±2σ\sigmaに75%は入る」と無条件に断言できる。緩くても、どんな分布でも破れない保証であることに価値があります。これは準1級・1級で学ぶ大数の法則の証明にも、この「分布を仮定しない歯止め」として直接使われます。

3. 標準化が線形変換である意味 ── ものさしの貼り替え

結論:標準化は軸の原点を μ\mu に移し、単位を σ\sigma にする「ものさしの貼り替え」。順序も相対的な形も保たれるから、異なるテスト・異なる単位を共通のものさしで比較できます。

まず、標準化後に平均0・標準偏差1になることを確認します。z=(xμ)/σz=(x-\mu)/\sigma について、期待値と分散の線形性を使うと:

E[z]=E ⁣[Xμσ]=E[X]μσ=μμσ=0E[z] = E\!\left[\frac{X-\mu}{\sigma}\right] = \frac{E[X]-\mu}{\sigma} = \frac{\mu-\mu}{\sigma} = 0 Var[z]=Var ⁣[Xμσ]=1σ2Var[Xμ]=1σ2σ2=1\mathrm{Var}[z] = \mathrm{Var}\!\left[\frac{X-\mu}{\sigma}\right] = \frac{1}{\sigma^2}\mathrm{Var}[X-\mu] = \frac{1}{\sigma^2}\cdot\sigma^2 = 1

(分散の性質 Var[aX+b]=a2Var[X]\mathrm{Var}[aX+b]=a^2\mathrm{Var}[X] を使用。定数 μ-\mu の平行移動は分散を変えない、1/σ1/\sigma 倍は分散を 1/σ21/\sigma^2 倍する。)だから標準化後は必ず平均0・標準偏差1。これは形によらず成り立ちます(だからこそ「平均0・標準偏差1になる」ことと「正規分布になる」ことは別問題なのです)。

直観的には、z=(xμ)/σz=(x-\mu)/\sigma は数直線に対して2つの操作をしています。

つまり「そのデータ独自のものさし(cm・点・kg…)を捨てて、『平均からσ何個ぶん』という共通のものさしに貼り替える」操作です。線形変換なのでデータ点の大小関係(順序)は完全に保たれ、分布の相対的な形も保たれる。だからこそ、国語と数学のように単位やスケールの違うデータでも、zz という共通の物差しに乗せれば「どちらが相対的に上か」を比較できるのです。

散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか) の変動係数(CV)と同じ「単位をなくして比較する」発想ですが、CVは分布全体のばらつきを表す1指標zz個々のデータ点を変換する点が違います。CVは「ばらつきの大小を分布間で比べる」、zzは「データ点の相対位置を比べる」。役割が異なります。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q1. 標準化すれば、どんなデータでも正規分布になるの?

いいえ。標準化しても正規分布にはなりません。これが最頻出の誤解です。

標準化(z=(xμ)/σz=(x-\mu)/\sigma)は線形変換で、データの平均を0・標準偏差を1にそろえるだけです。位置(中心)と尺度(単位)を動かすだけなので、分布の形(歪み・山の数)は一切変わりません。元が右に歪んだ分布なら、標準化後も右に歪んだまま。「標準化=標準正規分布化」と思い込むと、その後の検定の前提(正規性)の判断を誤ります。「正規分布を標準化すると標準正規分布になる」のは正しいですが、逆(標準化すれば正規分布になる)は成り立ちません

Q2. 偏差値は0〜100の範囲じゃないの?

いいえ。偏差値に上限・下限はありません。

T=50+10zT=50+10z で、zz はいくらでも大きく(小さく)なれるので、偏差値100超も、負の偏差値もあり得ます。平均から 6σ6\sigma 離れた値があれば偏差値110、6σ-6\sigma なら偏差値10-10。実際、人数が少ない試験や極端な点が出たときに起こります。「0〜100に収まる」は誤解です。

Q3. 「偏差値70=上位約2.3%」はいつでも正しいの?

得点が正規分布に従うと仮定したときだけ正しいです。

偏差値70は z=+2z=+2(平均より 2σ2\sigma 上)。正規分布なら +2σ+2\sigma より上は約2.3%なので「上位約2.3%」になります。しかし得点分布が正規分布でなければ崩れます。たとえば得点が二極化しているテストでは、偏差値70の位置に何%いるかは分布次第で2.3%とは限りません。「偏差値→上位何%」の換算は正規分布の仮定が前提です。

Q4. 経験則(68-95-99.7)とチェビシェフの不等式、どっちを使えばいいの?

分布が正規とわかっているなら経験則、形がわからない・歪んでいるならチェビシェフです。

「形がわかれば正確に(経験則)、わからなくても確実に緩く(チェビシェフ)」と使い分けます。チェビシェフは緩いですが、どんな分布でも破れない歯止めであることに価値があります(分布の素性が不明な場面での保険)。

Q5. チェビシェフの不等式で k=1k=1 を入れると「0以上」になって意味がないけど?

そのとおりで、チェビシェフの不等式は k>1k>1 でないと意味がありません。

k=1k=1 を入れると下限は 11/12=01-1/1^2 = 0。「平均±1σ\sigma の中に0%以上が入る」は何も言っていないのと同じ(どんな確率も0以上は当たり前)。k=1k=1 以下では下限が0かマイナスになり、情報がありません。チェビシェフが意味を持つのは k>1k>1 のとき(k=2k=2で75%以上、k=3k=3で88.9%以上)です。「kk を大きくするほど範囲は広いが、その中に入る保証割合も大きくなる」と理解してください。

Q6. 標準化と変動係数(CV)はどう違うの?

どちらも「単位をなくして比較する」発想ですが、対象が違います。

CVは「分布の散らばり具合の比較」、zzは「データ点の位置の比較」。役割が違うので使い分けます。

まとめ

共通のものさし(zz)と、どんな分布でも効く歯止め(チェビシェフ)がそろいました。次は、時間に沿って並ぶデータを扱う時系列データの記述へ進みます(→ 時系列データの処理 ── 指数・増減率・移動平均・成長率(なぜ成長率は幾何平均なのか))。

対応するシミュレーション

チェビシェフは分布不問だが緩い(4分布での検証)

関連ノート


出典・参考

※統計検定の出題範囲・出題傾向は改訂されうるため、受験前に必ず最新の公式範囲表で確認してください(要最新確認)。