← 統計検定テキスト 一覧

📊 対象級:3級 ・ 2級 | 重要度:A(頻出)

2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変

要点(BLUF)

対象級について:散布図の読み取り(正・負・無相関)は統計検定4級共分散・相関係数の意味と読み取りは3級相関係数の計算(共分散からの逆算)・相関行列・擬相関・層別・順位相関は2級です。前トピックまでで扱った1変数の記述(平均・分散・標準偏差・標準化)を土台に、ここから2つの変数の関係を扱います。相関係数は「なぜ 1-1 から 11 に収まるのか」をコーシー・シュワルツの不等式から導出し、「相関≠因果」「rr は直線関係しか測れない」という最頻出の落とし穴まで整理します。

結論:散布図で形を見て、共分散で向きを、相関係数で強さと向きを無次元で測る

最初に結論です。本記事の3つの主役を一言ずつで。

概念一言でいうと
散布図(図)2変数を平面の点で描く。並びで正・負・無相関を読む
共分散sxy=1n(xixˉ)(yiyˉ)s_{xy}=\dfrac1n\sum(x_i-\bar x)(y_i-\bar y)2変数が同じ向きにズレるか逆向きか。符号が向き。ただし単位依存
相関係数r=sxysxsyr=\dfrac{s_{xy}}{s_x s_y}共分散を単位で割って無次元化。必ず 1r1-1\le r\le 1。強さと向きを一度に表す

そして本記事で絶対に外してほしくない核心を、先に3つ挙げます。

  1. 相関≠因果。相関係数が大きくても「xxyy の原因」とは言えません。背後に共通原因が隠れた「擬似相関」かもしれません(定番:アイスの売上と水難事故)。
  2. rr は直線的な関係しか測れません。放物線のような強い関係があっても r0r\approx0 になることがあります。「r0r\approx0 =無関係」ではなく「直線関係がないだけ」です。
  3. 相関係数は外れ値に弱い。たった1点の異常値で、ほぼ無相関が「強い相関あり」に激変します。必ず散布図を描いて確認してください。

散布図 ── まず2変数を「点」で描く(4級)

2つの変数 (x,y)(x,y) の組を、横軸 xx・縦軸 yy の平面に1点ずつ打った図が散布図です。点の並ぶ「形」で関係を視覚的に掴みます。

点の並び関係言い換え
右上がりの帯正の相関xx が増えると yy も増える傾向
右下がりの帯負の相関xx が増えると yy は減る傾向
一面にバラバラ無相関直線的な関係なし
U字・への字非線形の関係直線では表せない

帯が細い(直線に近い)ほど関係が強い、と読みます。4級ではこの読み取りができれば十分です。

共分散 ── 2変数が「一緒にどう動くか」(3〜2級)

共分散の定義式はこちらです。

sxy=1ni=1n(xixˉ)(yiyˉ)s_{xy}=\frac1n\sum_{i=1}^{n}(x_i-\bar x)(y_i-\bar y)

要するに、各点について「xx が平均からどれだけズレたか」×「yy が平均からどれだけズレたか」を掛けて、その平均をとったものです。2変数が一緒にどう動くか(共変動)の平均、と言えます。

掛け算の符号がポイントです。

同じ向きの点が多ければ和は正で sxy>0s_{xy}>0、逆向きが多ければ sxy<0s_{xy}<0。つまり共分散の符号が関係の向きを表します。

ただし注意。共分散の「大きさ」は強さの指標になりません。単位(cm か m か)で値が何倍にも変わるからです。たとえば xx を cm から m に変えると共分散は 1/1001/100 になってしまいます。これでは「強い/弱い」を比べられません。そこで単位をなくしたのが、次の相関係数です。

標本分散 sx2=1n(xixˉ)2s_x^2=\frac1n\sum(x_i-\bar x)^2 は「xx 自身との共変動」sxxs_{xx} に等しい。共分散は分散を2変数に拡張したもの(→ 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか))。

相関係数 ── 共分散を「無次元」にして強さを測る(3級・計算は2級)

相関係数の値と散布図の対応:r=0.9〜−0.9、無相関でも曲線関係、外れ値1点の影響

図は simulations/soukan_gallery.py で生成。

ピアソンの相関係数 rr は、共分散を x,yx,y それぞれの標準偏差の積で割ったものです。

r=sxysxsy=(xixˉ)(yiyˉ)(xixˉ)2  (yiyˉ)2r=\frac{s_{xy}}{s_x\,s_y} =\frac{\sum (x_i-\bar x)(y_i-\bar y)}{\sqrt{\sum (x_i-\bar x)^2}\;\sqrt{\sum (y_i-\bar y)^2}}

要するに、共分散から単位を消して「強さと向き」を一度に表せるようにした、1-1 から 11 の無次元の数です(分母分子の 1/n1/n は約分で消えるので右の形でも計算できます。不偏 sx2s_x^2(÷n1n-1)を使っても n1n-1 が約分で消え rr は同じ値)。

相関の強さの目安(慣習。文献で多少違います)はこちらです。

r\lvert r\rvert目安
0.7〜1.0強い相関
0.4〜0.7中程度の相関
0.2〜0.4弱い相関
0.0〜0.2ほとんど相関なし

※この区切りは文献により異なります。試験では「強い/弱い」の大小比較や符号の判定が問われ、境界値そのものは問われにくいです。

計算例(2級の典型:共分散からの逆算)

2級では「相関係数と標準偏差が分かっていて、共分散を求めよ」という逆算もよく出ます。r=sxysxsyr=\dfrac{s_{xy}}{s_x s_y} を変形するだけです。

例:r=0.8r=0.8sx=5s_x=5sy=4s_y=4 のとき

sxy=rsxsy=0.8×5×4=16s_{xy}=r\cdot s_x\cdot s_y = 0.8\times 5\times 4 = 16

要するに、相関係数の定義式は3つの量(r,sxy,sxsyr,s_{xy},s_x s_y)の関係なので、2つ分かれば残り1つが出ます。

ここが本丸:相関係数の3つの落とし穴

ここからが試験でも実務でも最重要です。相関係数は便利な反面、誤解されやすい指標です。

落とし穴1:相関≠因果(擬似相関)

相関係数が大きくても、因果関係があるとは限りません。 一番こわいのが、背後に**共通原因(交絡因子)**が隠れているケース=**擬似相関(みかけの相関)**です。

日常の例で考えましょう。「アイスクリームの売上」と「水難事故の件数」には強い正の相関(実データで r0.96r\approx0.96)があります。 ではアイスを食べると溺れるのでしょうか。もちろん違います。背後に「気温(夏の暑さ)」という共通原因があり、暑いとアイスも売れるし、泳ぐ人も増えて事故も増える、というだけです。アイスと事故の間に直接の因果はありません。

graph TD
    K["気温が高い<br/>共通原因"] --> A["アイス売上 増"]
    K --> B["水難事故 増"]
    A -. みかけの相関 .- B

実線が本当の因果(気温 → それぞれ)、点線がデータ上だけ見える「みかけの相関」です。気温という第3の変数を見落とすと、アイスと事故に因果があると誤解してしまいます。相関を見たら「共通原因はないか?」を必ず疑うのが鉄則です。

落とし穴2:rは直線関係しか測れない(r0r\approx0 でも強い関係がありうる)

相関係数 rr が捉えるのは直線的な関係だけです。曲線的な関係は測れません。

極端な例が放物線 y=x2y=x^2xx00 を中心に対称にとった場合)です。散布図は明確なU字=強い関係があるのに、rr はほぼ0になります。理由は、左半分(右下がり)と右半分(右上がり)で共分散の符号が逆になり、ちょうど打ち消し合うからです(導出は「数式の直観的意味」へ)。

ですから、r0r\approx0」を「2変数は無関係」と読んではいけません。正しくは「直線的な関係がない」だけで、曲線的な強い関係が隠れていることがあります。これを確かめるには、rr を計算する前に必ず散布図を描くしかありません。

落とし穴3:外れ値1点で相関係数が激変する

相関係数は**外れ値に弱い(頑健でない)**指標です。たった1点の異常値で値が大きく動きます。

理由は共分散の分子 (xxˉ)(yyˉ)(x-\bar x)(y-\bar y) にあります。遠く離れた1点は (xxˉ)(x-\bar x)(yyˉ)(y-\bar y) も非常に大きいので、その積が巨大になり、他の全部の点の寄与を一気に上回ってしまうのです。後で紹介するシミュレーションでは、ほぼ無相関のデータに外れ値を1点足すだけで rr0.090.840.09\to0.84 に跳ね上がります。

外れ値の影響を避けたいときは、生の値ではなく順位に直して計算するスピアマンの順位相関が有効です(後述)。

相関と回帰の傾きは別物

混同しやすいので明記します。

傾きが急でも点がばらけていれば r|r| は小さく、傾きが緩くても点が密集していれば r|r| は大きくなります。「相関が強い=傾きが大きい」ではありません。 回帰直線そのものは回帰のトピックで扱います。

順位相関(スピアマン)── 外れ値・曲線的単調関係に強い(2級・要最新確認)

各変数を順位に変換してからピアソン相関を計算したものがスピアマンの順位相関係数 rsr_s です。同順位がなければ次の簡便式で計算できます。

rs=16di2n(n21),di=(xi の順位)(yi の順位)r_s = 1-\frac{6\sum d_i^2}{n(n^2-1)},\qquad d_i=(\text{$x_i$ の順位})-(\text{$y_i$ の順位})

要するにdid_i は各データの順位の差で、「順位の並びがどれだけ一致しているか」を測ります。範囲はピアソンと同じ 1rs1-1\le r_s\le 1 です。

ピアソンとの違いはこちらです。

ピアソン rrスピアマン rsr_s
使う値生のデータ順位
測れる関係直線的な関係単調な関係(曲線でもOK)
外れ値弱い(激変する)頑健(順位なので暴れない)

データが順序尺度のとき、外れ値があるとき、曲線的だが「増えれば増える」単調な関係のときは、スピアマンが向いています。ケンドールの τ\tau も順位相関の一種(ペアの一致・不一致を数える)で、範囲はやはり [1,1][-1,1] です。

なお、2級でスピアマンの計算がどこまで問われるかは年度により幅があります(順位相関の検定は準1級で本格化します)。スピアマン・ケンドールはノンパラメトリック領域とも重なります。最新の出題範囲表で要確認です。

アンスコムの数値例 ── 数値だけ見るな、可視化せよ

統計学者アンスコムが1973年に示した有名な例です。平均・分散・相関係数・回帰直線がすべて同じなのに、散布図が4通り全く違う4つのデータセットがあります。

要するに、要約統計量(rr など)が同じでもデータの中身は全然違いうる、だから必ず散布図を描け、という教訓の代表例です。本記事の3つの落とし穴を1枚にまとめたような例です。

数式の直観的意味

1. なぜ 1r1-1\le r\le 1 か(コーシー・シュワルツの不等式から導出)

コーシー・シュワルツの不等式(実数列に対する形):

(i=1naibi)2(i=1nai2)(i=1nbi2)\left(\sum_{i=1}^{n} a_i b_i\right)^2 \le \left(\sum_{i=1}^{n} a_i^2\right)\left(\sum_{i=1}^{n} b_i^2\right)

ここに ai=xixˉa_i = x_i-\bar xbi=yiyˉb_i = y_i-\bar y(=平均からの偏差)を代入する:

((xixˉ)(yiyˉ))2(nsxy)2    ((xixˉ)2)nsx2((yiyˉ)2)nsy2\underbrace{\left(\sum (x_i-\bar x)(y_i-\bar y)\right)^2}_{(n s_{xy})^2} \;\le\; \underbrace{\left(\sum (x_i-\bar x)^2\right)}_{n s_x^2} \underbrace{\left(\sum (y_i-\bar y)^2\right)}_{n s_y^2}

左辺は (nsxy)2=n2sxy2(n s_{xy})^2 = n^2 s_{xy}^2、右辺は (nsx2)(nsy2)=n2sx2sy2(n s_x^2)(n s_y^2)=n^2 s_x^2 s_y^2。両辺を n2n^2 で割ると:

sxy2sx2sy2    sxy2sx2sy21    r21    1r1.s_{xy}^2 \le s_x^2\, s_y^2 \;\Longleftrightarrow\; \frac{s_{xy}^2}{s_x^2 s_y^2}\le 1 \;\Longleftrightarrow\; r^2 \le 1 \;\Longleftrightarrow\; -1\le r\le 1.

要するに**「共分散の2乗は2つの分散の積を超えられない」というコーシー・シュワルツそのもの**が、rr の範囲 [1,1][-1,1] の正体。

コーシー・シュワルツ自体の証明(任意の実数 tt について2次関数が非負)

g(t)=i=1n(ait+bi)2=(ai2)t2+2(aibi)t+(bi2)0(t)g(t)=\sum_{i=1}^{n}(a_i t + b_i)^2 = \left(\sum a_i^2\right)t^2 + 2\left(\sum a_i b_i\right)t + \left(\sum b_i^2\right)\ge 0\quad(\forall t)

(各項が2乗なので非負、その和も非負。)tt の2次式が常に 0\ge0 なら判別式 0\le0

(2aibi)24(ai2)(bi2)0    (aibi)2(ai2)(bi2).\left(2\sum a_i b_i\right)^2 - 4\left(\sum a_i^2\right)\left(\sum b_i^2\right)\le 0 \;\Longrightarrow\; \left(\sum a_i b_i\right)^2\le\left(\sum a_i^2\right)\left(\sum b_i^2\right).

2. 等号成立(r=±1r=\pm1)=完全な直線関係

判別式 =0=0(等号成立)になるのは、ある t=t0t=t_0g(t0)=(ait0+bi)2=0g(t_0)=\sum(a_i t_0 + b_i)^2=0 のとき。2乗和が0ならすべての iiait0+bi=0a_i t_0 + b_i = 0、つまり

bi=t0ai    yiyˉ=c(xixˉ)(c=t0, 全 i 共通)b_i = -t_0\, a_i \;\Longleftrightarrow\; y_i-\bar y = c\,(x_i-\bar x)\quad(c=-t_0,\ \text{全 $i$ 共通})

これは全データ点が一直線 yyˉ=c(xxˉ)y-\bar y = c(x-\bar x) 上に乗っていることを意味する。傾き c>0c>0 なら r=+1r=+1c<0c<0 なら r=1r=-1

要するに:r=±1r=\pm1 ⟺ 全点が完全に一直線上。逆に直線から外れるほど r<1|r|<1 に下がる。

3. rr は標準化得点の積の平均(だからスケール不変)

標準化 zx,i=xixˉsxz_{x,i}=\dfrac{x_i-\bar x}{s_x}zy,i=yiyˉsyz_{y,i}=\dfrac{y_i-\bar y}{s_y}(→ 標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め)を使うと、rr

r=1ni=1nzx,izy,ir=\frac{1}{n}\sum_{i=1}^{n} z_{x,i}\,z_{y,i}

と書ける(実際 1n(xixˉ)sx(yiyˉ)sy=1sxsy1n(xixˉ)(yiyˉ)=sxysxsy=r\frac1n\sum \frac{(x_i-\bar x)}{s_x}\frac{(y_i-\bar y)}{s_y}=\frac{1}{s_x s_y}\cdot\frac1n\sum(x_i-\bar x)(y_i-\bar y)=\frac{s_{xy}}{s_x s_y}=r)。

意味:「両方とも平均より上 or 両方とも下」の点は zxzy>0z_x z_y>0rr を押し上げ、「片方上・片方下」の点は zxzy<0z_x z_y<0 で押し下げる。その平均が rr

ここからスケール不変性が明快に分かる。xxx=ax+bx'=ax+ba>0a>0)と単位変換しても、標準化得点 zxz_x は不変(→ 標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め で示した「線形変換で zz は変わらない」)。zx,zyz_x,z_y が不変なら rr も不変。だから rr は cm でも m でも同じ値

4. なぜ rr は直線関係しか測れないのか(y=x2y=x^2r0r\approx0

rr の分子(共分散)は (xixˉ)(yiyˉ)\sum(x_i-\bar x)(y_i-\bar y)直線的な共変動だけを足し上げる量。非線形だと正負が打ち消し合う。

具体例y=x2y=x^2x[a,a]x\in[-a,a] で対称にとると xˉ=0\bar x=0

対称なので正の寄与と負の寄与がちょうど打ち消し合い、共分散 ≈ 0、したがって r0r\approx0。だが散布図は明確なU字=強い関係がある

要するに:r0r\approx0」は「2変数が無関係」ではなく「直線的な関係がない」だけ。曲線的な強い関係は rr では見えない。だから**rr を計算する前に必ず散布図を描く**(→ シミュ soukan_karakuri.py、アンスコムの数値例)。

⚠️ 引っかけポイント・頻出論点・級ごとの差

よくある疑問

Q1. 共分散が大きければ相関も強い、で合っていますか?

いいえ。共分散は単位に依存するので、大きさだけでは強さを比較できません(cm を m に変えるだけで 1/1001/100 になります)。強さを比べるときは、単位をなくした無次元の相関係数 rr を使ってください。

Q2. r=0r=0 なら2つの変数は無関係(独立)ですか?

いいえ。r=0r=0 は「直線的な関係がない」だけです。放物線のような曲線的な強い関係があっても r0r\approx0 になります。無関係とは限りません。逆に「独立 → r=0r=0」は成り立ちますが、「r=0r=0 → 独立」は成り立ちません。

Q3. 相関係数が高ければ「xxyy の原因」と言ってよいですか?

いけません。相関と因果は別です。逆向きの因果かもしれませんし、共通原因による擬似相関かもしれません(アイスと水難事故=共通原因は気温)。因果を主張するには、相関だけでなく実験や追加の検討が必要です。

まとめ

対応するシミュレーション

相関係数のからくり(放物線は r≈0 でも強い関係)

外れ値1点で相関係数が激変する

関連ノート