📊 対象級:3級 ・ 2級 | 重要度:A(頻出)
2変数の記述(散布図・共分散・相関係数)── 相関≠因果/rは直線関係しか測れない/外れ値1点で激変
要点(BLUF)
- 散布図=2変数 の対応を平面の点で描いた図。点の並びで**正の相関(右上がり)/負の相関(右下がり)/無相関(バラバラ)**を読み取る。4級。
- 共分散 =「2変数が同じ向きにズレるか逆向きにズレるか」の平均。符号が向き(正=同方向、負=逆方向)。ただし単位に依存するので大きさで強さは測れない。3〜2級。
- 相関係数(ピアソン) =共分散を単位で割って無次元化したもの。必ず (コーシー・シュワルツの不等式から)。=完全な直線。ただし r は直線関係しか測れない(最頻出注意:放物線など非線形だと でも強い関係がありうる)。3級(計算は2級)。
対象級について:散布図の読み取り(正・負・無相関)は統計検定4級、共分散・相関係数の意味と読み取りは3級、相関係数の計算(共分散からの逆算)・相関行列・擬相関・層別・順位相関は2級です。前トピックまでで扱った1変数の記述(平均・分散・標準偏差・標準化)を土台に、ここから2つの変数の関係を扱います。相関係数は「なぜ から に収まるのか」をコーシー・シュワルツの不等式から導出し、「相関≠因果」「 は直線関係しか測れない」という最頻出の落とし穴まで整理します。
結論:散布図で形を見て、共分散で向きを、相関係数で強さと向きを無次元で測る
最初に結論です。本記事の3つの主役を一言ずつで。
| 概念 | 式 | 一言でいうと |
|---|---|---|
| 散布図 | (図) | 2変数を平面の点で描く。並びで正・負・無相関を読む |
| 共分散 | 2変数が同じ向きにズレるか逆向きか。符号が向き。ただし単位依存 | |
| 相関係数 | 共分散を単位で割って無次元化。必ず 。強さと向きを一度に表す |
そして本記事で絶対に外してほしくない核心を、先に3つ挙げます。
- 相関≠因果。相関係数が大きくても「 が の原因」とは言えません。背後に共通原因が隠れた「擬似相関」かもしれません(定番:アイスの売上と水難事故)。
- は直線的な関係しか測れません。放物線のような強い関係があっても になることがあります。「 =無関係」ではなく「直線関係がないだけ」です。
- 相関係数は外れ値に弱い。たった1点の異常値で、ほぼ無相関が「強い相関あり」に激変します。必ず散布図を描いて確認してください。
散布図 ── まず2変数を「点」で描く(4級)
2つの変数 の組を、横軸 ・縦軸 の平面に1点ずつ打った図が散布図です。点の並ぶ「形」で関係を視覚的に掴みます。
| 点の並び | 関係 | 言い換え |
|---|---|---|
| 右上がりの帯 | 正の相関 | が増えると も増える傾向 |
| 右下がりの帯 | 負の相関 | が増えると は減る傾向 |
| 一面にバラバラ | 無相関 | 直線的な関係なし |
| U字・への字 | 非線形の関係 | 直線では表せない |
帯が細い(直線に近い)ほど関係が強い、と読みます。4級ではこの読み取りができれば十分です。
共分散 ── 2変数が「一緒にどう動くか」(3〜2級)
共分散の定義式はこちらです。
要するに、各点について「 が平均からどれだけズレたか」×「 が平均からどれだけズレたか」を掛けて、その平均をとったものです。2変数が一緒にどう動くか(共変動)の平均、と言えます。
掛け算の符号がポイントです。
- :両方とも平均より上 or 両方とも下(同じ向きにズレた点)
- :片方が上で片方が下(逆向きにズレた点)
同じ向きの点が多ければ和は正で 、逆向きが多ければ 。つまり共分散の符号が関係の向きを表します。
ただし注意。共分散の「大きさ」は強さの指標になりません。単位(cm か m か)で値が何倍にも変わるからです。たとえば を cm から m に変えると共分散は になってしまいます。これでは「強い/弱い」を比べられません。そこで単位をなくしたのが、次の相関係数です。
標本分散 は「 自身との共変動」 に等しい。共分散は分散を2変数に拡張したもの(→ 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか))。
相関係数 ── 共分散を「無次元」にして強さを測る(3級・計算は2級)

図は simulations/soukan_gallery.py で生成。
ピアソンの相関係数 は、共分散を それぞれの標準偏差の積で割ったものです。
要するに、共分散から単位を消して「強さと向き」を一度に表せるようにした、 から の無次元の数です(分母分子の は約分で消えるので右の形でも計算できます。不偏 (÷)を使っても が約分で消え は同じ値)。
- 範囲:必ず (理由は後ほどコーシー・シュワルツで導きます)
- 符号:正なら正の相関、負なら負の相関
- 絶対値:1に近いほど直線に近い(強い)、0に近いほど直線関係が弱い
相関の強さの目安(慣習。文献で多少違います)はこちらです。
| 目安 | |
|---|---|
| 0.7〜1.0 | 強い相関 |
| 0.4〜0.7 | 中程度の相関 |
| 0.2〜0.4 | 弱い相関 |
| 0.0〜0.2 | ほとんど相関なし |
※この区切りは文献により異なります。試験では「強い/弱い」の大小比較や符号の判定が問われ、境界値そのものは問われにくいです。
計算例(2級の典型:共分散からの逆算)
2級では「相関係数と標準偏差が分かっていて、共分散を求めよ」という逆算もよく出ます。 を変形するだけです。
例:、、 のとき
要するに、相関係数の定義式は3つの量()の関係なので、2つ分かれば残り1つが出ます。
ここが本丸:相関係数の3つの落とし穴
ここからが試験でも実務でも最重要です。相関係数は便利な反面、誤解されやすい指標です。
落とし穴1:相関≠因果(擬似相関)
相関係数が大きくても、因果関係があるとは限りません。 一番こわいのが、背後に**共通原因(交絡因子)**が隠れているケース=**擬似相関(みかけの相関)**です。
日常の例で考えましょう。「アイスクリームの売上」と「水難事故の件数」には強い正の相関(実データで )があります。 ではアイスを食べると溺れるのでしょうか。もちろん違います。背後に「気温(夏の暑さ)」という共通原因があり、暑いとアイスも売れるし、泳ぐ人も増えて事故も増える、というだけです。アイスと事故の間に直接の因果はありません。
graph TD
K["気温が高い<br/>共通原因"] --> A["アイス売上 増"]
K --> B["水難事故 増"]
A -. みかけの相関 .- B
実線が本当の因果(気温 → それぞれ)、点線がデータ上だけ見える「みかけの相関」です。気温という第3の変数を見落とすと、アイスと事故に因果があると誤解してしまいます。相関を見たら「共通原因はないか?」を必ず疑うのが鉄則です。
落とし穴2:rは直線関係しか測れない( でも強い関係がありうる)
相関係数 が捉えるのは直線的な関係だけです。曲線的な関係は測れません。
極端な例が放物線 ( を を中心に対称にとった場合)です。散布図は明確なU字=強い関係があるのに、 はほぼ0になります。理由は、左半分(右下がり)と右半分(右上がり)で共分散の符号が逆になり、ちょうど打ち消し合うからです(導出は「数式の直観的意味」へ)。
ですから、「」を「2変数は無関係」と読んではいけません。正しくは「直線的な関係がない」だけで、曲線的な強い関係が隠れていることがあります。これを確かめるには、 を計算する前に必ず散布図を描くしかありません。
落とし穴3:外れ値1点で相関係数が激変する
相関係数は**外れ値に弱い(頑健でない)**指標です。たった1点の異常値で値が大きく動きます。
理由は共分散の分子 にあります。遠く離れた1点は も も非常に大きいので、その積が巨大になり、他の全部の点の寄与を一気に上回ってしまうのです。後で紹介するシミュレーションでは、ほぼ無相関のデータに外れ値を1点足すだけで が に跳ね上がります。
外れ値の影響を避けたいときは、生の値ではなく順位に直して計算するスピアマンの順位相関が有効です(後述)。
相関と回帰の傾きは別物
混同しやすいので明記します。
- 相関係数 :点が直線にどれだけ近いか(関係の強さ)。〜 の無次元。
- 回帰の傾き: が1増えると がいくつ増えるか(変化の率)。単位あり。
傾きが急でも点がばらけていれば は小さく、傾きが緩くても点が密集していれば は大きくなります。「相関が強い=傾きが大きい」ではありません。 回帰直線そのものは回帰のトピックで扱います。
順位相関(スピアマン)── 外れ値・曲線的単調関係に強い(2級・要最新確認)
各変数を順位に変換してからピアソン相関を計算したものがスピアマンの順位相関係数 です。同順位がなければ次の簡便式で計算できます。
要するに、 は各データの順位の差で、「順位の並びがどれだけ一致しているか」を測ります。範囲はピアソンと同じ です。
ピアソンとの違いはこちらです。
| ピアソン | スピアマン | |
|---|---|---|
| 使う値 | 生のデータ | 順位 |
| 測れる関係 | 直線的な関係 | 単調な関係(曲線でもOK) |
| 外れ値 | 弱い(激変する) | 頑健(順位なので暴れない) |
データが順序尺度のとき、外れ値があるとき、曲線的だが「増えれば増える」単調な関係のときは、スピアマンが向いています。ケンドールの も順位相関の一種(ペアの一致・不一致を数える)で、範囲はやはり です。
なお、2級でスピアマンの計算がどこまで問われるかは年度により幅があります(順位相関の検定は準1級で本格化します)。スピアマン・ケンドールはノンパラメトリック領域とも重なります。最新の出題範囲表で要確認です。
アンスコムの数値例 ── 数値だけ見るな、可視化せよ
統計学者アンスコムが1973年に示した有名な例です。平均・分散・相関係数・回帰直線がすべて同じなのに、散布図が4通り全く違う4つのデータセットがあります。
- 1つ目:素直な直線的関係
- 2つ目:非線形(曲線)なのに同じ
- 3つ目:直線的だが外れ値1点で直線がズレる
- 4つ目:本来無関係なのに外れ値1点で偽の相関が出る
要するに、要約統計量( など)が同じでもデータの中身は全然違いうる、だから必ず散布図を描け、という教訓の代表例です。本記事の3つの落とし穴を1枚にまとめたような例です。
数式の直観的意味
1. なぜ か(コーシー・シュワルツの不等式から導出)
コーシー・シュワルツの不等式(実数列に対する形):
ここに 、(=平均からの偏差)を代入する:
左辺は 、右辺は 。両辺を で割ると:
要するに**「共分散の2乗は2つの分散の積を超えられない」というコーシー・シュワルツそのもの**が、 の範囲 の正体。
コーシー・シュワルツ自体の証明(任意の実数 について2次関数が非負):
(各項が2乗なので非負、その和も非負。) の2次式が常に なら判別式 :
2. 等号成立()=完全な直線関係
判別式 (等号成立)になるのは、ある で のとき。2乗和が0ならすべての で 、つまり
これは全データ点が一直線 上に乗っていることを意味する。傾き なら 、 なら 。
要するに: ⟺ 全点が完全に一直線上。逆に直線から外れるほど に下がる。
3. は標準化得点の積の平均(だからスケール不変)
標準化 、(→ 標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め)を使うと、 は
と書ける(実際 )。
意味:「両方とも平均より上 or 両方とも下」の点は で を押し上げ、「片方上・片方下」の点は で押し下げる。その平均が 。
ここからスケール不変性が明快に分かる。 を ()と単位変換しても、標準化得点 は不変(→ 標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め で示した「線形変換で は変わらない」)。 が不変なら も不変。だから は cm でも m でも同じ値。
- 共分散 は単位に依存(cm→m で )
- 相関係数 は無次元・スケール不変(→ 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか) の変動係数CVが「単位をなくす」のと同じ発想。CVは1変数のばらつき/は2変数の関係)
4. なぜ は直線関係しか測れないのか( で )
の分子(共分散)は =直線的な共変動だけを足し上げる量。非線形だと正負が打ち消し合う。
具体例: を で対称にとると 。
- の領域:、かつ は平均より大きい側 → (正の寄与)
- の領域:、だが は同じく平均より大きい側 → (負の寄与)
対称なので正の寄与と負の寄与がちょうど打ち消し合い、共分散 ≈ 0、したがって 。だが散布図は明確なU字=強い関係がある。
要するに:「」は「2変数が無関係」ではなく「直線的な関係がない」だけ。曲線的な強い関係は では見えない。だから** を計算する前に必ず散布図を描く**(→ シミュ soukan_karakuri.py、アンスコムの数値例)。
⚠️ 引っかけポイント・頻出論点・級ごとの差
- 相関≠因果(最頻出): が大きくても「 が の原因」とは言えない。逆向き・第3の共通原因・偶然のいずれもありうる。散布図や相関係数だけから因果は結論できない。
- 擬似相関(みかけの相関):共通原因(交絡因子)が背後にあり、2変数自体に因果がないのに相関が出る。定番例:アイス売上と水難事故(共通原因=気温、)。コウノトリの数と出生数(共通原因=天候)。2級頻出。
- は「無関係」ではない:「直線関係がない」だけ。放物線など非線形の強い関係は になりうる(シミュD:)。「 だから2変数は独立」は誤り。
- 外れ値1点で が激変: は外れ値に弱い(頑健でない)。たった1点でほぼ無相関→強い相関に変わる(シミュ:)。共分散の分子 が遠い点で巨大化するため。散布図で異常点を確認。
- アンスコムの数値例:相関係数・回帰直線・平均・分散がすべて同じなのに、散布図が4通り全く違うデータ(直線的・非線形・外れ値で直線がズレる・外れ値で偽の相関)。数値だけ見ず可視化せよの代表例。
- 共分散の大小で強さを比較できない:共分散は単位依存。強さの比較は無次元の で行う。「共分散が大きい=相関が強い」は誤り。
- 相関係数の大小 ≠ 回帰の傾き: は「直線への近さ(強さ)」、回帰の傾きは「 が1増えると がいくつ増えるか(変化率)」。別物。傾きが急でも点が散れば は小さい。逆に傾きが緩くても点が密なら は大きい。
- 層別で相関が逆転=シンプソンのパラドックス:全体では正の相関でも、第3変数で層別すると各層で負の相関になる(逆も)。例:全体で「運動時間↑→病気↑」でも、年齢で層別すると各年齢層では「運動時間↑→病気↓」。全体集計は層を隠す。層別散布図で確認。2級。
- 層別で相関が弱まる(範囲の制限):合格者だけ・特定群だけに絞ると変動範囲が狭まり が小さく出る(選抜による相関の希薄化)。2級の典型出題。
- スピアマン vs ピアソン:ピアソン=生の値・直線関係・外れ値に弱い/スピアマン=順位・単調関係・外れ値に頑健。データが順序尺度、または外れ値・曲線的単調関係のときはスピアマンが適切。
- 級差:4級=散布図の読み取り(正・負・無相関) → 3級=共分散・相関係数の意味と読み取り、簡単な計算 → 2級=相関係数の計算(共分散からの逆算含む)・相関行列・擬相関・層別・偏相関・順位相関。
- 出題範囲は改訂されうるため受験前に最新の範囲表で要確認(2級にスピアマン・偏相関が含まれる扱いは年度により変動の可能性)。
よくある疑問
Q1. 共分散が大きければ相関も強い、で合っていますか?
いいえ。共分散は単位に依存するので、大きさだけでは強さを比較できません(cm を m に変えるだけで になります)。強さを比べるときは、単位をなくした無次元の相関係数 を使ってください。
Q2. なら2つの変数は無関係(独立)ですか?
いいえ。 は「直線的な関係がない」だけです。放物線のような曲線的な強い関係があっても になります。無関係とは限りません。逆に「独立 → 」は成り立ちますが、「 → 独立」は成り立ちません。
Q3. 相関係数が高ければ「 が の原因」と言ってよいですか?
いけません。相関と因果は別です。逆向きの因果かもしれませんし、共通原因による擬似相関かもしれません(アイスと水難事故=共通原因は気温)。因果を主張するには、相関だけでなく実験や追加の検討が必要です。
まとめ
- 散布図で形を見て、共分散で向きを、相関係数 で強さと向きを無次元で測る。
- は標準化得点の積の平均でもあり、だからスケール不変。範囲 はコーシー・シュワルツの不等式から導かれ、等号 は完全な直線関係のとき。
- 3大落とし穴:相関≠因果(擬似相関)/ は直線関係しか測れない( でも強い関係がありうる)/外れ値1点で激変。いずれも対策は同じ、まず散布図を描くこと。
- 外れ値・曲線的単調関係にはスピアマンの順位相関が有効。出題範囲の細部は要最新確認。
対応するシミュレーション
simulations/soukan_karakuri.py- 何を示すか:4つの散布パターン(強い正・強い負・無相関・放物線)の を定義どおり自作関数で計算し、散布図を並べる。「 は直線関係がないだけ」を放物線で可視化。
- 実行結果(成功):A(強い正)=0.948、B(強い負)=-0.947、C(無相関)=-0.097、D(放物線・非線形)=0.025。Dは明確なU字なのに 。直線関係だけを測る の限界が一目。

simulations/soukan_hazurechi_eikyou.py- 何を示すか:ほぼ無相関のデータに極端な外れ値を1点だけ足し、 がどう変わるかを左右比較。
- 実行結果(成功):外れ値なし(50点)=0.089(ほぼ無相関)→ 外れ値を1点足す(51点)=0.838(強い正の相関に見える)。1点で が激変=外れ値に頑健でないことの実証。

関連ノート
- 代表値 ── 平均・中央値・最頻値の定義と使い分け(外れ値への強さ・歪んだ分布での大小関係)(代表値:平均・中央値・最頻値 ── 共分散・相関係数はすべて「平均 からのズレ」を基準に計算する。平均が基準点。後方リンク)
- 散らばり(ばらつき)の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数(なぜ偏差を2乗するか/なぜn−1で割るか)(散らばり:分散・標準偏差・変動係数 ── 共分散は分散を2変数に拡張したもの()。相関係数の分母 はここで定義。CVの「単位をなくす」発想は の無次元化と同じ。後方リンク)
- 標準化(z得点)・偏差値・チェビシェフの不等式 ── 標準化≠正規化/偏差値に上限なし/どんな分布でも成り立つ歯止め(標準化・z得点 ── は標準化得点の積の平均 。スケール不変性は が線形変換で不変なことから来る。後方リンク)
- 時系列データの処理 ── 指数・増減率・移動平均・成長率(なぜ成長率は幾何平均なのか)(時系列データの記述 ── 価格と数量の逆相関(需要法則)はまさに負の相関の実例。ラスパイレス/パーシェ指数の背後にある2変数の関係。後方リンク)
- クロス集計表・行/列比率・連関 ── 同じ表でも「何で割るか」で結論が変わる(クロス集計表・行/列比率 ── 質的変数(カテゴリ)版の2変数の関係。量的変数は散布図・相関係数、質的変数はクロス集計。シンプソンのパラドックスはクロス集計でも現れる。前方リンク・次トピック)
- 回帰直線・最小二乗法(相関係数の「次の一手」。 は関係の強さ、回帰は関係を直線の式で表し予測に使う。傾きと の違いに注意。回帰のドメインで扱う将来トピック)