📊 対象級：2級　|　重要度：A（頻出）

確率変数（離散・連続）と期待値・分散 ── PMF/PDF・E[X]・V[X]・分散公式の導出

要点（BLUF）

確率変数 $X$ ＝標本空間 $\Omega$ の各結果に実数を割り当てる写像（関数）。離散型は確率質量関数 PMF $p(x)=P(X=x)$ （ $\sum_x p(x)=1$ ）、連続型は確率密度関数 PDF $f(x)$ （ $\int f(x)\,dx=1$ 、 $P(a\le X\le b)=\int_a^b f\,dx$ 、1点の確率0、 $f(x)$ は1を超えてよい）。共通の道具に累積分布関数 CDF $F(x)=P(X\le x)$ 。
期待値 $E[X]=\sum_x x\,p(x)$ （離散）／ $\int x f(x)\,dx$ （連続）＝確率で重みづけた平均＝分布の重心＝長期平均。記述統計の平均（代表値 ── 平均・中央値・最頻値の定義と使い分け（外れ値への強さ・歪んだ分布での大小関係））の母集団・理論版。
分散 $V[X]=E[(X-\mu)^2]=E[X^2]-(E[X])^2$ （「2乗の期待値 − 期待値の2乗」）、 $\sigma=\sqrt{V[X]}$ 。記述統計の分散（散らばり（ばらつき）の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数（なぜ偏差を2乗するか／なぜn−1で割るか））の母集団・理論版。線形性・和の分散・共分散は次トピック期待値・分散の性質（線形性・和の分散・共分散）（本ノートは1変数の基本まで）。

本文

確率変数とは（標本空間 → 実数の写像）

確率変数 $X$ とは、標本空間 $\Omega$ （起こりうる結果すべて）の各結果 $\omega$ に実数 $X(\omega)$ を対応させる関数（写像） $X:\Omega\to\mathbb{R}$ 。「変数」と呼ぶが実体は関数で、 $X$ がとる値が確率に従ってばらつく。値の与え方（確率分布）でとびとびか連続かが決まる。

flowchart LR
  subgraph S["標本空間 Ω（偶然の結果）"]
    a["表・表"]
    b["表・裏"]
    c["裏・裏"]
  end
  a -->|"X = 2"| R["実数 ℝ"]
  b -->|"X = 1"| R
  c -->|"X = 0"| R

例：コイン2回で表の回数 $X$ 。結果「表表」 $\mapsto2$ 、「表裏」「裏表」 $\mapsto1$ 、「裏裏」 $\mapsto0$ 。偶然の結果に数を貼り付ける関数。

	離散型確率変数	連続型確率変数
とりうる値	とびとび（ $0,1,2,\dots$ ）	連続（区間の実数すべて）
例	サイコロの目・表の回数・不良品数	身長・待ち時間・測定値
確率の与え方	PMF $p(x)$ （=確率そのもの）	PDF $f(x)$ （密度、確率ではない）

離散：確率質量関数 PMF

p(x)=P(X=x),\qquad p(x)\ge0,\quad \sum_{x}p(x)=1

離散では $p(x)$ がそのまま確率。サイコロ： $p(1)=\cdots=p(6)=\frac16$ 、和 $=1$ 。

連続：確率密度関数 PDF（ここが最大の関門）

身長がぴったり170.000…cmになる確率は？値が連続無限にあるので1点の確率は0。だから「1点の確率」ではなく「区間の確率」を考える。それを与えるのが PDF $f(x)$ 。

f(x)\ge0,\quad \int_{-\infty}^{\infty}f(x)\,dx=1,\qquad P(a\le X\le b)=\int_a^b f(x)\,dx

確率は密度のグラフとx軸が囲む面積（積分）。1点の確率は $\int_a^a f\,dx=0$ 。 $f(x)$ は1を超えてよい（密度であって確率ではない。例： $[0,0.5]$ 上の一様で $f=2$ 、高さ2×幅0.5=面積1）。

この2つの誤解（ $f(x)$ は1以下／ $P(X=a)=f(a)$ ）の根っこは同じで、「密度（高さ）と確率（面積）を混同している」こと。確率は必ず「幅をもった区間の面積」で考える。

累積分布関数 CDF（離散・連続共通）

F(x)=P(X\le x),\qquad \text{連続なら } F(x)=\int_{-\infty}^x f(t)\,dt,\ f(x)=F'(x),\ P(a\le X\le b)=F(b)-F(a)

$0$ から $1$ へ単調増加（離散は階段、連続は滑らか曲線）。区間の確率は引き算 $F(b)-F(a)$ で出せて便利。

離散↔連続の対応（ $\sum \leftrightarrow \int$ ）

概念	離散	連続
確率	PMF $p(x)$	PDF $f(x)$ （密度）
1点の確率	$p(x)$ （>0 可）	0
全体	$\sum p(x)=1$	$\int f\,dx=1$
区間	$\sum_{a\le x\le b}p(x)$	$\int_a^b f\,dx$
期待値	$\sum x\,p(x)$	$\int x f\,dx$
分散	$\sum (x-\mu)^2 p(x)$	$\int (x-\mu)^2 f\,dx$

「離散の $\sum_x\,\cdot\,p(x)$ → 連続の $\int\,\cdot\,f(x)\,dx$ 」が連続型公式の作り方。この1行が連続型の公式すべての作り方。

期待値（平均の理論版）

E[X]=\sum_x x\,p(x)\quad(\text{離散}),\qquad E[X]=\int_{-\infty}^{\infty}x\,f(x)\,dx\quad(\text{連続}),\qquad \mu:=E[X]

「値 × 確率」を全部足す＝分布の重心、長期平均。記述統計の平均 $\bar{x}=\frac1n\sum x_i$ は「重み $\frac1n$ 均等の加重平均」、期待値はその重みを確率 $p(x)$ に替えたもの。両者は大数の法則（大数の法則（弱法則・強法則））で連結（ $n\to\infty$ で $\bar{x}\to E[X]$ ）。

サイコロ： $E[X]=\frac{1+2+\cdots+6}{6}=\frac{21}{6}=3.5$ 。期待値3.5は「サイコロの目に3.5は無い」のに出てくるのがポイント。期待値は「1回1回で必ず出る値」ではなく「何回も振って平均したら近づく値（長期平均）」だから。

分散（散らばりの理論版）

V[X]=E[(X-\mu)^2],\qquad \sigma=\sqrt{V[X]}

期待値からのズレの2乗を確率で重みづけ平均。2乗する理由・標準偏差に戻す理由は記述統計と同じ（散らばり（ばらつき）の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数（なぜ偏差を2乗するか／なぜn−1で割るか））。標準偏差は元の単位、分散は2乗の単位。

計算公式（頻出・主役）：

\boxed{\,V[X]=E[X^2]-(E[X])^2\,}\quad(\text{「2乗の期待値 − 期待値の2乗」})

定義式 $E[(X-\mu)^2]$ より計算が速い。導出は「数式の直観的意味」で示す。

代表的な確率変数

ベルヌーイ分布（離散・0/1の最小単位）

「成功なら $X=1$ （確率 $p$ ）、失敗なら $X=0$ （確率 $1-p$ ）」というコイン投げ1回のような最も単純な確率変数。二項分布や比率の推定の土台。

E[X]=1\cdot p+0\cdot(1-p)=p

$X$ が0か1しかとらないので $X^2=X$ （ $0^2=0,\ 1^2=1$ ）。したがって $E[X^2]=E[X]=p$ 。公式に入れると

V[X]=E[X^2]-(E[X])^2 = p - p^2 = p(1-p)

要するに「成功確率 $p$ が期待値、 $p(1-p)$ が分散」。分散は $p=0.5$ で最大（最も予測しにくい）、 $p=0$ や $p=1$ で0（結果が確定）。

離散一様分布（サイコロ）

$1$ 〜 $n$ が等確率なら $E[X]=\dfrac{n+1}{2}$ 、 $V[X]=\dfrac{n^2-1}{12}$ 。 $n=6$ で $E=3.5$ 、 $V=\dfrac{35}{12}$ 。

連続一様分布（区間 $[a,b]$ 上で一定）

密度は一定なので、面積1になるよう高さは $f(x)=\dfrac{1}{b-a}$ （ $a\le x\le b$ 、それ以外は0）。

E[X]=\int_a^b x\cdot\frac{1}{b-a}\,dx = \frac{b^2-a^2}{2(b-a)}=\frac{a+b}{2}

E[X^2]=\int_a^b x^2\cdot\frac{1}{b-a}\,dx=\frac{b^3-a^3}{3(b-a)}=\frac{a^2+ab+b^2}{3}\quad(b^3-a^3=(b-a)(a^2+ab+b^2))

V[X]=\frac{a^2+ab+b^2}{3}-\left(\frac{a+b}{2}\right)^2=\frac{(b-a)^2}{12}

要するに「期待値＝区間の中点 $\frac{a+b}{2}$ 、分散 $\frac{(b-a)^2}{12}$ 」。離散一様（サイコロ）の分散 $\frac{n^2-1}{12}$ と同じ「12分の」構造になっているのが面白いところ。

試験での問われ方

3級：離散型確率変数の平均・分散（2021年度〜の新出題範囲。高校数学B「統計的な推測」編入分。稀に出題）。二項分布・正規分布の期待値・分散もここに接続。
2級（主）：離散・連続両方。PMF/PDF・CDF、 $E[X]$ ・ $V[X]$ ・ $\sigma$ の定義式と計算、分散公式 $E[X^2]-(E[X])^2$ 、各種分布（ベルヌーイ・二項・ポアソン・幾何・一様・指数・正規等）の平均分散。連続型のPDFは「確率ではない（1超え可・1点0）」が頻出の理解問題。
※出題範囲は改訂されうる。受験前に公式最新版で要最新確認（2級公式範囲表は2018-12-14版が最新公開、3級新範囲は2021年度〜）。

数式の直観的意味

なぜ期待値は「値 × 確率」の和か（重心・長期平均）

期待値は物理の重心そのもの。数直線上の位置 $x$ に「質量 $p(x)$ 」を置いたときのバランス点が $\sum x\,p(x)$ 。等質量（ $p=\frac1n$ 均等）なら記述統計の平均に一致。確率的意味では、同分布の独立反復 $X_1,\dots,X_n$ の標本平均 $\bar{X}_n=\frac1n\sum X_i$ が $n\to\infty$ で $E[X]$ に確率収束する（大数の法則）。ゆえに「期待値＝無限回試行の平均＝長期平均」。3.5が「1回では出ない値」なのに意味を持つのはこのため。

なぜ $V[X]=E[X^2]-(E[X])^2$ か（定義の展開、線形性を最小限だけ使用）

$\mu=E[X]$ は定数。 $(X-\mu)^2=X^2-2\mu X+\mu^2$ を展開し、両辺に $E$ をとる。使う性質は「和の期待値＝期待値の和」「定数倍は外」「定数の期待値はその定数」の3つだけ（線形性の一般論は期待値・分散の性質（線形性・和の分散・共分散））：

V[X]=E[X^2]-E[2\mu X]+E[\mu^2]=E[X^2]-2\mu E[X]+\mu^2

$E[X]=\mu$ を代入： $-2\mu\cdot\mu+\mu^2=-2\mu^2+\mu^2=-\mu^2$ 。よって

V[X]=E[X^2]-\mu^2=E[X^2]-(E[X])^2.

山は中央項 $-2\mu^2$ と末尾 $+\mu^2$ の打ち消しで $-\mu^2$ が残る点。 $V[X]\ge0$ ゆえ常に $E[X^2]\ge(E[X])^2$ （一致は $X$ が定数のときのみ）。

サイコロの分散の2通り計算（一致確認）

公式： $E[X^2]=\frac{1+4+9+16+25+36}{6}=\frac{91}{6}$ 、 $(E[X])^2=(\frac72)^2=\frac{49}{4}$ 。 $V=\frac{91}{6}-\frac{49}{4}=\frac{182-147}{12}=\frac{35}{12}\approx2.917$ 。
定義： $\sum(x-3.5)^2\cdot\frac16=\frac{(2.5)^2+(1.5)^2+(0.5)^2+(0.5)^2+(1.5)^2+(2.5)^2}{6}=\frac{6.25+2.25+0.25+0.25+2.25+6.25}{6}=\frac{17.5}{6}=\frac{35}{12}$ 。一致。 $\sigma=\sqrt{35/12}\approx1.708$ 。

連続一様 $[a,b]$ の導出

$E[X]=\frac{1}{b-a}\int_a^b x\,dx=\frac{1}{b-a}\cdot\frac{b^2-a^2}{2}=\frac{a+b}{2}$ 。 $E[X^2]=\frac{1}{b-a}\int_a^b x^2\,dx=\frac{1}{b-a}\cdot\frac{b^3-a^3}{3}=\frac{a^2+ab+b^2}{3}$ （ $b^3-a^3=(b-a)(a^2+ab+b^2)$ ）。 $V[X]=\frac{a^2+ab+b^2}{3}-\frac{(a+b)^2}{4}=\frac{4(a^2+ab+b^2)-3(a^2+2ab+b^2)}{12}=\frac{(b-a)^2}{12}$ 。

⚠️ 引っかけポイント・頻出論点・級ごとの差

PDFは確率ではない（最頻出の理解問題）： $f(x)$ は密度。1を超えてよい（制約は面積=積分が1）。1点の確率は0（ $P(X=a)=0$ ）。「 $f(a)$ が $X=a$ の確率」は誤り。確率は必ず幅のある区間の面積。
$E[X^2]\ne(E[X])^2$ ：2乗の平均と平均の2乗は別物。その差が分散。順序を逆に書かない（ $E[X^2]-(E[X])^2$ 、引く向きを間違えると負になる）。
期待値は「1回の値」ではなく「長期平均」：3.5は出ない目。1回試行の予測値と取り違えない。
離散↔連続の置き換え： $\sum\to\int$ 、 $p(x)\to f(x)\,dx$ 。連続で $\sum$ のまま書く／離散で積分するミス。
CDFの単調性・端の値： $F(-\infty)=0,\ F(\infty)=1$ 、非減少。 $P(a\le X\le b)=F(b)-F(a)$ 。
記述統計との別物扱いに注意：期待値・分散は母集団・理論版（代表値 ── 平均・中央値・最頻値の定義と使い分け（外れ値への強さ・歪んだ分布での大小関係）・散らばり（ばらつき）の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数（なぜ偏差を2乗するか／なぜn−1で割るか）の標本版に対応）。標本平均・標本分散と混同せず、大数の法則で結ばれる関係を理解。
スコープ外（次トピック）： $E[aX+b]=aE[X]+b$ 、 $V[aX+b]=a^2V[X]$ 、 $E[X+Y]=E[X]+E[Y]$ 、 $V[X+Y]$ （独立性）、共分散は 期待値・分散の性質（線形性・和の分散・共分散）。本ノートでは分散公式の導出に「線形性の最小限」だけ使用。
級差：3級＝離散の平均・分散（稀） → 2級＝離散+連続・PMF/PDF/CDF・分散公式・各種分布の平均分散・「PDFは確率でない」の理解。

よくある疑問

Q. 「確率変数」って結局、変数なんですか関数なんですか？

A. 中身は**関数（写像）**です。標本空間の各結果（偶然の出来事）に実数を1つ割り当てる関数が確率変数 $X$ で、その $X$ がとる値が確率に従ってばらつくので「変数」と呼ばれます。「偶然の結果に数を貼り付けるルール」と思えば十分です。具体的な1つの結果に対しては1つの値が決まる、という意味では関数です。

Q. なぜ連続型だと1点の確率が0になるんですか？おかしくないですか？

A. 連続型は値が無限に細かく存在するためです。 $P(X=a)=\int_a^a f(x)\,dx=0$ （幅0の積分は0）。直観的には「身長がぴったり170.0000…cm（無限桁まで一致）の人の割合は事実上0」。だから連続型では1点ではなく「169.5〜170.5cm」のような区間（幅のある範囲）の確率を考えます。確率は点ではなく面積、と覚えてください。

Q. 確率密度 $f(x)$ が1を超えるのは間違いでは？

A. 間違いではありません。 $f(x)$ は確率ではなく**密度（単位長さあたりの確率）**です。たとえば $[0,0.5]$ 上の一様分布は $f(x)=2$ （高さ2）ですが、幅0.5を掛けた面積は $2\times0.5=1$ できちんと1です。1を超えてはいけないのは”面積”のほうで、高さ（密度）は1を超えても全く問題ありません。これは2級で本当によく狙われる誤解です。

Q. $E[X^2]$ と $(E[X])^2$ はなぜ違うんですか？

A. 一般に「2乗してから平均」と「平均してから2乗」は別物だからです。サイコロなら $E[X^2]=\frac{91}{6}\approx15.17$ 、 $(E[X])^2=3.5^2=12.25$ で確かに違います。そしてこの差 $15.17-12.25=2.92$ こそが分散 $V[X]=E[X^2]-(E[X])^2$ 。両者が一致するのは「 $X$ が定数（ばらつき0）」のときだけで、ばらつきがある限り必ず $E[X^2]>(E[X])^2$ になります（だから分散は常に0以上）。

Q. 期待値3.5は実際には出ない目なのに、何の意味があるんですか？

A. 期待値は「1回で出る値」ではなく「何度も繰り返した平均の行き着く先（長期平均）」です。サイコロを1万回振って平均を取れば3.5にとても近づきます（シミュレーション①で確認）。賭けの損得計算や保険料の設定など、「長い目で見た平均」を知りたい場面で威力を発揮します。1回ごとの結果ではなく、長期の振る舞いを表す数だと理解してください。

Q. 記述統計の平均・分散と、期待値・分散はどう違うんですか？

A. **同じものの「データ版」と「理論版」**です。記述統計の平均 $\bar{x}$ ・分散 $s^2$ は手元のデータから計算する値（標本）。期待値 $E[X]$ ・分散 $V[X]$ は確率分布から理論的に決まる値（母集団）。両者は大数の法則で結ばれ、データを増やすほど標本の値が理論値に近づきます。「期待値・分散は、無限のデータを持っていたとしたら得られる平均・分散」と考えると接続が見えます。

まとめ

確率変数 $X$ ＝偶然の結果に実数を割り当てる関数。離散型はPMF $p(x)$ 、連続型はPDF $f(x)$ で確率を与える。連続型は1点の確率0、確率は**面積（積分）**で測る。 $f(x)$ は1を超えてよい。
期待値 $E[X]=\sum x\,p(x)=\int x f(x)\,dx$ ＝確率で重みづけた平均（分布の重心、長期平均）。記述統計の平均（代表値 ── 平均・中央値・最頻値の定義と使い分け（外れ値への強さ・歪んだ分布での大小関係））の理論版。
分散 $V[X]=E[(X-\mu)^2]=E[X^2]-(E[X])^2$ ＝散らばりの理論版。記述統計の分散（散らばり（ばらつき）の指標 ── 範囲・四分位範囲・分散・標準偏差・変動係数（なぜ偏差を2乗するか／なぜn−1で割るか））の理論版。計算公式「2乗の期待値 − 期待値の2乗」は定義の展開で導ける。
基本分布：ベルヌーイ $E=p,\ V=p(1-p)$ ／サイコロ $E=3.5,\ V=\frac{35}{12}$ ／連続一様 $E=\frac{a+b}{2},\ V=\frac{(b-a)^2}{12}$ 。
次回： $E[aX+b]$ や $V[aX+b]$ 、和の期待値・分散、共分散といった「期待値・分散の性質（線形性）」へ（期待値・分散の性質（線形性・和の分散・共分散））。今回はその性質の「最小限」だけを分散公式の導出に使った。

対応するシミュレーション

simulations/kakuritsu_hensuu_kitaichi_taikiheikin.py
- 何を示すか：サイコロを少数回〜数万回振り、「ここまでの標本平均」「ここまでの標本分散」を試行数に対して折れ線で描く。回数が増えると標本平均→期待値3.5、標本分散→ $35/12\approx2.917$ に収束。
- 実行結果（seed=0、5万回）：最終標本平均＝ 3.5141（理論 3.5）／最終標本分散＝ 2.9117（理論 2.9167）。序盤は大きく振れ、回数を重ねると理論値へ収束。期待値＝長期平均を数値で実証（大数の法則の入口）。

期待値は長期平均（標本平均が3.5に収束）

simulations/kakuritsu_hensuu_kitaichi_bunsan_koushiki.py
- 何を示すか：サイコロのPMF棒グラフに期待値3.5の重心線を引き、分散を定義式 $E[(X-\mu)^2]$ と公式 $E[X^2]-(E[X])^2$ の両方で計算して一致を確認。
- 実行結果：定義式＝ 2.916667、公式＝ 2.916667（完全一致、ともに $35/12$ ）。 $E[X^2]=15.1667$ 、 $(E[X])^2=12.25$ 、差＝分散を可視化。分散公式の導出が正しいことの数値的裏づけ＋期待値＝重心の図示。

分散の定義式と公式が一致・期待値は重心