デルタ法と漸近理論の応用｜統計検定テキスト

📊 対象級：1級　|　重要度：B（標準）

要点（BLUF）

推定量 $\hat\theta$ が漸近正規（ $\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,\sigma^2)$ ）なら、その滑らかな関数 $g(\hat\theta)$ もまた漸近正規で、分散は $g'(\theta)^2\sigma^2$ になります。これがデルタ法です。証明は「 $g$ を1次テイラー展開して、傾き $g'(\hat\theta)$ をスルツキー定理で $g'(\theta)$ に差し替える」だけ。推定量を変換したときの標準誤差を出す万能道具で、ここから分散安定化変換も自然に導けます。

デルタ法： $\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,\sigma^2)$ のとき、 $g'(\theta)\ne0$ なら $\sqrt n\bigl(g(\hat\theta)-g(\theta)\bigr)\xrightarrow{d}N\bigl(0,\;g'(\theta)^2\sigma^2\bigr)$ 。要するに「変換後の漸近分散は、元の分散に傾きの2乗 $g'(\theta)^2$ を掛けたもの」。
多変量デルタ法： $\sqrt n(\hat{\boldsymbol\theta}-\boldsymbol\theta)\xrightarrow{d}N(\mathbf 0,\Sigma)$ のとき、スカラー関数 $g$ の漸近分散は $\nabla g(\boldsymbol\theta)^\top\Sigma\,\nabla g(\boldsymbol\theta)$ 。傾きが勾配ベクトルに、2乗が** $\Sigma$ を挟む2次形式**に置き換わるだけ。
分散安定化変換：漸近分散 $V(\theta)$ が $\theta$ に依存して困るとき、 $g'(\theta)\propto 1/\sqrt{V(\theta)}$ を満たす $g$ を選ぶと変換後の分散が** $\theta$ によらない定数になる。代表例はポアソンの $\sqrt X$ 、二項比率の $\arcsin\sqrt{\hat p}$ 、相関係数のフィッシャーのz変換** $\tfrac12\ln\frac{1+r}{1-r}$ 。

1級（統計応用・理工学）では推定量の関数の標準誤差計算・分散安定化変換の導出として問われます（範囲・配点は改訂されうるため要最新確認）。土台は大数の法則・中心極限定理・最尤推定量の漸近正規性です。

graph TD
  ROOT["漸近正規性<br/>√n(θ̂−θ) → N(0, σ²)"] --> DM["デルタ法<br/>√n(g(θ̂)−g(θ)) → N(0, g'(θ)²σ²)"]
  DM --> MV["多変量デルタ法<br/>分散 = ∇g(θ)ᵀ Σ ∇g(θ)"]
  DM --> VST["分散安定化変換<br/>g'(θ) ∝ 1/√V(θ) で分散を定数化"]
  DM --> SECOND["g'(θ)=0 のとき<br/>2次のデルタ法 → χ²₁ が出る"]
  VST --> EX["√X（ポアソン）<br/>arcsin√p̂（二項比率）<br/>フィッシャーz（相関）"]

1. デルタ法 — 推定量を変換したらどうなるか

1.1 問題設定

最尤推定量や標本平均は、たいてい次の形の漸近正規性を満たします（中心極限定理や最尤推定量の一般論から）。

\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,\sigma^2)

要するに「 $\hat\theta$ は真値 $\theta$ のまわりに、おおよそ $N(\theta,\sigma^2/n)$ でばらつく」。標本を増やすと $\sigma^2/n\to0$ で1点に潰れます。

ところが知りたいのは $\theta$ そのものではなく、 $\theta$ の関数 $g(\theta)$ であることが多い。たとえば指数分布のレート $\lambda$ ではなく平均 $1/\lambda$ 、ベルヌーイの確率 $p$ ではなくオッズ $p/(1-p)$ など。このとき $g(\hat\theta)$ の分布はどうなるか——それに答えるのがデルタ法です。

1.2 導出（1次テイラー展開＋スルツキー定理）

デルタ法：変換g(θ)の接線で分散が伝播する様子と、平方根変換による分散安定化

図は simulations/delta_hou_keijou.py で生成。

結論を先に。 $g$ が $\theta$ で微分可能で $g'(\theta)\ne0$ なら、

\boxed{\;\sqrt n\bigl(g(\hat\theta)-g(\theta)\bigr)\xrightarrow{d}N\bigl(0,\;g'(\theta)^2\,\sigma^2\bigr)\;}

導出は3ステップです。

ステップ1：1次テイラー展開（平均値の定理）. $g$ を $\theta$ のまわりで展開します。平均値の定理を使うと、 $\hat\theta$ と $\theta$ の間にある点 $\tilde\theta$ を使って剰余項なしで書けます。

g(\hat\theta)=g(\theta)+g'(\tilde\theta)\,(\hat\theta-\theta),\qquad \tilde\theta\in(\theta,\hat\theta)

要するに「 $g(\hat\theta)$ と $g(\theta)$ の差は、傾き $g'(\tilde\theta)$ かける $(\hat\theta-\theta)$ 」。これを移項して $\sqrt n$ を掛けます。

\sqrt n\bigl(g(\hat\theta)-g(\theta)\bigr)=g'(\tilde\theta)\cdot\sqrt n(\hat\theta-\theta)

ステップ2：傾きを $g'(\theta)$ に差し替える. $\hat\theta\xrightarrow{p}\theta$ なので（漸近正規なら一致もする）、間に挟まれた $\tilde\theta$ も $\tilde\theta\xrightarrow{p}\theta$ 。 $g'$ が連続なら連続写像定理により

g'(\tilde\theta)\xrightarrow{p}g'(\theta)

要するに「 $\hat\theta$ が真値に近づくにつれ、テイラー展開の傾きも真の点の傾き $g'(\theta)$ に近づく」。 $g'(\theta)$ はただの定数です。

ステップ3：スルツキー定理で合体. いま手元には2つの量があります。

$g'(\tilde\theta)\xrightarrow{p}g'(\theta)$ （定数に確率収束）
$\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,\sigma^2)$ （分布収束）

スルツキー定理は「定数に確率収束する量 $\times$ 分布収束する量は、その定数を掛けた分布に分布収束する」と言います。よって積は

g'(\tilde\theta)\cdot\sqrt n(\hat\theta-\theta)\xrightarrow{d}g'(\theta)\cdot N(0,\sigma^2)=N\bigl(0,\,g'(\theta)^2\sigma^2\bigr)

正規分布を定数 $c=g'(\theta)$ 倍すると分散は $c^2$ 倍になる（ $\text{Var}(cZ)=c^2\text{Var}(Z)$ ）ので、分散が $g'(\theta)^2\sigma^2$ になります。これで導出完了です。

💡 導出の心臓部は「非線形な $g$ を、真の点 $\theta$ のまわりで直線（接線）に置き換える」こと。接線の傾きが $g'(\theta)$ で、漸近的には $\hat\theta$ が $\theta$ のすぐ近くにしかいないので、その狭い範囲では $g$ は接線とほぼ同じ。直線変換は正規分布を正規分布に保ち、傾きの2乗だけ分散を伸縮する——それがデルタ法の正体です。

1.3 実用形：標準誤差の計算

漸近分布が分かれば**標準誤差（SE）**が出せます。 $\hat\theta$ の標準誤差が $\widehat{\text{SE}}(\hat\theta)$ のとき、変換後は

\widehat{\text{SE}}\bigl(g(\hat\theta)\bigr)\approx\bigl|g'(\hat\theta)\bigr|\cdot\widehat{\text{SE}}(\hat\theta)

要するに「変換後のSEは、元のSEに傾きの絶対値 $|g'(\hat\theta)|$ を掛ける」（ $\sqrt n$ が両辺で約分され、 $\theta$ は推定値 $\hat\theta$ で置く）。これが1級でデルタ法を使う最頻出の場面です。

例：オッズの標準誤差. ベルヌーイ試行で $\hat p$ の漸近分散が $p(1-p)/n$ のとき、オッズ $g(p)=p/(1-p)$ の標準誤差を求めます。 $g'(p)=\dfrac{1}{(1-p)^2}$ なので、

\text{Var}\bigl(g(\hat p)\bigr)\approx \left[\frac{1}{(1-p)^2}\right]^2\cdot\frac{p(1-p)}{n}=\frac{p}{n(1-p)^3}

要するに「 $\hat p$ の分散に $g'$ の2乗を掛ければオッズの分散になる」。 $p$ が1に近いとオッズの分散が爆発する（分母 $(1-p)^3$ ）ことも式から読めます。

2. 多変量デルタ法

2.1 勾配とヤコビアン

推定量がベクトル $\hat{\boldsymbol\theta}=(\hat\theta_1,\dots,\hat\theta_k)^\top$ で、漸近的に多変量正規

\sqrt n(\hat{\boldsymbol\theta}-\boldsymbol\theta)\xrightarrow{d}N(\mathbf 0,\Sigma)

を満たすとします（ $\Sigma$ は $k\times k$ の漸近共分散行列）。このときスカラー値の滑らかな関数 $g:\mathbb R^k\to\mathbb R$ について、

\boxed{\;\sqrt n\bigl(g(\hat{\boldsymbol\theta})-g(\boldsymbol\theta)\bigr)\xrightarrow{d}N\Bigl(0,\;\nabla g(\boldsymbol\theta)^\top\,\Sigma\,\nabla g(\boldsymbol\theta)\Bigr)\;}

ここで $\nabla g(\boldsymbol\theta)=\bigl(\partial g/\partial\theta_1,\dots,\partial g/\partial\theta_k\bigr)^\top$ は勾配ベクトルです。要するに「1変数の $g'(\theta)$ が勾配ベクトル $\nabla g$ に、 $g'(\theta)^2\sigma^2$ が $\Sigma$ を勾配で挟む2次形式 $\nabla g^\top\Sigma\,\nabla g$ に置き換わるだけ」。

導出は1変数とまったく同じ筋です。1次の多変量テイラー展開

g(\hat{\boldsymbol\theta})\approx g(\boldsymbol\theta)+\nabla g(\boldsymbol\theta)^\top(\hat{\boldsymbol\theta}-\boldsymbol\theta)

の両辺に $\sqrt n$ を掛け、 $\nabla g(\boldsymbol\theta)$ を定数ベクトルとみてスルツキー定理を適用します。多変量正規 $N(\mathbf 0,\Sigma)$ を定数ベクトル $\mathbf a=\nabla g(\boldsymbol\theta)$ で線形結合した $\mathbf a^\top X$ の分散は $\mathbf a^\top\Sigma\,\mathbf a$ （正規分布の線形結合の公式）なので、上の2次形式が出ます。

💡 出力がベクトル値の関数 $\mathbf g:\mathbb R^k\to\mathbb R^m$ なら、勾配ベクトルはヤコビ行列 $J=\partial\mathbf g/\partial\boldsymbol\theta$ （ $m\times k$ ）に一般化され、漸近共分散は $J\,\Sigma\,J^\top$ （ $m\times m$ ）になります。スカラー版はこの $m=1$ の特別な場合です。

2.2 例：比の分散

2つの推定量の比 $g(\theta_1,\theta_2)=\theta_1/\theta_2$ の漸近分散を求めます。勾配は

\nabla g=\left(\frac{\partial g}{\partial\theta_1},\,\frac{\partial g}{\partial\theta_2}\right)^\top=\left(\frac{1}{\theta_2},\,-\frac{\theta_1}{\theta_2^2}\right)^\top

漸近共分散行列を $\Sigma=\begin{pmatrix}\sigma_1^2 & \sigma_{12}\\ \sigma_{12} & \sigma_2^2\end{pmatrix}$ とすると、2次形式 $\nabla g^\top\Sigma\,\nabla g$ を展開して

\text{Var}\!\left(\frac{\hat\theta_1}{\hat\theta_2}\right)\approx\frac{1}{n}\left(\frac{\sigma_1^2}{\theta_2^2}-\frac{2\theta_1\sigma_{12}}{\theta_2^3}+\frac{\theta_1^2\sigma_2^2}{\theta_2^4}\right)

要するに「比の分散には分子・分母それぞれの分散だけでなく、両者の共分散 $\sigma_{12}$ も効く」。 $\theta_1,\theta_2$ が相関していれば交差項を落としてはいけません。これは多変量デルタ法を使わないと正しく出せない典型例です。

3. 分散安定化変換 — 漸近分散を定数にする

3.1 動機と一般原理

デルタ法の式 $\text{Var}\bigl(g(\hat\theta)\bigr)\approx g'(\theta)^2\,V(\theta)$ を逆に読みます。多くの分布で漸近分散 $V(\theta)$ が母数 $\theta$ に依存します（ポアソンなら分散＝平均、二項なら $p(1-p)$ 、相関係数なら $(1-\rho^2)^2$ ）。これは不便です——信頼区間の幅が母数の値で変わり、 $\theta$ の値を知らないと区間が引けない、分散分析の等分散仮定が崩れる、などの問題が起きます。

そこで「変換後の分散 $g'(\theta)^2 V(\theta)$ が $\theta$ によらない定数になるような $g$ 」を探します。定数になる条件は

g'(\theta)^2\,V(\theta)=\text{const} \quad\Longleftrightarrow\quad \boxed{\;g'(\theta)\propto\frac{1}{\sqrt{V(\theta)}}\;}

要するに「傾き $g'$ を、分散の平方根の逆数に比例させればよい」。 $V$ が大きい（ばらつきやすい）ところでは $g$ を緩やかに、 $V$ が小さいところでは急にすることで、変換後のばらつきを一定に均す、という発想です。これを積分して

\boxed{\;g(\theta)=\int\frac{1}{\sqrt{V(\theta)}}\,d\theta\;}

が分散安定化変換です。以下の3つの代表例は、すべてこの1本の積分から出ます。

flowchart TD
  START["漸近分散 V(θ) が θ に依存して困る"] --> COND["条件：g'(θ)²·V(θ) = 定数<br/>⟺ g'(θ) ∝ 1/√V(θ)"]
  COND --> INT["積分：g(θ) = ∫ dθ / √V(θ)"]
  INT --> P["V=μ（ポアソン）<br/>→ ∫dμ/√μ = 2√μ<br/>変換 √X、分散 ≈ 1/4"]
  INT --> B["V=p(1−p)（二項比率）<br/>→ ∫dp/√(p(1−p)) = 2·arcsin√p<br/>変換 arcsin√p̂、分散 ≈ 1/(4n)"]
  INT --> R["V=(1−ρ²)²（相関）<br/>→ ∫dρ/(1−ρ²) = artanh ρ<br/>フィッシャーz、分散 ≈ 1/(n−3)"]

3.2 ポアソン分布：平方根変換 $\sqrt X$

ポアソン分布は分散＝平均 $V(\mu)=\mu$ という性質を持ちます（母数 $\mu$ が大きいほどばらつく）。これを積分します。

g(\mu)=\int\frac{1}{\sqrt\mu}\,d\mu=2\sqrt\mu

定数倍は分散安定化に影響しない（傾きを定数倍しても分散の比は変わらない）ので、 $g(\mu)=\sqrt\mu$ と取れます。よって観測値の平方根 $\sqrt X$ が分散安定化変換です。変換後の漸近分散は

\text{Var}\bigl(\sqrt X\bigr)\approx \left(\frac{1}{2\sqrt\mu}\right)^2\cdot\mu=\frac14

要するに「 $\sqrt X$ を取ると、平均 $\mu$ がいくつであっても分散がほぼ $1/4$ で一定になる」。ポアソン計数データを分散分析や回帰にかける前処理として古典的に使われます。

3.3 二項比率：逆正弦（arcsin）変換 $\arcsin\sqrt{\hat p}$

標本比率 $\hat p$ の漸近分散は $V(p)=p(1-p)/n$ 。 $1/n$ は定数なので、 $\theta=p$ について $V(p)\propto p(1-p)$ を積分します。

g(p)=\int\frac{1}{\sqrt{p(1-p)}}\,dp

この積分は標準形です。 $p=\sin^2 u$ と置くと $dp=2\sin u\cos u\,du$ 、 $\sqrt{p(1-p)}=\sin u\cos u$ なので

g(p)=\int\frac{2\sin u\cos u}{\sin u\cos u}\,du=2u=2\arcsin\sqrt p

定数倍を落として $g(p)=\arcsin\sqrt{\hat p}$ が**逆正弦変換（arcsine / angular transformation）**です。変換後の漸近分散は

\text{Var}\bigl(\arcsin\sqrt{\hat p}\bigr)\approx\left(\frac{1}{2\sqrt{p(1-p)}}\right)^2\cdot\frac{p(1-p)}{n}=\frac{1}{4n}

要するに「 $\arcsin\sqrt{\hat p}$ を取ると、 $p$ がいくつでも分散がほぼ $1/(4n)$ で一定になる」。 $p$ が0や1に近いと $\hat p$ の分散が極端に小さくなる（端で潰れる）のを、変換が引き伸ばして均します。

⚠️ ただし $p$ が0や1の極端では逆正弦変換の近似は良くありません（メタアナリシス等での arcsin 系変換には批判もあり、用途次第で別の変換が推奨される——要最新確認）。試験では「分散安定化変換として導出できること」が主眼です。

3.4 相関係数：フィッシャーのz変換

標本相関係数 $r$ は、母相関 $\rho$ のもとで漸近的に

\sqrt n(r-\rho)\xrightarrow{d}N\bigl(0,\,(1-\rho^2)^2\bigr)

を満たします。すなわち $V(\rho)=(1-\rho^2)^2$ 。これは $\rho$ への依存が強く（ $\rho$ が $\pm1$ に近いと分散が0に潰れ、分布も激しく歪む）、 $r$ をそのまま正規近似で扱うのは危険です。積分します。

g(\rho)=\int\frac{1}{\sqrt{(1-\rho^2)^2}}\,d\rho=\int\frac{1}{1-\rho^2}\,d\rho=\frac12\ln\frac{1+\rho}{1-\rho}=\operatorname{artanh}\rho

これがフィッシャーのz変換 $z=\tfrac12\ln\dfrac{1+r}{1-r}$ （逆双曲線正接 $\operatorname{artanh} r$ ）です。変換後の漸近分散は

\text{Var}(z)\approx\left(\frac{1}{1-\rho^2}\right)^2\cdot\frac{(1-\rho^2)^2}{n}=\frac1n

要するに「z変換すると、 $\rho$ がいくつでも分散がほぼ $1/n$ で一定になる」。実用上は精度を上げた補正 $\text{Var}(z)\approx\dfrac{1}{n-3}$ を使い、 $z\sim N\!\bigl(\operatorname{artanh}\rho,\,\tfrac{1}{n-3}\bigr)$ として相関の信頼区間や検定を行います。区間を $z$ で作ってから $\tanh$ で $r$ のスケールに戻すのが定石です。

分布	漸近分散 $V(\theta)$	変換 $g$	変換後の分散
ポアソン	$\mu$	$\sqrt X$	$\approx 1/4$
二項比率	$p(1-p)/n$	$\arcsin\sqrt{\hat p}$	$\approx 1/(4n)$
相関係数	$(1-\rho^2)^2/n$	$z=\tfrac12\ln\frac{1+r}{1-r}$	$\approx 1/n$ （補正 $1/(n-3)$ ）

3つとも「 $\int d\theta/\sqrt{V(\theta)}$ 」という同じ1本の積分から出ている、という統一的理解が1級では効きます。

4. 1次微分が0のとき — 2次のデルタ法

デルタ法は $g'(\theta)\ne0$ を前提にしていました。もし $g'(\theta)=0$ だと、漸近分散 $g'(\theta)^2\sigma^2=0$ となり「1次近似では $g(\hat\theta)$ のばらつきが消えてしまう」——これは近似が破綻したサインで、より高次の項を見る必要があります。

$g'(\theta)=0$ かつ $g''(\theta)\ne0$ のときは2次の項まで展開します。

g(\hat\theta)-g(\theta)\approx\underbrace{g'(\theta)}_{=0}(\hat\theta-\theta)+\frac12 g''(\theta)(\hat\theta-\theta)^2=\frac12 g''(\theta)(\hat\theta-\theta)^2

ここで $\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,\sigma^2)$ なので、 $n(\hat\theta-\theta)^2=\bigl[\sqrt n(\hat\theta-\theta)\bigr]^2$ は「正規分布の2乗」に分布収束します。標準正規の2乗が $\chi^2_1$ である事実から $\bigl[\sqrt n(\hat\theta-\theta)/\sigma\bigr]^2\xrightarrow{d}\chi^2_1$ 、すなわち $n(\hat\theta-\theta)^2\xrightarrow{d}\sigma^2\chi^2_1$ 。したがってスケーリングが $\sqrt n$ ではなく $n$ になり、

\boxed{\;n\bigl(g(\hat\theta)-g(\theta)\bigr)\xrightarrow{d}\frac12 g''(\theta)\,\sigma^2\,\chi^2_1\;}

要するに「 $g'(\theta)=0$ では極限が正規分布ではなく(スケールされた)カイ二乗分布になり、収束の速さも $1/\sqrt n$ ではなく $1/n$ オーダーに速くなる」。 $g$ の接線が水平（極値）なので、 $\hat\theta$ がどちらにずれても $g$ は同じ向き（ $g''$ の符号の側）に動く——これが分布が片側に寄った $\chi^2$ になる直観です。

⚠️ 試験で $g'(\theta)=0$ となる点（ $g$ の極値）での分布を聞かれたら、正規ではなくカイ二乗が答え。 $g'(\theta)^2\sigma^2$ にそのまま代入して「分散0」と書くのは誤りです。

5. 試験での問われ方（1級）

理工学分野での1級の典型的な問われ方を論点ごとに整理します（出題範囲・配点は要最新確認）。

推定量の関数の標準誤差： $\hat\theta$ の漸近分散が与えられ、 $g(\hat\theta)$ （オッズ、対数、比、平均寿命 $1/\hat\lambda$ など）の漸近分散・標準誤差を $g'(\theta)^2\sigma^2$ で計算させる。 $g'$ を正しく微分し、 $\theta$ に推定値を代入できるかが要点。
多変量デルタ法：2つ以上の推定量の関数（比 $\hat\theta_1/\hat\theta_2$ 、積、対数オッズ比など）について、勾配 $\nabla g$ を求め $\nabla g^\top\Sigma\,\nabla g$ を展開させる。共分散 $\sigma_{12}$ の交差項を落とさないことがポイント。
分散安定化変換の導出：「分散が母数に依存する分布が与えられ、分散を一定にする変換を求めよ」という形。 $g'(\theta)\propto1/\sqrt{V(\theta)}$ を立て、積分して $\sqrt X$ / $\arcsin\sqrt{\hat p}$ / フィッシャーz を導く。変換後の分散が定数になることの確認まで。
フィッシャーz変換の応用：相関係数の信頼区間・2つの相関の差の検定で、 $z=\operatorname{artanh} r$ 、 $\text{Var}(z)\approx1/(n-3)$ を使って区間を作り、 $\tanh$ で戻す手順。
漸近の前提の理解：デルタ法は「 $n$ が大きいときの近似」であり、有限標本では誤差が残ること。 $g'(\theta)=0$ では1次のデルタ法が使えず2次（ $\chi^2$ ）になること。

6. 引っかけ・頻出論点

⚠️ $g'(\theta)=0$ ではデルタ法（1次）は使えない：漸近分散 $g'(\theta)^2\sigma^2$ が0になるのは「1次近似の破綻」のサイン。正しくは2次のデルタ法で $n(g(\hat\theta)-g(\theta))\to\frac12 g''(\theta)\sigma^2\chi^2_1$ （正規ではなくカイ二乗、スケールも $n$ ）。「分散0」と答えるのは誤り。
⚠️ デルタ法は漸近（大標本）の近似：有限標本では正規からのずれ・バイアスが残る。特に $g$ の曲率が大きい領域や $\hat\theta$ の分散が大きい小標本では近似が悪い。「厳密に正規になる」は誤り。
⚠️ 多変量で共分散項を落とさない： $g(\hat\theta_1,\hat\theta_2)$ の分散は $\nabla g^\top\Sigma\,\nabla g$ 。 $\hat\theta_1,\hat\theta_2$ が相関していれば交差項 $2\,(\partial_1 g)(\partial_2 g)\sigma_{12}$ が効く。各変数の分散だけ足すのは誤り。
⚠️ 分散安定化は「分散を $\theta$ によらなくする」だけ：正規分布に完全に変換するわけではない（近似的に正規へ近づく副次効果はあるが、目的は等分散化）。「正規化変換」と「分散安定化変換」を混同しない。
⚠️ フィッシャーzの分散は $1/(n-3)$ ： $1/n$ は素のデルタ法の値で、実用では補正版 $1/(n-3)$ を使う。また $r$ のまま正規近似してはいけない理由（ $\rho$ が $\pm1$ 付近で分散が潰れ分布が歪む）を説明できるように。
⚠️ SEは $|g'(\hat\theta)|$ を掛ける（2乗は分散側）：標準誤差には傾きの絶対値を掛ける（ $\widehat{\text{SE}}(g(\hat\theta))\approx|g'(\hat\theta)|\widehat{\text{SE}}(\hat\theta)$ ）。分散には $g'^2$ 、SEには $|g'|$ 。混同しない。

よくある疑問（Q&A）

Q1. なぜ「1次テイラー展開」で済むのですか? 高次の項を無視していいのは何故?

漸近的に $\hat\theta$ が真値 $\theta$ のごく近くにしかいないからです。 $\sqrt n(\hat\theta-\theta)$ が有限の分布に収束するということは、 $\hat\theta-\theta$ 自体は $1/\sqrt n$ のオーダーで0に潰れていく、という意味です。テイラー展開の2次項は $(\hat\theta-\theta)^2$ のオーダー（ $1/n$ ）で、 $\sqrt n$ を掛けても $1/\sqrt n\to0$ で消えます。一方1次項は $(\hat\theta-\theta)$ のオーダー（ $1/\sqrt n$ ）で、 $\sqrt n$ を掛けるとちょうど $O(1)$ で生き残る。つまり「 $\sqrt n$ 倍して見る」というスケールが1次項だけを拾うように設計されているのです。だから $g'(\theta)\ne0$ である限り1次で十分。逆に $g'(\theta)=0$ で1次が消えると、生き残るのは2次項になり、それが2次のデルタ法（第4節）です。

Q2. スルツキー定理は具体的に何をしてくれているのですか?

「確率収束する量と分布収束する量を、安心して掛け算・足し算してよい」ことを保証してくれます。デルタ法の途中で、傾き $g'(\tilde\theta)$ は定数 $g'(\theta)$ に確率収束、 $\sqrt n(\hat\theta-\theta)$ は正規分布に分布収束、と種類の違う収束が2つ出てきます。素朴には「収束先どうしを掛けて $g'(\theta)\times N(0,\sigma^2)$ 」としたいところですが、それが本当に正しいか（分布収束の極限が壊れないか）は自明ではありません。スルツキー定理はまさに「片方が定数に確率収束するなら、その積は定数を掛けた分布収束になる」と言ってくれるので、 $g'(\tilde\theta)\sqrt n(\hat\theta-\theta)\xrightarrow{d}g'(\theta)N(0,\sigma^2)$ が厳密に正当化されます。デルタ法の証明はテイラー展開とスルツキー定理の二人三脚です。

Q3. 分散安定化変換と「正規化のための変換」は同じものですか?

目的が違います。分散安定化変換は「分散を母数 $\theta$ に依存させない（等分散にする）」のが目的で、 $g'(\theta)\propto1/\sqrt{V(\theta)}$ から導きます。一方「正規化変換」は「分布の形を正規に近づける」のが目的で、Box-Cox 変換などが代表です。両者はしばしば副次的に重なります（分散が安定すると分布も正規に近づきやすい）が、原理的には別物です。フィッシャーz変換は分散安定化として導かれますが、結果的に $r$ の歪んだ分布をかなり正規に近づける効果も持つ、という具合に「両得」になることが多いだけで、定義上は分散安定化が主目的です。試験で「分散を一定にする変換」と問われたら $1/\sqrt{V}$ の積分、「正規に近づける」と問われたら別系統、と切り分けてください。

Q4. ポアソンの $\sqrt X$ で「分散が $1/4$ 」になるのに、なぜ $2\sqrt\mu$ ではなく $\sqrt X$ を使うのですか?

積分から出る変換は $g(\mu)=2\sqrt\mu$ ですが、定数倍は分散安定化の本質に影響しないからです。 $g$ を $c$ 倍すると傾きも $c$ 倍、分散は $c^2$ 倍になりますが、「 $\theta$ によらず一定」という性質は保たれます。 $2\sqrt\mu$ なら分散 $\approx1$ 、 $\sqrt\mu$ なら分散 $\approx1/4$ で、どちらも定数。実務では扱いやすい $\sqrt X$ （係数1）を使うのが普通で、そのときの分散が $1/4$ になる、というだけです。試験では「変換の形（ $\sqrt{}$ か $\arcsin\sqrt{}$ か $\operatorname{artanh}$ か）」が問われるので、定数倍は気にせず関数形を答えれば十分なことが多いです。

Q5. $g'(\theta)=0$ で $\chi^2$ が出るのは、現実にどんな場面ですか?

$g$ が真値 $\theta$ で**極値（山か谷）**を取る場合です。たとえば $g(\theta)=\theta^2$ を $\theta=0$ で評価すると $g'(0)=0$ 。 $\hat\theta$ が0の左右どちらにずれても $g(\hat\theta)=\hat\theta^2\ge0$ で必ず正の側に動くので、 $g(\hat\theta)-g(0)$ の分布は0以上に偏った非対称な分布になる——それが（正規の2乗である） $\chi^2_1$ をスケールしたものです。より実践的には、ある統計量がパラメータ空間の境界や対称点で評価されるとき（尤度比検定統計量が帰無の境界で $\chi^2$ 混合になる現象などと地続き）に現れます。1級では「 $g'=0$ なら正規でなく $\chi^2$ 、スケールは $n$ 」という結論を押さえておけば十分です。

まとめ

デルタ法： $\sqrt n(\hat\theta-\theta)\xrightarrow{d}N(0,\sigma^2)$ かつ $g'(\theta)\ne0$ なら $\sqrt n(g(\hat\theta)-g(\theta))\xrightarrow{d}N(0,g'(\theta)^2\sigma^2)$ 。導出は「1次テイラー展開で $g$ を接線に置き換え、傾き $g'(\tilde\theta)$ をスルツキー定理で $g'(\theta)$ に差し替える」。実用は $\widehat{\text{SE}}(g(\hat\theta))\approx|g'(\hat\theta)|\widehat{\text{SE}}(\hat\theta)$ 。
多変量デルタ法： $g'(\theta)$ が勾配 $\nabla g$ に、 $g'(\theta)^2\sigma^2$ が2次形式 $\nabla g(\boldsymbol\theta)^\top\Sigma\,\nabla g(\boldsymbol\theta)$ に置き換わる。比や積では共分散の交差項を落とさない。ベクトル値関数ならヤコビ行列 $J$ で $J\Sigma J^\top$ 。
分散安定化変換：漸近分散 $V(\theta)$ が $\theta$ に依存するとき、 $g'(\theta)\propto1/\sqrt{V(\theta)}$ 、すなわち $g(\theta)=\int d\theta/\sqrt{V(\theta)}$ で分散を定数化。ポアソン $V=\mu\Rightarrow\sqrt X$ （分散 $1/4$ ）、二項比率 $V=p(1-p)\Rightarrow\arcsin\sqrt{\hat p}$ （分散 $1/(4n)$ ）、相関 $V=(1-\rho^2)^2\Rightarrow$ フィッシャーz $\tfrac12\ln\frac{1+r}{1-r}$ （分散 $1/n$ 、補正 $1/(n-3)$ ）。3つとも同じ1本の積分から出る。
2次のデルタ法： $g'(\theta)=0$ なら1次は使えず、 $n(g(\hat\theta)-g(\theta))\xrightarrow{d}\tfrac12 g''(\theta)\sigma^2\chi^2_1$ 。極限は正規ではなくカイ二乗、収束スケールは $\sqrt n$ ではなく $n$ 。
注意：デルタ法は漸近近似（有限標本では誤差が残る）。分散安定化は等分散化が目的で正規化とは別物。SEには $|g'|$ 、分散には $g'^2$ 。