処置効果・繰り返し測定｜統計検定テキスト

📊 対象級：1級　|　重要度：B（標準）

要点（BLUF）

臨床試験は「処置の効果をどう測り（効果量）」「何人集めれば検出できるか（必要標本数）」「同じ人を繰り返し測ってどう誤差を減らすか（反復測定）」「途中で抜けた人をどう扱うか（脱落・欠測）」の4つで設計が決まります。ここはその4本柱を、必要標本数の式の導出と反復測定の誤差分離の仕組みまで踏み込んで整理します。

処置効果と効果量：群間差そのものに加え、それを標準偏差で割って単位を消した標準化平均差（効果量） $d=\Delta/\sigma$ を使う。効果量は測定単位に依存せず、検定力分析の入力になる。
必要標本数は逆算で決まる：有意水準 $\alpha$ ・検出力 $1-\beta$ ・効果量 $\Delta/\sigma$ の3つを決めれば必要数が決まる。2群平均比較（各群 $n$ ）の公式 $n\approx\dfrac{2(z_{\alpha/2}+z_\beta)^2\sigma^2}{\Delta^2}$ は、検定の棄却境界と対立仮説下の分布が重なる確率を $\beta$ に抑える条件から導かれる。
反復測定は誤差を小さくする：同一被験者を繰り返し測ると、人ごとの個人差（被験者間変動）を分離して誤差から取り除けるため、群間比較の誤差分散が縮み検出力が上がる。代償として**球面性（sphericity）**の仮定が要り、崩れると第一種過誤が膨らむので Mauchly 検定で点検し Greenhouse-Geisser 補正で自由度を縮める。
脱落とLOCFの罠：経時測定では途中脱落（欠測）が起きる。LOCF（最終観測値繰越法）は「常に保守的」ではなく、悪化していく疾患でプラセボが早く脱落すると実薬より良く見えてしまう向きのバイアスを生みうる。

1級（統計応用・医薬生物学）では必要標本数の計算・反復測定の誤差分離と球面性・LOCFの問題点が標準的に問われます（範囲・配点は改訂されうるため要最新確認）。

graph TD
  ROOT["臨床試験の設計・解析"] --> EFF["処置効果の指標<br/>群間差 Δ / 効果量 d=Δ/σ"]
  ROOT --> SS["必要標本数の設計<br/>α・1-β・効果量から逆算"]
  ROOT --> RM["反復測定<br/>同一被験者を繰り返し測る"]
  ROOT --> MISS["脱落・欠測<br/>経時データで途中離脱"]
  SS --> SSF["n≈2(z_α/2+z_β)²σ²/Δ²<br/>検定力分析"]
  RM --> RMW["被験者間変動を分離<br/>→誤差分散が縮み検出力↑"]
  RMW --> SPH["球面性の仮定<br/>Mauchly検定→GG補正"]
  MISS --> LOCF["LOCF は常に保守的ではない"]
  MISS --> CO["クロスオーバー試験<br/>持ち越し効果"]

1. 処置効果の指標 — 群間差と効果量

1.1 生の群間差

最も素朴な処置効果は、処置群と対照群の平均の差です。

\Delta = \mu_T - \mu_C

要するに「処置群の平均から対照群の平均を引いた、効果の大きさそのもの」。血圧なら mmHg、検査値なら測定単位そのままで出ます。臨床的に「何 mmHg 下がったか」を語るときはこれが主役です。

ただし生の差には弱点があります。単位に依存するため、測定の尺度が違う研究どうしを比べられないこと、そして「その差がばらつきに対して大きいのか小さいのか」が分からないことです。差が 5 mmHg でも、個人差の標準偏差が 2 mmHg なら大きいですが、20 mmHg なら埋もれています。

1.2 標準化平均差（効果量）

そこで群間差を標準偏差で割り、単位を消したものが標準化平均差（standardized mean difference）、いわゆる**効果量（effect size）**です。2群が共通の標準偏差 $\sigma$ を持つと仮定すると

d = \frac{\mu_T - \mu_C}{\sigma} = \frac{\Delta}{\sigma}

要するに「効果を『標準偏差何個ぶんの差か』で表したもの」。 $d=0.5$ なら「平均が標準偏差の半分ぶんずれている」という意味で、測定単位が何であれ同じ尺度で語れます。Cohen は目安として $d=0.2$ を小、 $0.5$ を中、 $0.8$ を大としましたが、これはあくまで分野横断の経験則で領域によって解釈は変わる点に注意してください。

効果量が重要なのは、次節の検定力分析の入力になるからです。必要標本数を決めるとき、検定が拾うべき効果の大きさを単位に依存しない $d=\Delta/\sigma$ の形で与えると、計算が一般化されます。

⚠️ 効果量（効果の大きさ）と $p$ 値（有意かどうか）は別物です。標本が巨大なら、臨床的に無意味な小さい $d$ でも $p<0.05$ になります。「有意＝効果が大きい」ではありません。1級では「統計的有意性と効果量の区別」がしばしば問われます。

2. 必要標本数の設計（検定力分析）

2.1 4つの量は互いに縛られている

検定の設計には4つの量が登場し、そのうち3つを決めると残り1つが自動的に決まるという関係があります。

量	記号	役割
有意水準	$\alpha$	第一種過誤（効果が無いのに有るとする）の確率。通常 0.05
検出力	$1-\beta$	効果が有るときに正しく検出する確率。通常 0.8〜0.9
効果量	$\Delta/\sigma$	拾いたい効果の大きさ（標準化平均差）
標本数	$n$	各群のサンプルサイズ

サンプルサイズ設計とは、 $\alpha$ ・ $1-\beta$ ・効果量を先に決め、必要な $n$ を逆算する作業です。これを**検定力分析（power analysis）**と呼びます。 $\alpha$ と $1-\beta$ の意味は第一種の過誤・第二種の過誤・検出力（2種類の誤りとトレードオフ・サンプルサイズ設計）の延長なので、過誤と検出力の関係が曖昧ならそちらを先に押さえてください。

2.2 必要標本数の公式の導出

2群の平均比較（各群 $n$ 例、母分散 $\sigma^2$ 既知、両側検定）で必要数を導きます。検定統計量は2群の平均の差

\bar X_T - \bar X_C

です。各群の平均の分散は $\sigma^2/n$ なので、差の分散は $\dfrac{\sigma^2}{n}+\dfrac{\sigma^2}{n}=\dfrac{2\sigma^2}{n}$ 。したがって差の標準誤差は

\mathrm{SE} = \sqrt{\frac{2\sigma^2}{n}}

です。要するに「2群ぶんの平均のばらつきが足し合わさるので、分散に係数2が付く」。これがあとで公式の分子に出る「2」の出どころです。

帰無仮説 $H_0:\Delta=0$ のもとでの棄却境界. 標準化した統計量 $Z=(\bar X_T-\bar X_C)/\mathrm{SE}$ は $H_0$ のもとで標準正規分布に従います。両側で有意水準 $\alpha$ なら、 $|Z|>z_{\alpha/2}$ で棄却。境界を差の単位に戻すと、棄却される差の大きさは

|\bar X_T-\bar X_C| > z_{\alpha/2}\cdot \mathrm{SE}

です。

対立仮説 $H_1:\Delta=\mu_T-\mu_C$ のもとでの検出力. 真の差が $\Delta(>0)$ のとき、 $\bar X_T-\bar X_C$ は平均 $\Delta$ ・標準誤差 $\mathrm{SE}$ の正規分布に従います。検出力 $1-\beta$ を確保する条件は「この対立仮説の分布から見て、棄却境界 $z_{\alpha/2}\mathrm{SE}$ を超える確率が $1-\beta$ 以上」です。下側の取りこぼし（第二種過誤）を $\beta$ に抑えるには、棄却境界が対立分布の下側 $z_\beta$ 点よりも左になければなりません。式で書くと

\underbrace{z_{\alpha/2}\cdot \mathrm{SE}}_{\text{棄却境界}} \;=\; \underbrace{\Delta - z_\beta\cdot \mathrm{SE}}_{\text{対立分布の下側 }z_\beta\text{ 点}}

graph LR
  H0["H0 の分布<br/>平均 0"] -->|境界 z_α/2·SE より右で棄却| CUT["棄却境界"]
  H1["H1 の分布<br/>平均 Δ"] -->|境界より右に入る確率 = 検出力 1-β| CUT
  CUT --> COND["境界 = Δ − z_β·SE<br/>→ Δ = (z_α/2 + z_β)·SE"]

要するに「ゼロを中心とした帰無分布の棄却境界と、 $\Delta$ を中心とした対立分布の『 $\beta$ だけ取りこぼす点』を、ちょうど一致させる」。この一致条件が必要標本数を決めます。 $\mathrm{SE}$ を左辺にまとめると

\Delta = (z_{\alpha/2}+z_\beta)\cdot \mathrm{SE} = (z_{\alpha/2}+z_\beta)\sqrt{\frac{2\sigma^2}{n}}

要するに「検出したい差 $\Delta$ は、2つの $z$ 値の和ぶんの標準誤差に等しい」。両辺を二乗して $n$ について解きます。

\Delta^2 = (z_{\alpha/2}+z_\beta)^2\cdot \frac{2\sigma^2}{n} \quad\Longrightarrow\quad \boxed{\;n \approx \frac{2(z_{\alpha/2}+z_\beta)^2\,\sigma^2}{\Delta^2} = \frac{2(z_{\alpha/2}+z_\beta)^2}{(\Delta/\sigma)^2}\;}

これが2群平均比較の必要標本数（各群あたり）です。右の形は分母が効果量 $d=\Delta/\sigma$ の二乗で、必要数は効果量の二乗に反比例することを示します。

各記号が必要数をどう動かすかを読み取ります。

$\Delta$ を半分にすると（小さい効果を拾いたい）、分母が $1/4$ になり必要数は4倍。小さい差ほど急激に多くの被験者が要る。
$\sigma$ が大きい（ばらつく測定）ほど分子が増え、必要数が増える。
$\alpha$ を小さく（厳しく）すると $z_{\alpha/2}$ が増え、必要数が増える。
検出力 $1-\beta$ を上げる（ $\beta$ を下げる）と $z_\beta$ が増え、必要数が増える。

⚠️ この式は母分散既知・正規近似の場合です。 $\sigma$ が未知で $t$ 検定を使う実務では、自由度のぶん少し多めになり、ソフトは反復計算で補正します。試験では「概算の式と、各項が必要数に与える向き」を問われることが多いので、**式の形と感度（ $\Delta$ を半分で4倍など）**を押さえるのが先決です。

2.3 数値例

$\alpha=0.05$ （両側、 $z_{\alpha/2}=1.96$ ）、検出力 $0.8$ （ $z_\beta=0.84$ ）で、標準偏差ぶんの差 $d=\Delta/\sigma=0.5$ を検出したいとします。

n \approx \frac{2(1.96+0.84)^2}{0.5^2} = \frac{2\times 2.8^2}{0.25} = \frac{2\times 7.84}{0.25} \approx 63

各群およそ 63 例（合計 126 例）です。検出力を $0.9$ に上げる（ $z_\beta=1.28$ ）と分子が $(1.96+1.28)^2=10.5$ に増え、各群およそ 84 例に膨らみます。検出力を欲張るほど被験者が要ることが数字で見えます。

3. 反復測定分散分析（repeated measures ANOVA）

3.1 同一被験者を繰り返し測る設計

反復測定とは、同じ被験者を複数の条件・時点で繰り返し測る設計です。例：同一患者の血圧を投与前・1週後・2週後・4週後に測る。各被験者から複数の値が出るので、ふつうの一元配置分散分析（分散分析の独立群の比較）はそのまま使えません。値どうしが「同じ人」を通して相関するからです。

反復測定の最大のうまみは、被験者ごとの個人差を分離して誤差から取り除けることです。これが検出力を押し上げます。

3.2 なぜ誤差分散が小さくなるのか（平方和の分解）

独立群の一元配置では、全変動を「群間変動」と「群内変動（＝誤差）」に分けます。群内変動には被験者ごとの個人差がまるごと含まれています。人によって血圧の水準がもともと高い・低いという差が、全部「誤差」に放り込まれるのです。

反復測定では、同じ人を繰り返し測るおかげで、この個人差を被験者間変動として独立に取り出せます。全平方和の分解は概念的に次のようになります。

\underbrace{SS_{\text{全}}}_{\text{全変動}} = \underbrace{SS_{\text{被験者間}}}_{\text{人ごとの水準差}} + \underbrace{SS_{\text{条件}}}_{\text{時点・処置の効果（知りたい）}} + \underbrace{SS_{\text{誤差}}}_{\text{残り（被験者×条件の交互作用）}}

要するに「独立群では『個人差＋本当の誤差』を一括して誤差にしていたのを、反復測定では個人差を別枠にくくり出し、誤差から差し引く」。条件の効果を検定するときの $F$ 統計量は

F = \frac{MS_{\text{条件}}}{MS_{\text{誤差}}}

で、分母の $MS_{\text{誤差}}$ から被験者間変動が抜けたぶん小さくなるため、同じ効果でも $F$ が大きくなり、検出力が上がるわけです。これが「対応のあるデータは検出力が高い」と言われる正体で、対応のある $t$ 検定が差の系列の分散だけを使うのと同じ理屈です。

graph TD
  TOTAL["全変動 SS_全"] --> BETWEEN["被験者間変動<br/>人ごとの水準差<br/>→ 誤差から分離して除去"]
  TOTAL --> WITHIN["被験者内変動"]
  WITHIN --> COND["条件変動 SS_条件<br/>（知りたい効果）"]
  WITHIN --> ERR["誤差 SS_誤差<br/>= 被験者×条件<br/>個人差が抜けて小さい"]
  COND --> F["F = MS_条件 / MS_誤差<br/>分母が小さい→検出力↑"]
  ERR --> F

3.3 球面性（sphericity）の仮定

被験者間変動を分離した代償として、反復測定 ANOVA には**球面性（sphericity）**という固有の仮定が付きます。

球面性とは：すべての条件ペアについて、差の分散が等しいこと。例えば条件A・B・Cがあるとき、 $V(A-B)=V(A-C)=V(B-C)$ が成り立つことです。やや一般的には、直交対比行列 $C$ を使って母共分散行列 $\Sigma$ が

C'\Sigma C = \lambda I

を満たすこと（変換後の共分散が等分散・無相関）と書けます。要するに「どの2条件をとっても、その差のばらつきが同じ」という条件です。

球面性より強い十分条件として複合対称性（compound symmetry）——全条件の分散が等しく、かつ任意の2条件間の相関がすべて等しい——があります。複合対称性が成り立てば球面性も成り立ちますが、逆は必ずしも成りません。反復測定 ANOVA の $F$ 検定が要求するのは球面性の方です。

なぜ重要か：球面性が崩れると、 $F$ 統計量が本来より大きめに出て、第一種過誤の確率が名目の $\alpha$ より膨らむ（検定が甘くなる）。つまり「効果が無いのに有意」と誤判定しやすくなります。

3.4 Mauchly 検定と Greenhouse-Geisser 補正

flowchart TD
  START["反復測定 ANOVA を行いたい"] --> MAUCHLY["Mauchly の球面性検定"]
  MAUCHLY -->|p ≥ 0.05<br/>球面性を棄却しない| OK["通常の F 検定<br/>そのまま使う"]
  MAUCHLY -->|p < 0.05<br/>球面性が崩れている| EPS["ε（球面性からのズレ）を推定"]
  EPS --> GG["Greenhouse-Geisser 補正<br/>自由度に ε を掛けて縮める"]
  GG --> FTEST["縮めた自由度で F 検定<br/>→ 第一種過誤を名目αに戻す"]

Mauchly の球面性検定：球面性が成り立つかを検定します。帰無仮説は「球面性が成り立つ」。 $p<0.05$ で棄却されたら球面性が崩れている疑い、というのが基本の読み方です。

Greenhouse-Geisser 補正：球面性が崩れているとき、 $F$ 検定の自由度に補正係数 $\varepsilon$ （イプシロン）を掛けて縮めることで、過大な $F$ を適正化します。 $\varepsilon$ は球面性が完全なら 1、崩れるほど小さくなる量で、自由度を $\varepsilon$ 倍した(分子・分母とも)うえで $F$ 分布の臨界値を読み直します。自由度が減ると臨界値が上がるので検定が厳しくなり、膨らんだ第一種過誤が名目の $\alpha$ に戻ります。

関連する補正に Huynh-Feldt 補正があり、 $\varepsilon$ が大きめ（おおむね 0.75 超）のとき Greenhouse-Geisser より偏りが小さいとされます。逆に $\varepsilon$ が小さいときは Greenhouse-Geisser の方が無難、という使い分けが一般的です（この使い分けの目安は文献・ソフトで揺れがあるため要最新確認）。

⚠️ Mauchly 検定には弱点があります。小標本では球面性の崩れを見逃しやすく、大標本では些細な崩れも棄却しやすい（検出力が標本サイズに振り回される）。このため「Mauchly が有意でなくても、初めから Greenhouse-Geisser 補正を使う」「混合モデルで相関構造を直接モデル化する」という実務的立場もあります（競合リスク・線形混合モデルの線形混合モデルが代替の主役）。

4. 経時測定データと脱落・欠測

4.1 縦断データと脱落

同一被験者を時間軸に沿って繰り返し測るデータを経時測定データ（縦断データ・longitudinal data）と呼びます。反復測定 ANOVA はその解析の一つです。経時測定で避けられないのが脱落（dropout）——副作用・転居・効果不満などで被験者が途中で離脱し、以降が**欠測（missing）**になる現象です。

欠測の発生メカニズム（MCAR / MAR / MNAR）の分類は欠測データ・EMアルゴリズムと共通です。臨床試験で深刻なのは、脱落が結果に依存して起きる（例：効かない人ほど抜ける）MNAR・MAR の場合で、これを素朴に埋めると結論が歪みます。

4.2 LOCF（最終観測値繰越法）とそのバイアス

LOCF（Last Observation Carried Forward, 最終観測値繰越法）は、脱落した被験者の欠測をその人の最後に観測された値で埋める単純な方法です。「最後に測れた値が以降もずっと続いた」と仮定して全員を最終時点まで埋め、解析します。かつて臨床試験で広く使われました。

よくある誤解：「LOCF は保守的（効果を控えめに見積もる）から安全」——これは誤りです。LOCF が保守的になる向きは限られていて、むしろ効果を過大に見せることもあります。

決定的な反例が進行性に悪化する疾患（アルツハイマー病など）です。この種の疾患では、治療の目的は「悪化をできるだけ遅らせる」ことで、放っておけば被験者の値は時間とともに悪化していきます。ここでプラセボ群の方が早く脱落する（効果がないので脱落しやすい）と何が起きるか。

プラセボ群：早い時点（まだあまり悪化していない値）が繰り越され、最終時点の値が実際よりも良く埋まる。
実薬群：脱落が遅く、より悪化した後の値まで観測されてから繰り越される。

結果として、本来は実薬が優れているのに、LOCF だとプラセボが実薬に並ぶ・上回るように見えてしまう——効果を過小評価する向きのバイアスです。逆に、改善していく疾患で実薬群が早く脱落すれば効果を過大評価しえます。バイアスの向きは脱落のタイミングと結果の時間変化の組み合わせで決まり、一律に保守的とは言えないのがポイントです。

加えて LOCF には統計的な欠点があります。観測されていない値を観測されたかのように扱うため、欠測が持つ不確実性を無視し、標準誤差を過小評価して信頼区間を不当に狭めます。

graph TD
  DIS["進行性に悪化する疾患<br/>放置すると値は悪化"] --> DROP["プラセボが早く脱落"]
  DROP --> CARRY["プラセボは悪化前の良い値を繰り越し"]
  CARRY --> BIAS["プラセボが実薬に並ぶ・上回って見える<br/>→ 効果を過小評価（保守的でない）"]
  DIS2["改善していく疾患"] --> DROP2["実薬が早く脱落"]
  DROP2 --> BIAS2["効果を過大評価しうる"]

こうした問題から、現在のガイドラインは LOCF を推奨せず、欠測の不確実性を反映する手法（混合効果モデルによる反復測定 MMRM、多重代入法など）と、何を推定したいかを明示する estimand の枠組みへ移行しています（ガイドラインの内容は改訂が続くため要最新確認）。

4.3 クロスオーバー試験と持ち越し効果

クロスオーバー試験（crossover trial）は、同一被験者に期を分けて複数の処置を順に与える設計です。例：第I期に実薬→第II期にプラセボ（別の被験者は逆順）。各被験者が自分自身の対照になるため、被験者間の個人差が大きく相殺され、並行群間比較より少ない人数で効率的に効果を測れます（反復測定の利点と同じ理屈）。

最大の前提は持ち越し効果（carryover effect）がないこと——第I期の処置の影響が第II期にまで残ると、第II期の結果が前の処置に汚染され、処置の比較が崩れます。これを防ぐため、期と期の間にウォッシュアウト期間（washout period）——処置を行わず前の効果が抜けるのを待つ期間——を設けます。

要するに「クロスオーバーは個人差を消して効率的だが、持ち越し効果が残ると台無しになる。だからウォッシュアウトで前の処置を抜く」。効果が長く残る薬や不可逆な処置（治癒してしまう・後戻りできない介入）にはクロスオーバーは向きません。

5. 試験での問われ方（1級）

医薬生物学分野での1級の典型的な問われ方を、論点ごとに整理します（出題範囲・配点は要最新確認）。

必要標本数の計算： $\alpha$ ・検出力・効果量（または $\Delta$ と $\sigma$ ）を与え、各群の必要数を $n\approx 2(z_{\alpha/2}+z_\beta)^2\sigma^2/\Delta^2$ で計算させる。 $z_{0.025}=1.96$ 、 $z_{0.20}=0.84$ 、 $z_{0.10}=1.28$ あたりの値を使わせる。「検出したい差を半分にすると必要数は4倍」のような感度を問う場合もある。
検出力の方向：4つの量（ $\alpha$ ・ $1-\beta$ ・効果量・ $n$ ）のうち1つを動かすと残りがどう動くか。「標本を増やすと検出力は上がる」「効果量が小さいほど必要数が増える」を式で説明させる。
反復測定の誤差分離：なぜ反復測定（対応あり）が独立群より検出力が高いのか、平方和の分解（被験者間変動を誤差から除く）で説明させる。
球面性：球面性の仮定が崩れると何が起きるか（第一種過誤の増大）、Mauchly 検定で点検し Greenhouse-Geisser 補正で自由度を縮める流れ。
LOCFの問題点：「LOCF は常に保守的か」の正誤、脱落のタイミングと疾患の経過によってバイアスの向きが変わる仕組み、不確実性の無視という統計的欠陥。
クロスオーバー試験：利点（個人内比較で効率的）と前提（持ち越し効果がないこと、ウォッシュアウトの役割）、向かない場面（効果が長く残る・不可逆な処置）。

6. 引っかけ・頻出論点

⚠️ LOCF は「常に保守的」ではない：進行性悪化疾患でプラセボが早く脱落すると、プラセボが良く見えて効果を過小評価する。改善疾患で実薬が早く脱落すれば過大評価もありうる。バイアスの向きは脱落のタイミングと結果の時間変化で決まる。「LOCF＝保守的だから安全」は誤り。
⚠️ 球面性を確認せずに反復測定 ANOVA を使う：球面性が崩れると $F$ が大きめに出て第一種過誤が膨らむ。Mauchly 検定で点検し、崩れていれば Greenhouse-Geisser 補正が必要。「反復測定だから普通に $F$ 検定」で済ませると甘い検定になる。
⚠️ 対応のあるデータに独立2標本の検定を使う：同一被験者を繰り返し測ったデータ（経時・クロスオーバー）に独立2標本 $t$ 検定や独立群の一元配置を当てると、被験者間変動を誤差に混ぜてしまい検出力を捨て、さらに独立性の仮定も破る。対応あり（反復測定・対応のある $t$ ）を使う。
⚠️ 効果量と $p$ 値の混同：標本が巨大なら無意味に小さい効果でも有意になる。「有意＝効果が大きい」「非有意＝効果がない」はどちらも誤り。必要標本数を効果量から逆算する発想（検定力分析）がこの混同を防ぐ。
⚠️ 必要標本数の式の「2」を落とす：2群比較では差の分散が $2\sigma^2/n$ なので分子に2が付く。1標本（対1基準値）の設計と混同して2を落とすと必要数を半分に見誤る。
⚠️ クロスオーバーで持ち越し効果を無視：ウォッシュアウトが不十分だと第II期に前の処置が残り、処置比較が汚染される。効果が長く残る薬・不可逆な処置にクロスオーバーは不向き。

よくある疑問（Q&A）

Q1. 必要標本数の式に「2」が付くのはなぜですか? 1標本のときと何が違うのですか?

2群を比較するからです。検定統計量は2群の平均の差 $\bar X_T-\bar X_C$ で、独立な2つの平均のばらつきが足し合わさるため、差の分散は $\sigma^2/n+\sigma^2/n=2\sigma^2/n$ になります。この「2」が標準誤差を通じて最終式の分子に残ります。一方、1つの群の平均を既知の基準値と比べる1標本設計では、ばらつきは1群ぶん $\sigma^2/n$ だけなので係数2は付かず、必要数はおよそ半分になります。2群比較のつもりで1標本の式を使うと必要数を過小に見積もるので、「何と何を比べる設計か」を最初に確認してください。

Q2. なぜ反復測定（同じ人を繰り返し測る）と検出力が上がるのですか?

人ごとの個人差を誤差から追い出せるからです。独立群の比較では、もともと値が高い人・低い人という個人差が全部「誤差（群内変動）」に放り込まれ、分母を膨らませて $F$ を小さくします。反復測定では同じ人を繰り返し測るので、その個人差を被験者間変動として別枠に取り出し、誤差から差し引けます。 $F=MS_{\text{条件}}/MS_{\text{誤差}}$ の分母が小さくなるぶん、同じ効果でも $F$ が大きくなり有意になりやすい——これが検出力の向上です。対応のある $t$ 検定が「差」の系列だけを見て個人の水準差をキャンセルするのと、まったく同じ理屈です。

Q3. 球面性の仮定が崩れると、なぜ検定が甘くなる（第一種過誤が増える）のですか?

$F$ 検定が前提する誤差の分散構造（どの条件ペアの差も同じばらつき）が崩れると、実際の誤差の自由度が見かけより少ないのに、 $F$ 統計量は名目の自由度で評価されてしまいます。結果として $F$ が本来より大きめに出て、 $F$ 分布の臨界値を超えやすくなる——つまり「効果が無いのに有意」と判定する確率（第一種過誤）が名目の $\alpha$ より膨らみます。Greenhouse-Geisser 補正はこのズレを、自由度に $\varepsilon(\le 1)$ を掛けて縮めることで補います。自由度が減ると臨界値が上がり検定が厳しくなるので、膨らんだ過誤が $\alpha$ に戻る、という仕組みです。

Q4. LOCF が保守的だと言われることもあります。結局どっちなのですか?

「保守的になる場合もあるが、常にではない」が正確な答えです。LOCF が保守的（効果を控えめに見せる）になるのは、たとえば実薬群が時間とともに改善し続ける状況で脱落が起きると、改善途中の値で止まるため効果が頭打ちに見える、といったケースです。しかし反対に、進行性に悪化する疾患でプラセボが早く脱落すると、プラセボの悪化前の良い値が繰り越されてプラセボが良く見え、効果を過小評価します（実薬が不当に見劣りする）。どちらに転ぶかは「脱落が早いのはどちらの群か」「結果は時間とともに良くなるのか悪くなるのか」の組み合わせ次第で、一律に保守的とは言えません。だから現在は LOCF を避け、欠測の不確実性を反映する手法へ移るのが主流です。

Q5. クロスオーバー試験は個人差を消せて効率的なら、いつも使えばいいのでは?

使えない場面があります。クロスオーバーの大前提は「前の処置の影響が次の期に残らない（持ち越し効果がない）」ことです。効果が長く続く薬、体に不可逆な変化を起こす介入（治癒してしまう手術や、後戻りできない処置）では、第I期の効果が第II期に残るか、そもそも同じ被験者を元の状態に戻せず、処置の比較が成立しません。ウォッシュアウト期間を置いても抜けきらない場合は使えません。また試験期間が長くなる・途中脱落の影響が大きいという難点もあります。「個人差を消せる効率の良さ」と「持ち越し効果という制約」のトレードオフで、適用可否を判断します。

Q6. 検出力分析で使う効果量 $d=\Delta/\sigma$ の $\sigma$ や $\Delta$ は、試験前にどう決めるのですか?

設計時には真の値が分からないので、外部情報から「想定値」を置きます。 $\Delta$ （検出したい差）は臨床的に意味のある最小の差を専門知識で決め（例：この疾患では血圧を 5 mmHg 下げれば臨床的に価値がある）、 $\sigma$ は先行研究・予備試験（パイロット）の標準偏差から見積もります。ここが検定力分析の弱点で、想定 $\sigma$ が実際より小さいと必要数が足りず検出力不足に陥ります。だから設計段階では $\sigma$ をやや大きめに見るか、複数のシナリオで必要数を出す感度分析が実務では行われます。試験では $\Delta$ と $\sigma$ （または効果量）が与えられるので計算に集中できますが、「これらは設計時の想定値である」という前提は理解しておくべきです。

まとめ

処置効果の指標：生の群間差 $\Delta=\mu_T-\mu_C$ （単位つき・臨床的解釈に直結）と、標準偏差で割った標準化平均差（効果量） $d=\Delta/\sigma$ （単位非依存・検定力分析の入力）。効果量と $p$ 値は別物。
必要標本数（検定力分析）： $\alpha$ ・ $1-\beta$ ・効果量の3つを決めて $n$ を逆算。2群平均比較の各群必要数は $n\approx\dfrac{2(z_{\alpha/2}+z_\beta)^2\sigma^2}{\Delta^2}=\dfrac{2(z_{\alpha/2}+z_\beta)^2}{(\Delta/\sigma)^2}$ 。帰無分布の棄却境界と対立分布の $z_\beta$ 点を一致させる条件から導く。分子の「2」は2群ぶんの分散の和、必要数は効果量の二乗に反比例（差を半分で4倍）。
反復測定 ANOVA：同一被験者を繰り返し測り、被験者間変動を誤差から分離して $MS_{\text{誤差}}$ を縮めるので検出力が上がる。代償として**球面性（どの条件ペアの差も等分散、 $C'\Sigma C=\lambda I$ ）**が要り、崩れると第一種過誤が膨らむ。Mauchly 検定で点検し、崩れていれば Greenhouse-Geisser 補正で自由度を $\varepsilon$ 倍に縮める。
脱落と LOCF：経時データの欠測を最終観測値で埋める LOCF は常に保守的ではない。進行性悪化疾患でプラセボが早く脱落すると効果を過小評価する向きのバイアスを生み、欠測の不確実性も無視する。現在は混合モデルや多重代入、estimand の枠組みへ移行（要最新確認）。
クロスオーバー試験：同一被験者に期を分けて複数処置を与え個人差を相殺、少人数で効率的。前提は持ち越し効果がないことで、ウォッシュアウトで前処置を抜く。効果が長く残る・不可逆な処置には不向き。