競合リスク・線形混合モデル｜統計検定テキスト

📊 対象級：1級　|　重要度：C（低頻度）

要点（BLUF）

このノートは統計検定の公式出題範囲表には明記されていません（範囲表外）が、1級・統計応用（医薬生物学）で出題実績のある発展トピックです（範囲・配点は改訂されうるため要最新確認）。生存時間解析と反復測定の自然な延長として、2つの道具を押さえます。

競合リスク：複数の排他的なイベント（がん死 vs 他病死など）があり、一方が起きるともう一方はもう観測できない状況。ここでは原因別ハザード（あるイベントの瞬間発生率）と累積発生関数 CIF（あるイベントが時刻 $t$ までに起きてしまった割合）が1対1対応しなくなるのが核心です。競合イベントを単純に打ち切り扱いした $1-\text{KM}$ は CIF を過大推定します。
線形混合モデル（LMM）： $\boldsymbol y=X\boldsymbol\beta+Z\boldsymbol b+\boldsymbol\varepsilon$ 、 $\boldsymbol b\sim N(\boldsymbol 0,G)$ 。共通の傾向を表す固定効果 $\boldsymbol\beta$ と、個体・群ごとのばらつきを表す変量効果 $\boldsymbol b$ を分けて扱います。 $\boldsymbol b$ を積分消去すると周辺分散は $\mathrm{Var}(\boldsymbol y)=ZGZ^\top+R$ となり、反復測定の相関構造を1つの分散行列に畳み込むのが本質です。
1級（範囲表外）では CIF と生存関数の違い・LMM の固定効果と変量効果の区別が問われます。LMM は分散分析・回帰の延長として、競合リスクは生存時間解析の延長として位置づけられます。

graph TD
  ROOT["このノートの2トピック<br/>（範囲表外・出題実績あり）"] --> A["A. 競合リスク<br/>生存時間解析の発展"]
  ROOT --> B["B. 線形混合モデル LMM<br/>分散分析・回帰の発展"]
  A --> A1["原因別ハザード（rate）"]
  A --> A2["累積発生関数 CIF（risk）"]
  A1 -. 1対1でない .-> A2
  A --> A3["1-KM は CIF を過大推定<br/>→ Fine-Gray で対処"]
  B --> B1["固定効果 Xβ（共通の傾向）"]
  B --> B2["変量効果 Zb（個体・群差）"]
  B --> B3["周辺分散 Var(y)=ZGZᵀ+R<br/>→ REMLで分散成分を推定"]

A. 競合リスク（competing risks）

A-1. 何が問題か — 排他的イベントと「打ち切り」の誤用

生存時間解析では「イベント（死亡など）」は1種類で、観測が途中で切れる**打ち切り（censoring）**は「その人はまだイベントを起こしていない」ことを意味しました。ところが医薬の現場では、互いに排他的な複数の死因がよくあります。

例：がん患者の追跡で、注目するイベントが「がんによる死亡」だとします。しかし「他病死（心疾患などでの死亡）」も起こりえます。一方が起きると、もう一方はもう永遠に観測できません（死んだ人にがん死は起こらない）。このように、あるイベントの発生が別のイベントの観測を妨げるとき、それらを**競合リスク（競合イベント）**と呼びます。

ここでやってはいけないのが、「他病死を単なる打ち切りとして扱う」ことです。打ち切りの本来の意味は「まだイベントが起こりうる人を、追跡の都合で見失った」ですが、他病死した人はもうがん死を起こしえない。両者は意味が違います。この取り違えが、後述の過大推定を生みます。

stateDiagram-v2
    [*] --> 生存中
    生存中 --> がん死: 原因別ハザード h₁(t)
    生存中 --> 他病死: 原因別ハザード h₂(t)
    がん死 --> [*]
    他病死 --> [*]
    note right of 他病死
      他病死すると
      もうがん死は起こらない
      （排他的・吸収状態）
    end note

要するに「競合リスクとは、複数の出口が排他的に存在し、どれか1つから出ると他の出口にはもう行けない状況」。各出口（死因）が吸収状態になっているのがポイントです。

A-2. 原因別ハザードと累積発生関数（CIF）

競合リスクを記述する2つの量を定義します。イベントの種類を $j=1,2,\dots$ とします（例： $j=1$ がん死、 $j=2$ 他病死）。

原因別ハザード（cause-specific hazard） $h_j(t)$ ：いま時刻 $t$ までどのイベントも起きずに生存している人が、次の瞬間に原因 $j$ でイベントを起こす瞬間発生率。

h_j(t)=\lim_{\Delta t\to 0}\frac{\Pr(t\le T<t+\Delta t,\ J=j\mid T\ge t)}{\Delta t}

ここで $T$ はイベントまでの時間、 $J$ はどのイベントが起きたかを表します。要するに「原因 $j$ だけに注目した瞬間死亡率。ただし分母は『まだ誰のイベントも起きていない生存者』全員」。

全ハザード（all-cause hazard） $h(t)$ は、どれか1つでもイベントが起きる瞬間率なので、原因別ハザードの単純な和です。

h(t)=\sum_j h_j(t)

要するに「全体の瞬間死亡率は、死因ごとの瞬間死亡率を足したもの」。これは「どの死因も同じ生存者集団から起こる」ことから直ちに従います。

全イベント生存関数 $S(t)$ （どの死因でもまだ死んでいない確率）は、生存時間解析の標準公式どおり全ハザードから決まります。

S(t)=\exp\!\left(-\int_0^t h(u)\,du\right)=\exp\!\left(-\int_0^t \sum_j h_j(u)\,du\right)

要するに「生き残る確率は、全死因を合わせた累積ハザードの指数マイナス」。ここまでは1種類イベントの素直な拡張です。

累積発生関数（CIF, cumulative incidence function） $F_j(t)$ ：時刻 $t$ までに原因 $j$ でイベントを起こしてしまった人の割合。これが競合リスク特有の量で、定義は

\boxed{\;F_j(t)=\Pr(T\le t,\ J=j)=\int_0^t h_j(u)\,S(u)\,du\;}

です。この積分の中身に注目してください。 原因 $j$ で死ぬには、時刻 $u$ の直前までどの死因でも死なずに生き残っていて（ $S(u)$ ）、ちょうどその瞬間に**原因 $j$ で死ぬ（ $h_j(u)\,du$ ）**必要があります。この2つの積を $0$ から $t$ まで足し上げたものが $F_j(t)$ です。

A-3. CIF と原因別ハザードが「1対1対応しない」ことの導出

ここがこのトピックの最重要点です。 $F_j(t)$ の式をもう一度見ます。

F_j(t)=\int_0^t \underbrace{h_j(u)}_{\text{原因 }j\text{ だけ}}\cdot\underbrace{S(u)}_{\text{全死因に依存}}\,du

被積分関数には $h_j(u)$ だけでなく $S(u)=\exp(-\int_0^u \sum_k h_k)$ が掛かっています。そして $S(u)$ は全死因のハザード $\{h_k\}$ 全部に依存します。つまり——

原因 $j$ の CIF $F_j(t)$ は、原因 $j$ のハザード $h_j$ だけでは決まらず、競合相手 $h_2,h_3,\dots$ にも依存する。

具体的に言うと、競合イベント（他病死 $h_2$ ）が増えると $S(u)$ が速く下がり、被積分関数の $S(u)$ が小さくなるので、たとえ $h_1$ （がん死のハザード）が同じでも $F_1(t)$ （がん死の発生割合）は小さくなります。「他の死因で先に死んでしまう人が増えれば、がんで死ぬ人の割合は下がる」という、考えてみれば当たり前の現象です。

要するに「ハザード（rate, 瞬間率）と CIF（risk, 累積発生割合）は1対1対応しない。CIF は競合相手のハザードにも引きずられる」。1種類イベントなら $F(t)=1-S(t)$ で両者は1対1でしたが、競合リスクではこの単純な対応が壊れます。これが「rate と risk を混同してはいけない」と言われる理由です。

なお、全 CIF の和は全イベント確率に一致します。

\sum_j F_j(t)=\sum_j\int_0^t h_j(u)S(u)\,du=\int_0^t\Big(\sum_j h_j(u)\Big)S(u)\,du=\int_0^t h(u)S(u)\,du=1-S(t)

最後の等号は $\frac{d}{du}S(u)=-h(u)S(u)$ （生存関数の定義微分）から $\int_0^t h(u)S(u)\,du=-[S(u)]_0^t=1-S(t)$ となることによります。要するに「各死因で死んだ割合を全部足すと、（どれかで）死んだ割合 $1-S(t)$ にちゃんと一致する」。CIF はこの $1-S(t)$ を死因ごとに正しく分割したものになっているわけです。

A-4. カプラン・マイヤー（1-KM）が CIF を過大推定する理屈

競合リスクを無視して「他病死を打ち切り扱い」し、がん死だけを対象に生存時間解析のカプラン・マイヤー（KM）法を当て、 $1-\hat S_{\text{KM}}(t)$ でがん死の累積割合を出す——これがよくある誤りで、真の CIF $F_1(t)$ を過大推定します。理屈を2段階で説明します。

ステップ1：KM で出てくる「生存関数」は何を推定しているか。 他病死を打ち切りにしてがん死だけにKMを適用すると、その KM 推定量は「他病死が一切起きなかったと仮定したときの、がん死だけによる仮想的な生存関数」を推定します。これを $S_1^\ast(t)$ と書きましょう。対応するハザードは原因別ハザード $h_1$ で、

S_1^\ast(t)=\exp\!\left(-\int_0^t h_1(u)\,du\right)

ここが競合リスク無視の罠です。指数の中が全ハザード $h(t)=\sum_k h_k$ ではなく、原因別ハザード $h_1$ だけになっています。打ち切りにした他病死の分（ $h_2$ ）が指数から抜け落ちています。

ステップ2： $1-S_1^\ast$ と真の CIF を比べる。 この仮想生存関数から作る「過大推定版」を

\widetilde F_1(t)=1-S_1^\ast(t)=\int_0^t h_1(u)\,S_1^\ast(u)\,du

と書きます（最後の等号は前と同じく $\frac{d}{du}S_1^\ast=-h_1 S_1^\ast$ から）。これを真の CIF と並べます。

\widetilde F_1(t)=\int_0^t h_1(u)\,S_1^\ast(u)\,du \qquad\text{vs}\qquad F_1(t)=\int_0^t h_1(u)\,S(u)\,du

両者の違いは被積分関数に掛かる生存関数だけです。 $S_1^\ast$ は $h_1$ しか含まないのに対し、真の $S$ は全死因 $\sum_k h_k\ge h_1$ を含むので、競合イベントが存在する（ $h_2>0$ となる区間がある）限り

S(u)=\exp\!\Big(-\!\int_0^u\!\textstyle\sum_k h_k\Big)\ \le\ \exp\!\Big(-\!\int_0^u h_1\Big)=S_1^\ast(u)

が成り立ちます。被積分関数の $h_1(u)$ は共通・非負なので、生存関数が大きいほど積分も大きく、

\boxed{\;\widetilde F_1(t)=1-S_{\text{KM}}(t)\ \ge\ F_1(t)\;}

すなわち $1-\text{KM}$ は真の CIF を必ず過大推定（競合があれば真に大きく） します。要するに「 $1-\text{KM}$ は『他病死が一度も起きない世界』のがん死割合を測ってしまう。現実には他病死で先に抜ける人がいるぶん、がん死割合はもっと小さいはずなのに、それを無視するから上振れする」。

直観的な言い換え：他病死した人を「打ち切り」としてリスク集合に残し続けると、KM は「その人もいずれがん死しうる」と勘定してしまう。実際にはもうがん死しえないのに。この死ねない人を母数に数える誤りが過大推定の正体です。

なお、競合イベントが存在しない（ $h_2\equiv0$ 、単一イベント）場合は $S=S_1^\ast$ なので $1-\text{KM}=F_1(t)$ となり、両者は一致します。だから単一イベントなら $1-\text{KM}$ で問題ありません。過大推定は競合がある場合だけの現象です。

xychart-beta
    title "1-KM（過大推定）と真のCIF（時刻に対する累積発生割合の概念図）"
    x-axis "時刻 t" [0, 1, 2, 3, 4, 5]
    y-axis "原因1の累積発生割合" 0 --> 0.6
    line "1-KM（他病死を打ち切り＝過大）" [0, 0.12, 0.24, 0.36, 0.46, 0.54]
    line "真のCIF F1（競合を考慮）" [0, 0.08, 0.16, 0.24, 0.30, 0.34]

（上図は概念図です。競合イベントがあると $1-\text{KM}$ は常に真の CIF より上に来ます。）

A-5. Fine-Gray の部分分布ハザードモデル（概念）

CIF に対して、共変量（治療群など）の効果を回帰の形でモデル化したいとき使うのが Fine-Gray の部分分布ハザードモデルです。原因別ハザードの Cox 回帰（生存時間解析の比例ハザードを死因別に当てる）とは狙いが違う点が重要です。

部分分布ハザード（subdistribution hazard） $\bar h_1(t)$ は、CIF $F_1$ と直接1対1で対応するよう設計されたハザードです。具体的には $\bar h_1(t)=-\dfrac{d}{dt}\log\{1-F_1(t)\}$ と定義され、 $F_1(t)=1-\exp(-\int_0^t \bar h_1)$ という単一イベントと同じ綺麗な関係を回復させます。
数理上の工夫はリスク集合の定義にあります。原因別ハザードは「競合イベント（他病死）が起きた人をリスク集合から外す」のに対し、部分分布ハザードは競合イベントが起きた人をリスク集合に残し続ける（重みを調整して）。これにより「他病死した人ももう原因1では決して発生しない」ことが CIF に正しく反映されます。
使い分け：原因別ハザードのモデルは「なぜそのイベントが起きるか（病因・メカニズム）」を問う病因論的な問いに向き、Fine-Gray（部分分布ハザード）は「ある群でそのイベントが結局どれだけ起きるか（絶対リスク・予後予測）」を問うときに向きます。要するに「メカニズムを知りたいなら原因別ハザード、結果としての発生確率を予測したいなら Fine-Gray」。

⚠️ Fine-Gray モデルの注意点として、複数の死因それぞれに部分分布ハザードモデルを当てて CIF を足すと、合計が 1 を超えうることが知られています（各モデルが独立に推定され、 $\sum_j F_j\le 1-S\le1$ の制約を自動では守らないため）。因果的な問い（治療の効果のメカニズム）には Fine-Gray は不向き、という指摘もあります。1級では概念（CIF と直接対応するハザードである、という点）を押さえれば十分です。

B. 線形混合モデル（LMM, linear mixed model）

B-1. 動機 — 反復測定・階層データの「独立でない」観測

通常の回帰（分散分析や重回帰）は観測が互いに独立であることを前提にします。ところが医薬では、同じ被験者を何度も測る（反復測定・経時測定）、同じ病院の患者をまとめて測る（階層・マルチレベル）データが普通です。

例：高血圧の薬の効果を見るため、各患者の血圧を投与後 0・4・8・12 週で測る。同じ患者の4測定は互いに相関します（もともと血圧が高い人は4回とも高めに出る）。この相関を無視して全観測を独立として回帰すると、標準誤差を誤り、検定が不正になります。

LMM は、この相関を「患者ごとの個人差を表す変量効果」として明示的にモデルに入れることで解決します。要するに「全員に共通の効果（固定効果）と、個体・群ごとに違う効果（変量効果）を分けて、観測間の相関を変量効果から自然に発生させる」のが LMM です。

graph TD
  POP["集団全体の平均的な傾向<br/>固定効果 β（薬の平均効果など）"] --> P1["患者1の軌跡 = 共通傾向 + 患者1の個人差 b₁"]
  POP --> P2["患者2の軌跡 = 共通傾向 + 患者2の個人差 b₂"]
  POP --> P3["患者3の軌跡 = 共通傾向 + 患者3の個人差 b₃"]
  P1 --> M1["週0,4,8,12 の測定<br/>（同一患者なので相関）"]
  P2 --> M2["週0,4,8,12 の測定"]
  P3 --> M3["週0,4,8,12 の測定"]

B-2. モデルの定式化

LMM の一般形は次のとおりです。

\boxed{\;\boldsymbol y = X\boldsymbol\beta + Z\boldsymbol b + \boldsymbol\varepsilon\;}

各記号の意味は：

$\boldsymbol y$ ：応答（全観測を縦に並べたベクトル、長さ $n$ ）
$X$ ：固定効果の計画行列（ $n\times p$ ）、 $\boldsymbol\beta$ ：固定効果パラメータ（長さ $p$ ）。全個体に共通の平均的な効果（薬の平均効果、時間の平均トレンドなど）
$Z$ ：変量効果の計画行列（ $n\times q$ ）、 $\boldsymbol b$ ：変量効果（長さ $q$ ）。個体・群ごとに違うずれ
$\boldsymbol\varepsilon$ ：観測レベルの誤差（長さ $n$ ）

そして分布の仮定が LMM の心臓部です。

\boldsymbol b\sim N(\boldsymbol 0,\,G),\qquad \boldsymbol\varepsilon\sim N(\boldsymbol 0,\,R),\qquad \boldsymbol b\perp\boldsymbol\varepsilon

$\boldsymbol b\sim N(\boldsymbol 0,G)$ ：変量効果は平均 0（集団平均からのずれなので、平均すれば 0）、分散共分散行列 $G$ の正規分布に従う。 $G$ が変量効果の散らばり具合を表す分散成分を含みます。
$\boldsymbol\varepsilon\sim N(\boldsymbol 0,R)$ ：残差。最も単純には $R=\sigma^2 I_n$ （独立等分散）。
$\boldsymbol b$ と $\boldsymbol\varepsilon$ は独立。

要するに「固定効果 $X\boldsymbol\beta$ で集団共通の平均的な形を、変量効果 $Z\boldsymbol b$ で個体ごとのずれを、誤差 $\boldsymbol\varepsilon$ で測定レベルの雑音を表す。変量効果は『平均 0・分散 $G$ の正規分布から1個体ごとに引いてくる確率変数』」。

B-3. 変量切片と変量傾き

変量効果の典型は2種類です。患者 $i$ の時刻 $t_{ij}$ における血圧 $y_{ij}$ を例にします。

変量切片（random intercept）モデル：患者ごとにベースラインの高さだけが違う。

y_{ij}=\underbrace{(\beta_0+\beta_1 t_{ij})}_{\text{固定効果：共通の直線}}+\underbrace{b_{0i}}_{\text{患者 }i\text{ の高さのずれ}}+\varepsilon_{ij},\qquad b_{0i}\sim N(0,\sigma_0^2)

要するに「全員が同じ傾きの直線を持つが、上下の位置（切片）だけ患者ごとに違う」。 $b_{0i}$ が患者 $i$ 固有の上げ下げです。

変量傾き（random slope）モデル：切片に加えて、時間に対する反応の傾きも患者ごとに違う。

y_{ij}=(\beta_0+\beta_1 t_{ij})+\underbrace{(b_{0i}+b_{1i}t_{ij})}_{\text{患者 }i\text{ の切片・傾きのずれ}}+\varepsilon_{ij},\qquad \begin{pmatrix}b_{0i}\\ b_{1i}\end{pmatrix}\sim N\!\left(\boldsymbol 0,\ G=\begin{pmatrix}\sigma_0^2 & \sigma_{01}\\ \sigma_{01} & \sigma_1^2\end{pmatrix}\right)

要するに「患者ごとに直線そのものの位置と傾き（薬の効きの速さ）が違う。 $\sigma_0^2$ が切片の個人差、 $\sigma_1^2$ が傾きの個人差、 $\sigma_{01}$ が両者の相関」。 $G$ が $2\times2$ 行列になり、切片と傾きの共分散まで持つのがポイントです。

B-4. 周辺分散 $\mathrm{Var}(\boldsymbol y)=ZGZ^\top+R$ の導出

LMM の最重要公式です。変量効果 $\boldsymbol b$ を**積分消去（周辺化）**したときの $\boldsymbol y$ の分散を求めます。 $\boldsymbol\beta,X,Z$ は定数（または与えられた計画）、 $\boldsymbol b,\boldsymbol\varepsilon$ が確率変数であることに注意します。

平均： $\boldsymbol b,\boldsymbol\varepsilon$ は平均 0 なので、

\mathrm{E}[\boldsymbol y]=X\boldsymbol\beta+Z\,\mathrm{E}[\boldsymbol b]+\mathrm{E}[\boldsymbol\varepsilon]=X\boldsymbol\beta

要するに「平均的な応答は固定効果だけで決まる（変量効果と誤差は平均すると消える）」。

分散：分散の線形変換則 $\mathrm{Var}(A\boldsymbol u)=A\,\mathrm{Var}(\boldsymbol u)\,A^\top$ と、 $\boldsymbol b\perp\boldsymbol\varepsilon$ （独立なので共分散項が消える）を使います。定数 $X\boldsymbol\beta$ は分散に効きません。

\mathrm{Var}(\boldsymbol y)=\mathrm{Var}(X\boldsymbol\beta+Z\boldsymbol b+\boldsymbol\varepsilon) =\mathrm{Var}(Z\boldsymbol b)+\mathrm{Var}(\boldsymbol\varepsilon)+2\,\mathrm{Cov}(Z\boldsymbol b,\boldsymbol\varepsilon)

ここで $\boldsymbol b\perp\boldsymbol\varepsilon$ より $\mathrm{Cov}(Z\boldsymbol b,\boldsymbol\varepsilon)=0$ 。残る2項に線形変換則を当てて $\mathrm{Var}(Z\boldsymbol b)=Z\,\mathrm{Var}(\boldsymbol b)\,Z^\top=ZGZ^\top$ 、 $\mathrm{Var}(\boldsymbol\varepsilon)=R$ 。よって

\boxed{\;\mathrm{Var}(\boldsymbol y)=ZGZ^\top+R\;\equiv\;V\;}

要するに「 $\boldsymbol y$ の全分散は『変量効果由来の分散 $ZGZ^\top$ 』＋『残差分散 $R$ 』。変量効果を消し去る代わりに、その散らばりが $ZGZ^\top$ という形で観測の分散・共分散に染み出す」。

この $V=ZGZ^\top+R$ がなぜ重要かというと、観測間の相関を生み出しているのがこの $ZGZ^\top$ だからです。例えば変量切片モデルで同一患者 $i$ の2測定 $y_{ij},y_{ik}$ （ $j\ne k$ ）の共分散を計算すると、共通の $b_{0i}$ を通じて

\mathrm{Cov}(y_{ij},y_{ik})=\mathrm{Cov}(b_{0i}+\varepsilon_{ij},\ b_{0i}+\varepsilon_{ik})=\mathrm{Var}(b_{0i})=\sigma_0^2>0

となり、同じ患者の測定が正の相関を持つことが自然に出てきます（ $\varepsilon$ は独立なので消え、共通の $b_{0i}$ だけが残る）。これがまさに B-1 で問題にした「反復測定の相関」を、変量効果が表現している姿です。要するに「周辺化すると、 $\boldsymbol y$ は平均 $X\boldsymbol\beta$ ・分散 $V=ZGZ^\top+R$ の多変量正規 $\boldsymbol y\sim N(X\boldsymbol\beta,\,V)$ になり、相関は全部 $V$ に畳み込まれる」。

B-5. 反復測定分散分析の一般化・パネルデータとの関係

LMM はいくつかの古典的手法を特殊ケースとして含む一般化です。

反復測定分散分析の一般化：同一被験者を複数条件・複数時点で測る反復測定分散分析は、「被験者」を変量効果（変量切片）にした LMM の特別な場合に相当します。反復測定分散分析は**球面性（sphericity）**など強い共分散の仮定を置きますが、LMM は $G,R$ の構造を柔軟に選べるため、不等間隔の測定・欠測・任意の相関構造を扱えます。要するに「LMM は反復測定分散分析を、共分散構造を自由に指定できる形に拡張したもの」。分散分析の被験者内要因の話がここに繋がります。
パネルデータの変量効果モデルと同一構造：社会科学のパネルデータ分析に出てくる変量効果モデルは、「個体」を変量切片にした LMM とまったく同じ構造です。 $y_{it}=\boldsymbol x_{it}^\top\boldsymbol\beta+u_i+\varepsilon_{it}$ （ $u_i$ が個体の変量効果）は、分野が違うだけで数式は LMM の変量切片モデルそのもの。要するに「医薬の『反復測定の混合モデル』と社会科学の『パネルの変量効果モデル』は、同じ $\boldsymbol y=X\boldsymbol\beta+Z\boldsymbol b+\boldsymbol\varepsilon$ を別の言葉で呼んでいるだけ」。

B-6. 分散成分の推定 — REML の考え方

$\boldsymbol\beta$ （固定効果）と $G,R$ の中の分散成分（ $\sigma_0^2,\sigma_1^2,\sigma^2$ など）をどう推定するか。素直には周辺分布 $\boldsymbol y\sim N(X\boldsymbol\beta,V)$ の対数尤度を最大化する最尤推定（ML）ですが、分散成分の ML 推定には下方バイアス（過小推定）があります。

なぜ ML がバイアスを持つか：ML は分散成分を推定するとき、固定効果 $\boldsymbol\beta$ を同じデータから推定して使い切ってしまい、 $\boldsymbol\beta$ の推定で消費した自由度を勘定に入れないためです。最も簡単な例で言えば、通常の分散の最尤推定量 $\frac1n\sum(y_i-\bar y)^2$ が母分散を過小推定し、不偏推定には $n-1$ で割る必要があるのと同じ構図です（平均 $\bar y$ を推定したぶん自由度が1減る）。LMM では固定効果が $p$ 個あるので、このズレが効きます。

**REML（制限付き最尤法 / 残差最尤法, restricted maximum likelihood）**は、この自由度の消費を補正します。アイデアは「固定効果 $\boldsymbol\beta$ に依存しない方向（残差のコントラスト）だけを使って尤度を作り、それを最大化する」こと。 $\boldsymbol\beta$ を消去した尤度で分散成分を推定するため、固定効果推定による自由度の損失が正しく勘定され、分散成分のバイアスが軽減されます。要するに「REML は『 $\boldsymbol\beta$ を推定したぶん自由度が減る』ことを織り込んで分散成分を推定する方法。 $n-1$ で割る不偏分散の、混合モデル版の一般化」。

実務的な注意（要点だけ）：固定効果の構造（ $X$ ）が異なるモデル同士を尤度比検定で比べるときは、REML の尤度ではなく ML の尤度を使う必要があります。REML 尤度は $X$ に依存するため、固定効果が違うモデル間では直接比較できないからです。分散成分の推定値そのものは REML を使う、というのが標準です。

⚠️ 引っかけ・頻出論点

⚠️ 競合イベントを「単純打ち切り」として扱うのは誤り：他病死は「もうイベント（がん死）を起こせない」吸収状態であり、「まだ起こりうるが見失った」打ち切りとは意味が違います。単純打ち切り扱いの $1-\text{KM}$ は CIF を過大推定します。「競合は打ち切りと同じ」は誤り。
⚠️ CIF と $1-\text{KM}$ （生存関数の補）の混同：競合リスク下では $F_j(t)\ne 1-\hat S_{\text{KM}}(t)$ 。 $1-\text{KM}$ は「競合が一切ない仮想世界」のリスクを測るため過大。両者が一致するのは競合イベントが無い（単一イベント）ときだけ。「CIF は $1-$ 生存関数」と機械的に書くのは、競合があると誤り。
⚠️ 原因別ハザードと CIF は1対1対応しない： $F_j(t)=\int_0^t h_j(u)S(u)\,du$ の $S(u)$ が全死因に依存するため、 $h_j$ が同じでも競合相手次第で $F_j$ は変わる。「ハザードが高い＝CIF が高い」と短絡できない。rate（ハザード）と risk（CIF）を区別する。
⚠️ 全 CIF の和は $1-S(t)$ （ $\le1$ ）：原因別 CIF は $\sum_j F_j(t)=1-S(t)$ で整合的に分割される。一方 Fine-Gray モデルを死因別に独立に当てて足すと1を超えうる（モデルが制約を自動では守らない）。この差に注意。
⚠️ LMM の固定効果と変量効果の取り違え：固定効果 $\boldsymbol\beta$ は全個体に共通の平均的効果（推定したいパラメータ）、変量効果 $\boldsymbol b$ は個体・群ごとのずれで平均 0・分散 $G$ の確率変数。「興味のある主効果（薬・時間）は固定、繰り返しの単位（被験者・施設）は変量」が原則。両者を逆に置くと意味が変わる。
⚠️ 変量効果は「パラメータ」ではなく「確率変数」： $\boldsymbol b\sim N(\boldsymbol 0,G)$ であり、推定するのは個々の $\boldsymbol b$ そのものではなく分散成分 $G$ 。固定効果は値そのものを推定するが、変量効果は「散らばりの大きさ」を推定する、という非対称性。
⚠️ 相関は誤差ではなく変量効果から生まれる：同一個体内の観測相関 $\mathrm{Cov}(y_{ij},y_{ik})=\sigma_0^2$ は共通の変量切片由来。 $\boldsymbol\varepsilon$ 自体は（標準設定では）独立。「観測間相関は誤差の相関」と決めつけない。相関の源は $ZGZ^\top$ 。
⚠️ 分散成分の推定は ML だと過小、REML で補正：固定効果推定で消費した自由度を勘定しないと分散が下方バイアス。REML はこれを補正する（不偏分散の $n-1$ の一般化）。ただし固定効果の異なるモデルの比較は ML 尤度で行う。

よくある疑問（Q&A）

Q1. 競合イベントをなぜ普通の打ち切りとして扱ってはいけないのですか? どちらも「その後がわからない」点は同じに見えます。

「その後がわからない」理由が決定的に違います。普通の打ち切り（追跡終了・転院）は「この人は将来まだイベント（がん死）を起こしうるが、観測の都合で見失った」を意味し、KM はその人を「いずれ起こす可能性のある母集団」として正しく扱います。一方、他病死した人は「もう絶対にがん死を起こさない」。なのに打ち切り扱いするとリスク集合に残り続け、KM は「この人もいずれがん死しうる」と勘定してしまう。死ねない人を分母に数えるこの誤りが、 $1-\text{KM}$ がCIFを過大推定する正体です。競合イベントは打ち切りではなく**別の出口（吸収状態）**として扱わねばなりません。

Q2. では競合リスクがあるとき、各死因の「リスク」はどう報告すればいいのですか?

累積発生関数（CIF） $F_j(t)$ を報告します。 $F_j(t)=\int_0^t h_j(u)S(u)\,du$ で、これは「時刻 $t$ までに原因 $j$ で実際に死んだ人の割合」を、競合の存在を織り込んで正しく出した量です。推定にはノンパラメトリックな CIF 推定量（Aalen-Johansen 推定量。KM の競合リスク版）を使い、 $1-\text{KM}$ は使いません。群間で CIF を比べたいなら Gray 検定、共変量の効果を見たいなら Fine-Gray モデルです。要するに「競合があるなら $1-\text{KM}$ ではなく CIF（とその専用推定量）で報告する」。

Q3. 原因別ハザードの Cox 回帰と Fine-Gray モデル、どちらを使えばいいのですか?

問いの種類で決まります。「なぜそのイベントが起きるのか（生物学的メカニズム・病因）」を知りたいなら、原因別ハザードの Cox 回帰です。これは「いま生存している人の中での瞬間発生率」に共変量がどう効くかを見るので、メカニズムの解釈に向きます。一方、「ある治療群でそのイベントが結局どれだけ起きるか（絶対リスク・予後予測）」を知りたいなら、CIF に直接対応する **Fine-Gray（部分分布ハザード）**です。要するに「メカニズム＝原因別ハザード、結果としての発生確率の予測＝Fine-Gray」。両者は別の量を推定しているので、どちらが正しいというより目的次第です。

Q4. LMM で、ある効果を固定にするか変量にするかはどう決めるのですか?

原則は「興味の対象で、水準が固定的に意味を持つものは固定効果、たまたまサンプリングされた繰り返しの単位で、その個々の値より散らばりに興味があるものは変量効果」です。例えば薬の用量（0/低/高）や時間は、その水準自体に関心があり全体に共通の効果を見たいので固定効果。一方、被験者ID・施設・実験日のような「母集団からたまたま選ばれた繰り返しの単位」は、個々の被験者の値そのものより「被験者間でどれだけばらつくか」に関心があるので変量効果にします。要するに「結論を一般化したい対象は固定、繰り返しの『容れ物』は変量」。

Q5. 周辺分散 $V=ZGZ^\top+R$ の式は、結局何のためにあるのですか?

観測間の相関構造を1つの行列に表現するためです。LMM は $\boldsymbol b$ を積分消去すると $\boldsymbol y\sim N(X\boldsymbol\beta,V)$ という多変量正規になり、推定（一般化最小二乗や尤度最大化）はこの $V$ を使って行われます。 $V$ の非対角成分（共分散）が「同じ患者の測定どうしは相関する」という構造を担っており、 $ZGZ^\top$ がそれを生み出します。要するに「 $V=ZGZ^\top+R$ は、変量効果モデルが暗に仮定している『観測どうしの相関の地図』。推定も検定もこの $V$ の上で行う」。これがないと反復測定の相関を無視した誤った標準誤差になります。

Q6. REML はなぜ ML より分散成分が「正確」なのですか? 最尤法が最良ではないのですか?

最尤法は漸近的には優れますが、有限標本では分散成分を過小推定するという既知の欠点があります。原因は「分散を推定するとき、固定効果 $\boldsymbol\beta$ を同じデータから推定して使い、そのぶん減った自由度を勘定に入れない」ことです。最も単純な例が標本分散で、 $\frac1n\sum(y_i-\bar y)^2$ は母分散を過小推定し、平均を推定したぶん自由度が1減るので不偏には $n-1$ で割ります。REML はこの考えを混合モデルに一般化し、「固定効果に依存しない残差の情報だけで分散成分を推定する」ことで自由度の損失を正しく補正します。要するに「REML は不偏分散が $n$ でなく $n-1$ で割るのと同じ補正を、 $p$ 個の固定効果ぶんに対して行う」。だから分散成分の点推定では REML が標準です。

まとめ

このノートは公式範囲表外だが1級・統計応用（医薬生物学）で出題実績あり（要最新確認）。生存時間解析と反復測定の発展として位置づける。
競合リスク：複数の排他的イベントがあり、一方が起きると他方は観測不能（吸収状態）。原因別ハザード $h_j$ （rate）と累積発生関数 CIF $F_j(t)=\int_0^t h_j(u)S(u)\,du$ （risk）は1対1対応しない（ $S$ が全死因に依存するため）。
KM の過大推定：競合イベントを単純打ち切りにした $1-\hat S_{\text{KM}}$ は、 $S_1^\ast(u)\ge S(u)$ ゆえ真の CIF を過大推定（ $1-\text{KM}\ge F_1$ ）。競合が無い単一イベントのときだけ一致。報告は CIF（Aalen-Johansen）で行い、共変量効果は Fine-Gray 部分分布ハザードモデルが CIF と直接対応。
LMM： $\boldsymbol y=X\boldsymbol\beta+Z\boldsymbol b+\boldsymbol\varepsilon$ 、 $\boldsymbol b\sim N(\boldsymbol 0,G)$ 。固定効果＝全個体共通の平均効果、変量効果＝個体・群ごとのずれ（平均 0・分散 $G$ の確率変数）。変量切片・変量傾きで反復測定の相関を表す。
周辺分散： $\boldsymbol b$ を消去すると $\boldsymbol y\sim N(X\boldsymbol\beta,\,V)$ 、 $V=ZGZ^\top+R$ 。観測間相関（同一患者で $\mathrm{Cov}=\sigma_0^2$ ）はこの $ZGZ^\top$ から生まれる。反復測定分散分析・パネルデータの変量効果モデルと同一構造。
推定：分散成分の ML は過小バイアス。REML が固定効果推定による自由度の損失を補正（不偏分散の $n-1$ の一般化）。固定効果の異なるモデル比較は ML 尤度で。
試験（範囲表外）では CIF と生存関数の違い・固定効果と変量効果の区別が問われる。