障害モデル（クラッシュ・オミッション・ビザンチン）

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：分散システムとは・なぜ難しいか　|　関連：分散コンピューティングの誤謬（8つの誤謬）・合意問題とFLP不可能性

要点（BLUF）

「このアルゴリズムは正しい」は無意味で、「この故障の仮定の下で正しい」が正しい言い方。たとえばPaxos/Raft（Paxos・Raft）はクラッシュ故障は耐えるが、嘘をつくノード（ビザンチン）は想定しません。だから最初に「相手はどう壊れるか」を固定します。

弱い仮定（＝より多くの壊れ方を許す）ほど、対処は難しくなります。

故障モデル	ノードの振る舞い	例	包含
クラッシュ（停止）	正しく動くか、止まって二度と動かない	電源断・プロセス kill	最も強い仮定（最も御しやすい）
オミッション	メッセージを送り/受け損ねる（が嘘はつかない）	バッファ溢れ・取りこぼし	クラッシュを内包
タイミング	正しいが時間制約を破る（遅すぎる）	GC停止・過負荷	同期系のみ問題化
ビザンチン（任意）	何でもする：嘘・矛盾・結託	バグ・侵害・悪意	すべてを内包（最弱の仮定）

flowchart LR
    C["クラッシュ"] --> O["オミッション"]
    O --> T["タイミング"]
    T --> B["ビザンチン（任意故障）"]

要するに何か：右に行くほど「敵が強い」。クラッシュは「死んだら黙る正直者」、ビザンチンは「生きたまま矛盾を吐く嘘つき」。

フェイルストップ：クラッシュ＋「他ノードが故障を確実に検知できる」理想モデル。実システムでは検知が不確実なので、ここがそのまま合意問題とFLP不可能性の難しさに繋がる。
同期 / 非同期：メッセージ遅延と処理時間に上限があるか。同期なら「時間内に来なければ死亡」と判定でき故障検出が容易。非同期（上限なし）では「遅い」と「死んだ」が区別できず、FLP不可能性が効く。実システムは部分同期（普段は同期的、たまに崩れる）として扱う。

故障 f 台に耐える条件は、必要な「重なり（過半数）」から導けます。

クラッシュ耐性（f 台が黙っても、生存ノードの過半数で進む）：

N \ge 2f + 1

ビザンチン耐性（f 台が嘘をついても、正直ノードが多数を確保し矛盾を打ち消す）：

N \ge 3f + 1

直観：ビザンチンでは「黙る」だけでなく「矛盾した嘘を別々のノードに言う」ので、正直派が嘘つきの2倍超いないと真偽を分離できない。だからクォーラム（クォーラム（R+W>N））でも、ビザンチン版は重なりをさらに厚く取ります。

単一マシンでは「壊れたら全部止まる（フェイルストップ的）」と思ってよい。分散では一部だけ・嘘も含めて壊れるので、まず敵の強さを宣言しないと議論が始まりません。強い仮定（クラッシュ）で設計を単純化し、本当に必要な所（ブロックチェーン・耐障害金融）だけビザンチンに上げる、が定石です。

なし（概念回）。N≧2f+1 の「過半数の重なり」はクォーラム（R+W>N）のラボで定量的に確認します。