支配と許容性｜意思決定分析

🎓 レベル：標準　|　重要度：B（推奨）

📎 前提：意思決定問題の構造（行動・状態・結果・利得表）・確実性・リスク・不確実性　|　関連：多目的問題とパレート最適（許容性のパレート版）

要点（BLUF）

ある行動 $a$ が、すべての状態で別の行動 $b$ 以下で、かつどこかの状態で真に下回るなら、 $a$ は $b$ に**支配される（dominated）**といいます。
支配される行動は、どんな確率を仮定しても最適にならないので、合理的な意思決定者は選びません。これを使えば確率を仮定せずに選択肢を絞り込めます。
支配されない行動を許容的（admissible） と呼び、その集合は多目的問題とパレート最適のパレート最適集合に対応します。

1. 支配の定義

利得表で、行動 $a_i$ が行動 $a_k$ に支配されるとは、

f(a_k, s_j) \ge f(a_i, s_j)\ \ \text{(すべての状態 } j\text{)} \quad\text{かつ}\quad f(a_k, s_{j^\ast}) > f(a_i, s_{j^\ast})\ \ \text{(ある } j^\ast\text{)}

が成り立つことです。要するに「 $a_k$ は $a_i$ よりどの状態でも損しないし、少なくとも1つの状態では得」。このとき $a_i$ を選ぶ理由はありません—— $a_k$ に乗り換えれば、どの未来が来ても後悔しないからです。

支配される行動を「許容されない（inadmissible）」、支配されない行動を「許容的（admissible）」と呼びます。

2. なぜ確率がいらないのか

支配の判定には状態の確率がまったく要りません。「すべての状態で以下」という条件は、どんな確率分布 $p$ をかけても期待利得の大小を保つからです。実際、 $f(a_k, \cdot) \ge f(a_i, \cdot)$ がすべての状態で成り立てば、任意の確率 $p \ge 0,\ \sum p_j = 1$ に対して

\sum_j p_j f(a_k, s_j) \ \ge\ \sum_j p_j f(a_i, s_j)

が必ず成り立ちます。だから「確率が分からない（不確実性下）」でも、支配された行動は安心して捨てられます。支配は、分析のいちばん最初に効く・最も安全なフィルタです。

3. コードで許容的な行動を取り出す

新しい行動Dを加えてみます。Dは「既存品強化（B）」の劣化版で、全状態でBより小さい——つまりBに支配されるはずです。

import numpy as np

def dominated_rows(M):
    """各行について、それを支配する行が存在するかを判定して返す"""
    n = M.shape[0]
    dominated = []
    for i in range(n):
        for j in range(n):
            if i == j:
                continue
            # j が i を支配：全状態で j>=i かつ どこかで j>i
            if np.all(M[j] >= M[i]) and np.any(M[j] > M[i]):
                dominated.append((i, j))
                break
    return dominated

# 状態：好況・横ばい・不況
M = np.array([
    [120, 40, -60],   # A 新製品投入
    [70,  50,  10],   # B 既存品強化
    [30,  30,  30],   # C 現状維持
    [60,  45,   5],   # D Bの劣化版（全状態でBより小）
])
labels = ["A", "B", "C", "D"]

dom = dominated_rows(M)
for i, j in dom:
    print(f"行動{labels[i]} は 行動{labels[j]} に支配される（許容されない）")

dominated_idx = [i for i, _ in dom]
admissible = [labels[k] for k in range(len(labels)) if k not in dominated_idx]
print(f"許容される（支配されない）行動 -> {admissible}")

出力：

行動D は 行動B に支配される（許容されない）
許容される（支配されない）行動 -> ['A', 'B', 'C']

出力の意味：Dは全状態でBより小さいので支配され、検討対象から外れます。残るA・B・Cはどれも互いに支配されません——A は好況に強く、C は不況に強く、B はその中間で、状態によって勝者が入れ替わるからです。確率を一切使わずに、4つの選択肢を3つに減らせたのがポイント。残った許容的な行動の中からどれを選ぶかは、確率（期待効用）やリスク選好の出番です。

4. 許容性とパレート最適：同じ概念の別名

「支配されない＝許容的」という考え方は、状態を「評価軸（目的）」と読み替えると、そのまま多目的問題とパレート最適のパレート最適になります。

多基準意思決定：「すべての目的で以下、どこかで真に劣る」案はパレート支配される
不確実性下の意思決定：「すべての状態で以下、どこかで真に劣る」行動は**（状態）支配**される

構造はまったく同じで、「状態の確率」と「目的の重み」が対応します。許容的な行動の集合＝パレートフロンティアで、その中のどれを選ぶかに価値判断（重み・効用・リスク選好）が必要になる——この対応を押さえておくと、第4章がぐっと楽になります。

⚠️ よくある誤解

「支配で1つに絞れる」とは限らない：支配フィルタは劣る選択肢を消すだけで、ふつう複数の許容的行動が残ります。残りから1つを選ぶには確率や効用が必要です。支配は「足切り」であって「決定」ではありません。
「期待値で最大なら他を支配している」ではない：期待利得が最大でも、ある状態では他に負けていることはあります（上の A・B・C がまさにそう）。支配は全状態での比較で、平均（期待値）での比較とは別物です。
「弱支配と強支配の混同」：全状態で真に上回るのが強支配、全状態で以下かつどこかで真に上回るのが（弱）支配です。実務では弱支配で十分ですが、同点を含む扱いに注意します。

対応シミュレーション

本文の dominated_rows は任意の利得表に使えます。行を足したり値を変えたりして、許容的な行動の集合がどう変わるかを試すと、支配の感覚がつかめます。