🎓 レベル:標準 | 重要度:B(推奨)
📎 前提:意思決定問題の構造(行動・状態・結果・利得表)・確実性・リスク・不確実性 | 関連:多目的問題とパレート最適(許容性のパレート版)
要点(BLUF)
- ある行動 が、すべての状態で別の行動 以下で、かつどこかの状態で真に下回るなら、 は に**支配される(dominated)**といいます。
- 支配される行動は、どんな確率を仮定しても最適にならないので、合理的な意思決定者は選びません。これを使えば確率を仮定せずに選択肢を絞り込めます。
- 支配されない行動を許容的(admissible) と呼び、その集合は多目的問題とパレート最適のパレート最適集合に対応します。
1. 支配の定義
利得表で、行動 が行動 に支配されるとは、
が成り立つことです。要するに「 は よりどの状態でも損しないし、少なくとも1つの状態では得」。このとき を選ぶ理由はありません—— に乗り換えれば、どの未来が来ても後悔しないからです。
支配される行動を「許容されない(inadmissible)」、支配されない行動を「許容的(admissible)」と呼びます。
2. なぜ確率がいらないのか
支配の判定には状態の確率がまったく要りません。「すべての状態で以下」という条件は、どんな確率分布 をかけても期待利得の大小を保つからです。実際、 がすべての状態で成り立てば、任意の確率 に対して
が必ず成り立ちます。だから「確率が分からない(不確実性下)」でも、支配された行動は安心して捨てられます。支配は、分析のいちばん最初に効く・最も安全なフィルタです。
3. コードで許容的な行動を取り出す
新しい行動Dを加えてみます。Dは「既存品強化(B)」の劣化版で、全状態でBより小さい——つまりBに支配されるはずです。
import numpy as np
def dominated_rows(M):
"""各行について、それを支配する行が存在するかを判定して返す"""
n = M.shape[0]
dominated = []
for i in range(n):
for j in range(n):
if i == j:
continue
# j が i を支配:全状態で j>=i かつ どこかで j>i
if np.all(M[j] >= M[i]) and np.any(M[j] > M[i]):
dominated.append((i, j))
break
return dominated
# 状態:好況・横ばい・不況
M = np.array([
[120, 40, -60], # A 新製品投入
[70, 50, 10], # B 既存品強化
[30, 30, 30], # C 現状維持
[60, 45, 5], # D Bの劣化版(全状態でBより小)
])
labels = ["A", "B", "C", "D"]
dom = dominated_rows(M)
for i, j in dom:
print(f"行動{labels[i]} は 行動{labels[j]} に支配される(許容されない)")
dominated_idx = [i for i, _ in dom]
admissible = [labels[k] for k in range(len(labels)) if k not in dominated_idx]
print(f"許容される(支配されない)行動 -> {admissible}")
出力:
行動D は 行動B に支配される(許容されない)
許容される(支配されない)行動 -> ['A', 'B', 'C']
出力の意味:Dは全状態でBより小さいので支配され、検討対象から外れます。残るA・B・Cはどれも互いに支配されません——A は好況に強く、C は不況に強く、B はその中間で、状態によって勝者が入れ替わるからです。確率を一切使わずに、4つの選択肢を3つに減らせたのがポイント。残った許容的な行動の中からどれを選ぶかは、確率(期待効用)やリスク選好の出番です。
4. 許容性とパレート最適:同じ概念の別名
「支配されない=許容的」という考え方は、状態を「評価軸(目的)」と読み替えると、そのまま多目的問題とパレート最適のパレート最適になります。
- 多基準意思決定:「すべての目的で以下、どこかで真に劣る」案はパレート支配される
- 不確実性下の意思決定:「すべての状態で以下、どこかで真に劣る」行動は**(状態)支配**される
構造はまったく同じで、「状態の確率」と「目的の重み」が対応します。許容的な行動の集合=パレートフロンティアで、その中のどれを選ぶかに価値判断(重み・効用・リスク選好)が必要になる——この対応を押さえておくと、第4章がぐっと楽になります。
⚠️ よくある誤解
- 「支配で1つに絞れる」とは限らない:支配フィルタは劣る選択肢を消すだけで、ふつう複数の許容的行動が残ります。残りから1つを選ぶには確率や効用が必要です。支配は「足切り」であって「決定」ではありません。
- 「期待値で最大なら他を支配している」ではない:期待利得が最大でも、ある状態では他に負けていることはあります(上の A・B・C がまさにそう)。支配は全状態での比較で、平均(期待値)での比較とは別物です。
- 「弱支配と強支配の混同」:全状態で真に上回るのが強支配、全状態で以下かつどこかで真に上回るのが(弱)支配です。実務では弱支配で十分ですが、同点を含む扱いに注意します。
対応シミュレーション
本文の dominated_rows は任意の利得表に使えます。行を足したり値を変えたりして、許容的な行動の集合がどう変わるかを試すと、支配の感覚がつかめます。
関連ノート
- 第1章 意思決定の枠組み 目次
- 意思決定問題の構造(行動・状態・結果・利得表) — 前提:利得表
- 確実性・リスク・不確実性 — 確率の有無によらず使えるフィルタ
- 多目的問題とパレート最適 — 許容性の多基準版がパレート最適
- 意思決定分析・リスク分析 全体目次