Mímisbrunnr知恵の泉

← 意思決定分析 一覧

🎓 レベル:標準 | 重要度:B(推奨)

📎 前提:意思決定問題の構造(行動・状態・結果・利得表)確実性・リスク・不確実性 | 関連:多目的問題とパレート最適(許容性のパレート版)

要点(BLUF)

1. 支配の定義

利得表で、行動 aia_i が行動 aka_k支配されるとは、

f(ak,sj)f(ai,sj)  (すべての状態 j)かつf(ak,sj)>f(ai,sj)  (ある j)f(a_k, s_j) \ge f(a_i, s_j)\ \ \text{(すべての状態 } j\text{)} \quad\text{かつ}\quad f(a_k, s_{j^\ast}) > f(a_i, s_{j^\ast})\ \ \text{(ある } j^\ast\text{)}

が成り立つことです。要するに「aka_kaia_i よりどの状態でも損しないし、少なくとも1つの状態では得」。このとき aia_i を選ぶ理由はありません——aka_k に乗り換えれば、どの未来が来ても後悔しないからです。

支配される行動を「許容されない(inadmissible)」、支配されない行動を「許容的(admissible)」と呼びます。

2. なぜ確率がいらないのか

支配の判定には状態の確率がまったく要りません。「すべての状態で以下」という条件は、どんな確率分布 pp をかけても期待利得の大小を保つからです。実際、f(ak,)f(ai,)f(a_k, \cdot) \ge f(a_i, \cdot) がすべての状態で成り立てば、任意の確率 p0, pj=1p \ge 0,\ \sum p_j = 1 に対して

jpjf(ak,sj)  jpjf(ai,sj)\sum_j p_j f(a_k, s_j) \ \ge\ \sum_j p_j f(a_i, s_j)

が必ず成り立ちます。だから「確率が分からない(不確実性下)」でも、支配された行動は安心して捨てられます。支配は、分析のいちばん最初に効く・最も安全なフィルタです。

3. コードで許容的な行動を取り出す

新しい行動Dを加えてみます。Dは「既存品強化(B)」の劣化版で、全状態でBより小さい——つまりBに支配されるはずです。

import numpy as np

def dominated_rows(M):
    """各行について、それを支配する行が存在するかを判定して返す"""
    n = M.shape[0]
    dominated = []
    for i in range(n):
        for j in range(n):
            if i == j:
                continue
            # j が i を支配:全状態で j>=i かつ どこかで j>i
            if np.all(M[j] >= M[i]) and np.any(M[j] > M[i]):
                dominated.append((i, j))
                break
    return dominated

# 状態:好況・横ばい・不況
M = np.array([
    [120, 40, -60],   # A 新製品投入
    [70,  50,  10],   # B 既存品強化
    [30,  30,  30],   # C 現状維持
    [60,  45,   5],   # D Bの劣化版(全状態でBより小)
])
labels = ["A", "B", "C", "D"]

dom = dominated_rows(M)
for i, j in dom:
    print(f"行動{labels[i]} は 行動{labels[j]} に支配される(許容されない)")

dominated_idx = [i for i, _ in dom]
admissible = [labels[k] for k in range(len(labels)) if k not in dominated_idx]
print(f"許容される(支配されない)行動 -> {admissible}")

出力:

行動D は 行動B に支配される(許容されない)
許容される(支配されない)行動 -> ['A', 'B', 'C']

出力の意味:Dは全状態でBより小さいので支配され、検討対象から外れます。残るA・B・Cはどれも互いに支配されません——A は好況に強く、C は不況に強く、B はその中間で、状態によって勝者が入れ替わるからです。確率を一切使わずに、4つの選択肢を3つに減らせたのがポイント。残った許容的な行動の中からどれを選ぶかは、確率(期待効用)やリスク選好の出番です。

4. 許容性とパレート最適:同じ概念の別名

「支配されない=許容的」という考え方は、状態を「評価軸(目的)」と読み替えると、そのまま多目的問題とパレート最適パレート最適になります。

構造はまったく同じで、「状態の確率」と「目的の重み」が対応します。許容的な行動の集合=パレートフロンティアで、その中のどれを選ぶかに価値判断(重み・効用・リスク選好)が必要になる——この対応を押さえておくと、第4章がぐっと楽になります。

⚠️ よくある誤解

対応シミュレーション

本文の dominated_rows は任意の利得表に使えます。行を足したり値を変えたりして、許容的な行動の集合がどう変わるかを試すと、支配の感覚がつかめます。

関連ノート