Mímisbrunnr知恵の泉

← 意思決定分析 一覧

🎓 レベル:基礎 | 重要度:A(必須)

📎 前提:確実性・リスク・不確実性意思決定問題の構造(行動・状態・結果・利得表) | 関連:ハーヴィッツ基準

要点(BLUF)

1. 確率がないときの素朴な2つの態度

確率が分からない(確実性・リスク・不確実性の不確実性下)と、期待値が計算できません。利得表の各行から取り出せる情報は、せいぜい最悪値最良値。ここから2つの正反対の態度が生まれます。

利益(大きいほど良い)の利得表で定義します。

マクシミン: maxa minsf(a,s),マクシマックス: maxa maxsf(a,s)\text{マクシミン}:\ \max_{a}\ \min_{s} f(a,s), \qquad \text{マクシマックス}:\ \max_{a}\ \max_{s} f(a,s)

マクシミンは「min を取ってから max」、マクシマックスは「max を取ってから max」。内側の min/max が態度(悲観/楽観)、外側の max が行動選択です。

2. 計算してみる

確率不明の投資判断(拡張/維持/縮小、状態は好況/普通/不況)で両基準を適用します。

import numpy as np

actions = ["拡張", "維持", "縮小"]
payoff = np.array([
    [100,  40, -40],   # 拡張
    [ 60,  50,  10],   # 維持
    [ 20,  25,  30],   # 縮小
])

row_min = payoff.min(axis=1)   # 各行動の最悪利得
row_max = payoff.max(axis=1)   # 各行動の最良利得
for a, mn, mx in zip(actions, row_min, row_max):
    print(f"{a}: 最悪={mn:4d}  最良={mx:4d}")

print(f"マクシミン(悲観)   -> {actions[int(np.argmax(row_min))]}(最悪を最大化 {row_min.max()})")
print(f"マクシマックス(楽観)-> {actions[int(np.argmax(row_max))]}(最良を最大化 {row_max.max()})")

出力:

拡張: 最悪= -40  最良= 100
維持: 最悪=  10  最良=  60
縮小: 最悪=  20  最良=  30
マクシミン(悲観)   -> 縮小(最悪を最大化 20)
マクシマックス(楽観)-> 拡張(最良を最大化 100)

出力の意味:マクシミンは縮小を選びます。各行動の最悪(拡張−40・維持10・縮小20)のうち、いちばんマシなのが縮小の20だから。「最悪でも+20」を保証する守りの選択です。一方マクシマックスは拡張。最良(拡張100・維持60・縮小30)でいちばん大きいのが拡張の100だから。「当たれば+100」を狙う攻めの選択。同じ利得表で、悲観と楽観が正反対の結論——確率がないと、態度がそのまま結論を決めます。

3. それぞれが映す態度と適用場面

両基準の弱点は共通して1つの状態(最悪 or 最良)しか見ないこと。他の状態の利得をまったく使いません。拡張の「普通なら40」も縮小の「不況でも30」も評価に入らない。この情報の捨てすぎを緩めるのが、最悪と最良を混ぜるハーヴィッツ基準、全状態を平均するラプラス基準・基準の比較、後悔に注目するミニマックスリグレット基準です。

数式の直観的意味:min/max の順序が態度を作る

maxamins\max_a \min_smaxamaxs\max_a \max_s は、内側の演算だけが違います。mins\min_s は「自然が敵で、自分にとって最悪の状態を選んでくる」と想定する——ゲーム理論で言えば、自然を敵対的プレイヤーと見なす保守的な仮定です(ただし相手は戦略的に動かないので、これは過度に悲観的とも言える)。maxs\max_s は逆に「自然が味方で最良を選んでくれる」という楽観。現実の自然はどちらでもなく確率的に振る舞うので、両者は両極端。確率が分かればこの min/max は期待値 Es\mathbb{E}_s に置き換わり決定木と後ろ向き帰納の偶然ノードになります。マクシミン・マクシマックスは、確率という情報を失ったときに、それを「最悪/最良の決め打ち」で代用した姿だと見ると、リスク下の意思決定との連続性が見えます。

⚠️ よくある誤解

対応シミュレーション

本文のコードで、利得表を変えるとマクシミン・マクシマックスの結論が動きます。ある行動の最悪値だけをわずかに上げると、他の状態の利得は変わらないのにマクシミンの結論が切り替わる——1状態しか見ない基準の脆さを観察できます。

関連ノート