Mímisbrunnr知恵の泉

← 意思決定分析 一覧

🎓 レベル:標準 | 重要度:A(必須)

📎 前提:決定木と後ろ向き帰納 | 関連:標本情報の価値(EVSI)ミニマックスリグレット基準(機会損失)

要点(BLUF)

1. 完全情報とは

完全情報(perfect information) とは、行動を決める前に「どの状態が起きるか」を確実に教えてくれる情報源です。現実には存在しない理想(占い師が100%当てるようなもの)ですが、情報の価値の上限を測る基準として極めて有用です。

完全情報があれば、意思決定者は状態を知ってから、その状態で最良の行動を選べます。だから完全情報下の期待利得は、「各状態で最良の利得を取り、それを状態の確率で平均」したものになります。

E[完全情報あり]=sp(s)maxaf(a,s)\mathbb{E}[\text{完全情報あり}] = \sum_{s} p(s)\,\max_{a} f(a, s)

ここで max\max内側(状態を知った後に行動を選ぶ)にある点が、情報なしの maxaEs\max_a \mathbb{E}_smax\max が外側)との決定的な違いです。

2. EVPI の計算

新製品の例で計算します。情報なしの最適は決定木と後ろ向き帰納で「投入・EV=20」でした。完全情報があれば、高需要と分かれば投入(200)、低需要と分かれば見送り(0)を選べます。

import numpy as np

p_high, p_low = 0.4, 0.6

# 情報なしの最適(後ろ向き帰納の結論)
EV_launch = p_high*200 + p_low*(-100)
EV_skip = 0.0
best_no_info = max(EV_launch, EV_skip)

# 完全情報あり:各状態で最良の行動を取れる
#   高需要 -> 投入(200) と 見送り(0) の max = 200
#   低需要 -> 投入(-100) と 見送り(0) の max = 0
ev_perfect = p_high*max(200, 0) + p_low*max(-100, 0)

EVPI = ev_perfect - best_no_info
print(f"情報なしの最適期待利得 = {best_no_info:.1f} 万円")
print(f"完全情報下の期待利得   = {ev_perfect:.1f} 万円")
print(f"EVPI = {EVPI:.1f} 万円(情報に払ってよい上限)")

出力:

情報なしの最適期待利得 = 20.0 万円
完全情報下の期待利得   = 80.0 万円
EVPI = 60.0 万円(情報に払ってよい上限)

出力の意味:完全情報があれば期待利得は 80万(低需要のとき投入を避けられるのが効く)。情報なしの 20万 との差 60万が EVPI。つまり、需要を完全に言い当てる情報には最大60万まで払う価値があります。これより高い調査費を払うなら、情報で得する以上に費用がかさんで損です。

3. EVPI = 機会損失の期待値

EVPI には、もう1つ美しい解釈があります。「情報がないせいで取り逃す利得(機会損失)の期待値」 に等しいのです。

情報なしでは「常に投入」します。各状態での機会損失(最良の利得 − 実際に選ぶ行動の利得)は、

期待機会損失 =0.4×0+0.6×100=60= 0.4\times0 + 0.6\times100 = 60 ——EVPIと一致します。この「機会損失(後悔)」の見方は、確率を使わないミニマックスリグレット基準のリグレット表と地続きです。EVPI は、情報がないことで平均的にどれだけ後悔するかの金額だと覚えると腹落ちします。

数式の直観的意味:max と E の順序が価値を生む

情報の価値の本質は、max\maxE\mathbb{E} の順序にあります。

sp(s)maxaf(a,s)完全情報(先に状態を知る)    maxasp(s)f(a,s)情報なし(先に行動を決める)\underbrace{\sum_s p(s)\max_a f(a,s)}_{\text{完全情報(先に状態を知る)}} \;\ge\; \underbrace{\max_a \sum_s p(s) f(a,s)}_{\text{情報なし(先に行動を決める)}}

この不等式(E[max]max[E]\mathbb{E}[\max] \ge \max[\mathbb{E}]、Jensen の親戚)は常に成り立ち、左辺が完全情報、右辺が情報なし。「状態を知ってから行動を選べる」=「max を後に回せる」ことが、まさに情報の価値です。等号成立は、どの状態でも同じ行動が最適なとき——そのときは状態を知っても行動が変わらないので、情報は無価値(EVPI=0)。情報が価値を持つのは「情報次第で行動が変わる」ときだけ、というベイズ更新と意思決定の直観が、この不等式に凝縮されています。

⚠️ よくある誤解

対応シミュレーション

本文のコードで、事前確率 phighp_{\text{high}} を動かすと EVPI が変わります。phighp_{\text{high}} が0や1に近い(結果がほぼ確定)ほど EVPI は小さく、判断が割れる中間(投入と見送りが拮抗する付近)で最大になることを確認できます。

関連ノート