ラプラス基準・基準の比較

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：マクシミン・マクシマックス基準・ハーヴィッツ基準・ミニマックスリグレット基準　|　関連：決定木と後ろ向き帰納

要点（BLUF）

ラプラス基準（理由不十分の原則） は、確率が分からないなら全状態を等確率とみなし、各行動の単純平均（期待利得）を最大化します。
5つの基準（マクシミン・マクシマックス・ハーヴィッツ・ミニマックスリグレット・ラプラス）は、同じ利得表でも異なる結論を出します。どれが正しいかは決まらず、意思決定者の態度で選びます。
基準の比較表を作ると、各行動が「どの態度のもとで選ばれるか」が一望でき、自分のスタンスに合う基準と行動を選べます。

1. ラプラス基準：分からないなら等確率

確率が分からないとき、「どの状態も特に起こりやすいと考える理由がない」なら、いっそ全状態を等確率 $1/n$ とみなそう——これがラプラスの理由不十分の原則（principle of insufficient reason） です。すると不確実性下の問題が、等確率のリスク下の問題に変わり、期待値で評価できます。

L(a) = \frac{1}{n}\sum_{s} f(a,s)

各行動の利得の単純平均（決定木と後ろ向き帰納の期待値で確率を $1/n$ にしたもの）。最大の行動を選びます。

import numpy as np

actions = ["拡張", "維持", "縮小"]
payoff = np.array([[100, 40, -40], [60, 50, 10], [20, 25, 30]])

laplace = payoff.mean(axis=1)        # 等確率(1/3)での平均
for a, l in zip(actions, laplace):
    print(f"{a}: ラプラス平均 = {l:.2f}")
print(f"ラプラス -> {actions[int(np.argmax(laplace))]}")

出力：

拡張: ラプラス平均 = 33.33
維持: ラプラス平均 = 40.00
縮小: ラプラス平均 = 25.00
ラプラス -> 維持

出力の意味：等確率平均は拡張33.3・維持40・縮小25で、維持が最大。マクシミン系と違い、ラプラスは全状態の利得を平等に使うので、中間状態（普通）の利得も効きます。維持は好況60・普通50・不況10とどれも悪くないので平均が高い。「分からないなら全部同じ重み」という割り切りが、バランス型を選ばせます。

2. 5基準の総合比較

同じ利得表に、これまでの全基準を並べます。

import numpy as np

actions = ["拡張", "維持", "縮小"]
payoff = np.array([[100, 40, -40], [60, 50, 10], [20, 25, 30]])
row_min = payoff.min(axis=1); row_max = payoff.max(axis=1)
regret = payoff.max(axis=0) - payoff
max_regret = regret.max(axis=1)
laplace = payoff.mean(axis=1)

print("基準ごとの推奨行動:")
print(f"  マクシミン（悲観）       -> {actions[int(np.argmax(row_min))]}")
print(f"  マクシマックス（楽観）   -> {actions[int(np.argmax(row_max))]}")
print(f"  ハーヴィッツ（α=0.5）    -> {actions[int(np.argmax(0.5*row_max+0.5*row_min))]}")
print(f"  ミニマックスリグレット   -> {actions[int(np.argmin(max_regret))]}")
print(f"  ラプラス（等確率）       -> {actions[int(np.argmax(laplace))]}")

出力：

基準ごとの推奨行動:
  マクシミン（悲観）       -> 縮小
  マクシマックス（楽観）   -> 拡張
  ハーヴィッツ（α=0.5）    -> 維持
  ミニマックスリグレット   -> 維持
  ラプラス（等確率）       -> 維持

出力の意味：5基準が縮小・拡張・維持・維持・維持とばらけました。悲観のマクシミンだけ守りの縮小、楽観のマクシマックスだけ攻めの拡張、残り3つはバランスの維持。「正解」は1つに決まらない——基準の選択そのものが、意思決定者の価値観の表明です。逆に言えば、複数基準で同じ行動（維持）が推されるなら、その行動は態度に対して頑健で、説得力を持ちます。

基準	何を最適化	態度	この例の推奨
マクシミン	最悪利得の最大化	悲観・守り	縮小
マクシマックス	最良利得の最大化	楽観・攻め	拡張
ハーヴィッツ	最良・最悪の加重	折衷（α依存）	維持（α=0.5）
ミニマックスリグレット	最大後悔の最小化	後悔回避	維持
ラプラス	等確率の期待値	中立・平均	維持

3. ラプラス基準の論点：等確率は中立か

ラプラスの「分からないなら等確率」は便利ですが、無害ではありません。最大の問題は状態の切り方に依存すること。「好況／不況」の2状態なら各1/2、「好況／普通／不況」の3状態なら各1/3——同じ現実を何状態に分けるかで確率が変わり、結論が動きます。「等確率」は中立に見えて、実は「状態をどう定義したか」という強い仮定を含みます。

これはベイズ統計の無情報事前分布の難しさと同根です。情報がないことを「等確率」で表すのが本当に無情報なのか——変数変換で等確率が崩れる（確実性・リスク・不確実性のナイトの不確実性、曖昧性）。だからラプラス基準を使うなら、状態の切り方を変えて結論が安定するか、感度分析（重み付けと感度分析）で確かめるのが安全です。

数式の直観的意味：基準は「情報の使い方」の違い

5基準は、利得表という同じ情報から何を抽出して集約するかが違うだけです。

マクシミン・マクシマックス：各行の1点（最小 or 最大）
ハーヴィッツ：各行の2点（最小と最大）を $\alpha$ で混合
ラプラス：各行の全点を等重みで平均
ミニマックスリグレット：列方向の最良との差（行を跨ぐ相対情報）を使う

情報の使い方が態度を作ります。最悪だけ見れば悲観、全部平均すれば中立、後悔を見れば後悔回避。確率という決定的な情報が欠けているからこそ、「欠けた情報をどう補うか」の流儀が分かれる。確率が手に入れば、これら全部が決定木と後ろ向き帰納の期待値最大化に収束します——不確実性下の基準の乱立は、リスク下の期待効用という1点へ向かう、情報不足下の代替策の束なのです。

⚠️ よくある誤解

「ラプラスの等確率は客観的・中立」ではない：状態の分け方で確率が変わる強い仮定です。中立に見えて恣意的になりえます。
「どれか1つの基準が正しい」ではない：基準の選択は価値観の問題で、数学的に1つに決まりません。問題の性質（破滅リスクの有無・後悔の重さ）で選びます。
「複数基準が一致したら最適」ではない：一致は頑健性の証拠であって最適性の証明ではありません。が、説得力は確実に増します。
「不確実性下の基準は確率を完全に避ける」ではない：ハーヴィッツの $\alpha$ もラプラスの $1/n$ も、暗に主観確率を入れています。純粋に確率を使わないのはマクシミン・マクシマックスだけです。

対応シミュレーション

本文のコードで、利得表や状態数を変えると5基準の推奨がどう分かれるかを一覧できます。状態を統合・分割してラプラスの結論が動くこと（状態定義への依存）も実験できます。