ハーヴィッツ基準｜意思決定分析

🎓 レベル：標準　|　重要度：B（推奨）

📎 前提：マクシミン・マクシマックス基準　|　関連：ラプラス基準・基準の比較

要点（BLUF）

ハーヴィッツ基準は、各行動の最良利得と最悪利得を楽観係数 $\alpha$ で加重平均して評価します： $H(a) = \alpha\cdot\max_s f + (1-\alpha)\cdot\min_s f$ 。
$\alpha=0$ で完全悲観（マクシミン）、 $\alpha=1$ で完全楽観（マクシマックス）。 $\alpha$ が意思決定者の楽観度を表し、両極端を連続的に繋ぎます。
$\alpha$ を動かすと最良の行動が切り替わります。その切り替え点（順位逆転）を知れば、「自分の楽観度ならどの行動か」が決まります。

1. 悲観と楽観の折衷

マクシミン・マクシマックス基準は、最悪だけ（悲観）か最良だけ（楽観）かの両極端でした。現実の意思決定者は、その中間にいることが多い。「最悪も最良も両方気にするが、自分はやや楽観寄り」——この態度を1つの数字 $\alpha \in [0,1]$ で表すのがハーヴィッツ基準です。

H(a) = \alpha\,\underbrace{\max_s f(a,s)}_{\text{最良}} + (1-\alpha)\,\underbrace{\min_s f(a,s)}_{\text{最悪}}, \qquad \alpha \in [0,1]

$\alpha$ は楽観係数（coefficient of optimism）。 $\alpha$ が大きいほど最良を重視（楽観）、小さいほど最悪を重視（悲観）。 $H(a)$ が最大の行動を選びます。

2. αを動かして結論の変化を見る

マクシミン・マクシマックス基準と同じ投資の利得表で、 $\alpha$ を0から1まで動かします。

import numpy as np

actions = ["拡張", "維持", "縮小"]
payoff = np.array([[100, 40, -40], [60, 50, 10], [20, 25, 30]])
row_min = payoff.min(axis=1)   # 最悪
row_max = payoff.max(axis=1)   # 最良

print("H(a) = alpha*最良 + (1-alpha)*最悪")
for alpha in [0.0, 0.25, 0.5, 0.75, 1.0]:
    H = alpha*row_max + (1-alpha)*row_min
    best = actions[int(np.argmax(H))]
    print(f"  alpha={alpha:.2f}: H={np.round(H,1)} -> 最良 {best}")

出力：

H(a) = alpha*最良 + (1-alpha)*最悪
  alpha=0.00: H=[-40.  10.  20.] -> 最良 縮小
  alpha=0.25: H=[-5.  22.5 22.5] -> 最良 維持
  alpha=0.50: H=[30.  35.  25. ] -> 最良 維持
  alpha=0.75: H=[65.  47.5 27.5] -> 最良 拡張
  alpha=1.00: H=[100.  60.  30. ] -> 最良 拡張

出力の意味： $\alpha$ を上げる（楽観的になる）につれ、推奨が 縮小 → 維持 → 拡張 と移ります。 $\alpha=0$ （完全悲観）は縮小＝マクシミン、 $\alpha=1$ （完全楽観）は拡張＝マクシマックスと、両端でちょうど前ノードの結論に一致します。中間の楽観度では、バランス型の維持が選ばれる帯がある。自分の楽観度 $\alpha$ を決めれば、対応する行動が一意に決まる——主観（楽観度）を1つのパラメータに明示して意思決定する枠組みです。

3. 切り替え点（順位逆転）を求める

$H(a)$ は $\alpha$ について直線です（最悪を切片、最良−最悪を傾きとする1次関数）。だから行動間の順位逆転は2直線の交点で厳密に求まります。

縮小 $H=10\alpha+20$ と維持 $H=50\alpha+10$ の交点： $10\alpha+20 = 50\alpha+10 \Rightarrow \alpha = 0.25$
維持 $H=50\alpha+10$ と拡張 $H=140\alpha-40$ の交点： $50\alpha+10 = 140\alpha-40 \Rightarrow \alpha \approx 0.556$

つまり、 $\alpha < 0.25$ なら縮小、 $0.25 < \alpha < 0.556$ なら維持、 $\alpha > 0.556$ なら拡張。この境界を図にすると、各行動の直線が交差して「楽観度の帯ごとに勝者が変わる」様子が見えます。

import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib

actions = ["拡張", "維持", "縮小"]
payoff = np.array([[100, 40, -40], [60, 50, 10], [20, 25, 30]])
row_min = payoff.min(axis=1); row_max = payoff.max(axis=1)

alphas = np.linspace(0, 1, 101)
plt.figure(figsize=(7, 4.5))
for i, a in enumerate(actions):
    H = alphas*row_max[i] + (1-alphas)*row_min[i]
    plt.plot(alphas, H, lw=2, label=a)
for xc in [0.25, 0.556]:
    plt.axvline(xc, color="gray", ls=":", alpha=0.6)
plt.xlabel("楽観係数 α（0=悲観・1=楽観）"); plt.ylabel("ハーヴィッツ評価 H(a)")
plt.title("ハーヴィッツ基準：α で最良の行動が切り替わる")
plt.legend(); plt.grid(alpha=0.3); plt.tight_layout(); plt.show()

図の意味：3本の直線が交差します。左端（悲観）では縮小が最上、右端（楽観）では拡張が最上、中間では維持が頭を出す。点線の交点（ $\alpha=0.25,\ 0.556$ ）が順位逆転点。この図は「自分の楽観度をどこに置くかで結論がどう変わるか」の地図で、重み付けと感度分析の感度分析とまったく同じ構造（パラメータに対する線形な評価と交点）です。

数式の直観的意味：αは「主観確率」のなれの果て

ハーヴィッツの $H(a) = \alpha\max + (1-\alpha)\min$ をよく見ると、最良の状態に確率 $\alpha$ 、最悪の状態に確率 $1-\alpha$ を割り当てた期待値の形をしています。つまりハーヴィッツ基準は、「確率は分からないが、最良と最悪の2点に $\alpha:(1-\alpha)$ で主観確率を置く」という割り切り。中間状態を無視する点はマクシミン系の弱点を引き継ぎますが、 $\alpha$ という1パラメータで悲観〜楽観を連続的に動かせる柔軟さがあります。 $\alpha$ を「最良が起きる主観確率」と解釈すれば、確率不明の不確実性を、最小限の主観確率でリスク化した姿——確実性・リスク・不確実性で触れた「主観確率を貼ればリスク化できる」の、最も倹約的なバージョンです。

⚠️ よくある誤解

「αは客観的に決まる」ではない： $\alpha$ は意思決定者の楽観度という主観です。だからこそ $\alpha$ を動かした感度分析（上の図）が重要になります。
「中間状態を使っている」ではない：ハーヴィッツも最良・最悪の2点しか見ません。中間状態の利得は評価に入らないので、分布の形は無視されます。
「α=0.5 が中立で公平」ではない： $\alpha=0.5$ は「最良と最悪を等しく重視」ですが、中間状態を無視している点でラプラス（全状態を等確率平均、ラプラス基準・基準の比較）とは別物です。
「ハーヴィッツとラプラスは同じ折衷」ではない：ハーヴィッツは2点（最良・最悪）の折衷、ラプラスは全状態の平均。情報の使い方が根本的に違います。

対応シミュレーション

本文の図コードで、 $\alpha$ 軸上の交点が「順位逆転点」であることを確認できます。利得表を変えると交点が動き、ある行動が全 $\alpha$ で最良（他を常に上回る）になる＝支配されるケースも作れます。