ナッシュ均衡と囚人のジレンマ

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：ゲーム理論の基礎（利得行列・支配戦略）（利得行列・支配戦略）

要点（BLUF）

ナッシュ均衡とは、誰も一方的に戦略を変えても得しない状態です。支配戦略がなくても、相互最適反応の組として均衡を定義できます。
囚人のジレンマでは、ナッシュ均衡（相互裏切り）が、双方が協調する結果にパレートで劣ります。価格競争で「全員が値下げして消耗する」構図そのものです。
一度きりでは裏切りが均衡ですが、繰り返しゲームなら協調が持続し得ます。その条件は割引因子 $\delta$ が臨界値 $\delta^\*$ を超えること。将来を重視する企業ほどカルテル（暗黙の協調）が安定する、と数値で示します。

1. ナッシュ均衡の判定

各セルについて「自社は列を固定して最適な行か」「相手は行を固定して最適な列か」を確かめ、両方満たせばナッシュ均衡です。価格競争（協調＝高価格維持／裏切り＝値下げ）で見ます。

import numpy as np

# 価格競争の囚人のジレンマ。行=自社, 列=相手, 各セル=(自社利得, 相手利得)
plab = ["協調(高価格)", "裏切り(値下げ)"]
A = np.array([[ 8,  2],    # 自社の利得
              [10,  4]])
B = np.array([[ 8, 10],    # 相手の利得
              [ 2,  4]])

print("ナッシュ均衡の判定：")
for i in range(2):
    for j in range(2):
        a_best = A[i, j] >= np.max(A[:, j])   # 列jで自社が最適な行か
        b_best = B[i, j] >= np.max(B[i, :])   # 行iで相手が最適な列か
        if a_best and b_best:
            print(f"  （{plab[i]}, {plab[j]}）=({A[i,j]}, {B[i,j]}) … ナッシュ均衡")
print(f"パレート最適（{plab[0]},{plab[0]}）=({A[0,0]},{B[0,0]}) は均衡でない")

出力：

ナッシュ均衡の判定：
  （裏切り(値下げ), 裏切り(値下げ)）=(4, 4) … ナッシュ均衡
パレート最適（協調(高価格),協調(高価格)）=(8,8) は均衡でない

出力の意味：唯一のナッシュ均衡は**（裏切り, 裏切り）=(4, 4)。相手が高価格でも自社は値下げで 8→10 と得をし、相手が値下げでも自社は値下げで 2→4 と損を減らせるので、値下げが支配戦略です。ところが双方が協調すれば(8, 8)** とずっと良い。個々の合理的選択が全体の不利益を生む——これが囚人のジレンマで、無秩序な価格競争が利益を溶かす理由です。

2. 繰り返しゲーム：協調が持続する条件

現実の競争は一度きりではありません。繰り返しゲームでは「裏切ったら以後ずっと罰する（グリムトリガー）」という戦略で協調を支えられます。利得を $T$ （裏切りの誘惑） $>R$ （相互協調） $>P$ （相互裏切り） $>S$ （カモ）とすると、協調が崩れない条件は、永久協調の価値が「一度裏切って以後罰される」価値を上回ること：

\frac{R}{1-\delta} \;\ge\; T + \frac{\delta P}{1-\delta} \quad\Longleftrightarrow\quad \delta \ge \delta^\* = \frac{T-R}{T-P}

ここで $\delta$ は将来利得の割引因子（将来をどれだけ重視するか）です。

# 繰り返し囚人のジレンマ：協調が持続する臨界割引因子
T_, R_, P_, S_ = 10, 8, 4, 2     # 誘惑 > 協調 > 相互裏切り > カモ
delta_star = (T_ - R_) / (T_ - P_)
print(f"協調が持続する臨界割引因子 δ* = {delta_star:.3f}")

for delta in [0.2, 0.5]:
    coop   = R_ / (1 - delta)                 # 永久協調（グリムトリガー）
    defect = T_ + delta * P_ / (1 - delta)    # 1回裏切って以後ずっと罰
    verdict = "協調が持続" if coop >= defect else "裏切りが得"
    print(f"  δ={delta}: 協調価値 {coop:.2f} vs 裏切り価値 {defect:.2f} → {verdict}")

出力：

協調が持続する臨界割引因子 δ* = 0.333
  δ=0.2: 協調価値 10.00 vs 裏切り価値 11.00 → 裏切りが得
  δ=0.5: 協調価値 16.00 vs 裏切り価値 14.00 → 協調が持続

出力の意味：臨界値は $\delta^\* = 0.333$ 。 $\delta=0.2$ （将来を軽視）では裏切り価値（11.0）が協調価値（10.0）を上回り協調は崩れますが、 $\delta=0.5$ （将来を重視）では協調価値（16.0）が勝ち、協調が自発的に維持されます。暗黙のカルテルが安定するのは、企業が将来の取引を十分に重視するとき。逆に、撤退間近・短期志向・取引が一回限りだと価格競争に陥ります。繰り返しと将来の重み（ $\delta$ ）が、ジレンマを協調へ反転させる鍵なのです。

⚠️ よくある誤解

「ナッシュ均衡＝最良の結果」ではない：囚人のジレンマのように、均衡が全員にとって劣ることがあります。均衡＝安定であって最適ではありません。
「繰り返せば必ず協調」ではない： $\delta \ge \delta^\*$ が条件。短期志向・有限回で終わりが見える・監視できない、なら協調は崩れます。
暗黙の協調は合法とは限らない：明示的な価格カルテルは独占禁止法違反です。ここでの分析は「なぜ価格が下がりきらないか」の理解であって、共謀の推奨ではありません。
均衡は複数あり得る：本例は一意でしたが、協調・調整ゲームでは複数均衡が普通です（どれが実現するかは別問題＝参入抑止と動学ゲーム（コミットメント））。

要点（BLUF）

1. ナッシュ均衡の判定

2. 繰り返しゲーム：協調が持続する条件

⚠️ よくある誤解

関連ノート