競争のダイナミクスと進化ゲーム

🎓 レベル：応用　|　重要度：B（推奨）

📎 前提：ナッシュ均衡と囚人のジレンマ（均衡）。マルチエージェント学習は機械学習テキスト

要点（BLUF）

競争は一回の均衡計算で終わりません。進化ゲームは、市場を戦略の集団と見て、平均以上の利得を得る戦略がシェアを伸ばすという動学（複製子動学）で競争の行く末を追います。
進化的に安定な戦略（ESS）は、いったん広まると少数の変異戦略に侵略されない状態です。攻撃的戦略と協調的戦略が一定比率で共存する混合均衡が現れます。
ホーク・ダブゲームを複製子動学で回すと、初期分布によらず同じ ESS（攻撃的戦略の比率＝資源÷争いコスト）に収束することを数値で示します。

1. 複製子動学：勝つ戦略が広がる

市場に2タイプの企業がいるとします。ホーク（攻撃的：値下げや消耗戦を辞さない）とダブ（協調的：争いを避ける）。資源 $V$ を巡り、争えばコスト $C$ がかかります。利得は次の通り（ホーク同士は消耗、ホーク対ダブはホークが総取り）。

複製子動学は、タイプ $i$ のシェア $x_i$ が「自分の利得が集団平均をどれだけ上回るか」で増減するとします： $\dot{x}_i = x_i(f_i - \bar f)$ 。

import numpy as np

# ホーク(攻撃的) vs ダブ(協調的)。資源 V, 争いのコスト C
V, C = 4.0, 6.0
payoff = np.array([[(V - C) / 2, V],     # ホークの利得（vsホーク, vsダブ）
                   [0.0,        V / 2]])  # ダブの利得（vsホーク, vsダブ）

def replicate(p0, steps=300, dt=0.1):
    p = p0   # ホークのシェア
    for _ in range(steps):
        fH = p * payoff[0, 0] + (1 - p) * payoff[0, 1]   # ホークの期待利得
        fD = p * payoff[1, 0] + (1 - p) * payoff[1, 1]   # ダブの期待利得
        p = p + dt * p * (1 - p) * (fH - fD)             # 複製子動学
        p = min(max(p, 0.0), 1.0)
    return p

for p0 in [0.1, 0.4, 0.9]:
    print(f"初期ホーク率 {p0:.1f} → 収束ホーク率 {replicate(p0):.3f}")
print(f"理論ESS（混合）：ホーク率 V/C = {V/C:.3f}")

出力：

初期ホーク率 0.1 → 収束ホーク率 0.667
初期ホーク率 0.4 → 収束ホーク率 0.667
初期ホーク率 0.9 → 収束ホーク率 0.667
理論ESS（混合）：ホーク率 V/C = 0.667

出力の意味：初期にホークが1割でも9割でも、すべて同じ ESS＝ホーク率 0.667（＝V/C）に収束します。攻撃的企業が増えすぎると消耗戦（ホーク同士は $(V-C)/2 = -1$ ）で損をして割合が減り、少なすぎると争わず総取りできるので増える——自己調整で一定比率に落ち着くのです。市場で「値下げ競争を仕掛ける企業」と「棲み分ける企業」が共存するのは、この進化的な均衡として理解できます。比率は資源 $V$ が大きい・争いコスト $C$ が小さいほどホーク寄りになります。

2. 収束の軌道

初期ホーク率 0.1 から、時間とともにどう ESS へ近づくかを追います。

import numpy as np

V, C = 4.0, 6.0
payoff = np.array([[(V - C) / 2, V],
                   [0.0,        V / 2]])

for T in [0, 5, 10, 20, 50, 100]:
    p = 0.1
    for _ in range(T):
        fH = p * payoff[0, 0] + (1 - p) * payoff[0, 1]
        fD = p * payoff[1, 0] + (1 - p) * payoff[1, 1]
        p = p + 0.1 * p * (1 - p) * (fH - fD)
    print(f"  t={T:3d}: ホーク率 {p:.3f}")

出力：

  t=  0: ホーク率 0.100
  t=  5: ホーク率 0.191
  t= 10: ホーク率 0.306
  t= 20: ホーク率 0.494
  t= 50: ホーク率 0.648
  t=100: ホーク率 0.666

出力の意味：ホーク率は 0.1 から S字を描いて 0.667 へ漸近します。均衡は一瞬で実現するのでなく、淘汰の過程を経て近づく——競争のダイナミクスは「今どの戦略が多いか」で利得が変わり続ける動的なプロセスだ、という視点が要点です。ナッシュ均衡（ナッシュ均衡と囚人のジレンマ）が静的な不動点なら、進化ゲームはそこへ至る経路と安定性を教えてくれます。

⚠️ よくある誤解

「合理的な計算で一気に均衡」ではない：進化ゲームは合理性を仮定せず、淘汰（利得の高い戦略の模倣・存続）で均衡に近づきます。経路と速さが問題になります。
「ESS＝全員同じ戦略」ではない：本例のように、複数戦略が一定比率で共存する混合 ESS が普通です。
「攻撃的が常に勝つ」ではない：ホークが増えすぎると消耗戦で損をします。最適比率は $V/C$ で決まります。
モデルは単純化：実際は学習・参入退出・多戦略が絡みます。マルチエージェント強化学習は機械学習テキストへ。

要点（BLUF）

1. 複製子動学：勝つ戦略が広がる

2. 収束の軌道

⚠️ よくある誤解

関連ノート