意思決定問題の構造（行動・状態・結果・利得表）

← 意思決定分析一覧

🎓 レベル：基礎　|　重要度：A（必須）

📎 前提：なし（このサイトの出発点）　|　関連：確実性・リスク・不確実性・決定木と後ろ向き帰納（利得表を時間軸に展開した姿）

要点（BLUF）

どんな意思決定も、自分で選べる行動・自分では選べない状態（自然の状態）・その組み合わせで決まる結果（利得） の3点セットで表せます。
これを縦に行動、横に状態をとった利得表（payoff table） に書くのが、意思決定分析の共通言語です。
状態の確率が分かれば、各行動の利得を確率で重みづけた期待利得で比較できます。この「表に落として比較する」作法が、以降の全章で繰り返し使われます。

1. 意思決定の3つの構成要素

意思決定の問題は、登場人物を3種類に分けると一気に見通しがよくなります。

行動（action / alternative） $a \in A$ ：意思決定者が自分の意志で選べる選択肢。例「新製品を投入する／既存品を強化する／現状維持」。
状態（state of nature） $s \in S$ ：自分ではコントロールできない、世界の出方。例「好況／横ばい／不況」。これを 自然の状態 と呼びます。“自然”は「相手が自分を出し抜こうとしない」という含意で、ここが経営の意思決定とシナリオ分析で繋ぐゲーム理論（相手が戦略的に動く）との分かれ目です。
結果（outcome / payoff） $x = f(a, s)$ ：行動と状態が決まると一意に定まる帰結。多くは金額や効用などの数値（利得）で表します。

意思決定者がコントロールできるのは行動だけ。状態は「引き当てる」もので、選べません。自分が動かせる軸と動かせない軸を分離する——これが意思決定分析の最初の一歩です。

2. 利得表という共通言語

3要素を表にまとめます。行に行動、列に状態をとり、マス目に利得 $f(a_i, s_j)$ を書いたものが利得表です。

行動 \ 状態	好況 $s_1$	横ばい $s_2$	不況 $s_3$
新製品投入 $a_1$	120	40	−60
既存品強化 $a_2$	70	50	10
現状維持 $a_3$	30	30	30

この一枚の表に、意思決定問題の情報がほぼすべて入っています。あとは「状態をどう評価するか」（確率があるか・無いか）で使う道具が変わるだけ。表を眺めると、新製品投入は当たれば大きいが外すと痛いハイリスク、現状維持は状態によらず一定のノーリスク、という性格の違いも読み取れます。

3. 状態の確率が分かるとき：期待利得

状態の確率 $p(s_j)$ が分かるなら、各行動の利得を確率で重みづけた平均——期待利得（expected payoff）——で比較できます。

\mathbb{E}[\text{利得} \mid a_i] = \sum_{j} p(s_j)\, f(a_i, s_j)

好況30%・横ばい50%・不況20%として、各行動の期待利得を計算してみます。

import numpy as np

# 状態（列）：好況・横ばい・不況、それぞれの確率
probs = np.array([0.3, 0.5, 0.2])

# 行動（行）ごとの利得表（万円）
actions = ["新製品投入", "既存品強化", "現状維持"]
payoff = np.array([
    [120, 40, -60],   # 新製品投入
    [70,  50,  10],   # 既存品強化
    [30,  30,  30],   # 現状維持
])

# 各行動の期待利得 = 利得 × 確率 の和（行列×ベクトル）
expected = payoff @ probs
for a, e in zip(actions, expected):
    print(f"{a}: 期待利得 = {e:.1f} 万円")
best = actions[int(np.argmax(expected))]
print(f"期待利得が最大の行動 -> {best}")

出力：

新製品投入: 期待利得 = 44.0 万円
既存品強化: 期待利得 = 48.0 万円
現状維持: 期待利得 = 30.0 万円
期待利得が最大の行動 -> 既存品強化

出力の意味：期待利得で比べると、いちばん高いのは既存品強化（48.0）です。新製品投入は好況の 120 が魅力ですが、不況の −60 が足を引っ張り、ならして 44.0。利得表という共通の土俵に乗せると、こうした「ならした価値」で横並び比較ができます。ただし期待利得が最大の行動を選ぶ規範（期待値原理）には限界があり、そこを修正するのが第2章の期待効用と効用関数です。

4. 数式の直観的意味：なぜ「表」にこだわるのか

利得 $f(a,s)$ を「行動 × 状態 → 数値」の関数として書くことには意味があります。意思決定の不確実性は、すべて状態 $s$ に押し込められている、という宣言だからです。行動 $a$ を固定すると、残る不確実性は $s$ の分だけ。だから「行動を選ぶ」とは「 $s$ に関する利得の分布（その行のばらつき）を1つ選ぶ」ことに等しい。

この見方に立つと、意思決定問題は「どの確率分布（くじ）を引き受けるか」の選択になります。第2章の期待効用と効用関数で扱うくじ（lottery） は、まさにこの「表の各行」を抽象化したものです。利得表は、その最も素朴で具体的な姿です。

⚠️ よくある誤解

「行動と状態を混同する」：自分で選べるのが行動、引き当てるのが状態です。「景気が良くなる」は状態であって行動ではありません。両者が混ざると、コントロールできないものを選ぼうとして分析が壊れます。
「利得＝お金」とは限らない：マス目の数値は金額のこともあれば、満足度・効用・コスト（小さいほど良い）のこともあります。コストで書いた表は、最小化が目的になる点だけ注意します。後の章では金額を効用に変換します（期待効用と効用関数）。
「期待利得が最大なら必ず選ぶべき」ではない：期待利得は1つのものさしにすぎません。ばらつき（リスク）を嫌う人は、期待利得が少し低くても安全な行動を選びます。これを正面から扱うのが期待効用理論（第2章）とリスク測度（第5章）です。

対応シミュレーション

本文のコードがそのまま検証例です（decision-study/simulations/ にも収録予定）。利得表を変えて、期待利得が最大の行動がどう変わるかを試すと、表の感覚がつかめます。