← 機械学習テキスト一覧

🎓 Phase 10 強化学習（ドメイン目次）

Phase 10 強化学習目次

教師あり学習が「正解ラベル」、教師なし学習が「構造」を学ぶのに対し、強化学習（RL）は「試行錯誤と報酬」から良い行動を学びます。エージェントが環境で行動し、得られる累積報酬を最大化する方策を見つけるのが目的です。

骨格は次のように積み上がります。

枠組み：マルコフ決定過程（状態・行動・報酬・遷移）
価値で測る：価値関数とベルマン方程式（将来の報酬を見積もる・動的計画法）
モデルなしで学ぶ：Q学習とSARSA（TD学習・経験から価値を更新）
方策を直接学ぶ：方策勾配法（REINFORCE）→ Actor-Criticと深層強化学習（価値と方策の併用・DQN／PPO）

数理の土台は統計サイトの確率過程（マルコフ連鎖・ポアソン過程）（マルコフ過程）です。価値の近似や方策の表現にはニューラルネット（ニューラルネットワーク目次）を使います。

前提：確率過程（マルコフ連鎖・ポアソン過程）（マルコフ性・統計）・誤差逆伝播法（関数近似の学習）
この後の土台：方策勾配・PPO は大規模言語モデル（LLM）のアラインメント（RLHF）で再登場します

トピック一覧

マルコフ決定過程（標準）— 状態・行動・報酬・遷移・割引率・方策
価値関数とベルマン方程式（標準）— 状態価値・行動価値・ベルマン方程式・動的計画法
Q学習とSARSA（標準）— TD学習・方策オン／オフ・探索と活用
方策勾配法（発展）— 方策を直接最適化・REINFORCE・方策勾配定理
Actor-Criticと深層強化学習（発展）— Actor-Critic・DQN・PPO（要最新確認）

関連ドメイン

ニューラルネットワーク目次（価値・方策の関数近似）
深層学習アーキテクチャ目次（DQNのCNN等）
大規模言語モデル目次（RLHF＝方策勾配／PPOの応用）
統計サイト：確率過程（マルコフ連鎖・ポアソン過程）（マルコフ過程）
機械学習テキスト全体目次