🎓 Phase 10 強化学習(ドメイン目次)
Phase 10 強化学習 目次
教師あり学習が「正解ラベル」、教師なし学習が「構造」を学ぶのに対し、強化学習(RL)は「試行錯誤と報酬」から良い行動を学びます。エージェントが環境で行動し、得られる累積報酬を最大化する方策を見つけるのが目的です。
骨格は次のように積み上がります。
- 枠組み:マルコフ決定過程(状態・行動・報酬・遷移)
- 価値で測る:価値関数とベルマン方程式(将来の報酬を見積もる・動的計画法)
- モデルなしで学ぶ:Q学習とSARSA(TD学習・経験から価値を更新)
- 方策を直接学ぶ:方策勾配法(REINFORCE)→ Actor-Criticと深層強化学習(価値と方策の併用・DQN/PPO)
数理の土台は統計サイトの確率過程(マルコフ連鎖・ポアソン過程)(マルコフ過程)です。価値の近似や方策の表現にはニューラルネット(ニューラルネットワーク 目次)を使います。
- 前提:確率過程(マルコフ連鎖・ポアソン過程)(マルコフ性・統計)・誤差逆伝播法(関数近似の学習)
- この後の土台:方策勾配・PPO は大規模言語モデル(LLM)のアラインメント(RLHF)で再登場します
トピック一覧
- マルコフ決定過程(標準)— 状態・行動・報酬・遷移・割引率・方策
- 価値関数とベルマン方程式(標準)— 状態価値・行動価値・ベルマン方程式・動的計画法
- Q学習とSARSA(標準)— TD学習・方策オン/オフ・探索と活用
- 方策勾配法(発展)— 方策を直接最適化・REINFORCE・方策勾配定理
- Actor-Criticと深層強化学習(発展)— Actor-Critic・DQN・PPO(要最新確認)
関連ドメイン
- ニューラルネットワーク 目次(価値・方策の関数近似)
- 深層学習アーキテクチャ 目次(DQNのCNN等)
- 大規模言語モデル 目次(RLHF=方策勾配/PPOの応用)
- 統計サイト:確率過程(マルコフ連鎖・ポアソン過程)(マルコフ過程)
- 機械学習テキスト 全体目次