← 機械学習テキスト 一覧

🎓 Phase 10 強化学習(ドメイン目次)

Phase 10 強化学習 目次

教師あり学習が「正解ラベル」、教師なし学習が「構造」を学ぶのに対し、強化学習(RL)は「試行錯誤と報酬」から良い行動を学びます。エージェントが環境で行動し、得られる累積報酬を最大化する方策を見つけるのが目的です。

骨格は次のように積み上がります。

数理の土台は統計サイトの確率過程(マルコフ連鎖・ポアソン過程)(マルコフ過程)です。価値の近似や方策の表現にはニューラルネット(ニューラルネットワーク 目次)を使います。

トピック一覧

  1. マルコフ決定過程(標準)— 状態・行動・報酬・遷移・割引率・方策
  2. 価値関数とベルマン方程式(標準)— 状態価値・行動価値・ベルマン方程式・動的計画法
  3. Q学習とSARSA(標準)— TD学習・方策オン/オフ・探索と活用
  4. 方策勾配法(発展)— 方策を直接最適化・REINFORCE・方策勾配定理
  5. Actor-Criticと深層強化学習(発展)— Actor-Critic・DQN・PPO(要最新確認)

関連ドメイン