はじめに ベルマン方程式の概要 最適制御と評価関数 最適制御 評価関数 価値関数 ベルマンの最適性原理 ベルマン方程式 価値関数の離散化 状態の時間発展再訪 ベルマン方程式 まとめ 最後に
はじめに 環境とエージェント 環境 マルコフ過程 本当のマルコフ過程 マルコフ決定過程 本当のマルコフ決定過程 強化学習の話をちょっとだけ 最後に
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。