強化学習 基礎から実践 PyTorchとmachinaで二足歩行エージェントをつくる
Physical (worldwide shipping)
- 書籍 + 電子版Ships within 7 daysShips by Anshin-BOOTH-PackPhysical (direct)700 JPY
Physical (ship to Japan)/ Digital Download
- 書籍 + 電子版Ships within 7 daysShips by Anshin-BOOTH-PackPhysical (direct)700 JPY
- 電子版Digital500 JPY
About Gift

強化学習を使って物理シミュレーター上で二足歩行できるロボットを作るまでに必要な知識について要点をつまんで解説します。 全60ページ これ一冊で強化学習の基礎と具体的な学習手法を理解して、最先端の論文まで読む足がかりになることを目指しています。 さらに、強化学習するのに必須とも言えるシミュレーション環境の作り方について、市販の二足歩行ロボットである「プリメイドAI」を題材にして解説します。 強化学習の基礎であるマルコフ決定過程、価値反復による学習、方策勾配による学習、決定的方策を用いる学習について説明し、関連度が高い非線形最適制御についてもページを割いています。 さらに、少ないイテレーションで学習をする手法についてまとめ、実際にプリメイドAIの物理シミュレーション上での二足歩行を学習する例を紹介しています。 =======目次======= 第1章 マルコフ決定過程 1.1 価値関数 1.2 ベルマン方程式 第2章 強化学習のためのシミュレーション環境、強化学習ライブラリ 2.1 OpenAIGym 2.2 OpenAIGymと3D物理シミュレーション 2.3 machina 第3章 反復による価値の推定 3.1 TD法 3.2 Sarsa 3.3 Q-Learning 3.4 Q関数の近似 3.4.1 DQN 第4章 反復による方策の学習 (方策勾配法) 4.1 方策のモデルと勾配 4.2 Baseline 4.3 行動価値関数 Q(st , at ) との関係 4.4 vanilla policy gradient method 4.5 REINFORCE アルゴリズム 4.6 Actor-Critic 4.7 方策勾配の収束を早くする技術 4.7.1 自然勾配 4.7.2 TRPO 4.7.3 PPO 4.8 シミュレーション 第5章 確定的なパスごとの勾配を用いた学習 5.1 Stocastic Value Gradient(SVG) 5.1.1 re-parametrizationtrick 5.2 SVG(∞) 5.3 SVG(1) 5.4 SVG(0) と DPG/DDPG 5.5 シミュレーション 第6章 非線形最適制御 6.1 状態方程式 6.2 離散システムの最適化問題 6.3 Shooting法 6.4 Neuton法を用いた最適化 6.5 DifferentialDynamicProgramming(DDP) 6.6 線形システムへの近似と Quadratic Cost function の採用 6.7 iterativeLQR(iLQR) 6.8 Sequential LQR(SLQ) 第7章 データ効率を高める RL 7.1 モデルベースRL 7.2 逆強化学習 7.3 方策に事前知識を持たせる 7.4 DMP (Dynamic Motion Premitive) 第8章 プリメイド AI の歩行学習 8.1 シンプルな教師歩行方策の作成 8.2 教師データの収集 8.3 逆強化学習 8.4 模倣学習&PPO