本ページはプロモーションが含まれています
機械学習スタートアップシリーズ Pythonで学ぶ強化学習 入門から実践まで

著者:久保隆宏
出版社:講談社
出版日:2019年01月17日頃
ISBN10:4065142989
ISBN13:9784065142981
販売価格:3,080円
強化学習が実装できる! エンジニアのために、Pythonのサンプルコードとともに、ゼロからていねいに解説。実用でのネックとなる強化学習の弱点とその克服方法、さらに活用領域まで紹介した。コードも公開! ・Pythonプログラミングとともに、ゼロからていねいに解説。 ・コードが公開されているから、すぐ実践できる。 ・実用でのネックとなる強化学習の弱点と、その克服方法まで紹介。 【おもな内容】 Day1 強化学習の位置づけを知る Day2 強化学習の解法(1): 環境から計画を立てる  価値の定義と算出: Bellman Equation  動的計画法による状態評価の学習: Value Iteration  動的計画法による戦略の学習: Policy Iteration  モデルベースとモデルフリーとの違い Day3 強化学習の解法(2): 経験から計画を立てる  経験の蓄積と活用のバランス: Epsilon-Greedy法  計画の修正を実績から行うか、予測で行うか: Monte Carlo vs Temporal Difference  経験を状態評価、戦略どちらの更新に利用するか Day4 強化学習に対するニューラルネットワークの適用  強化学習にニューラルネットワークを適用する  状態評価を、パラメーターを持った関数で実装する: Value Function Approximation  状態評価に深層学習を適用する: Deep Q-Network  戦略を、パラメーターを持った関数で実装する: Policy Gradient  戦略に深層学習を適用する: Advantage Actor Critic(A2C)  状態評価か、戦略か Day5 強化学習の弱点  サンプル効率が悪い  局所最適な行動に陥る、過学習をすることが多い  再現性が低い  弱点を前提とした対応策 Day6 強化学習の弱点を克服するための手法  サンプル効率の悪さへの対応:モデルベースとの併用/表現学習  再現性の低さへの対応:進化戦略  局所最適な行動/過学習への対応:模倣学習/逆強化学習 Day7 強化学習の活用領域  行動の最適化  学習の最適化 Day1 強化学習の位置づけを知る Day2 強化学習の解法(1): 環境から計画を立てる Day3 強化学習の解法(2): 経験から計画を立てる Day4 強化学習に対するニューラルネットワークの適用 Day5 強化学習の弱点 Day6 強化学習の弱点を克服するための手法 Day7 強化学習の活用領域
お気に入り追加
ショップ

古本・中古価格

在庫詳細
アマゾン(中古)
検索中...
楽天市場(中古)
検索中...
Yahoo!ショッピング(中古)
検索中...
au PAY マーケット(中古) icon
検索中...
メルカリ
検索中...
楽天ラクマ
検索中...
Yahoo!フリマ
検索中...
ネットオフ
検索中...
駿河屋
検索中...
ブックオフオンライン
検索中...
スーパー源氏
検索中...
日本の古本屋
検索中...
ジモティー
検索中...
Yahoo!オークション
検索中...
モバオク
検索中...
DMM通販(中古)
検索中...
HMV & BOOKS(中古)
検索中...
ebookjapan(電子書籍)
検索中...
BookLive(電子書籍)
検索中...
honto(電子書籍)
検索中...
楽天kobo(電子書籍)
検索中...
紀伊国屋(電子書籍)
検索中...
お気に入り追加

新品・買取・口コミ

履歴すべて削除

キャンペーン・割引クーポン

©2006-2025 Bookget  古本買取  運営情報