動手做深度強化學習
內容簡介
實作現代強化學習方法:深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero…
強化學習(RL)的最新發展,結合使用深度學習(DL),在訓練代理人「像人類一樣地」解決複雜問題這方面,取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲,並擊敗了它們,這可以說是讓RL領域發光發熱的重要推手,而世界各地的研究人員正馬不停蹄地研發各種新的想法。
《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法,再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外,作者亦詳述如何製作智慧型學習代理人等專業知識,讓讀者在面對一系列艱鉅的真實世界挑戰時,能游刃有餘。本書也會說明如何在網格世界(grid world)環境中實作Q學習、如何讓代理人學會買賣和交易股票,並學習聊天機器人是如何使用自然語言模型與人類對話的。
在這本書中,你將學到:
・ 了解結合了RL的DL內容,並實作複雜的DL模型
・ 學習RL的基礎:馬可夫決策過程
・ 評估RL方法,包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等
・ 了解如何在各種環境中處理離散行動空間和連續行動空間
・ 使用值迭代法來擊敗Atari街機遊戲
・ 建立屬於自己的OpenAI Gym環境,來訓練股票交易代理人
・ 使用AlphaGo Zero演算法,教你的代理人玩Connect4
・ 探索最新的深度RL研究主題,包括AI驅動的聊天機器人等等
下載範例程式檔案:
本書的程式碼是由 GitHub 託管,可以在如下網址找到:github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On。
下載本書的彩色圖片:
我們還提供您一個PDF檔案,其中包含本書使用的彩色螢幕截圖/彩色圖表,可以在此下載:static.packt-cdn.com/downloads/DeepReinforcementLearningHandsOn_ColorImages.pdf。
目錄
前言
第1章:什麼是強化學習?
第2章: OpenAI Gym
第3章:使用PyTorch來做深度學習
第4章:交叉熵法
第5章:表格學習與貝爾曼方程式
第6章:深度Q網路
第7章:DQN擴充
第8章:以強化學習法來做股票交易
第9章:策略梯度-另一個選項
第10章:行動-評論者方法
第11章:非同步優勢行動-評論者
第12章:以強化學習法訓練聊天機器人
第13章:Web導航
第14章:連續行動空間
第15章:信賴域策略-TRPO、PPO與ACKTR
第16章:強化學習中的黑箱優化
第17章:超越無模型方法-想像
第18章:AlphaGo Zero
配送方式
-
台灣
- 國內宅配:本島、離島
-
到店取貨:
不限金額免運費
-
海外
- 國際快遞:全球
-
港澳店取:
訂購/退換貨須知
退換貨須知:
**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。



商品評價