動手做深度強化學習
商品訊息
- 追蹤分類 ? 追蹤分類後,您會在第一時間收到分類新品通知。
- 作者: Maxim Lapan 追蹤作者 ? 追蹤作者後,您會在第一時間收到作者新書通知。
- 出版社: 博碩文化 追蹤出版社 ? 追蹤出版社後,您會在第一時間收到出版社新書通知。
- 出版日:2019/11/11
- ISBN:9789864344307
- 適讀年齡:全齡適讀
- 定價: 690元
-
特價: 79折 545元
- 紅利可抵: 16元 ? 除單一商品售價低於50元或特價折扣低於3折(含)以下者,其餘商品均可使用紅利點數。
- 配送地區: 全球、 香港OK、 台澎金馬
- 付款方式: ATM、 信用卡、 LINE Pay、 街口帳戶支付、 貨到付款、 PayPal、 FamiPort、 取貨付款
強力推薦
內容簡介
實作現代強化學習方法:深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero…
強化學習(RL)的最新發展,結合使用深度學習(DL),在訓練代理人「像人類一樣地」解決複雜問題這方面,取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲,並擊敗了它們,這可以說是讓RL領域發光發熱的重要推手,而世界各地的研究人員正馬不停蹄地研發各種新的想法。
《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法,再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外,作者亦詳述如何製作智慧型學習代理人等專業知識,讓讀者在面對一系列艱鉅的真實世界挑戰時,能游刃有餘。本書也會說明如何在網格世界(grid world)環境中實作Q學習、如何讓代理人學會買賣和交易股票,並學習聊天機器人是如何使用自然語言模型與人類對話的。
在這本書中,你將學到:
・ 了解結合了RL的DL內容,並實作複雜的DL模型
・ 學習RL的基礎:馬可夫決策過程
・ 評估RL方法,包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等
・ 了解如何在各種環境中處理離散行動空間和連續行動空間
・ 使用值迭代法來擊敗Atari街機遊戲
・ 建立屬於自己的OpenAI Gym環境,來訓練股票交易代理人
・ 使用AlphaGo Zero演算法,教你的代理人玩Connect4
・ 探索最新的深度RL研究主題,包括AI驅動的聊天機器人等等
下載範例程式檔案:
本書的程式碼是由 GitHub 託管,可以在如下網址找到:github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On。
下載本書的彩色圖片:
我們還提供您一個PDF檔案,其中包含本書使用的彩色螢幕截圖/彩色圖表,可以在此下載:static.packt-cdn.com/downloads/DeepReinforcementLearningHandsOn_ColorImages.pdf。
目錄
前言
第1章:什麼是強化學習?
第2章: OpenAI Gym
第3章:使用PyTorch來做深度學習
第4章:交叉熵法
第5章:表格學習與貝爾曼方程式
第6章:深度Q網路
第7章:DQN擴充
第8章:以強化學習法來做股票交易
第9章:策略梯度-另一個選項
第10章:行動-評論者方法
第11章:非同步優勢行動-評論者
第12章:以強化學習法訓練聊天機器人
第13章:Web導航
第14章:連續行動空間
第15章:信賴域策略-TRPO、PPO與ACKTR
第16章:強化學習中的黑箱優化
第17章:超越無模型方法-想像
第18章:AlphaGo Zero
訂購須知
- 本公司所提供的產品配送區域範圍目前僅限台灣本島。注意!收件地址請勿為郵政信箱。
- 商品將由廠商透過貨運或是郵局寄送。消費者訂購之商品若無法送達,經電話或 E-mail無法聯繫逾三天者,本公司將取消該筆訂單,並且全額退款。
- 當廠商出貨後,您會收到E-mail及APP出貨通知,您也可透過【訂單查詢】確認出貨情況。
- 建議您可下載『金石堂APP』並開啟推播設定,即可收到出貨通知。
- 產品顏色可能會因網頁呈現與拍攝關係產生色差,圖片僅供參考,商品依實際供貨樣式為準。
- 如果是大型商品(如:傢俱、床墊、家電、運動器材等)及需安裝商品,請依商品頁面說明為主。訂單完成收款確認後,出貨廠商將會和您聯繫確認相關配送等細節。
- 偏遠地區、樓層費及其它加價費用,皆由廠商於約定配送時一併告知,廠商將保留出貨與否的權利。
商品運送說明:
提醒您!!
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機,請不要聽從指示,以免受騙上當!
退換貨須知
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。