動手做深度強化學習

Name: 動手做深度強化學習
Brand: 博碩文化
SKU: 2013120524293
Price: 621 TWD
Availability: InStock
Rating: 4 (1 reviews)
Author: Maxim Lapan
ISBN: 9789864344307

台灣風情茄芷袋Supercard造型悠遊卡-台灣(裁型)

可愛ｘ實用ｘ好旅伴，台味悠遊卡熱銷中！

喜歡+1
寫評價
賺金幣

9折 621元
~~690~~元
認購希望書包，幫助弱勢孩童上學不中斷！

預計最高可得金幣30點 ? 可100%折抵
活動加倍另計
HAPPY GO享100累1點 4點抵1元 折抵無上限

分類：
中文書＞電腦資訊＞概論/科技趨勢＞人工智慧/機器學習
追蹤

? 追蹤分類後，您會在第一時間收到分類新品通知。
作者： Maxim Lapan 追蹤 ? 追蹤作者後，您會在第一時間收到作者新書通知。
譯者：劉立民
出版社：博碩文化追蹤 ? 追蹤出版社後，您會在第一時間收到出版社新書通知。
出版日：2019/11/11

立即結帳

加入購物車

預計 2026/07/14 出貨購買後進貨　

預訂門市商品

門市庫存

大量採購

內容簡介

實作現代強化學習方法：深度Q網路、值迭代、策略梯度、TRPO、AlphaGo Zero…

強化學習（RL）的最新發展，結合使用深度學習（DL），在訓練代理人「像人類一樣地」解決複雜問題這方面，取得了前所未有的進步。Google團隊利用演算法來玩知名的Atari街機遊戲，並擊敗了它們，這可以說是讓RL領域發光發熱的重要推手，而世界各地的研究人員正馬不停蹄地研發各種新的想法。

《動手做深度強化學習》綜合性地介紹了最新的DL工具與它們的限制。讀者將評估包括交叉熵和策略梯度等方法，再把它們應用於真實的環境之中。本書使用Atari虛擬遊戲和一般家庭常玩的Connect4遊戲作為範例。除了介紹RL的基礎知識之外，作者亦詳述如何製作智慧型學習代理人等專業知識，讓讀者在面對一系列艱鉅的真實世界挑戰時，能游刃有餘。本書也會說明如何在網格世界（grid world）環境中實作Q學習、如何讓代理人學會買賣和交易股票，並學習聊天機器人是如何使用自然語言模型與人類對話的。

在這本書中，你將學到：
・了解結合了RL的DL內容，並實作複雜的DL模型
・學習RL的基礎：馬可夫決策過程
・評估RL方法，包括交叉熵、DQN、Actor-Critic、TRPO、PPO、DDPG、D4PG…等等
・了解如何在各種環境中處理離散行動空間和連續行動空間　
・使用值迭代法來擊敗Atari街機遊戲　
・建立屬於自己的OpenAI Gym環境，來訓練股票交易代理人
・使用AlphaGo Zero演算法，教你的代理人玩Connect4
・探索最新的深度RL研究主題，包括AI驅動的聊天機器人等等

下載範例程式檔案：
本書的程式碼是由 GitHub 託管，可以在如下網址找到：github.com/PacktPublishing/Deep-Reinforcement-Learning-Hands-On。

下載本書的彩色圖片：
我們還提供您一個PDF檔案，其中包含本書使用的彩色螢幕截圖／彩色圖表，可以在此下載：static.packt-cdn.com/downloads/DeepReinforcementLearningHandsOn_ColorImages.pdf。

作者

Maxim Lapan

Maxim Lapan是一位深度學習的愛好者，也是一位獨立研究人員。他有15 年的工作經驗，身分是「軟體開發人員」與「系統架構師」，參與的專案從低階的Linux 核心驅動程式開發，到在數千台伺服器上執行的「分散式應用程式」的「設計」與「性能優化」。憑藉著在大數據、機器學習以及大型平行分散式HPC 和非HPC 系統方面的豐富工作經驗，他能用「簡單的句子」與「生動的範例」來解釋複雜事物的關鍵重點。目前他最感興趣的領域是深度學習的實務應用，例如：「深度自然語言處理」和「深度強化學習」。

Maxim 和他的家人住在莫斯科，俄羅斯聯邦，他在以色列新創公司擔任資深NLP 開發人員。

前言
第1章：什麼是強化學習？
第2章： OpenAI Gym
第3章：使用PyTorch來做深度學習
第4章：交叉熵法
第5章：表格學習與貝爾曼方程式
第6章：深度Q網路
第7章：DQN擴充
第8章：以強化學習法來做股票交易
第9章：策略梯度－另一個選項
第10章：行動－評論者方法
第11章：非同步優勢行動－評論者
第12章：以強化學習法訓練聊天機器人
第13章：Web導航
第14章：連續行動空間
第15章：信賴域策略－TRPO、PPO與ACKTR
第16章：強化學習中的黑箱優化
第17章：超越無模型方法－想像
第18章：AlphaGo Zero

配送方式

台灣
- 國內宅配：本島、離島
- 到店取貨：
  
  不限金額免運費
海外
- 國際快遞：全球
- 港澳店取：

詳細資料

- 語言
- 中文繁體
- 裝訂
- 紙本平裝
- ISBN
- 9789864344307
- 分級
- 普通級
- 頁數
- 528
- 商品規格
- 23*17
- 出版地
- 台灣
- 適讀年齡
- 全齡適讀
- 注音
- 級別

中文書＞電腦資訊＞概論/科技趨勢＞人工智慧/機器學習

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』，隨時掌握出貨動態：

提醒您！！
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機，請不要聽從指示，以免受騙上當！

退換貨須知：

**提醒您，鑑賞期不等於試用期，退回商品須為全新狀態**

依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」，以下商品購買後，除商品本身有瑕疵外，將不提供7天的猶豫期：
1. 易於腐敗、保存期限較短或解約時即將逾期。（如：生鮮食品）
2. 依消費者要求所為之客製化給付。（客製化商品）
3. 報紙、期刊或雜誌。（含MOOK、外文雜誌）
4. 經消費者拆封之影音商品或電腦軟體。
5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務，經消費者事先同意始提供。（如：電子書、電子雜誌、下載版軟體、虛擬商品…等）
6. 已拆封之個人衛生用品。（如：內衣褲、刮鬍刀、除毛刀…等）
若非上列種類商品，均享有到貨7天的猶豫期（含例假日）。
辦理退換貨時，商品（組合商品恕無法接受單獨退貨）必須是您收到商品時的原始狀態（包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等），請勿直接使用原廠包裝寄送，或於原廠包裝上黏貼紙張或書寫文字。
退回商品若無法回復原狀，將請您負擔回復原狀所需費用，嚴重時將影響您的退貨權益。

動手做深度強化學習

內容簡介

作者

目錄

配送方式

詳細資料

詳細資料

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』，隨時掌握出貨動態：

退換貨須知：