Reinforcement Learning中文版|強化學習深度解析
-
9折 1080元
1200元
-
預計最高可得金幣50點 ? 可100%折抵
活動加倍另計 -
HAPPY GO享100累1點 4點抵1元折抵無上限
-
分類:中文書>電腦資訊>資料庫/大數據>資料處理/大數據追蹤? 追蹤分類後,您會在第一時間收到分類新品通知。
- 作者: Richard S. Sutton 、 Andrew G. Barto 追蹤 ? 追蹤作者後,您會在第一時間收到作者新書通知。
- 譯者:許士文、卓信宏
- 出版社: 碁峰資訊 追蹤 ? 追蹤出版社後,您會在第一時間收到出版社新書通知。
- 出版日:2021/04/27
活動訊息
內容簡介
針對強化學習的關鍵概念和演算法,提供清晰而簡單的說明
什麼是強化學習
強化學習是學習該做什麼(如何將當前情形映射到動作上),以便最大化一個獎勵訊號數值。學習者不會被告知要採取哪些動作,而是必須透過嘗試來發現哪些動作會產生最大的回報。在最有趣和最具挑戰性的案例中,動作不僅會影響當下的獎勵,同時也會影響下一個情境,並且影響後續所有的獎勵。試誤搜尋和延遲獎勵這兩個特性,是強化學習中的兩個最重要的區別特徵。
本書精采內容包括:
.涵蓋所有強化學習演算法的核心概念
.解決有限馬可夫決策問題的三種基本方法
.近似最佳策略進行控制的方式
.介紹並分析資格痕跡演算法的機制
.強化學習與心理學和神經科學之間的關係
.強化學習的相關應用與未來強化學習研究中一些正在進行的前瞻技術
什麼是強化學習
強化學習是學習該做什麼(如何將當前情形映射到動作上),以便最大化一個獎勵訊號數值。學習者不會被告知要採取哪些動作,而是必須透過嘗試來發現哪些動作會產生最大的回報。在最有趣和最具挑戰性的案例中,動作不僅會影響當下的獎勵,同時也會影響下一個情境,並且影響後續所有的獎勵。試誤搜尋和延遲獎勵這兩個特性,是強化學習中的兩個最重要的區別特徵。
本書精采內容包括:
.涵蓋所有強化學習演算法的核心概念
.解決有限馬可夫決策問題的三種基本方法
.近似最佳策略進行控制的方式
.介紹並分析資格痕跡演算法的機制
.強化學習與心理學和神經科學之間的關係
.強化學習的相關應用與未來強化學習研究中一些正在進行的前瞻技術
名人推薦
專家推薦
"這本書是強化學習的聖經,鑑於該領域的蓬勃發展,新版特別及時。不管是學生、研究人員、從業人是,只要對強化學習感興趣的人,都應該收藏一本。"
-Pedro Domingos, 華盛頓大學教授、《大演算》作者
"所有研究強化學習的學者,都曾受到本書第一版的啟發,第二版保證讓大家更滿意。新版的內容大幅增加,新版涵蓋的內容更深更廣,而且依然保留解說簡單直接的特色。"
-Csaba Szepesvari, 阿爾伯塔大學教授、DeepMind研究科學家
"我推薦這本書給所有想要認識機器學習的人。第二版涵蓋了當今最關鍵的演算法與理論,以實際的應用來解說概念,範圍從控制機器人到如何打敗世界頂尖的棋手,並從心理學與神經科學的角度探討演算法與人類學習之間的基本關連。"
-Tom Mitchell, 卡內基梅隆大學教授
"強化學習領域的經典之作,強化學習是現代人工智慧的發展基礎。這是一本想要認真研究AI科技的人必讀的書。"
- Demis Hassabis, DeepMind聯合創始人兼CEO
"第二版的問世恰逢其時,如果您想了解強化學習這個領域,本書是最好的起點。我肯定會將這本書推薦給我的學生以及其他想要了解強化學習的研究人員"
-- Yoshua Bengio, 《深度學習》作者、蒙特婁大學教授
"這本書是強化學習的聖經,鑑於該領域的蓬勃發展,新版特別及時。不管是學生、研究人員、從業人是,只要對強化學習感興趣的人,都應該收藏一本。"
-Pedro Domingos, 華盛頓大學教授、《大演算》作者
"所有研究強化學習的學者,都曾受到本書第一版的啟發,第二版保證讓大家更滿意。新版的內容大幅增加,新版涵蓋的內容更深更廣,而且依然保留解說簡單直接的特色。"
-Csaba Szepesvari, 阿爾伯塔大學教授、DeepMind研究科學家
"我推薦這本書給所有想要認識機器學習的人。第二版涵蓋了當今最關鍵的演算法與理論,以實際的應用來解說概念,範圍從控制機器人到如何打敗世界頂尖的棋手,並從心理學與神經科學的角度探討演算法與人類學習之間的基本關連。"
-Tom Mitchell, 卡內基梅隆大學教授
"強化學習領域的經典之作,強化學習是現代人工智慧的發展基礎。這是一本想要認真研究AI科技的人必讀的書。"
- Demis Hassabis, DeepMind聯合創始人兼CEO
"第二版的問世恰逢其時,如果您想了解強化學習這個領域,本書是最好的起點。我肯定會將這本書推薦給我的學生以及其他想要了解強化學習的研究人員"
-- Yoshua Bengio, 《深度學習》作者、蒙特婁大學教授
目錄
第二版前言
第一版前言
符號摘要
第1章 導論
Part I 表格式解決方法
第2章 多搖臂式拉霸機
第3章 有限馬可夫決策過程
第4章 動態規劃
第5章 蒙地卡羅方法
第6章 時序差分學習
第7章 n 步自助法
第8章 表格式方法的規劃和學習
Part II 近似解決方法
第9章 on-policy 預測的近似方法
第10章 on-policy 控制的近似方法
第11章 *off-policy 的近似方法
第12章 資格痕跡
第13章 策略梯度方法
Part III 深入觀察
第14章 心理學
第15章 神經科學
第16章 應用和案例研究
第17章 前瞻技術
參考資料與文獻
第一版前言
符號摘要
第1章 導論
Part I 表格式解決方法
第2章 多搖臂式拉霸機
第3章 有限馬可夫決策過程
第4章 動態規劃
第5章 蒙地卡羅方法
第6章 時序差分學習
第7章 n 步自助法
第8章 表格式方法的規劃和學習
Part II 近似解決方法
第9章 on-policy 預測的近似方法
第10章 on-policy 控制的近似方法
第11章 *off-policy 的近似方法
第12章 資格痕跡
第13章 策略梯度方法
Part III 深入觀察
第14章 心理學
第15章 神經科學
第16章 應用和案例研究
第17章 前瞻技術
參考資料與文獻
序/導讀
序
由本書的第一版出版至今的二十年見證了人工智慧領域的巨大進步, 這在很大程度上得益於機器學習的進步,也包括了強化學習的進步。雖然計算能力的突破是這些進步中的一部分,但理論與演算法上的新進展同樣功不可沒。面對這樣的進步,相較於1998年版本的再版顯得刻不容緩,於是我們在2012年開始了改版計畫。本書第二版的目標與第一版是一致的:針對強化學習的關鍵概念和演算法提供清晰而簡單的說明。這個版本依然是將重點專注於核心線上學習演算法,同時涵蓋一些日漸重要的新主題。
由本書的第一版出版至今的二十年見證了人工智慧領域的巨大進步, 這在很大程度上得益於機器學習的進步,也包括了強化學習的進步。雖然計算能力的突破是這些進步中的一部分,但理論與演算法上的新進展同樣功不可沒。面對這樣的進步,相較於1998年版本的再版顯得刻不容緩,於是我們在2012年開始了改版計畫。本書第二版的目標與第一版是一致的:針對強化學習的關鍵概念和演算法提供清晰而簡單的說明。這個版本依然是將重點專注於核心線上學習演算法,同時涵蓋一些日漸重要的新主題。
配送方式
-
台灣
- 國內宅配:本島、離島
-
到店取貨:
不限金額免運費
-
海外
- 國際快遞:全球
-
港澳店取:
訂購/退換貨須知
退換貨須知:
**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
商品評價