熱門關鍵字:

BN說明

實戰機器學習|使用Spark

  • 館長推薦
? 快來將您對閱讀的熱情和對書籍的想法分享給所有讀友,每完成一篇讀者書評並審核通過者,即可獲得讀者書評點數,點數還可換電子禮券唷!
分享:
版本:

商品訊息

  • 追蹤分類 ? 追蹤分類後,您會在第一時間收到分類新品通知。
  • 作者: Rajdeep Dua 追蹤作者 ? 追蹤作者後,您會在第一時間收到作者新書通知。
  • 出版社: 碁峰資訊 追蹤出版社 ? 追蹤出版社後,您會在第一時間收到出版社新書通知。
  • 出版日:2018/6/1
  • ISBN:9789864767731
  • 適讀年齡:全齡適讀
  • 定價: 620
  • 特價: 75 465
  • 紅利可抵: 14 ? 除單一商品售價低於50元或特價折扣低於3折(含)以下者,其餘商品均可使用紅利點數。
  • 到店取貨: ? 『金石堂』門市取貨免運費。
    『全家、OK、萊爾富、掌櫃』滿350元,免運費;350元以下,運費20元。
    宅配: ? 滿1,000元,免運費
    490元-999元,運費50元
    490元以下,運費65元
  • 配送地區: 全球、 香港OK、 台澎金馬
  • 付款方式: ATM、 信用卡、 LINE Pay、 街口帳戶支付、 貨到付款、 PayPal、 FamiPort、 取貨付款
  • 預計 2019/12/22 出貨 購買後進貨 查詢門市庫存 ? 若您欲在金石堂門市購買商品,請選擇欲查看庫存之門市。網頁之「庫存狀態」僅供參考,實際貨況以門市為準。

強力推薦

內容簡介

學習熱門的機器學習演算法
本書介紹熱門的機器學習演算法及其實作方式。你將會了解如何在Spark ML這套開發框架之內,實作各種機器學習概念。首先,我們會帶你在單一節點與多重節點的運算叢集上,完成Spark的安裝工作;接著,說明如何執行以Scala和Python語言撰寫的Spark ML程式;然後以幾套資料集為範例,深入探索分群、分類與迴歸;最後,利用Spark ML來處理文字資料。

打造可以應用於工作中的機器學習程式
弄懂概念之後,便可運用來實作演算法,可能是從頭開始,或是將既有的系統轉移到這個新平台,像是從Mahout或Scikit轉移到Spark ML。當你讀完本書之時,應該能夠善加運用Spark,打造可以應用於工作中的機器學習程式。

本書將帶您:
.實際動手嘗試最新版的Spark ML
.以Scala與Python語言撰寫Spark程式
.在本機以及Amazon ECS雲端平台上,安裝並設置Spark開發環境
.取用公開的機器學習資料集,使用Spark進行資料的載入、處理、清理與轉換等動作
.處理巨量的文字資料,包括特徵萃取,並使用文字資料作為輸入餵給機器學習模型
.撰寫Spark函式,評估機器學習模型的表現能力

作者

Rajdeep Dua

曾服務於Google的大數據工具推廣團隊,如BigQuery;曾在VMware公司的開發人員技術傳播小組工作,致力於大數據平台Greenplum,也與Spark移植團隊緊密合作,加入功能集合,把Spark移植到VMware的公開雲和私有雲平台。

Manpreet Singh Ghotra

目前任職Salesforce,致力於以Apache Spark來開發一套機器學習平台;使用Apache Spark與機器學習技術,打造情緒分析器。曾任職於世界最大線上零售商之一的機器學習部門,使用Apache Mahout研究運送時間的計算,以及R推薦系統。

Nick Pentreath

擁有財務金融、機器學習、軟體開發的背景,曾任職於Goldman Sachs企業,線上廣告刊登目標新創公司的研究科學家、倫敦Cognitive Match有限公司、並且在非洲最大的社群網路Mxit,領導資料科學與分析團隊。

目錄

第1章|與Spark一起奔跑
介紹如何為Spark框架設置本地端的開發環境,以及如何使用Amazon EC2在雲端上建立Spark叢集。將以一支簡單的Spark應用程式作為範例,使用Scala、Java與Python語言實作,介紹Spark的程式設計模型與API。

第2章|機器學習需要的數學知識
本章提供機器學習領域所需要的數學基礎,了解數學與各項技術,非常重要,方能深入搞懂演算法的裡裡外外,得到最佳結果。

第3章|設計機器學習系統
以真實世界的使用案例作為範本,介紹機器學習系統的設計過程,將會以這個頗富教學意味的例子,採用Spark來設計智慧型系統的高階架構。

第4章|Spark取得資料並進行處理準備
詳細介紹如何取得用於機器學習系統的資料,特別是各種免費的公開資源,將會學習如何對原始資料進行處理並清理,轉換成或可用於機器學習模型的特徵,運用各種工具、程式庫、以及Spark的功能。

第5章|使用Spark建構推薦引擎
以協同過濾方式來建立一套推薦模型,可用於推薦項目給某客戶,根據給定項目產生出相似物品的清單;衡量推薦模型表現能力的標準指標和評估法,也會在此章介紹。

第6章|使用Spark建構分類模型
詳細介紹如何建立二元分類模型,以及如何利用標準的表現能力評估指標、用來評估分類任務。

第7章|使用Spark建構迴歸模型
示範如何建立迴歸模型,延續自第6章所建立的分類模型。迴歸模型表現能力的評估指標,也會詳細說明。

第8章|使用Spark建構分群模型
探索如何建立分群模型、以及使用相關的評估方法,你將學會如何分析產生出來的群,並且加以視覺化。

第9章|Spark與維度縮減
說明如何從資料抽取出底層結構,並且降低維度。本章將介紹一些常見的維度縮減技術,說明如何運用並分析,內容將介紹如何使用處理後得到的資料表現形式,作為輸入餵給別的機器學習模型。

第10章|Spark與進階文字處理
介紹處理大規模文字資料的作法,包括從文字資料萃取出特徵,以及處理非常大維度的文字特徵。

第11章|Spark串流程式庫與即時機器學習
介紹Spark串流程式庫如何用於線上與漸進式學習方法。

第12章|Spark ML的工作流程API
以DataFrames為基礎,在其上提供一致性的API,幫助我們建立與調校機器學習工作流程。

序/導讀



近年來,被收集、儲存、分析的資料數量,呈現爆炸性成長,特別是與網站和行動裝置相關的活動,以及經由感測器網路取得、來自真實世界的資料;大規模的資料儲存、處理、分析與模型建立,在過去只有Google、Yahoo!、Facebook、Twitter與Salesforce這類大型機構使用,然而隨著時間演進,許多組織也開始要面對大數據,面對如何處理巨量資料的挑戰。

資料越來越多,成長速度越來越快,關於如何處理大數據的艱困挑戰,Google、Yahoo!、Faceboo之類的企業組織,都提出相對應的開源技術,藉由把資料儲存與運算的功能,分散到電腦叢集之中,降低處理海量資料的難度。

其中最被廣為採用的技術是Apache Hadoop,能夠輕易且廉價地儲存大規模資料(經由Hadoop分散式檔案系統,也就是HDFS),並且在這些資料上進行運算(經由Hadoop MapReduce這套框架,在電腦叢集中的諸多節點上,以平行方式進行運算任務)。

然而,MapReduce有幾項致命的缺點,包括啟動任務的花費太高、必須把中間資料與運算結果儲存到磁碟,這兩點導致Hadoop不適合用於迭代形式或低延遲的使用案例。Apache Spark是套分散式運算的框架,特別針對低延遲任務而全新設計,會把中間資料與結果儲存在記憶體裡,因此可避開Hadoop的許多重大缺點。Spark提供了乾淨且易於了解的函數式API,供開發人員撰寫應用程式,而且與Hadoop生態系統完全相容。

不僅如此,Spark還為Scala、Java、Python與R語言提供了原生API。Scala與Python的API,分別允許我們充分利用Scala與Python的長處與優勢,直接用於Spark應用程式之內,包括即時互動探索形式的直譯器。Spark本身現在開始提供分散式機器學習和資料探勘的工具箱(Spark 1.6版的MLlib、2.0版的ML),並且投入大量人力資源進行開發,對於許多常見的機器學習任務來說,已經擁有高品質、可規模擴展、效率高的演算法,本書將會深入介紹。

把機器學習技術、套用到巨量資料身上,難度相當高,主因是大部分知名的機器學習演算法,都沒有考量平行架構。就許多情況而言,設計平行演算法絕非簡單的事情,一般來說,機器學習模型在本質上屬於迭代處理形式,因此使得吾人樂於採用Spark。在平行運算領域,雖然存在著眾多競爭的開發框架,在這當中,Spark是少數幾個之一能夠結合速度、規模擴展性、在記憶體中進行處理、容錯能力、以及程式設計的容易性,並且提供有彈性、表達能力強的優質API設計。

本書將會聚焦在機器學習技術的真實運用案例,雖然可能會在某些篇幅,短暫深入介紹機器學習演算法的理論面向,以及所需要的數學知識,但本書主要還是採用實務可行的教學法,把重心放在範例與實際的程式碼,闡釋如何充分運用Spark與MLlib的功能特色,以及其他知名免費的機器學習與資料分析套件,建構出有用的機器學習系統。

詳細資料

詳細資料

    • 編/譯者
    • 江良志
    • 語言
    • 中文繁體
    • 規格
    • 紙本平裝
    • ISBN
    • 9789864767731
    • 分級
    • 普通級
    • 開數
    • 18開17*23cm
    • 頁數
    • 584
    • 出版地
    • 台灣
    • 適讀年齡
    • 全齡適讀

訂購須知

下載『金石堂APP』並開啟推播設定,隨時掌握出貨動態:

Google play
App Store

    商品運送說明:

  • 本公司所提供的產品配送區域範圍目前僅限台灣本島。注意!收件地址請勿為郵政信箱。
  • 商品將由廠商透過貨運或是郵局寄送。消費者訂購之商品若無法送達,經電話或 E-mail無法聯繫逾三天者,本公司將取消該筆訂單,並且全額退款。
  • 當廠商出貨後,您會收到E-mail及APP出貨通知,您也可透過【訂單查詢】確認出貨情況。
  • 建議您可下載『金石堂APP』並開啟推播設定,即可收到出貨通知。
  • 產品顏色可能會因網頁呈現與拍攝關係產生色差,圖片僅供參考,商品依實際供貨樣式為準。
  • 如果是大型商品(如:傢俱、床墊、家電、運動器材等)及需安裝商品,請依商品頁面說明為主。訂單完成收款確認後,出貨廠商將會和您聯繫確認相關配送等細節。
  • 偏遠地區、樓層費及其它加價費用,皆由廠商於約定配送時一併告知,廠商將保留出貨與否的權利。

提醒您!!
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機,請不要聽從指示,以免受騙上當!

退換貨須知

  • 依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
    1. 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
    2. 依消費者要求所為之客製化給付。(客製化商品)
    3. 報紙、期刊或雜誌。(含MOOK、外文雜誌)
    4. 經消費者拆封之影音商品或電腦軟體。
    5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
    6. 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
  • 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
  • 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
  • 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
預計 2019/12/22 出貨 購買後進貨 查詢門市庫存?

31