活動訊息
內容簡介
Hadoop時代來臨之後,雖然已經建立了完整的生態圈,包括儲存、運算,叢集管理以及NoSQL/RDMS等,但這拼圖的最後一個缺角,卻是讓Hadoop人員搥胸頓足的即時處理。Spark的出現,不是淘汰Hadoop,而是讓這個Ecosystem更加完整。
Spark完整的語法、支援Hadoop的MapReduce,再加上特殊的架構以及自有的查詢語言,讓整個大數據圈為之震憾,也打破了Hadoop保持的大數據處理紀錄。如果你是Hadoop的使用者,這本書是你一定要深深研讀,如果你是大數據的新手,這也是你入門的最好選擇。
本書特色
●完全從企業處理大數據夜霧場景的角度出發,利用實際範例的程式碼來組織內容,從零起步,不用任何基礎。
●全書利用Spark框架中核心程式碼解析,掌握Spark實用開發技術,輕鬆駕馭Spark核心和子框架
●於網站附彩色程式碼圖檔供讀者下載、參考
目錄
ch01Spark程式設計模型
ch02建置Spark分散式叢集
ch03Spark開發環境及其測試
ch04Spark RDD與程式設計API實戰
ch05Spark執行模式深入解析
ch06Spark核心解析
ch07GraphX大規模圖型計算與圖型擷取實戰
ch08SparkSQL原理與實戰
ch09Machine Learning on spark
ch10Tachyon檔案系統
ch11Spark Streaming原理與實戰
ch12Spark多語言程式設計
ch13R語言的分散式程式設計之SparkR
ch14Spark效能最佳化和最佳做法
ch15Spark原始程式解析
附錄A動手實戰Scala三部曲
序/導讀
誕生於柏克萊大學AMPLab 的Spark 是當今大數據領域最活躍、最熱門、效率最高的大數據通用計算平台。以RDD 為核心,Spark 成功地建置起了一體化、多元化為基礎的大數據處理系統。在任何規模的資料計算中,Spark 在效能和擴充性上都更具優勢。攜帶先天學術基因優勢的Spark在整個發展過程中都深深地具備了學術研究的基因,在「One Stack to rule them all」思想的領導下,Spark 成功地使用Spark SQL、Spark Streaming、MLlib、GraphX 近乎完美地解決了大數據中的Batch Processing、Streaming Processing、Ad-hoc Query 等三大核心問題。在「Full Stack」理想的指引下,Spark 中的Spark SQL、Spark Streaming、MLLib、GraphX 四大子架構和函數庫之間可以無縫地共用資料和操作,這不僅打造了Spark 在當今大數據計算領域其他計算架構都無可匹敵的優勢,而且使得Spark 正在加速成為大數據處理中心首選計算平台。
為什麼寫作本書
Spark + Hadoop = A Winning Combination!
Hadoop 和Spark 聯合組成了當今的大數據世界,而這個世界正在悄悄發生變化,這種變化是Hadoop 負責資料儲存和資源管理,Spark 負責一體化、多元化的不同規模的資料計算,而計算正是大數據的精髓之所在!
在Spark 官方公佈的世界上明確在實際生產環境中使用Spark 的公司可見https://cwiki. apache.org/confluence/display/SPARK/Powered +By+Spark。
在實際的生產環境中,世界上已經出現很多一千個以上節點的Spark 叢集,以eBay 為例,eBay 的Spark 叢集節點已經超過2000 個,Yahoo! 等公司也在大規模地使用Spark,擁有巨大使用者的中國大家的淘寶、騰訊、百度、網易、京東、華為、大眾點評、優酷土豆等也在生產環境下深度使用Spark。2014 Spark Summit 上的資訊顯示,Spark 已經獲得世界20 家頂級公司的支援,這些公司中包含Intel、IBM 等,同時更重要的是,最大的4 個Hadoop 發行商都提供了對Spark 非常強有力的支援。
不得不提的是,DataBricks 和AWS 聯合所做的Sort Benchmark 測試表明,Spark 在只用Hadoop 1/10 的運算資源且以磁碟計算為基礎的情況下卻只用了1/3 的運算時間,徹底顛覆了Hadoop 保持的排序記錄,成為開放原始碼軟體領域在TB 和PB 數量級別排序最快的計算引擎。這表明在任意大小的資料規模下,Spark 在效能和擴充性上都更具優勢。
與Spark 火爆程度形成鮮明比較的是Spark 人才的嚴重缺乏,這一情況在華語地區尤其嚴重,這種人才的缺乏一方面是由於Spark 技術在2013、2014 年才開始流行,另一方面是由於缺乏Spark 相關的中文資料和系統化的教育訓練。
本書以最新的Spark 1.1 版本撰寫,本著從企業級實際開發需要的Spark 技能的角度出發,全面說明了Spark 叢集的動手建置、Spark 架構、核心的深入解析、Spark 四大子架構的細緻剖析和實戰、Tachyon 檔案系統揭秘、Spark 多語言程式設計、SparkR、Spark 效能最佳化和最佳做法、Spark 核心原始程式解析等內容。考慮到Spark 架構和開發語言使用Scala,而很多朋友可能對Scala 不是太熟悉,所以在本書的附錄中加入了動手實戰Scala 三部曲來幫助沒有使用過Scala 語言的學習者快速掌握Scala 程式設計。對一名大數據同好來說,本書內容可以幫助他們整合式地完成從零起步到進行Spark 企業級開發所需要的全部核心內容和實戰方法。
配送方式
-
台灣
- 國內宅配:本島、離島
-
到店取貨:
不限金額免運費
-
海外
- 國際快遞:全球
-
港澳店取:
訂購/退換貨須知
退換貨須知:
**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
商品評價