0916~0919_開學季語言展

比Hadoop+Python還強:Spark MLlib機器學習實作

達洋貓《櫻花樹》一卡通

達洋貓《櫻花樹》一卡通

【開學大作戰】一卡通全面限時9折起

  • 9 432
    480
  • 分類:
    中文書電腦資訊APP開發/程式設計Python
    追蹤
    ? 追蹤分類後,您會在第一時間收到分類新品通知。
  • 作者: 王曉華 追蹤 ? 追蹤作者後,您會在第一時間收到作者新書通知。
  • 出版社: 佳魁 追蹤 ? 追蹤出版社後,您會在第一時間收到出版社新書通知。
  • 出版日:2016/10/03

活動訊息

想找書的時候,特別想偷看網友的書櫃... 原來大家都在看這本 ↓↓↓

用閱讀開啟視野,讓書成為照亮你人生的光
【金石堂選書】本月推薦您這些好書👉 快來看看

內容簡介

大數據時代是一個充滿著機會和挑戰的時代,僅需要有一個得心應手的工具--MLlib就是這個工具。

本書的主要目的是介紹如何使用MLlib進行資料採擷。MLlib是Spark中最核心的部分,它是Spark機器學習函數庫,可以執行在分散式叢集上的資料採擷工具。吸引了大量程式設計和開發人員進行相關內容的學習與開發。

本書理論內容由淺而深,採取實例和理論相結合的方式,內容全面而詳盡,適合Spark MLlib初學者、大數據採擷、大數據分析的工作人員。

目錄

前言

Chapter 01  星星之火
1.1 大數據時代
1.2 大數據分析時代
1.3 簡單、優雅、有效-- 這就是Spark
1.4 核心-- MLlib
1.5 星星之火,可以燎原
1.6 小結

Chapter 02  Spark 安裝和開發環境設定
2.1 Windows 單機模式Spark 安裝和設定
2.2 經典的WordCount
2.3 小結

Chapter 03  RDD 詳解
3.1 RDD 是什麼
3.2 RDD 工作原理
3.3 RDD 應用API 詳解
3.4 小結 .

Chapter 04  MLlib 基本概念
4.1 MLlib 基本資料型態
4.2 MLlib 數理統計基本概念
4.3 小結

Chapter 05  協作過濾演算法
5.1 協作過濾
5.2 相似度度量
5.3 MLlib 中的交替最小平方法(ALS 演算法)
5.4 小結

Chapter 06 MLlib 線性回歸理論與實戰
6.1 隨機梯度下降演算法詳解
6.2 MLlib 回歸的過擬合
6.3 MLlib 線性回歸實戰
6.4 小結

Chapter 07 MLlib 分類實戰
7.1 邏輯回歸詳解
7.2 支援向量機詳解
7.3 單純貝氏詳解
7.4 小結

Chapter 08決策樹與保序回歸
8.1 決策樹詳解
8.2 保序回歸詳解
8.3 小結

Chapter 09 MLlib 中分群詳解
9.1 分群與分類
9.2 MLlib 中的Kmeans 演算法
9.3 高斯混合分群
9.4 快速反覆運算分群
9.5 小結

Chapter 10 MLlib 中連結規則
10.1 Apriori 頻繁項集演算法
10.2 FP-growth 演算法
10.3 小結

Chapter 11資料降維
11.1 奇異值分解(SVD)
11.2 主成分分析(PCA)
11.3 小結

Chapter 12特徵分析和轉換
12.1 TF-IDF
12.2 詞向量化工具
12.3 以卡方檢定為基礎的特徵選擇
12.4 小結

Chapter 13 MLlib 實戰演練-- 鳶尾花分析
13.1 建模說明
13.2 資料前置處理和分析
13.3 長與寬之間的關係-- 資料集的回歸分析
13.4 使用分類和分群對鳶尾花資料集進行處理
13.5 最後的判斷-- 決策樹測試
13.6 小結

序/導讀

前言

Spark在英文中是火花的意思,創作者希望它能夠像火花一樣點燃大數據時代的序幕。它,做到了。

大數據時代是一個充滿著機會和挑戰的時代。就像一座未經開發的金山,任何人都有資格去獲得其中寶藏,僅需要的就是有一個得心應手的工具——MLlib就是這個工具。

本書目的

本書的主要目的是介紹如何使用MLlib進行資料採擷。MLlib是Spark中最核心的部分,它是Spark機器學習函數庫,經過無數創造者卓越的工作,MLlib已經成為一個優雅的、可以執行在分散式叢集上的資料採擷工具。

MLlib充分利用了現有資料採擷的技術與方法,將隱藏在資料中不為人知,但又包含價值的資訊從中分析出來,並透過對應的電腦程式,無須人工操作自動地在系統中進行計算,以發現其中的規律。

通常來說,資料採擷的困難和重點於在於兩個方面:分別是演算法的學習和程式的設計。還有的是需要使用者有些對應的背景知識,例如統計學、人工智慧、網路技術等。本書在寫作上以工程實作為主,重點介紹其與資料採擷密切相關的演算法與概念,並且使用淺顯容易的語言將其中有關的演算法進行綜合性描述,可以幫助使用者更進一步地採擷了解和掌握資料採擷的原理。

作者在寫作本書的時候有一個基本原則,這本書應該表現工程實作與理論之間的平衡。資料採擷的目的是為了解決現實中的問題,並提供一個結果,而非去理論比較哪個演算法更高深,看起來更能唬人。本書對演算法的基本理論和演算法也做了描述,如果讀者閱讀起來覺得困難,建議找出對應的教材深入複習一下,相信大多數的讀者都能瞭解相關的內容。

本書內容

本書主要介紹MLlib資料採擷演算法,撰寫的內容可以分成三部分:第一部分是MLlib最基本的介紹以及RDD的用法,包含第1~4章;第二部分是MLlib演算法的應用介紹,包含第5~12章;第三部分透過一個經典的實例向讀者示範了如何使用MLlib去進行資料採擷工作,即第13章。

各章節內容如下:

■第1章主要介紹了大數據時代帶給社會與個人的影響,並由此產生的各種意義。介紹了大數據如何深入到每個人的生活之中。MLlib是大數據分析的利器,能夠幫助使用者更進一步地完成資料分析。

■第2章介紹Spark設定的單機版安裝方法和開發環境設定。MLlib是Spark資料處理架構的主要元件,因此其執行必須要有Spark的支援。

■第3章是對彈性資料集(RDD)進行了說明,包含彈性資料集的基本組成原理和使用,以及彈性資料集在資料處理時產生的相互相依關係,並對主要方法逐一進行範例示範。

■第4章介紹了MLlib在資料處理時所用到的基本資料型態。MLlib對資料進行處理時,需要將資料轉變成對應的資料類型。

■第5章介紹了MLlib中協作過濾演算法的基本原理和應用,並據此介紹了相似度計算和最小平方法的原理和應用。

■第6~12章每章是一個MLlib分支部分,其將MLlib各個資料採擷演算法分別做了應用描述,介紹了其基本原理和學科背景,示範了使用方法和範例,對每個資料做了詳細的分析。並且在一些較為重要的程式碼上,作者深入MLlib原始程式,研究了其建置方法和參數設計,進一步幫助讀者更深入地瞭解MLlib,也為將來讀者撰寫自有的MLlib程式奠定了基礎。

■第13章是本文的最後一章,透過經典的鳶尾花資料集向讀者示範了一個資料採擷的詳細步驟。從資料的前置處理開始,去除有相關性的重複資料,採用多種演算法對資料進行分析計算,對資料進行分類回歸,最後獲得隱藏在資料中的結果,並為讀者示範了資料採擷的基本步驟與方法。

本書特點

■本書儘量避免純粹的理論知識介紹和高深技術研討,完全從應用實作出發,用最簡單的、典型的範例引伸出核心知識,最後還指出了通往「高精尖」進一步深入學習的道路;
■本書全面介紹了MLlib有關的資料採擷的基本結構和上層程式設計,藉此能夠系統地看到MLlib的全貌,讓讀者在學習的過程中不至於迷失方向;
■本書在寫作上淺顯容易,沒有深奧的數學知識,採用了較為簡潔的形式描述了應用的理論知識,讓讀者透過輕鬆愉悅地閱讀掌握相關內容;
■本書旨在引導讀者進行更多技術上的創新,每章都會用範例描述的形式幫助讀者更進一步地學習內容;
■本書程式遵循重構原理,避免程式污染,引導讀者寫出優秀的、簡潔的、可維護的程式。

讀者與作者
■準備從事或已從事大數據採擷、大數據分析的工作人員。
■SparkMLlib初學者。
■大專院校和補教單位資料分析和處理相關專業的師生。
本書由王曉華主編,其他參與創作的作者還有李陽、張學軍、陳士領、陳麗、殷龍、張鑫、趙海波、張興瑜、毛聰、王琳、陳宇、生暉、張喆、王健,排名不分先後。

範例程式下載
本書範例程式可以從本公司官網(www.topteam.cc)對應到本書的地方下載。

配送方式

  • 台灣
    • 國內宅配:本島、離島
    • 到店取貨:
      金石堂門市 不限金額免運費
      7-11便利商店 ok便利商店 萊爾富便利商店 全家便利商店
  • 海外
    • 國際快遞:全球
    • 港澳店取:
      ok便利商店 順豐 7-11便利商店

詳細資料

詳細資料

    • 語言
    • 中文繁體
    • 裝訂
    • 紙本平裝
    • ISBN
    • 9789863793892
    • 分級
    • 普通級
    • 頁數
    • 264
    • 商品規格
    • 23*17
    • 出版地
    • 台灣
    • 適讀年齡
    • 全齡適讀
    • 注音
    • 級別

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』,隨時掌握出貨動態:

加入金石堂LINE官方帳號『完成綁定』,隨時掌握出貨動態
金石堂LINE官方帳號綁定教學

提醒您!!
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機,請不要聽從指示,以免受騙上當!

退換貨須知:

**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**

  • 依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
    1. 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
    2. 依消費者要求所為之客製化給付。(客製化商品)
    3. 報紙、期刊或雜誌。(含MOOK、外文雜誌)
    4. 經消費者拆封之影音商品或電腦軟體。
    5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
    6. 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
  • 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
  • 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
  • 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing