認識大數據的第一本書
活動訊息
內容簡介
完整的大數據概論
大數據是無所不包的名詞,它代表無法使用傳統資料管理工具來管理十分大量、快速、且高度多樣又複雜的資料。理想上大數據包含了所有資料類型,可用來協助我們在正確的時間,以正確的數量,傳達正確的資訊給適當的人,最終協助人們做出正確決策。本書將為管理階層與資料科學家提供完整的大數據概論。涵蓋大數據的關鍵挑戰與優點,以及組織所需的必備工具與技術,還有能從大數據獲得的好處。
本書涵蓋內容包括:
.大數據的商業應用
.頂尖組織如何應用大數據
.大數據的生態系統
.大數據的應用、入門與教學
大數據是無所不包的名詞,它代表無法使用傳統資料管理工具來管理十分大量、快速、且高度多樣又複雜的資料。理想上大數據包含了所有資料類型,可用來協助我們在正確的時間,以正確的數量,傳達正確的資訊給適當的人,最終協助人們做出正確決策。本書將為管理階層與資料科學家提供完整的大數據概論。涵蓋大數據的關鍵挑戰與優點,以及組織所需的必備工具與技術,還有能從大數據獲得的好處。
本書涵蓋內容包括:
.大數據的商業應用
.頂尖組織如何應用大數據
.大數據的生態系統
.大數據的應用、入門與教學
目錄
第1章|大數據整體介紹
第2章|大數據來源與應用
第3章|大數據架構
第4章|使用 Hadoop 進行分散式運算
第5章|運用 MapReduce 進行平行處理
第6章|NoSQL 資料庫
第7章|運用 Spark 進行串流處理
第8章|提取資料
第9章|雲端運算
第10章|網路日誌分析器應用程式個案研究
第11章|資料探勘入門
第12章|大數據程式設計入門
附錄 A|在 Virtual Box 上使用 Cloudera 安裝 Hadoop
附錄 B|在 Amazon Web Services (AWS) Elastic Compute Cluster (EC2) 上安裝 Hadoop
附錄 C|Spark 安裝與教學
第2章|大數據來源與應用
第3章|大數據架構
第4章|使用 Hadoop 進行分散式運算
第5章|運用 MapReduce 進行平行處理
第6章|NoSQL 資料庫
第7章|運用 Spark 進行串流處理
第8章|提取資料
第9章|雲端運算
第10章|網路日誌分析器應用程式個案研究
第11章|資料探勘入門
第12章|大數據程式設計入門
附錄 A|在 Virtual Box 上使用 Cloudera 安裝 Hadoop
附錄 B|在 Amazon Web Services (AWS) Elastic Compute Cluster (EC2) 上安裝 Hadoop
附錄 C|Spark 安裝與教學
序/導讀
序
大數據是一種新穎、包羅萬象、如大自然一般廣大又雜亂的自然現象。想要搞懂它的規模與範疇及其機會和挑戰,需要新型的意識。而想要了解大數據的概念,則需要抑制許多關於資料上的傳統期望與假設,像是完整性、清晰度、一致性、以及簡潔性。對大數據的理解與掌握已從夢想慢慢轉變為現實,它是一個快速演化的領域,不論在值價與能力上皆呈指數型成長。
關於大數據的書籍愈來愈多,大部分都屬於兩種類型,有些著重在商業觀點,討論若想從大數據提供的諸多機會中獲得商業利益,需要什麼樣的策略性內部轉移。另一種則是著重在特定技術平台,例如Hadoop或Spark。而本書的目標則是將商業考量與技術完美地整合在一起。
感謝Maharishi Mahesh Yogi創辦了這所美好的大學,其以意識為基礎的環境,讓撰寫這本持續演進的書得以成真。感謝許多過去與當前學生對本書的貢獻。感謝Dheeraj Pandey協助「網路日誌分析器」應用程式與其細節,Suraj Thapalia協助Hadoop的安裝指導,Enkh Tseeleesuren協助撰寫Spark教學。感謝我的家人在此過程中的支持,本書亦得到許多同事與學生的讚許。
願大數據原力與您同在!
大數據是一種新穎、包羅萬象、如大自然一般廣大又雜亂的自然現象。想要搞懂它的規模與範疇及其機會和挑戰,需要新型的意識。而想要了解大數據的概念,則需要抑制許多關於資料上的傳統期望與假設,像是完整性、清晰度、一致性、以及簡潔性。對大數據的理解與掌握已從夢想慢慢轉變為現實,它是一個快速演化的領域,不論在值價與能力上皆呈指數型成長。
關於大數據的書籍愈來愈多,大部分都屬於兩種類型,有些著重在商業觀點,討論若想從大數據提供的諸多機會中獲得商業利益,需要什麼樣的策略性內部轉移。另一種則是著重在特定技術平台,例如Hadoop或Spark。而本書的目標則是將商業考量與技術完美地整合在一起。
感謝Maharishi Mahesh Yogi創辦了這所美好的大學,其以意識為基礎的環境,讓撰寫這本持續演進的書得以成真。感謝許多過去與當前學生對本書的貢獻。感謝Dheeraj Pandey協助「網路日誌分析器」應用程式與其細節,Suraj Thapalia協助Hadoop的安裝指導,Enkh Tseeleesuren協助撰寫Spark教學。感謝我的家人在此過程中的支持,本書亦得到許多同事與學生的讚許。
願大數據原力與您同在!
試閱
大數據的應用
記錄並處理所有這些資料需要更多天賦、資源與時間。若能發揮想像力且有意義地運用此資料,將能為業務帶來好處。主要有三種商業應用類型,各有不同程度的轉化潛力。
監看與追蹤應用
此為大數據首要且最基本的應用。它們幾乎可協助所有產業改善其商業效率。以下為一些特殊的應用。
公共衛生監督
美國政府鼓勵所有醫療保健相關單位皆建立一個全國性平台以互相交流與建立資料分享標準。這將能啟動健康資料的再次運用,進而發展大數據分析系統與個人化全面精準醫學。它會是一種像Google流感趨勢這樣的廣泛平台。
消費者情感監測
社交媒體已變得比一般廣告更為有力。許多消費性商品公司已將許多廣告預算從傳統媒體轉移至社群媒體上。他們設置了大數據監聽平台(圖2.6),在那裡篩選社群媒體資料流(包括推文與Facebook貼文以及部落格貼文),並依特定客層與區域,分析特定關鍵字或情感。由此分析所得的可行動資訊,便被傳送至行銷專業人員以進行適當的行動,特別是在剛推出新產品到市場上時。
資產追蹤
美國國防部鼓勵工業界開發小型RFID晶片,用來避免最終會出現在航空電子設備或電路板等其他裝置上的偽造電子零件。飛機則為感應器重度使用者之一,它會追蹤飛機上各個部位在各層面上的效能。此資料會呈現在儀表板上,並儲存下來供稍後詳細分析。這些感應器再配合通訊裝置一起運作,便能產生大量的資料。
對零售商來說,顧客與員工的偷竊行為乃是營收損失的主要來源。店內所有高價品項可以裝上RFID標籤,並在店門口設置RF感應器。這將有助於保護產品,減少店內偷窺。
供應鏈的監看
船隻上的所有貨櫃皆使用RFID標籤來傳輸其狀態與位置。因此,零售商與其供應商便能透過全球供應鏈取得即時庫存可見度。零售商可得知各品項位於倉庫的確實位置,因而能在正確時刻送至商店。這對需要及時出售的季節性商品來說特別重要,否則便得打折出清。在所有品項皆釘上RFID下,零售商還能全盤掌握每一個品項,進而對客戶做出更好的服務。用電量追蹤
電力公司可以追蹤發電與傳輸系統的狀態,還能測量並預測電力消耗量。精密的感應器可協助監看電壓、電流、頻率、溫度、以及龐大且昂貴的配電基礎設施的其他重要運作特徵。智慧型計量器可在每小時或更短的固定間隔下測量電力消耗。這些資料再經過分析以即時做出決策,使電力產能利用率以及總產生營收皆能達到最大化。
預防性機器維護
所有機器、包括汽車與電腦,在某一時點終將損壞。他們會因為其中一個或多個元件的損壞而失靈。任何珍貴的設備可以配有感應器,從感應器而來的持續資料流經由監看與分析便能預測主要元件的狀態,因而能監看整體機器的健康狀態。預防性維護可以降低停機時間造成的成本。
分析與見解應用
此為大數據應用的下一階段,它們可以增加商業效率並具有轉化潛力。大數據經由結構化與分析而能產生見解與模型,進而改善業務。
預測性警務
洛杉磯警察局(LAPD)發明了預測性警務(Predictive Policing)的概念。LAPD協同加州大學柏克萊分校研究員,針對過去80年來1300萬筆犯罪記錄的大型資料庫進行分析,並預測特定犯罪類型在特定時間、特定地點發生的可能性。他們找出過去曾發生犯罪,而未來可能會發生犯罪的熱點(圖2.7)。在借用地震與餘震比喻而來的簡單見解後,便能以數學模型建立犯罪模式。在本質上,此模型指出一旦在某一地點發生犯罪,表示某種程度的和諧已遭到破壞,因此更可能在短期內於附近地區發生相似的犯罪。此模型為每一次警方巡邏的時間與區域,展示犯罪最可能發生的特定鄰近區域以及特定時段。
藉由將警車巡邏時程配合此模型的預測,LAPD因而能對不同的犯罪類型降低12%~26%的犯罪率。最近,舊金山警察局釋出了他們過去2年來的犯罪資料,讓資料分析師能對該資料建立模型以防範未來的犯罪。贏得政治選舉
美國總統歐巴馬乃是2008年選舉時,首位以引人注目的方式使用大數據的主要政治候選人。他是第一位大數據總統。他的競選團隊收集包括其支持者在內的數百萬選民資料。他們發明了從數百萬支持者身上獲得小量活動貢獻的機制。他們為數百萬支持者建立個人檔案,包括他們做了什麼以及能為競選活動做什麼,並使用資料來決定有機會轉換為他們陣營的游離選民。他們將這些游離選民的電話提供給志願者,這些電話拜訪的結果,再運用互動的網路應用程式即時記錄下來。歐巴馬本身使用個人Twitter帳戶來直接傳達他的訊息給數百萬的支持者。
在選舉後,歐巴馬將數千萬的支持者名單轉換為能為總統措施提供基層支持的宣傳機器。從那時起,幾乎所有選舉活動皆會使用大數據。參議員伯尼‧桑德斯使用同樣的大數據規則來打造一個有效的全國政治機器,全部都是由小型捐助者所驅動。
選舉分析師Nate Silver使用來自多次政治選舉與調查所建立的精密預測模型,打敗權威,成功預測了美國選舉的贏家。不過Nate並未成功預測唐納‧川普的崛起與最終的勝利,這也顯現了大數據的極限。
個人健康
正確診斷乃是有效治療的必要條件。醫學知識與技術正大幅度成長。IBM的「華生」系統即是一種大數據分析引擎,它吸收並消化世界上所有醫學資訊,然後聰明地套用到個人狀況上。「華生」利用目前症狀、病史、用藥記錄、以及環境趨勢和其他參數,便能提供詳細且精確的醫療診斷。類似的產品也能以App的形態授權給醫生甚至是個人使用,用以改善醫療保健的生產力與精確度。
新產品開發
此應用是先前不曾存在的全新概念,它們具有破壞整個產業的轉化潛力,並為企業創造新的獲利途徑。
彈性化的汽車保險
一家汽車保險公司使用來自汽車的GPS資料,根據旅遊模式(圖2.8)來計算意外風險。汽車公司可以使用汽車感應器資料來追蹤一台車的表現。安全駕駛將受到獎勵,而不守規矩的駕駛則會被懲罰。
依據地點的零售促銷
零售商或第三方廣告客戶,可以根據從GPS而來的地點資料、時間點、靠近的商店,並將它對照從社群媒體資料庫而來的消費者偏好資料,利用特定促銷與折價券來鎖定客戶。廣告與優惠可以透過行動app、SMS與電子郵件來傳送,這些皆是行動app的例子。推薦服務
電子商務是近幾十年來成長快速的產業。各式各樣的產品透過網際網路販售與分享。網路使用者在電子商務網站上的瀏覽與購買歷史,可用來學習用戶的偏好與需求,並用來即時投放相關產品與價格優惠的廣告。Amazon使用個人化推薦引擎系統,根據各種產品的雷同性來建議消費者額外的新產品。Netflix亦使用推薦引擎來對其用者建議娛樂選項。
記錄並處理所有這些資料需要更多天賦、資源與時間。若能發揮想像力且有意義地運用此資料,將能為業務帶來好處。主要有三種商業應用類型,各有不同程度的轉化潛力。
監看與追蹤應用
此為大數據首要且最基本的應用。它們幾乎可協助所有產業改善其商業效率。以下為一些特殊的應用。
公共衛生監督
美國政府鼓勵所有醫療保健相關單位皆建立一個全國性平台以互相交流與建立資料分享標準。這將能啟動健康資料的再次運用,進而發展大數據分析系統與個人化全面精準醫學。它會是一種像Google流感趨勢這樣的廣泛平台。
消費者情感監測
社交媒體已變得比一般廣告更為有力。許多消費性商品公司已將許多廣告預算從傳統媒體轉移至社群媒體上。他們設置了大數據監聽平台(圖2.6),在那裡篩選社群媒體資料流(包括推文與Facebook貼文以及部落格貼文),並依特定客層與區域,分析特定關鍵字或情感。由此分析所得的可行動資訊,便被傳送至行銷專業人員以進行適當的行動,特別是在剛推出新產品到市場上時。
資產追蹤
美國國防部鼓勵工業界開發小型RFID晶片,用來避免最終會出現在航空電子設備或電路板等其他裝置上的偽造電子零件。飛機則為感應器重度使用者之一,它會追蹤飛機上各個部位在各層面上的效能。此資料會呈現在儀表板上,並儲存下來供稍後詳細分析。這些感應器再配合通訊裝置一起運作,便能產生大量的資料。
對零售商來說,顧客與員工的偷竊行為乃是營收損失的主要來源。店內所有高價品項可以裝上RFID標籤,並在店門口設置RF感應器。這將有助於保護產品,減少店內偷窺。
供應鏈的監看
船隻上的所有貨櫃皆使用RFID標籤來傳輸其狀態與位置。因此,零售商與其供應商便能透過全球供應鏈取得即時庫存可見度。零售商可得知各品項位於倉庫的確實位置,因而能在正確時刻送至商店。這對需要及時出售的季節性商品來說特別重要,否則便得打折出清。在所有品項皆釘上RFID下,零售商還能全盤掌握每一個品項,進而對客戶做出更好的服務。用電量追蹤
電力公司可以追蹤發電與傳輸系統的狀態,還能測量並預測電力消耗量。精密的感應器可協助監看電壓、電流、頻率、溫度、以及龐大且昂貴的配電基礎設施的其他重要運作特徵。智慧型計量器可在每小時或更短的固定間隔下測量電力消耗。這些資料再經過分析以即時做出決策,使電力產能利用率以及總產生營收皆能達到最大化。
預防性機器維護
所有機器、包括汽車與電腦,在某一時點終將損壞。他們會因為其中一個或多個元件的損壞而失靈。任何珍貴的設備可以配有感應器,從感應器而來的持續資料流經由監看與分析便能預測主要元件的狀態,因而能監看整體機器的健康狀態。預防性維護可以降低停機時間造成的成本。
分析與見解應用
此為大數據應用的下一階段,它們可以增加商業效率並具有轉化潛力。大數據經由結構化與分析而能產生見解與模型,進而改善業務。
預測性警務
洛杉磯警察局(LAPD)發明了預測性警務(Predictive Policing)的概念。LAPD協同加州大學柏克萊分校研究員,針對過去80年來1300萬筆犯罪記錄的大型資料庫進行分析,並預測特定犯罪類型在特定時間、特定地點發生的可能性。他們找出過去曾發生犯罪,而未來可能會發生犯罪的熱點(圖2.7)。在借用地震與餘震比喻而來的簡單見解後,便能以數學模型建立犯罪模式。在本質上,此模型指出一旦在某一地點發生犯罪,表示某種程度的和諧已遭到破壞,因此更可能在短期內於附近地區發生相似的犯罪。此模型為每一次警方巡邏的時間與區域,展示犯罪最可能發生的特定鄰近區域以及特定時段。
藉由將警車巡邏時程配合此模型的預測,LAPD因而能對不同的犯罪類型降低12%~26%的犯罪率。最近,舊金山警察局釋出了他們過去2年來的犯罪資料,讓資料分析師能對該資料建立模型以防範未來的犯罪。贏得政治選舉
美國總統歐巴馬乃是2008年選舉時,首位以引人注目的方式使用大數據的主要政治候選人。他是第一位大數據總統。他的競選團隊收集包括其支持者在內的數百萬選民資料。他們發明了從數百萬支持者身上獲得小量活動貢獻的機制。他們為數百萬支持者建立個人檔案,包括他們做了什麼以及能為競選活動做什麼,並使用資料來決定有機會轉換為他們陣營的游離選民。他們將這些游離選民的電話提供給志願者,這些電話拜訪的結果,再運用互動的網路應用程式即時記錄下來。歐巴馬本身使用個人Twitter帳戶來直接傳達他的訊息給數百萬的支持者。
在選舉後,歐巴馬將數千萬的支持者名單轉換為能為總統措施提供基層支持的宣傳機器。從那時起,幾乎所有選舉活動皆會使用大數據。參議員伯尼‧桑德斯使用同樣的大數據規則來打造一個有效的全國政治機器,全部都是由小型捐助者所驅動。
選舉分析師Nate Silver使用來自多次政治選舉與調查所建立的精密預測模型,打敗權威,成功預測了美國選舉的贏家。不過Nate並未成功預測唐納‧川普的崛起與最終的勝利,這也顯現了大數據的極限。
個人健康
正確診斷乃是有效治療的必要條件。醫學知識與技術正大幅度成長。IBM的「華生」系統即是一種大數據分析引擎,它吸收並消化世界上所有醫學資訊,然後聰明地套用到個人狀況上。「華生」利用目前症狀、病史、用藥記錄、以及環境趨勢和其他參數,便能提供詳細且精確的醫療診斷。類似的產品也能以App的形態授權給醫生甚至是個人使用,用以改善醫療保健的生產力與精確度。
新產品開發
此應用是先前不曾存在的全新概念,它們具有破壞整個產業的轉化潛力,並為企業創造新的獲利途徑。
彈性化的汽車保險
一家汽車保險公司使用來自汽車的GPS資料,根據旅遊模式(圖2.8)來計算意外風險。汽車公司可以使用汽車感應器資料來追蹤一台車的表現。安全駕駛將受到獎勵,而不守規矩的駕駛則會被懲罰。
依據地點的零售促銷
零售商或第三方廣告客戶,可以根據從GPS而來的地點資料、時間點、靠近的商店,並將它對照從社群媒體資料庫而來的消費者偏好資料,利用特定促銷與折價券來鎖定客戶。廣告與優惠可以透過行動app、SMS與電子郵件來傳送,這些皆是行動app的例子。推薦服務
電子商務是近幾十年來成長快速的產業。各式各樣的產品透過網際網路販售與分享。網路使用者在電子商務網站上的瀏覽與購買歷史,可用來學習用戶的偏好與需求,並用來即時投放相關產品與價格優惠的廣告。Amazon使用個人化推薦引擎系統,根據各種產品的雷同性來建議消費者額外的新產品。Netflix亦使用推薦引擎來對其用者建議娛樂選項。
配送方式
-
台灣
- 國內宅配:本島、離島
-
到店取貨:
不限金額免運費
-
海外
- 國際快遞:全球
-
港澳店取:
訂購/退換貨須知
退換貨須知:
**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
商品評價