好書試閱

白話大數據與機器學習

9特價432
停售
下次再買
對大數據產業的認識

「大數據」這個詞彙其實很容易產生不少誤解,尤其是這個「大」字,很容易讓人感覺,資料量必須大,而且特別大,越大越能形成產業,也越有價值。其實這是「大數據」造成的誤導。大數據產業的存在,和其他產業並無二致,本身是為了服務其他產業。

做個假設,假如現在對石油產業冠以「大石油」產業的名號,會影響石油產業本身對其他行業的服務模式嗎?應該不會。

在「大石油」產業裡,同樣有人從事這些的工作內容:石油勘探、石油開採、石油運輸、石油提煉、石油產品銷售等多個細分領域和環節。

最後提供給社會的,是由大量人力和智慧凝結在石油產品上的服務,而這些服務滿足了社會各領域對於工業能源、建築材料、食品包裝、服裝布料、模型器具、日用品等多種製造與使用的需求。試想如果沒有石油,也就沒有廉價汽車與航空動力,尤其是沒有聚乙烯等重要化工原材料的來源,連塑膠這種廉價的工業製造材料都未必能生產,那麼各個產業則需要用其他造價更為高昂的材料對其進行取代,更不用提家用的天然氣和液化石油氣了,大家只能再去尋找其他能源:可能是木柴和煤炭這些不環保的燃料,或者是價格昂貴的氫氣。我們之所以選用石油作為整個產業鏈的根源,並把它發展成一個完整的產業也是由於這樣的原因。

回頭來看「大數據」產業,資料收集、資料傳輸、資料儲存、資料建模、資料分析、資料交易貫穿了大數據產業的完整產業鏈。在這個產業鏈裡同樣蘊含著和「大石油」一樣的東西,這個東西是什麼?

經由各種軟體收集資料,利用網路傳輸,儲存至雲端資料中心,透過資料科學家或者產業專家,建模、加工,最後資料分析得到的是一種知識,是一種大家透過資料洞悉世界的能力。資料之間本來彼此錯綜複雜的潛在關係,使大量獨立而多來源的資料同時出現在一個舞臺,變得更有趣,大量看似不相關的事情卻能夠在觀察與分析後告訴我們更多背後的因果。這些因果聯繫的意義會讓大家在各個方面能夠推測未來趨勢,減少犯錯的機會,降低成本跟風險,節省人力。筆者認為這才是大數據產業本身的價值與意義所在。大數據開發方向

大數據開發方向的人才更多注重的是伺服器端開發、資料庫開發、呈現與視覺化、人機互動等銜接資料載體、各層面的資料加工,以及用戶的功能實作。

以下是大數據開發研究的主要範疇:
.資料庫開發:關鍵字有 RDBMS、NoSQL、MySQL、Hive 等。
.資料流程工具開發:關鍵字有 Flume、Heka、Fluentd、Kafka、ZMQ等。
.資料前端開發:關鍵字有 HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。
.資料擷取開發:關鍵字有爬蟲、分詞、自然語言學習、文字分類等。

可以注意到,大數據開發和大數據架構方向有很多關鍵字雖然是重複的,但是措辭不一樣,一個是「應用」,一個是「開發」。區別在於:「應用」著重的是懂得這些這種技術能為大家提供什麼功能,以及使用這種技術的優缺點,並擅長取捨;「開發」更注重的是熟練掌握,快速實作。

最後一個方面——資料獲取開發與前面的資料庫開發、資料流程工具開發、資料前端開發略有不同,它出現的時間相對較晚,應用面相對較窄。現在很多資料公司,如湯森路透、彭博等諮詢公司的資料除了從專業公司直接得到以外,也多有從網路上爬取的,這個過程中也涉及一些關鍵技術。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing