一股洶湧澎湃的「Big Data 浪潮」已經以排山倒海之勢,迅速推進,不可阻擋。未來的一二十年顯然將是由「巨量資料」推動和引導下的全面智慧化時代。
只要回憶一下資訊化的快速發展,就不可能懷疑Big Data 時代的巨大變化。從記憶猶新的資訊時代開啟,我們就在層出不窮的新生事物面前,目不暇接,以致眼花繚亂⋯⋯行動電話、個人電腦、光碟機、隨身硬碟、寬頻、網際網路、搜尋引擎、部落格、微網誌、視訊等等,爭先恐後,接踵而來;社交網路、電子商務、網路教育、虛擬社群序貫成熟,連綿不斷;行動寬頻迅速提升,雲端運算、物聯網包羅萬象,應用方式如此豐富多彩。更多的傳感裝置、行動終端接入到網路,開啟了以幾何級數增長的資料閘門,不斷地以更快、更多、更大的規模而來,既帶來史無前例的巨量資訊──這些資訊都表現為一致性的數位資訊,同時也使人類陷入巨量資料的汪洋大海包圍之中,幾乎是在一眨眼之間,推動或改變著一切。
每個人都無法避免,同時亦喜亦憂:資訊公開污穢不堪的黑幕,也暴露了難以置信的隱私;無處不在的攝影機,使你享受安全也失去自我。一切都暴露在光天化日之下:有時候,我們因此洞察秋毫,極目千里,連月球的飛塵化學成分和火星上的極冰都瞭若指掌;有時候又因眾目睽睽、無處躲藏而惶恐不安;過去,我們因孤陋寡聞而決策錯誤,現在在巨量資料的漩渦中,又因資訊太多而無所適從,不知所措⋯⋯
然而,歷史不是突如其來的暴風驟雨,巨量資料的風帆早已潛伏在人類進步的浪潮中醞釀起航!1.1 Big Data 前夜的資料探索
1.1.1 Big Data 概念
大數據一詞來源於英文Big data,2012 年前,一直稱為巨量資料。在20 世紀80 年代有電腦專家提出過模糊的「Big Data」一詞,80 年代《第三次浪潮》的作者阿爾文.托夫勒(Alvin Toffler)在他這本著名的書中,曾使用了Big Data 這個詞。2012 年初,全球知名的諮詢公司麥肯錫(McKinsey)最早使用今天為大家理解的「BigData」概念,一般意義上,大家認為它的資料量巨大,超過PE 等級(1015 ∼ 1018 位元組),包含結構性資料、半結構性資料和非結構性資料。國際著名的巨量資料專家布里克.喬什.克拉認為:關於巨量資料的量是多少目前尚無統一說法,每個客戶都有自己的定義,一般在10T(tear)位元組到1P(peat)位元組(1T=1012,1P=1015)。除了資料量之外,還有種類和速度,用這3 個維度(通常稱為3V,即Volume 大量、Variety 多樣、Velocity 高速)來描述巨量資料。也可增加一個維度Value(價值極大但密度很低),稱為4V。速度應用即時,種類為多媒體。巨量資料處理的應用模式包括搜索(如Google,Yahoo)、社交網站(如Facebook)、行動應用(如app store,雲端儲存)、計算服務(如Google Big Query)、商業智慧(如BI → BA)等。
早在1940 年代,控制論之父維納(Wiener)已開始討論這種機器,它能收集各種類型資訊,生產的、市場的、人類心理的,然後據此確定事情發生的機率。而那時,電腦還沒有誕生。
Jim Gray 回憶,1969 年之前,他在柏克萊攻讀博士時,就已與一些同事將電腦科學應用於社會問題研究,這也是他後來一直研究的主題之一。他在微軟研究院領導的專案名稱就叫science,很多工作是將微軟的各種計算資源開放給其他學科的學術界同行,解決那些資料密集型的課題,獲得了豐碩的成果。2007 年Jim Gray,在美國國家科學研究委員會發表演講時指出,科學研究已經從幾千年前的經驗、幾百年前的理論模型、幾十年前的計算模擬,進入第四階段──資料探索。在此階段,科學家依靠各種儀器、感測器獲取資料,或者通過模擬產生資料,然後用軟體進行處理,將得到的資訊/ 知識儲存在電腦中,再由科學家借助各種統計和資料工具進行分析和視覺化。這基本上是巨量資料處理的經典定義。巨量資料的概念在一年前興起,但從未有人對這個概念明確定性、定量和定義。儘管這樣,我們仍然可以看到,在資訊大爆炸的時代,每天以數百萬tear 位元組(TB)的新資料誕生,到巨量資料的收集、整理、加工、分析,從中提取有效資訊,產生了巨量資料研究開發。
巨量資料處理技術是很多種技術的某種集合,主要包括了分析技術、記憶體中資料庫、Nasal 資料庫和分散式運算技術。目前,技術上都是以解決傳統關聯式資料庫在處理巨量資料方面的不足為切入點,且發展迅速。當然,事物的兩面性決定了上述技術不是萬能的,關聯式資料庫40 多年的發展也證明了其自身的價值,並且不是輕易被取代的,因此也逐漸出現了相互融合的應用模式。
在巨量資料處理領域,共通性和開放原始碼更是有著至關重要的作用。現代資訊技術發展的趨勢是開放原始碼,強調共通性創造和共同分享。可以看到,在推動現代資訊技術的發展上,共通性創造模式和開放原始碼技術已成為一股不可忽視的力量,甚至有成為技術發展主流的徵兆。這一點給技術相對落後的國家和企業一個極大的機會,這種趨勢客觀地把技術先進與落後的差距拉近了,使落後者實現創新和自主的可能性大大增強。
1.1.2 賭博中的科學
人類的發展與對資料的認識分不開。最初,人類接觸的都是小資料,隨著人類活動能力的提高,資料量越來越大,然而,人類處理資料的能力越來越力不從心,如何從巨量資料中經濟節約地找到有用的資料就成為一個緊迫的任務。
最具戲劇性的是, 應該說, 貪婪是巨大的動力,賭博的需要給人類提出了資料分析的要求。在希羅多德(Herodotos,約前484 年∼約前425 年,古希臘歷史學家,生於小亞細亞的哈利卡那索斯城)的巨著《歷史》中記錄到,早在西元前1500 年,埃及人就有一種遊戲,人們經常聚集在一起擲骰子,作為賭博的工具。以後,又發明了六面立方體的骰子,在每個面上刻上數字。
到17 世紀,法國貴族德.梅勒(De Cetin)在骰子賭博中,想要知道如果賭博雙方各出30 個金幣賭資,依靠對勝負的預測進行分配,要用什麼樣的比例分配才合理?德.梅勒向當時法國最具聲望的數學家帕斯卡(Blaise Pascal,1623 ∼1662 年,是法國數學家、物理學家、思想家)請教。
帕斯卡就此與另一位數學家費馬(Pierre de Fermat,1601 ∼ 1665 年)通信,就這樣,產生了機率論。賭博的目的是贏錢,每一個賭徒都希望下一次是贏錢。而事實上,因為每一次擲骰子都是隨機事件,好像是靠運氣,每個人的「運氣」都獨立於他人的「運氣」,並不因為前一個人中獎或沒有中獎,你就多了或少了中獎的機會。因此,對每一個賭徒來說機會都是平等的,都有同樣極大的吸引力。雖然賭場當時也不知道機率的法則支配著輸贏,但賭場靠的是眾多的賭徒人次,如果賭徒不停地賭下去,就會形成一個極大賭博行為的巨量資料基數,每一次隨機得到的輸贏就會累積成一個穩定的統計資料。只要賭場背後設計好賠率,無論賭客每一次下注是輸是贏,都是隨機事件,以機率的觀點,賭場因為掌握著「巨量資料」的秘密,根據事先設計好的賠率,賭場總是穩贏不輸的,機率總是站在賭場一邊。
例如拋硬幣,即使你前面100 個人拋硬幣,並且沒有一個人拋出正面,現在輪到你拋,從機率說,似乎是你的可能性很大了,但實際上你與任何前後的拋硬幣者機會一樣。每個人拋的那一次,都「獨立」於其餘的人。
賭場往往利用這一點來引誘賭徒,在告示上表明已經有多少賭徒賭過,沒有中,好像你的機會到了,而實際上,大家彼此彼此。
機率論是人類掌握小資料研究方法以後,在面對巨量資料時,所創造出來的研究方法。它研究的是統計規律問題,也可以說是在巨量資料基礎上挖掘小資料。正如19 世紀法國著名數學家拉普拉斯(Pierre Sismon Laplace,1749 ∼ 1827年)所說:「我們所掌握的所有知識都是不確定的,只有一小部分我們能確定地瞭解⋯⋯對於生活中的大部分,最重要的問題實際上只是機率問題。」
1899 年, 英國統計學家威廉. 戈塞(William Sealy Gosset,1876 ∼ 1937 年,小樣本理論研究的先驅,是一位化學家、數學家與統計學家)在都柏林的一家釀酒公司擔任釀造化學技師,他很滿意這份工作,因為他可以一邊喝啤酒一邊做科學研究。他把自己的專業與釀造化學結合起來。然而,由於做實驗用的麥子數量有限,無法採用大樣本觀察,戈塞想了一個辦法,利用小樣本進行分析。這就存在兩個問題,一是如何解決誤差?二是如何得到較為可靠的結果?經過反覆研究實驗,戈塞建立小樣本理論,1908 年戈塞在《生物計量學》雜誌上發表了「平均數的機率誤差」。他很謙虛地以「學生」(student)為筆名,由此確立了「學生t 檢驗」的基礎。
只要回憶一下資訊化的快速發展,就不可能懷疑Big Data 時代的巨大變化。從記憶猶新的資訊時代開啟,我們就在層出不窮的新生事物面前,目不暇接,以致眼花繚亂⋯⋯行動電話、個人電腦、光碟機、隨身硬碟、寬頻、網際網路、搜尋引擎、部落格、微網誌、視訊等等,爭先恐後,接踵而來;社交網路、電子商務、網路教育、虛擬社群序貫成熟,連綿不斷;行動寬頻迅速提升,雲端運算、物聯網包羅萬象,應用方式如此豐富多彩。更多的傳感裝置、行動終端接入到網路,開啟了以幾何級數增長的資料閘門,不斷地以更快、更多、更大的規模而來,既帶來史無前例的巨量資訊──這些資訊都表現為一致性的數位資訊,同時也使人類陷入巨量資料的汪洋大海包圍之中,幾乎是在一眨眼之間,推動或改變著一切。
每個人都無法避免,同時亦喜亦憂:資訊公開污穢不堪的黑幕,也暴露了難以置信的隱私;無處不在的攝影機,使你享受安全也失去自我。一切都暴露在光天化日之下:有時候,我們因此洞察秋毫,極目千里,連月球的飛塵化學成分和火星上的極冰都瞭若指掌;有時候又因眾目睽睽、無處躲藏而惶恐不安;過去,我們因孤陋寡聞而決策錯誤,現在在巨量資料的漩渦中,又因資訊太多而無所適從,不知所措⋯⋯
然而,歷史不是突如其來的暴風驟雨,巨量資料的風帆早已潛伏在人類進步的浪潮中醞釀起航!1.1 Big Data 前夜的資料探索
1.1.1 Big Data 概念
大數據一詞來源於英文Big data,2012 年前,一直稱為巨量資料。在20 世紀80 年代有電腦專家提出過模糊的「Big Data」一詞,80 年代《第三次浪潮》的作者阿爾文.托夫勒(Alvin Toffler)在他這本著名的書中,曾使用了Big Data 這個詞。2012 年初,全球知名的諮詢公司麥肯錫(McKinsey)最早使用今天為大家理解的「BigData」概念,一般意義上,大家認為它的資料量巨大,超過PE 等級(1015 ∼ 1018 位元組),包含結構性資料、半結構性資料和非結構性資料。國際著名的巨量資料專家布里克.喬什.克拉認為:關於巨量資料的量是多少目前尚無統一說法,每個客戶都有自己的定義,一般在10T(tear)位元組到1P(peat)位元組(1T=1012,1P=1015)。除了資料量之外,還有種類和速度,用這3 個維度(通常稱為3V,即Volume 大量、Variety 多樣、Velocity 高速)來描述巨量資料。也可增加一個維度Value(價值極大但密度很低),稱為4V。速度應用即時,種類為多媒體。巨量資料處理的應用模式包括搜索(如Google,Yahoo)、社交網站(如Facebook)、行動應用(如app store,雲端儲存)、計算服務(如Google Big Query)、商業智慧(如BI → BA)等。
早在1940 年代,控制論之父維納(Wiener)已開始討論這種機器,它能收集各種類型資訊,生產的、市場的、人類心理的,然後據此確定事情發生的機率。而那時,電腦還沒有誕生。
Jim Gray 回憶,1969 年之前,他在柏克萊攻讀博士時,就已與一些同事將電腦科學應用於社會問題研究,這也是他後來一直研究的主題之一。他在微軟研究院領導的專案名稱就叫science,很多工作是將微軟的各種計算資源開放給其他學科的學術界同行,解決那些資料密集型的課題,獲得了豐碩的成果。2007 年Jim Gray,在美國國家科學研究委員會發表演講時指出,科學研究已經從幾千年前的經驗、幾百年前的理論模型、幾十年前的計算模擬,進入第四階段──資料探索。在此階段,科學家依靠各種儀器、感測器獲取資料,或者通過模擬產生資料,然後用軟體進行處理,將得到的資訊/ 知識儲存在電腦中,再由科學家借助各種統計和資料工具進行分析和視覺化。這基本上是巨量資料處理的經典定義。巨量資料的概念在一年前興起,但從未有人對這個概念明確定性、定量和定義。儘管這樣,我們仍然可以看到,在資訊大爆炸的時代,每天以數百萬tear 位元組(TB)的新資料誕生,到巨量資料的收集、整理、加工、分析,從中提取有效資訊,產生了巨量資料研究開發。
巨量資料處理技術是很多種技術的某種集合,主要包括了分析技術、記憶體中資料庫、Nasal 資料庫和分散式運算技術。目前,技術上都是以解決傳統關聯式資料庫在處理巨量資料方面的不足為切入點,且發展迅速。當然,事物的兩面性決定了上述技術不是萬能的,關聯式資料庫40 多年的發展也證明了其自身的價值,並且不是輕易被取代的,因此也逐漸出現了相互融合的應用模式。
在巨量資料處理領域,共通性和開放原始碼更是有著至關重要的作用。現代資訊技術發展的趨勢是開放原始碼,強調共通性創造和共同分享。可以看到,在推動現代資訊技術的發展上,共通性創造模式和開放原始碼技術已成為一股不可忽視的力量,甚至有成為技術發展主流的徵兆。這一點給技術相對落後的國家和企業一個極大的機會,這種趨勢客觀地把技術先進與落後的差距拉近了,使落後者實現創新和自主的可能性大大增強。
1.1.2 賭博中的科學
人類的發展與對資料的認識分不開。最初,人類接觸的都是小資料,隨著人類活動能力的提高,資料量越來越大,然而,人類處理資料的能力越來越力不從心,如何從巨量資料中經濟節約地找到有用的資料就成為一個緊迫的任務。
最具戲劇性的是, 應該說, 貪婪是巨大的動力,賭博的需要給人類提出了資料分析的要求。在希羅多德(Herodotos,約前484 年∼約前425 年,古希臘歷史學家,生於小亞細亞的哈利卡那索斯城)的巨著《歷史》中記錄到,早在西元前1500 年,埃及人就有一種遊戲,人們經常聚集在一起擲骰子,作為賭博的工具。以後,又發明了六面立方體的骰子,在每個面上刻上數字。
到17 世紀,法國貴族德.梅勒(De Cetin)在骰子賭博中,想要知道如果賭博雙方各出30 個金幣賭資,依靠對勝負的預測進行分配,要用什麼樣的比例分配才合理?德.梅勒向當時法國最具聲望的數學家帕斯卡(Blaise Pascal,1623 ∼1662 年,是法國數學家、物理學家、思想家)請教。
帕斯卡就此與另一位數學家費馬(Pierre de Fermat,1601 ∼ 1665 年)通信,就這樣,產生了機率論。賭博的目的是贏錢,每一個賭徒都希望下一次是贏錢。而事實上,因為每一次擲骰子都是隨機事件,好像是靠運氣,每個人的「運氣」都獨立於他人的「運氣」,並不因為前一個人中獎或沒有中獎,你就多了或少了中獎的機會。因此,對每一個賭徒來說機會都是平等的,都有同樣極大的吸引力。雖然賭場當時也不知道機率的法則支配著輸贏,但賭場靠的是眾多的賭徒人次,如果賭徒不停地賭下去,就會形成一個極大賭博行為的巨量資料基數,每一次隨機得到的輸贏就會累積成一個穩定的統計資料。只要賭場背後設計好賠率,無論賭客每一次下注是輸是贏,都是隨機事件,以機率的觀點,賭場因為掌握著「巨量資料」的秘密,根據事先設計好的賠率,賭場總是穩贏不輸的,機率總是站在賭場一邊。
例如拋硬幣,即使你前面100 個人拋硬幣,並且沒有一個人拋出正面,現在輪到你拋,從機率說,似乎是你的可能性很大了,但實際上你與任何前後的拋硬幣者機會一樣。每個人拋的那一次,都「獨立」於其餘的人。
賭場往往利用這一點來引誘賭徒,在告示上表明已經有多少賭徒賭過,沒有中,好像你的機會到了,而實際上,大家彼此彼此。
機率論是人類掌握小資料研究方法以後,在面對巨量資料時,所創造出來的研究方法。它研究的是統計規律問題,也可以說是在巨量資料基礎上挖掘小資料。正如19 世紀法國著名數學家拉普拉斯(Pierre Sismon Laplace,1749 ∼ 1827年)所說:「我們所掌握的所有知識都是不確定的,只有一小部分我們能確定地瞭解⋯⋯對於生活中的大部分,最重要的問題實際上只是機率問題。」
1899 年, 英國統計學家威廉. 戈塞(William Sealy Gosset,1876 ∼ 1937 年,小樣本理論研究的先驅,是一位化學家、數學家與統計學家)在都柏林的一家釀酒公司擔任釀造化學技師,他很滿意這份工作,因為他可以一邊喝啤酒一邊做科學研究。他把自己的專業與釀造化學結合起來。然而,由於做實驗用的麥子數量有限,無法採用大樣本觀察,戈塞想了一個辦法,利用小樣本進行分析。這就存在兩個問題,一是如何解決誤差?二是如何得到較為可靠的結果?經過反覆研究實驗,戈塞建立小樣本理論,1908 年戈塞在《生物計量學》雜誌上發表了「平均數的機率誤差」。他很謙虛地以「學生」(student)為筆名,由此確立了「學生t 檢驗」的基礎。