第一章 數據驅動的新時代
「大數據」(Big Data)一詞最早來自《紐約時報》(The New York Times),在2012年2月,一篇專欄文章提到:「『大數據』時代已經來臨,在商業、經濟及其他領域中,決策將日益基於數據和分析作出,而並非基於經驗和直覺。」「當時時變幻的、巨量的數據出現在眼前,是怎樣一幅壯觀的景象?在後臺注視著這一切,會不會有上帝俯視人間星火的感覺?」
1.1 萬物皆數
「數是萬物的根源」,微小似一粒塵、一隻蟲、一片葉、一塊石、一枝梅、一縷煙、三分鐘熱風、一時雨;浩瀚如一座山、一片海、一彎月、點點星光、渺渺星雲、茫茫宇宙……所有的一切都可以為「數」所描述。自然依據內在的規律運轉,自然的規律透過不斷重複試驗的方式,為數據所揭示。
1.1.1 數的根源
數學文化史的研究顯示,古代數學作為一個在文化系統裡操作運算的子系統,一開始就具有雙重功能,即數量性功能和神祕性功能。而不同民族文化所展示的數據或數學,都在特定的文化氛圍中有某些神祕性,且不同民族數學的發展道路是各不相同的。
文字最早起源於大自然物體的形態,但是在漫長的演化過程中,絕大多數文字都脫離根源,與原意沒有關係,變成毫無意義的字母與字元。英語、法語、德語、俄語、拉丁語等所有非象形文字語種更甚,基本上失去語言本來的意義與價值。
依照文獻的記載,漢字的起源有多種說法,比如結繩、八卦、書契、巖畫、陶符、籌碼等,還有黃帝的史官倉頡造字的傳說。當然系統化的文字型系不可能由一個人創造出來,如果倉頡確有其人,應該是文字的整理者或頒布者。
數字的起源如同文字的起源一樣古老。阿拉伯數字發源於古代印度,後來被阿拉伯人掌握、改進並傳到西方。早期計數系統有:西元前3,400年前後的古埃及象形數字;西元前2,400年前後的巴比倫楔形數字;西元前1,600年前後的中國甲骨文數字;西元前500年前後的希臘阿提卡數字;西元前500年前後的中國籌算數字;西元前300年前後的印度婆羅門數字,以及年代不詳的馬雅數字。其中巴比倫楔形數字採用六十進位制、馬雅數字採用二十進位制,其他均採用十進位制。計數系統的出現,使人類文明向前邁進一大步,隨著生產力的持續發展和數字的持續完善,數學逐漸發展起來。
數學源於生活且高於生活,從具象的生產和生活中被抽象出來,成為解決計算問題的學科和科學,具有一定的超前性。「萬物皆數」顯示:所有事物的形態和執行,從底層來說,都是把事物轉為數據化對應,事物規律都是由數學規律所決定的。「萬物皆數」是人類認知與改造世界持續進步、從唯心主義走向唯物主義的必然。
數字只是一種符號化的、用來表示某種特徵的程度或狀態的原始資訊,沒有被應用到特定的場合。根據數字所代表的原始資訊,建立適當的數學模型,經過帶有指向性的加工,被應用到合適的場所,轉變為有影響的數據,從而幫助人們理解事物的本質、完成特定的任務,才有實際的意義,這就是數字的數據化過程。
1.1.2 數據科學(data science,又稱資料科學)
凡是發生過的事件都會留下痕跡,而數據的作用則是將這些痕跡記錄下來。每天,當我們生活在社區、工作在辦公區、娛樂在電影院、鍛鍊在健身房、消費在購物中心、出行在高速公路,享受著數據化生活的便利時,一切都顯得那麼自然。每一個動作都被流量的數據和無盡的網路串聯起來,隨時隨地都能看到數據的身影。
(1)含義和分類
數據(Data)是指對客觀事件進行的紀錄且可以鑑別的符號,是對客觀事物的性質、狀態以及相互關係進行記載的物理符號或組合,以文字、數字、影像等多種形式存在。數據是未經加工的原始素材、主體對客體進行觀察和表達的結果、對事實的邏輯歸納。
在電腦科學中,數據是所有能夠輸入電腦且被程式處理的符號介質的總稱。這些符號介質是具有一定意義的數據、字母、符號和模擬量等,以二進位制資訊位元0、1的形式表示和儲存。電腦處理的對象十分廣泛,表示對象的數據也變得越來越複雜。
在多數人的理解中,數字就是數據。其實不然,數據的範疇大得多,包括數字、文字、影像、聲音、影片,甚至是動作、行為。數據的範疇隨著社會和經濟的發展不斷演進,例如以前的文字和語言並不被認為是數據,而在電腦出現後,已經成為通訊、翻譯等重要領域的核心數據。
數據分類就是把相同屬性或特徵的數據劃分在一起,形成不同的類別,以便透過不同的類別對數據進行查詢、辨識、使用和保護;當然更多的是從管理業務的角度出發,例如數據的來源、產業、事務、開放、共享等。
(2)資訊和知識
「數據是資訊的媒介,資訊是數據的含義。」隨著數據的不斷成長,經過大量累積之後,就形成數據資源。在數據資源中把蘊含的價值線索提取出來,即經過加工處理後,得到另一種形式的結構化數據,就是資訊。例如,每個人看過一部電影後都有自己的感受,電影就是數據,而經過每個人大腦處理後的感受,就是資訊。
資訊是帶有判斷的表達,數據是反映事實的紀錄。對於數據和資訊的評價是有差別的:數據可以用準不準,而資訊要用對不對。數據的表達通常只是有偏差,而資訊表達很可能完全背離本質。
數據是存在於電腦系統中的介質符號;資訊是自然界、人類社會及人類思維活動中存在和發生的現象;知識是人們在實踐中所獲得的認知和經驗。數據可以作為資訊和知識的符號或者媒介,但是數據本身並不是資訊或者知識。
數據和資訊是影響個體情勢判斷和整體共同行為的基本驅動性因素。資訊本來應該、且可以是充分研究和科學論證後的嚴謹判斷,然而由於傳遞資訊的主體無須對資訊的對錯以及由此造成的負面結果承擔責任,社會的各種主體和個體出於不同的目的,總會想把各式各樣的資訊傳遞到消費者面前,由此產生「資訊混亂」和「資訊矛盾」,也使資訊價值大幅度降低。往往由於缺乏足夠的、準確的數據來幫助我們評價事物,不得不習慣性使用資訊來代替,導致的結果就是被獲得的資訊所俘獲,造成「羊群效應」(每一個個體就是一隻羊,而傳遞出的資訊就是那根趕羊的竿子)。
(3)數據化和數據科學
以色列歷史學家尤瓦爾.哈拉瑞在《人類大命運:從智人到智神》(Homo Deus: A Brief History of Tomorrow)中寫道:「人類將進入數據主義(Dataism)時代,在這個時代,每個人都應該信奉一條格言,如果你經歷某件事,把它記錄下來;如果你記錄某件事,把它上傳。如果你上傳某件事並且分享它,這意味著每個人都成為數據的採集、處理和分享者。這當然是數據從業者所嚮往的一種理想狀態。」
數據在各行各業的影響力正與日俱增,充斥在生產和生活的各方面,比如金融、醫療、製藥、生物資訊、公共福利、政府、教育、零售、網路購物、通訊、瀏覽新聞、收聽線上音樂、搜尋、在網路上表達觀點……這些行為都會被記錄,變成一個個位元組儲存起來。對線上數據和線下數據的採集方式不斷革新,人們的日常行為也被「數據化」(Datafication)。
數據化無所不在,從身為實驗對象參與到社群媒體實驗中,到接受全面調查,再到被人祕密跟蹤,這些都是被數據化的典型案例,代表數據化過程中個人意願從高到低的各種情形。
必須尊重他人的意願——是否自願與人們分享自己的數據。
比如在網路上為某人或某件東西「點讚」時,人們就算不是故意讓自己的行為「被數據化」,至少也清楚自己的行為會被記錄下來。有時卻不然,比如只是隨意瀏覽一些網站,然而我們的行為卻被網站上的cookie記錄下來;再如人們只是走在大街上,就會被各種感測器、攝影機監測,或者被Google眼鏡拍攝,行為被當作數據儲存下來,但是這種數據化並非出於個人的意願。
數據科學是一門新時代的混合交叉學科,使用科學的理論、演算法和過程,從結構化或非結構化的數據中獲取知識與洞見、發現隱藏的模式,展現應用驅動基礎理論創新的特點,成為除實驗、理論模型、計算模擬之外的第四大科學發現方式。
數據科學即「數據的科學」和「科學的數據」,包括一整套技能和技術,即數學、計算、視覺、分析、最佳化、統計、試驗、問題界定、建立假設、選擇演算法、模型建立、結果檢驗與視覺化等,涉及三個不同的領域,即程式設計領域(電腦語言知識、語言庫、設計模式、體系結構等)、數學(代數、微積分等)和統計學領域、數據領域(特定領域的知識,如醫療、金融、工業等)。數據科學的知識體系主要以統計學、機器學習、數據視覺化以及某一領域專業知識為理論基礎,其主要研究內容包括數據科學基礎理論、數據加工、數據計算、數據管理、數據分析和數據產品開發。
數據產品在數據科學中具有特殊的含義——基於數據開發的產品的統稱。數據產品開發是數據科學的主要研究使命之一,也是數據科學有別於其他科學的重要因素。與傳統產品開發不同的是,數據產品開發具有以數據為中心、多樣性、層次性和增值性等特徵。數據產品開發能力也是數據科學家的主要競爭力。
數據科學日益變得有實用性和趣味性,不僅僅是因為數據本身的規模增加,更多的是因為數據本身成為建構即時數據產品的關鍵要素。在網路上,有亞馬遜(Amazon)的商品推薦系統、臉書(Facebook)的朋友推薦系統,還有其他電影、音樂等推薦系統;在金融業,有信用評級和篩選系統、交易演算法和模型;在教育領域,可以根據學生的差別,量身製作個性化教學;在政府機構,則意味著以數據為基礎去制定和實施公共政策。
「大數據」(Big Data)一詞最早來自《紐約時報》(The New York Times),在2012年2月,一篇專欄文章提到:「『大數據』時代已經來臨,在商業、經濟及其他領域中,決策將日益基於數據和分析作出,而並非基於經驗和直覺。」「當時時變幻的、巨量的數據出現在眼前,是怎樣一幅壯觀的景象?在後臺注視著這一切,會不會有上帝俯視人間星火的感覺?」
1.1 萬物皆數
「數是萬物的根源」,微小似一粒塵、一隻蟲、一片葉、一塊石、一枝梅、一縷煙、三分鐘熱風、一時雨;浩瀚如一座山、一片海、一彎月、點點星光、渺渺星雲、茫茫宇宙……所有的一切都可以為「數」所描述。自然依據內在的規律運轉,自然的規律透過不斷重複試驗的方式,為數據所揭示。
1.1.1 數的根源
數學文化史的研究顯示,古代數學作為一個在文化系統裡操作運算的子系統,一開始就具有雙重功能,即數量性功能和神祕性功能。而不同民族文化所展示的數據或數學,都在特定的文化氛圍中有某些神祕性,且不同民族數學的發展道路是各不相同的。
文字最早起源於大自然物體的形態,但是在漫長的演化過程中,絕大多數文字都脫離根源,與原意沒有關係,變成毫無意義的字母與字元。英語、法語、德語、俄語、拉丁語等所有非象形文字語種更甚,基本上失去語言本來的意義與價值。
依照文獻的記載,漢字的起源有多種說法,比如結繩、八卦、書契、巖畫、陶符、籌碼等,還有黃帝的史官倉頡造字的傳說。當然系統化的文字型系不可能由一個人創造出來,如果倉頡確有其人,應該是文字的整理者或頒布者。
數字的起源如同文字的起源一樣古老。阿拉伯數字發源於古代印度,後來被阿拉伯人掌握、改進並傳到西方。早期計數系統有:西元前3,400年前後的古埃及象形數字;西元前2,400年前後的巴比倫楔形數字;西元前1,600年前後的中國甲骨文數字;西元前500年前後的希臘阿提卡數字;西元前500年前後的中國籌算數字;西元前300年前後的印度婆羅門數字,以及年代不詳的馬雅數字。其中巴比倫楔形數字採用六十進位制、馬雅數字採用二十進位制,其他均採用十進位制。計數系統的出現,使人類文明向前邁進一大步,隨著生產力的持續發展和數字的持續完善,數學逐漸發展起來。
數學源於生活且高於生活,從具象的生產和生活中被抽象出來,成為解決計算問題的學科和科學,具有一定的超前性。「萬物皆數」顯示:所有事物的形態和執行,從底層來說,都是把事物轉為數據化對應,事物規律都是由數學規律所決定的。「萬物皆數」是人類認知與改造世界持續進步、從唯心主義走向唯物主義的必然。
數字只是一種符號化的、用來表示某種特徵的程度或狀態的原始資訊,沒有被應用到特定的場合。根據數字所代表的原始資訊,建立適當的數學模型,經過帶有指向性的加工,被應用到合適的場所,轉變為有影響的數據,從而幫助人們理解事物的本質、完成特定的任務,才有實際的意義,這就是數字的數據化過程。
1.1.2 數據科學(data science,又稱資料科學)
凡是發生過的事件都會留下痕跡,而數據的作用則是將這些痕跡記錄下來。每天,當我們生活在社區、工作在辦公區、娛樂在電影院、鍛鍊在健身房、消費在購物中心、出行在高速公路,享受著數據化生活的便利時,一切都顯得那麼自然。每一個動作都被流量的數據和無盡的網路串聯起來,隨時隨地都能看到數據的身影。
(1)含義和分類
數據(Data)是指對客觀事件進行的紀錄且可以鑑別的符號,是對客觀事物的性質、狀態以及相互關係進行記載的物理符號或組合,以文字、數字、影像等多種形式存在。數據是未經加工的原始素材、主體對客體進行觀察和表達的結果、對事實的邏輯歸納。
在電腦科學中,數據是所有能夠輸入電腦且被程式處理的符號介質的總稱。這些符號介質是具有一定意義的數據、字母、符號和模擬量等,以二進位制資訊位元0、1的形式表示和儲存。電腦處理的對象十分廣泛,表示對象的數據也變得越來越複雜。
在多數人的理解中,數字就是數據。其實不然,數據的範疇大得多,包括數字、文字、影像、聲音、影片,甚至是動作、行為。數據的範疇隨著社會和經濟的發展不斷演進,例如以前的文字和語言並不被認為是數據,而在電腦出現後,已經成為通訊、翻譯等重要領域的核心數據。
數據分類就是把相同屬性或特徵的數據劃分在一起,形成不同的類別,以便透過不同的類別對數據進行查詢、辨識、使用和保護;當然更多的是從管理業務的角度出發,例如數據的來源、產業、事務、開放、共享等。
(2)資訊和知識
「數據是資訊的媒介,資訊是數據的含義。」隨著數據的不斷成長,經過大量累積之後,就形成數據資源。在數據資源中把蘊含的價值線索提取出來,即經過加工處理後,得到另一種形式的結構化數據,就是資訊。例如,每個人看過一部電影後都有自己的感受,電影就是數據,而經過每個人大腦處理後的感受,就是資訊。
資訊是帶有判斷的表達,數據是反映事實的紀錄。對於數據和資訊的評價是有差別的:數據可以用準不準,而資訊要用對不對。數據的表達通常只是有偏差,而資訊表達很可能完全背離本質。
數據是存在於電腦系統中的介質符號;資訊是自然界、人類社會及人類思維活動中存在和發生的現象;知識是人們在實踐中所獲得的認知和經驗。數據可以作為資訊和知識的符號或者媒介,但是數據本身並不是資訊或者知識。
數據和資訊是影響個體情勢判斷和整體共同行為的基本驅動性因素。資訊本來應該、且可以是充分研究和科學論證後的嚴謹判斷,然而由於傳遞資訊的主體無須對資訊的對錯以及由此造成的負面結果承擔責任,社會的各種主體和個體出於不同的目的,總會想把各式各樣的資訊傳遞到消費者面前,由此產生「資訊混亂」和「資訊矛盾」,也使資訊價值大幅度降低。往往由於缺乏足夠的、準確的數據來幫助我們評價事物,不得不習慣性使用資訊來代替,導致的結果就是被獲得的資訊所俘獲,造成「羊群效應」(每一個個體就是一隻羊,而傳遞出的資訊就是那根趕羊的竿子)。
(3)數據化和數據科學
以色列歷史學家尤瓦爾.哈拉瑞在《人類大命運:從智人到智神》(Homo Deus: A Brief History of Tomorrow)中寫道:「人類將進入數據主義(Dataism)時代,在這個時代,每個人都應該信奉一條格言,如果你經歷某件事,把它記錄下來;如果你記錄某件事,把它上傳。如果你上傳某件事並且分享它,這意味著每個人都成為數據的採集、處理和分享者。這當然是數據從業者所嚮往的一種理想狀態。」
數據在各行各業的影響力正與日俱增,充斥在生產和生活的各方面,比如金融、醫療、製藥、生物資訊、公共福利、政府、教育、零售、網路購物、通訊、瀏覽新聞、收聽線上音樂、搜尋、在網路上表達觀點……這些行為都會被記錄,變成一個個位元組儲存起來。對線上數據和線下數據的採集方式不斷革新,人們的日常行為也被「數據化」(Datafication)。
數據化無所不在,從身為實驗對象參與到社群媒體實驗中,到接受全面調查,再到被人祕密跟蹤,這些都是被數據化的典型案例,代表數據化過程中個人意願從高到低的各種情形。
必須尊重他人的意願——是否自願與人們分享自己的數據。
比如在網路上為某人或某件東西「點讚」時,人們就算不是故意讓自己的行為「被數據化」,至少也清楚自己的行為會被記錄下來。有時卻不然,比如只是隨意瀏覽一些網站,然而我們的行為卻被網站上的cookie記錄下來;再如人們只是走在大街上,就會被各種感測器、攝影機監測,或者被Google眼鏡拍攝,行為被當作數據儲存下來,但是這種數據化並非出於個人的意願。
數據科學是一門新時代的混合交叉學科,使用科學的理論、演算法和過程,從結構化或非結構化的數據中獲取知識與洞見、發現隱藏的模式,展現應用驅動基礎理論創新的特點,成為除實驗、理論模型、計算模擬之外的第四大科學發現方式。
數據科學即「數據的科學」和「科學的數據」,包括一整套技能和技術,即數學、計算、視覺、分析、最佳化、統計、試驗、問題界定、建立假設、選擇演算法、模型建立、結果檢驗與視覺化等,涉及三個不同的領域,即程式設計領域(電腦語言知識、語言庫、設計模式、體系結構等)、數學(代數、微積分等)和統計學領域、數據領域(特定領域的知識,如醫療、金融、工業等)。數據科學的知識體系主要以統計學、機器學習、數據視覺化以及某一領域專業知識為理論基礎,其主要研究內容包括數據科學基礎理論、數據加工、數據計算、數據管理、數據分析和數據產品開發。
數據產品在數據科學中具有特殊的含義——基於數據開發的產品的統稱。數據產品開發是數據科學的主要研究使命之一,也是數據科學有別於其他科學的重要因素。與傳統產品開發不同的是,數據產品開發具有以數據為中心、多樣性、層次性和增值性等特徵。數據產品開發能力也是數據科學家的主要競爭力。
數據科學日益變得有實用性和趣味性,不僅僅是因為數據本身的規模增加,更多的是因為數據本身成為建構即時數據產品的關鍵要素。在網路上,有亞馬遜(Amazon)的商品推薦系統、臉書(Facebook)的朋友推薦系統,還有其他電影、音樂等推薦系統;在金融業,有信用評級和篩選系統、交易演算法和模型;在教育領域,可以根據學生的差別,量身製作個性化教學;在政府機構,則意味著以數據為基礎去制定和實施公共政策。