好書試閱

前言 為什麼要認識數據的本質?

▍一場以大數據為核心的智慧盛宴
時下仿佛大家都在談人工智慧,就像當年人人都在談大數據一樣。
大數據時代源自應用所產生的巨量數據,比如微信、淘寶。但是,隨後大數據反過來成為應用創新的核心,這個循環無疑為我們帶來了一種全新的創新型態,那就是──用數據做好產品,用好產品取得更多數據。
在不同場合上,阿里巴巴的馬雲、百度的李彥宏及騰訊的馬化騰分別談過自己對人工智慧的看法和觀點。這種對話有點像金庸小說中的華山論劍,到底是氣宗(大數據)還是劍宗(人工智慧)更具策略意義?我認為,兩者是相輔相成的。經歷了互聯網二十年的發展,我們已經積累了足夠的數據去驅動一場「智慧盛宴」,以大數據為核心的人工智慧漸露端倪。
2010年,「資料科學家」這個稱謂的發明者帕蒂爾(DJ Patil)和傑夫.哈默巴赫(Jeff Hammerbacher)認為,一切應該以產品為中心,從數據獲取、數據清洗、搭建和管理數據設施、原型開發、產品設計等方面,實踐數據的價值。我在阿里巴巴就經歷了從「數據產品」到「數據作為產品」的階段,後者其實才是大數據的真正產物,也是人工智慧的源泉。

▍誰掌握「完美資訊」,誰就擁有整個世界
進入數據產業時,我就一直秉承著這樣的理念:在「假設資料都是可獲取的」基礎上思考問題。隨著整個社會數據化程度進一步加深,以及人與物之間的高度互聯,很多以前的數據盲點被快速解開。由不同領域積累的數據所形成的「完美資訊」(perfect information)漸露端倪,這其實是數據從「量變」到「質變」的過程。
這個「完美資訊」具有無限潛能,足以讓人工智慧所向披靡,催生各種智慧情境,並讓其如潮湧至。智慧時代,秉承「假設資料都是可獲取的」這一思維方式,才可讓你比別人更勝一籌,從而做到心中有數。
在現實中,我們從數據收集、整合、判斷,以至行動、再到回饋的過程並不完美,而形成數據閉環系統的阻力,往往是人為因素居多。Google無人車的偉大之處,正是給了我們重要的啟發,讓我們意識到自動化及智慧化所需要的數據閉環系統是如何做到了既封閉又開放,其中的裡應外合正是未來的發展趨勢。
我在阿里巴巴就經歷了四個不同階段:數據驅動決策、數據驅動流程、數據驅動產品、數據驅動業務。在這個過程中你會發現,數據驅動的目標越模糊、數據越零散、人的互動環節越多,智慧專案推動起來就越吃力。

▍從數據策略到數據治理,別讓數據成為累贅
如前所述,數據資源的積累是發展數位經濟的前提。企業在嚮往智慧時代所帶來的機遇的同時,更要為企業的未來目標制定數據策略。
企業不僅要關注自己現在有什麼數據,更要了解未來會欠缺什麼,再去探討欠缺的部分有多少可以靠自己補充,有多少需要求助他人、與他人合作以實現補充。有人把數據比喻為電能,這個比喻很生動,但與電能不一樣的是,數據是可以重複使用的。所以從策略意義上來說,第二使用權的合規性變得非常微妙。
大數據背後的邏輯是數據積累越多越好,在過去幾年,很多企業都相信有了大量數據資源後,就能對企業的業務產生更大價值。但人們往往很快就會發現,除了技術能力之外,如何妥當地管理、利用這些資源並非易事,安全合規是一方面,降低數據使用的阻力及風險也是困難重重。所以我一直倡議,數據治理不是數據部門的工作,而是公司總體的策略。這意味著,「本性純善」的大數據也容易變成累贅。

▍數據是一種信仰,善用才是本質
2016年,一場圍棋大戰讓人類引以為傲的頂尖智力瞬間被AlphaGo踐踏得體無完膚,但在我看來,這場大戰其實不過是一幫人贏了另一幫人。人工智慧在中國稱為人工智能,大部分人僅注意到了「智能」,而忽略了它與「智慧」的差別,「能」是能力的表現,而「慧」是心除雜念,將智慧用在具有普世價值的地方。同樣的科技能力,是被善用還是被濫用,只有一線之差。
幾千年來,人類習慣了生存在資訊稀缺的時代,大數據與人工智慧則為人們帶來了曙光,同時也引發了擔憂。暫且撇開我們會不會被機器人侵略這個問題,人類真的已經充分利用自己的潛能了嗎?數據是一種信仰,我們應該善用這個寶藏,為人類創造更美好的世界。
我們過去常說:數據不僅是企業與企業之爭,更是國家與國家之爭。但是在不遠的未來,數據驅動的演算法將影響人類生活的各個方面,想在社會中獲得競爭力,我們無可避免地必須成為自己的分析師。
第2章 數據相關性比數據本身更重要

‧在資訊爆炸時代,擁有大量資訊可能是災難而不一定是好事,也不等於你有能力使用它。
‧一切數據收集活動的出發點都來自業務需要,或者可以應對未來的業務發展。
‧從業務過程中收集資訊、分類資訊、整合資訊,必須成為日常思維的一部分,這是成為數據驅動型公司的必要條件。
‧數據開發的速度,是營運大數據的必然瓶頸。
‧一切皆可量化,表面上看似不存在的數據,其實也是有跡可循。

假設這樣一個場景:一個愜意的早上,你一覺醒來。吃著早餐,打開電腦,你突然想查一些資訊,但是卻毫無頭緒,因為資訊太龐雜、太碎片化。苦惱之際,你猛然想起自己無意間養成的一個習慣,每當看到一些感興趣的資訊時,無論文章也好,照片也罷,你都沒有讓它變成過眼雲煙,而是花了點時間保存了起來。這時,你的電腦人工智慧掃描了你的資訊庫,透過你平時保存的資訊,分析出你可能感興趣的章節。你打開一看,發現正是你想看的,頓時你心情大好,開始了新的一天……
你很驚訝,為什麼電腦可以找到這些資訊?因為電腦的計算是人腦無法比擬的。為什麼電腦能夠幫你尋找目標資訊?因為你早已在無意中習慣性地保存了龐大的資訊,建立了屬於自己的資訊庫。這個有點科幻意味的場景是不是很熟悉呢?作為數據界的「老謀」,我敢肯定地告訴你,這一天必定很快會到來。

▋養兵千日,用兵一時──阿里巴巴的數據策略
大數據時代衍生的變化,體現在資訊的產生及獲取變得更為快捷,溝通(包括發布、傳播、互動)從單點到互聯,資訊變得更網狀、無序和碎片化。然而,獲取速度又快、數量又多的資訊,很容易被錯誤地解讀為唾手可得,而且成本越來越廉價。如果你目前有這種想法,那你可能已經在不知不覺間被捲進了「數據越多越有用」的誤區。
在資訊爆炸時代,擁有大量資訊可能是災難而不一定是好事,也不等於你有能力用好它。暢銷書《大數據》(Big Data)的作者邁爾荀伯格(Viktor Mayer-Schönberger)在最近一次演講上也強調了數據相關性的重要性。簡單地說就是,收集、儲存和管理數據的綜合成本不菲,是每個企業必須面對的問題。
根據業務策略而制定的大數據策略變得尤為重要,我們首先需要重新審視或辨識有用資訊,並判斷哪些數據可以放棄。一切數據收集活動的出發點都來自業務需要,或者可以應對未來的業務發展。例如,阿里巴巴的電商數據策略就離不開「人、貨、場」的組合。接下來,就是以短期問題作為出發點,並以中長期的發展趨勢為準來決定資源的優先分配順序。
從業務過程中收集資訊、分類資訊、整合資訊,必須成為日常思維的一部分,這是成為數據驅動型公司的必要條件。例如,在產品設計環節中,除了加入產品需求文件(PRD)之外,還要加入數據需求文件(DRD),以重點描述數據相關的需求及變更。
以此類推,在業務的各環節中都要考慮數據的收集、匯總及使用,並評估所收集的數據與主體業務之間的相關性。但目前大部分企業依舊秉持「取之所用,無用則棄」的傳統資訊理念,而不會同時考慮長遠數據策略所需要的積累。僅僅服務於當前,為短期目的所收集的數據肯定會偏於狹隘,大數據更需要為未來業務方向做好儲備,換句話說,數據策略的目的就猶如「養兵千日,用兵一時」。
明確了業務的長、中、短期目標,以及實現這些目標將會面臨的障礙之後,還得理解數據能力對這些目標有何貢獻。作為策略部署,我們還需要系統思考(Systems Thinking),去發現周邊生態的數據與主體業務之間的關聯。
舉個例子,要真正了解淘寶的商品交易細節,除了買家的需求之外,物流、支付、競爭對手、賣方營運等數據,都是整體必不可少的一部分。有了大方向之後,從數據策略到數據落地策略,大致可分為四個步驟:

● 確定業務目標與資訊缺口之間的關係,明確數據收集的方向。
● 尋找相關資訊的同時,評估零散資訊整合的難度及數據來源的品質。如果數據來自外部,應優先考慮元數據(metadata)較完整的資訊來源。
● 關注各種數據資源的使用情況及在場景中的回饋結果,同時盡可能記錄下數據從產生到應用的過程,這個過程是從「計畫經濟」到「市場經濟」的落實點,數據必須運用才有價值,以點帶面地經營數據會更穩健。
● 最後回到第一步,識別資訊來源與業務目標的關係,優化資訊收集、儲存、整合的過程。

隨著智慧型物件、人工智慧運用場景的普及,資訊產生的形式和速度也變得難以預測。我們需要更便捷、成本更低的方法尋找及收集多源異構的零散資訊,並把它們縫合起來。所以我一直以來都致力於建立大數據的技術平臺,促進以上各個環節都能更自動化地完成。
從我在阿里巴巴管理大數據的第一天開始,我就感受到,數據開發的速度是營運大數據的必然瓶頸。不要小看這個縫合的技術,它是細節上的魔鬼,做好它,才能稱得上真正做好了大數據營運。

▋學會系統思考
在轟轟烈烈的大數據時代,學會系統思考,有利於擺脫線性局限、小數據時代的思維方式,轉變為人工智慧與大數據亦步亦趨的思維方式,這兩者截然不同。為什麼?我還是那句老話:以偏概全怎麼能和以全概偏相比。
什麼是系統?系統是一組相互關聯的主題,在一定時間內,以特定的行為模式相互影響,而且具有自我調整、自我組織及自我演進的能力。當系統受外力觸發時,不同的系統可能會產生不同的結果。一個完整的系統必定由三個點組成:要素(主體)、連接點和目標。當主體與連接點及其功能產生了相對固定的關係時,我們便認為這個系統形成了。
以淘寶為例,簡單來說,這個生態系統 (目前流行的名稱是「平臺」)由賣家、買家、物流商、平臺管理方組成,他們之間互相連接,目的是為了匹配需求方與供應方,然後順利地把貨物從賣家送到買家。情況穩定時,各方相安無事,平臺管理方可以坐享其成。當然,這不是系統的真相,在這個系統中,買家與賣家的連接來自交易,更重要的是交易後買家給賣家的評價。根源是平臺為了減少買賣雙方之間的投訴及糾紛,讓評價好的賣家得到更多曝光機會。
在這個加強版的回饋機制中,平臺讓買家優先看到的都是誠信得分較高的賣家。沒有足夠生意流量的賣家知道,快速得到大量交易和好評,是爭取曝光機會的重要因素。誠信賣家變得奇貨可居,而好評有價,最終促始一個黑色產業——專業刷評師出現,江湖(系統)從此不再太平。平臺與刷評師之間展開了一場博弈,系統中出現了一個旋渦,真假評價之爭讓平臺管理方左右為難,正因如此,賣家更一度圍攻平臺方,不能刪除被懷疑的假評。
以上故事在互聯網時代來臨之前也發生過,只是在互聯網時代,特別是大數據時代,數據更有利於還原真相,大數據也自然成為發現真相的利器。不過,我認為更值得反思的是,如何使用大數據分析去防患於未然,而此時,系統思考就更重要了。
過去,我們習慣在簡單的線性關係中尋找規律,因為我們都假設沒有數據,以及數據稀缺是常態,只能局限於邏輯推敲。這就像螞蟻拚命在二維空間中苦思為什麼無路可走,卻不知道我們其實身處的是三維世界。
大數據的存在,就是讓我們把複雜系統變得可描述、可量化、可溯源。隨著科技的發展,物聯網、人工智慧技術的進一步完善,我們越來越不缺少數據,但大家還未意識到萬物互聯之後的世界,系統思考的重要性。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing