摘自【第6章】雅達利
2013年7月7日,週日。米赫坐在他倫敦的公寓裡,觀看溫布頓網球公開賽男單決賽。「我當時緊張到幾乎不敢看,」米赫如今仍記憶猶新。他很喜歡英國的黑馬選手安迪.莫瑞(Andy Murray),每次看到莫瑞的對手、頭號種子諾瓦克.喬科維奇(Novak Djokovic)又得下一分,他都不禁皺眉。「在溫網決賽,每一分都很重要,」米赫激動的回憶。「我經常得把目光移開,」他補充說道。
為了緩解緊張的情緒,米赫不時起身走到筆記型電腦旁,敲敲鍵盤,重整畫面,看看他的雅達利AI代理在做什麼。AI的一大優點就在於,就算週末你沒上班,系統還是會很認真的繼續訓練。
米赫的AI代理正在自己玩一款球拍遊戲《乓》(PONG),這是雅達利推出的首款遊戲。雅達利創業之初的商業模式,是在酒吧裡安裝遊戲機。而既然安裝在這種通路裡,《乓》就必須簡單到連醉漢也能輕鬆上手。
米赫的代理雖然訓練得很認真,表現還是糟糕透頂,偶爾才能僥倖贏下一分。一般來說,它都會以0比21慘敗。典型的一個回合會這樣發展:球穩穩的朝著畫面上某個方向前進,而AI代理的球拍卻在完全不同的區域,漫不經心的晃來晃去。這套系統就像一個小小孩,一直在網球場邊繞圈圈,沉浸在自己的幻想世界;而父母則是專心在練上旋球。只有在很偶爾的情況下,小小孩才會不小心伸出球拍,誤打誤撞碰到球。
看了占滿整個螢幕的AI代理表現統計數據之後,米赫又把眼光轉回莫瑞;此時莫瑞正占上風。但看到喬科維奇可能要破發,米赫又遮上眼睛了。所以他乾脆再度起身到電腦前,敲了敲鍵盤,看了看螢幕上的統計數據,但這次卻有了出乎意料的發現。他的AI代理剛剛又輸掉一局,但這次的比數是4比21。要用隨機亂玩的方式贏下四分,在統計上的機率微乎其微。
米赫頓時興奮起來,把畫面從統計數據切到《乓》的即時遊玩實況。他想親眼看看,這四分究竟是名副其實,還是計分系統某個漏洞造成的假象。
米赫看著球在螢幕上劃出軌跡。這次彷彿有某種魔法,讓代理將球拍往球的方向移動。接下來的幾個回合也是如此:代理會去追著球跑,但還不是每次都能接到。突然間,原本完全不懂事的小小孩,變得像是已經長到八歲,正在上第一次的網球課。
2013年12月,米赫出現在內華達州西部的哈拉斯太浩湖賭場飯店(Harrah’s Lake Tahoe Hotel & Casino)。他不是來賭博,而是這裡正在舉辦神經資訊處理系統大會(Conference on Neural Information Processing Systems,NIPS),這是全球規模最大的機器學習盛會。米赫身穿灰色毛衣,袖子捲到手肘,站在一間擠得水洩不通、應該過不了消防要求的會議室最前方。
這場演講堪稱是DeepMind的登場派對。在成立的頭三年,這家公司一直保持低調:官網只有一片黑色背景、公司品牌標誌,此外別無資訊。但現在這家公司有了令人興奮的成果得以呈現在世人面前:他們最近命名為「深度Q網路」(Deep-Q Network)的系統,圈內人簡稱DQN。這套網路的成就已在學界悄然流傳,引得各方教授與業界龍頭紛紛前來一探究竟。
米赫向聽眾展示一連串投影片,最後的高潮是幾部影片,顯示他的AI代理如何以驚人的精準度駕馭雅達利的遊戲。在《海底救人》(Seaquest)裡,AI代理先是連續擊沉數艘敵方潛艇,接著浮出水面補充氧氣,再回到水下繼續攻擊。在《太空侵略者》(Space Invaders)裡,AI代理懂得鎖定能得到五倍分數的敵方母艦,不只是忙著消滅小兵。而在拳擊遊戲中,AI代理則會把對手逼到擂臺的邊繩,讓對方無處可逃。
那場拳擊遊戲的示範,引來全場陣陣笑聲。這或許讓人覺得有些弔詭;畢竟AI社群時不時就有人對「魔鬼終結者」式的AI風險大表憂慮,但現在觀眾看著DQN展示的殘酷暴力,卻是一片樂呵呵。然而,最精彩的壓軸影片還是《打磚塊》:玩家需要用球拍將球擊向磚牆,將磚塊逐漸擊碎。但AI代理已經摸索出那項能以最高效率獲勝的經典祕訣:先在磚牆上打出一條隧道,接著將球送過隧道,讓球在牆後不斷反彈,玩家根本無須操作,就能消掉許多磚塊。
「全場頓時鴉雀無聲,」西爾弗回憶。「雖然是同一套AI代理,但面對每一款遊戲時卻學會採用完全不同的技巧。大家都被震懾住了。那正是轉捩點。」
回顧這場勝利,西爾弗注意到哈薩比斯從Elixir工作室以來已經有了很大的進步。這兩次創業,哈薩比斯都曾宣示要達成無比高遠的目標;但在DeepMind,他還找出一道通往目標的階梯。經營Elixir工作室時,他直接讓全公司投入製作史上最複雜的電玩,卻因為過度擴張而慘遭失敗。而在經營DeepMind時,雖然最終目標更加遠大,但哈薩比斯這次懂得逐步打造整個科學團隊,過程中也先讓團隊成員自由摸索,而不是一開始就定下嚴苛的目標。等到整個團隊組建完成,哈薩比斯又展現出卓越的判斷力。他之所以選擇用雅達利的遊戲作為挑戰,正是因為看準了融合深度學習與強化學習的時機已經成熟。於是,這次的結果成就了另一次的「ImageNet時刻」,而且還不只是在視覺辨識領域,更已跨至AI代理。
2013年7月7日,週日。米赫坐在他倫敦的公寓裡,觀看溫布頓網球公開賽男單決賽。「我當時緊張到幾乎不敢看,」米赫如今仍記憶猶新。他很喜歡英國的黑馬選手安迪.莫瑞(Andy Murray),每次看到莫瑞的對手、頭號種子諾瓦克.喬科維奇(Novak Djokovic)又得下一分,他都不禁皺眉。「在溫網決賽,每一分都很重要,」米赫激動的回憶。「我經常得把目光移開,」他補充說道。
為了緩解緊張的情緒,米赫不時起身走到筆記型電腦旁,敲敲鍵盤,重整畫面,看看他的雅達利AI代理在做什麼。AI的一大優點就在於,就算週末你沒上班,系統還是會很認真的繼續訓練。
米赫的AI代理正在自己玩一款球拍遊戲《乓》(PONG),這是雅達利推出的首款遊戲。雅達利創業之初的商業模式,是在酒吧裡安裝遊戲機。而既然安裝在這種通路裡,《乓》就必須簡單到連醉漢也能輕鬆上手。
米赫的代理雖然訓練得很認真,表現還是糟糕透頂,偶爾才能僥倖贏下一分。一般來說,它都會以0比21慘敗。典型的一個回合會這樣發展:球穩穩的朝著畫面上某個方向前進,而AI代理的球拍卻在完全不同的區域,漫不經心的晃來晃去。這套系統就像一個小小孩,一直在網球場邊繞圈圈,沉浸在自己的幻想世界;而父母則是專心在練上旋球。只有在很偶爾的情況下,小小孩才會不小心伸出球拍,誤打誤撞碰到球。
看了占滿整個螢幕的AI代理表現統計數據之後,米赫又把眼光轉回莫瑞;此時莫瑞正占上風。但看到喬科維奇可能要破發,米赫又遮上眼睛了。所以他乾脆再度起身到電腦前,敲了敲鍵盤,看了看螢幕上的統計數據,但這次卻有了出乎意料的發現。他的AI代理剛剛又輸掉一局,但這次的比數是4比21。要用隨機亂玩的方式贏下四分,在統計上的機率微乎其微。
米赫頓時興奮起來,把畫面從統計數據切到《乓》的即時遊玩實況。他想親眼看看,這四分究竟是名副其實,還是計分系統某個漏洞造成的假象。
米赫看著球在螢幕上劃出軌跡。這次彷彿有某種魔法,讓代理將球拍往球的方向移動。接下來的幾個回合也是如此:代理會去追著球跑,但還不是每次都能接到。突然間,原本完全不懂事的小小孩,變得像是已經長到八歲,正在上第一次的網球課。
2013年12月,米赫出現在內華達州西部的哈拉斯太浩湖賭場飯店(Harrah’s Lake Tahoe Hotel & Casino)。他不是來賭博,而是這裡正在舉辦神經資訊處理系統大會(Conference on Neural Information Processing Systems,NIPS),這是全球規模最大的機器學習盛會。米赫身穿灰色毛衣,袖子捲到手肘,站在一間擠得水洩不通、應該過不了消防要求的會議室最前方。
這場演講堪稱是DeepMind的登場派對。在成立的頭三年,這家公司一直保持低調:官網只有一片黑色背景、公司品牌標誌,此外別無資訊。但現在這家公司有了令人興奮的成果得以呈現在世人面前:他們最近命名為「深度Q網路」(Deep-Q Network)的系統,圈內人簡稱DQN。這套網路的成就已在學界悄然流傳,引得各方教授與業界龍頭紛紛前來一探究竟。
米赫向聽眾展示一連串投影片,最後的高潮是幾部影片,顯示他的AI代理如何以驚人的精準度駕馭雅達利的遊戲。在《海底救人》(Seaquest)裡,AI代理先是連續擊沉數艘敵方潛艇,接著浮出水面補充氧氣,再回到水下繼續攻擊。在《太空侵略者》(Space Invaders)裡,AI代理懂得鎖定能得到五倍分數的敵方母艦,不只是忙著消滅小兵。而在拳擊遊戲中,AI代理則會把對手逼到擂臺的邊繩,讓對方無處可逃。
那場拳擊遊戲的示範,引來全場陣陣笑聲。這或許讓人覺得有些弔詭;畢竟AI社群時不時就有人對「魔鬼終結者」式的AI風險大表憂慮,但現在觀眾看著DQN展示的殘酷暴力,卻是一片樂呵呵。然而,最精彩的壓軸影片還是《打磚塊》:玩家需要用球拍將球擊向磚牆,將磚塊逐漸擊碎。但AI代理已經摸索出那項能以最高效率獲勝的經典祕訣:先在磚牆上打出一條隧道,接著將球送過隧道,讓球在牆後不斷反彈,玩家根本無須操作,就能消掉許多磚塊。
「全場頓時鴉雀無聲,」西爾弗回憶。「雖然是同一套AI代理,但面對每一款遊戲時卻學會採用完全不同的技巧。大家都被震懾住了。那正是轉捩點。」
回顧這場勝利,西爾弗注意到哈薩比斯從Elixir工作室以來已經有了很大的進步。這兩次創業,哈薩比斯都曾宣示要達成無比高遠的目標;但在DeepMind,他還找出一道通往目標的階梯。經營Elixir工作室時,他直接讓全公司投入製作史上最複雜的電玩,卻因為過度擴張而慘遭失敗。而在經營DeepMind時,雖然最終目標更加遠大,但哈薩比斯這次懂得逐步打造整個科學團隊,過程中也先讓團隊成員自由摸索,而不是一開始就定下嚴苛的目標。等到整個團隊組建完成,哈薩比斯又展現出卓越的判斷力。他之所以選擇用雅達利的遊戲作為挑戰,正是因為看準了融合深度學習與強化學習的時機已經成熟。於是,這次的結果成就了另一次的「ImageNet時刻」,而且還不只是在視覺辨識領域,更已跨至AI代理。