無限機器：Gemini推手哈薩比斯的超級智慧長征【試閱】

好書試閱

無限機器：Gemini推手哈薩比斯的超級智慧長征

79折特價513元

加入購物車

摘自【第6章】雅達利

2013年7月7日，週日。米赫坐在他倫敦的公寓裡，觀看溫布頓網球公開賽男單決賽。「我當時緊張到幾乎不敢看，」米赫如今仍記憶猶新。他很喜歡英國的黑馬選手安迪．莫瑞（Andy Murray），每次看到莫瑞的對手、頭號種子諾瓦克．喬科維奇（Novak Djokovic）又得下一分，他都不禁皺眉。「在溫網決賽，每一分都很重要，」米赫激動的回憶。「我經常得把目光移開，」他補充說道。

為了緩解緊張的情緒，米赫不時起身走到筆記型電腦旁，敲敲鍵盤，重整畫面，看看他的雅達利AI代理在做什麼。AI的一大優點就在於，就算週末你沒上班，系統還是會很認真的繼續訓練。

米赫的AI代理正在自己玩一款球拍遊戲《乓》（PONG），這是雅達利推出的首款遊戲。雅達利創業之初的商業模式，是在酒吧裡安裝遊戲機。而既然安裝在這種通路裡，《乓》就必須簡單到連醉漢也能輕鬆上手。

米赫的代理雖然訓練得很認真，表現還是糟糕透頂，偶爾才能僥倖贏下一分。一般來說，它都會以0比21慘敗。典型的一個回合會這樣發展：球穩穩的朝著畫面上某個方向前進，而AI代理的球拍卻在完全不同的區域，漫不經心的晃來晃去。這套系統就像一個小小孩，一直在網球場邊繞圈圈，沉浸在自己的幻想世界；而父母則是專心在練上旋球。只有在很偶爾的情況下，小小孩才會不小心伸出球拍，誤打誤撞碰到球。

看了占滿整個螢幕的AI代理表現統計數據之後，米赫又把眼光轉回莫瑞；此時莫瑞正占上風。但看到喬科維奇可能要破發，米赫又遮上眼睛了。所以他乾脆再度起身到電腦前，敲了敲鍵盤，看了看螢幕上的統計數據，但這次卻有了出乎意料的發現。他的AI代理剛剛又輸掉一局，但這次的比數是4比21。要用隨機亂玩的方式贏下四分，在統計上的機率微乎其微。

米赫頓時興奮起來，把畫面從統計數據切到《乓》的即時遊玩實況。他想親眼看看，這四分究竟是名副其實，還是計分系統某個漏洞造成的假象。

米赫看著球在螢幕上劃出軌跡。這次彷彿有某種魔法，讓代理將球拍往球的方向移動。接下來的幾個回合也是如此：代理會去追著球跑，但還不是每次都能接到。突然間，原本完全不懂事的小小孩，變得像是已經長到八歲，正在上第一次的網球課。

2013年12月，米赫出現在內華達州西部的哈拉斯太浩湖賭場飯店（Harrah’s Lake Tahoe Hotel & Casino）。他不是來賭博，而是這裡正在舉辦神經資訊處理系統大會（Conference on Neural Information Processing Systems，NIPS），這是全球規模最大的機器學習盛會。米赫身穿灰色毛衣，袖子捲到手肘，站在一間擠得水洩不通、應該過不了消防要求的會議室最前方。

這場演講堪稱是DeepMind的登場派對。在成立的頭三年，這家公司一直保持低調：官網只有一片黑色背景、公司品牌標誌，此外別無資訊。但現在這家公司有了令人興奮的成果得以呈現在世人面前：他們最近命名為「深度Q網路」（Deep-Q Network）的系統，圈內人簡稱DQN。這套網路的成就已在學界悄然流傳，引得各方教授與業界龍頭紛紛前來一探究竟。

米赫向聽眾展示一連串投影片，最後的高潮是幾部影片，顯示他的AI代理如何以驚人的精準度駕馭雅達利的遊戲。在《海底救人》（Seaquest）裡，AI代理先是連續擊沉數艘敵方潛艇，接著浮出水面補充氧氣，再回到水下繼續攻擊。在《太空侵略者》（Space Invaders）裡，AI代理懂得鎖定能得到五倍分數的敵方母艦，不只是忙著消滅小兵。而在拳擊遊戲中，AI代理則會把對手逼到擂臺的邊繩，讓對方無處可逃。

那場拳擊遊戲的示範，引來全場陣陣笑聲。這或許讓人覺得有些弔詭；畢竟AI社群時不時就有人對「魔鬼終結者」式的AI風險大表憂慮，但現在觀眾看著DQN展示的殘酷暴力，卻是一片樂呵呵。然而，最精彩的壓軸影片還是《打磚塊》：玩家需要用球拍將球擊向磚牆，將磚塊逐漸擊碎。但AI代理已經摸索出那項能以最高效率獲勝的經典祕訣：先在磚牆上打出一條隧道，接著將球送過隧道，讓球在牆後不斷反彈，玩家根本無須操作，就能消掉許多磚塊。

「全場頓時鴉雀無聲，」西爾弗回憶。「雖然是同一套AI代理，但面對每一款遊戲時卻學會採用完全不同的技巧。大家都被震懾住了。那正是轉捩點。」

回顧這場勝利，西爾弗注意到哈薩比斯從Elixir工作室以來已經有了很大的進步。這兩次創業，哈薩比斯都曾宣示要達成無比高遠的目標；但在DeepMind，他還找出一道通往目標的階梯。經營Elixir工作室時，他直接讓全公司投入製作史上最複雜的電玩，卻因為過度擴張而慘遭失敗。而在經營DeepMind時，雖然最終目標更加遠大，但哈薩比斯這次懂得逐步打造整個科學團隊，過程中也先讓團隊成員自由摸索，而不是一開始就定下嚴苛的目標。等到整個團隊組建完成，哈薩比斯又展現出卓越的判斷力。他之所以選擇用雅達利的遊戲作為挑戰，正是因為看準了融合深度學習與強化學習的時機已經成熟。於是，這次的結果成就了另一次的「ImageNet時刻」，而且還不只是在視覺辨識領域，更已跨至AI代理。

回商品頁