好書試閱

AI 武林高手齊攻光明頂

2012 年,一個叫做亞歷克斯·克里澤夫斯基(Alex Krizhevsky) 的烏克蘭人贏了當年度的 ImageNet 圖像辨識比賽。每年都有贏家,但克里澤夫斯基做出了壯舉,他用 AlexNet 這個卷積神經網路論文,成功的做出比別人好很多的辨識——將錯誤率從 26% 降低至 15%,比第二名好了整整 10%。要知道這個辨識比賽勝負差異都很小,他等於 100 公尺跑進 5 秒,基本上已經跟其他人不是用同一種邏輯運作。這算是奠定了這次 AI 熱潮的基礎,學界跟產業界的人已經知道黃金組合,就是神經網路的算法加 GPU。這算是完全的藍海新領域,GPT 熱潮前的 AI 熱潮,就是從這邊開始的。

克里澤夫斯基當時在辛頓下面做研究,就在那個實驗室裡面。他那邊還有另一個人也是超級有影響力,叫做「伊爾亞·蘇茨克維」(Ilya Sutskever)。這個人是 AlexNet 的共同發明人之一,後來擔任了 OpenAI 的技術長,可以說是除了山姆·阿特曼(Samuel Harris Altman)之外最重要的人。在多倫多大學,這些 AlexNet 的技術開發者,他們就用了一種類似 Google Brain 的神經網路,而不是其他比較傳統的演算法。再來,他們用的 GPU 是 GTX580,跟現在的 5090 比起來,性能差非常非常多。

這時候李飛飛那邊已經用資料跟模型的做法把問題解決到一個程度了。因為你沒有好的數據,想訓練也沒辦法。另外,沒有比較跟研究基準的緣故,ImageNet 這個數據庫,花了 3 年、做了 320 萬張圖,分了 5,000 多個類。這整個資料庫才能用來訓練各種模型。然後舉辦比賽讓大家來比較算法,有種世界第一武道會的味道。

2012 的時候李飛飛的資料庫那時的數據量其實已經多到 1,000 多萬張圖片、2 萬個類別,比賽用的測試圖雖然沒那麼多,但也不少。比賽初期幾年各種算法、理論的推進並沒有大幅度突破,但結果在 2012 年 AlexNet 一舉把錯誤率降低了快 10%,威力真的很驚人,很有效地證明了神經網路是未來的人工智慧有效的算法邏輯,能夠解決這個問題。

而有個額外的事情,突破沒多久,辛頓、克里澤夫斯基還有蘇茨克維就決定把他們的演算法弄成公司,去找人投資。投資並購的對象其實就是辛頓本體,所以最後谷歌在打敗百度跟 DeepMind 的競標之後,把辛頓演算法的邏輯買下來,他們 3 個人賣了 4,400 萬美金。也就是公司請你去上班,還要競標叫你去上班的權利。真的是對人類智慧極大的肯定啊!

因此衍生的題外話是,後來大家就知道 NVIDIA 的 GPU 能給神經網路提供很好的計算效能,用神經網路的做法就能訓練出來很好的 AI。也因此,整個神經網路的崛起其實跟 NVIDIA 息息相關。

再來到 2020 年的時候,NVIDIA 有了 A100,威力就變得更強大,成了大家做人工智慧訓練的標準配置。OpenAI 也好,或是 Stable Diffusion,這些都是在 NVIDIA 的 GPU 上訓練出來的。總之,NVIDIA 跟這個整個業界是一起把這個生態系做起來,也因為有 AlexNet 的發明才會有這些發展,這就是最關鍵的因素。

AI 走進尋常百姓家

AI 真正成為家喻戶曉的話題,是其在遊戲領域再次創造了歷史。2016 年,由 DeepMind 開發的 AlphaGo 在首爾擊敗了世界級圍棋選手李世乭,這場比賽的影響遠超圍棋界。AlphaGo 採用的深度強化學習方法展示了 AI 系統驚人的戰略思維能力,而其後續版本 AlphaGo Zero 更是完全通過自我對弈來學習,無需人類棋譜的指導。

Alexnet 是業界內的震撼,但神經網路的地位確立後,對業外的衝擊,就是一般人可以感知的2016 年 AlphaGo 衝擊。AlphaGo 這個 AI,來自谷歌收購的英國公司 DeepMind,是針對圍棋的 AI。

圍棋一直被視為聖杯,因為一步棋後續可能的走法稱作「分支因子」(branching factor),西洋棋每一步平均有 35 種可能走法,分支因子是 35;但圍棋卻高達 250!也就是說,這個 250 步之下,還有 250 步的可能。這樣一直分岔下去。光想就讓人頭皮發麻,如果是以窮盡棋步的電腦運算力可能也不夠。

但最早的 AlphaGo 是分析人類下過的 10 萬盤棋,就這樣打敗李世乭了,但過五個月的版本 AlphaGo Zero 就是自己跟自己下幾百萬盤棋,這個版本跟打敗李世乭的版本比,從來沒有輸過。到了這個程度,可以說人類已經不可能贏過 AI 了。

2017 年,自然語言處理領域迎來了革命性的突破。谷歌研究團隊提出的 Transformer 架構,以其優異的並行處理能力和對長距離依賴的把握,徹底改變了機器翻譯和語言理解的技術路線。這項創新為後來的 BERT、GPT 等大型語言模型鋪平了道路。

過去幾年來,生成式 AI 技術取得爆炸性進展。OpenAI 的 GPT 系列模型展現了驚人的語言生成能力,從寫作到編程,從對話到創作,都展現出接近人類的水準。DALL-E、Stable Diffusion 等模型則將 AI 的創造力延伸到了視覺藝術領域,能夠根據文字描述生成令人驚歎的圖像作品。

在醫療領域,AI 技術也取得了重大突破。DeepMind 的 AlphaFold 在蛋白質結構預測問題上取得了革命性進展,這一成就被《科學》雜誌評為 2021 年度十大科學突破之一。其中,AI 輔助診斷系統在影像識別、病理分析等方面的表現已經達到或超過人類專家水準。

自動駕駛技術的發展更是將 AI 帶入了現實世界。特斯拉、Waymo 等公司推動的自動駕駛技術,正在逐步實現從輔助駕駛到完全自動駕駛的轉變。這些系統需要實時處理來自各種感測器的海量數據,並在複雜的真實環境中做出準確決策。

GPT 風潮席捲全球

AlphaGo 之後,對一般人的最大震撼就是 GPT 了。GPT 的核心 Transformer 登場時並不是很起眼,類似的研究一直都有,人們希望 AI 能記住並回應較長的文件是有困難的,遞迴神經網路(recurrent neural networks,RNN)就是在處理類似的工作,也一直有對應的技術更新,但理解跟對應較長的前後文一直是個問題,需要更多算力跟更好的算法。在翻譯或者理解文章這類工作上,一直有人在思考有沒有更好的方法可以解決,因為翻譯跟前後文的關聯性非常大!

谷歌剛好有解決這個問題的趨力,因為谷歌一直有很多用戶的翻譯系統。這個計畫研究人員最初只有 3 個,後來到了發《注意力是你所有需要的》這篇論文的時候已經有 8 個人,這麼大的技術革命只有 8 個人開始!

這篇論文石破天驚,它指出 Transformer 的基本工作原理,算法核心你可以看成這個「轉換器(Transformer)」模型是用所謂注意力機制,機器等於讀了一下,對於應該重視的地方注意,不重要的地方跳過。就有點類似人類讀書跟回話,Transformer 機制因為有「略讀」的概念,所以可以大幅減少工作時間,當然還有運算量。這論文是完全新的邏輯,這種模型工作方式可以更省工作,概念簡單,但可以做複雜的工作。

注意力機制和 Transformer 架構的創新應用,推動了 BERT、GPT 等標誌性模型的誕生。這些模型在閱讀理解、文本生成、情感分析等任務上展現出接近人類的表現,開創了 AI 領域應用的新紀元。很多人說 GPT 工作方式跟文字接龍大師一樣,概念是類似的,大概讀前面的字之後,後面再判斷後面要出什麼字。前面的字的長度是有限制的,這個窗口能容納的文字越長,大型模型越容易判讀內容。

幾乎所有算法都涉及一件事:某種程度的降低運算量。注意力機制真的做得到。Transformer 加上大型語言模型,非常簡潔有效的把「模擬人類的智慧」這件事做出來。

有趣的是,雖然是谷歌推出了這個劃時代的算法論文,但發揚光大的卻是打對台的 OpenAI。
思考鏈與現在的進展

通用 AI 一直是聖杯,但過去進展非常緩慢。但 2024 年以來比較大的進展是思考鏈(Chain of Thought,CoT) 在 AI 的應用,這讓我們比過去接近通用 AI 非常多。

舉例而言,GPT 的 o 系列模型,主要就是在應對思考。思考鏈加上強化學習 Reinforcement learning(RL),是目前比較新的技術突破點。你如果有使用 o 系列模型,你可以明顯地感知產出結果跟過去文字接龍的差別,另外所謂的 AI Agent,也就是 AI 代理的需求也會大幅下降。

思考鏈重要的訓練夥伴是強化學習。這個技術技術其實也出現一陣子了,你可以理解有賞有罰,對了就賞、錯了就罰,這樣非常像人類的學習。

最有名的案例就是 AlphaGo Zero,它跟 AlphaGo 不同的是他不用棋譜,從零開始學。世界上在 AlphaGo Zero 之前最強的模型是學了無數棋譜的 AlphaGo ,Zero 從無知到無敵基本上只花了 3 天,就打敗他的哥哥 AlphaGo。

有一個衡量通用 AI 能力的基準指數 ARC-AGI,它是由弗朗·索瓦喬萊(François Cholle)發明的。他寫了一篇論文《論智能的測量》,他認為 AGI (通用人工智慧)是一個可以在訓練資料之外有效獲得新技能的系統。比方說你作為一個智人,會知道很多事情,不會每件事情都能通過閱讀資料得來,一定有一些事情是推理結果。你不用閱讀資料,就知道被瓦斯爐燙到跟被營火燙到一樣都非常危險。這樣的知識可以遷移,你不用一直問「那被太空船引擎燙到呢?那被蠟燭燙到呢?」

但這樣的定義不夠精確,所以索瓦喬萊提出其中介紹了「通用人工智慧的抽象和推理語料庫」(ARC-AGI)基準,用於衡量人工智慧在未知任務上獲取技能的效率。講簡單點就是你可以用 ARC-AGI 來測定有多接近通用人工智慧。

之前的模型這個數字都很低,即使是非常好的模型比方說 GPT-4,已經很好用了,測量時還是很低。現在 ChatGPT-o3 的分數據說已經高達 75~87% 的位置。人類大概都可以達到 ARC-AGI 85%,所以 87% 甚至還好了一點點。要知道之前 GPT-3 跟 GPT-4 的 ARC-AGI 分數一直幾乎為 0,所以接龍跟思考並不是一樣的智慧層次。從幾乎是 0 達到 87%,這是非常驚人的突破,而這些就在 2024 年發生了。

所以我們可以說,新的一次 AI 成長期就是現在,主要是現在晶片計算能力日新月異,科學家發現神經網路過去不少的問題可以直接解決,我感覺我們只開發了其中不到 1% 的技術潛力,所以這一波的 AI 成長,在未來 2 年在思考鏈的推進之下將會到達何方,目前可說是完全看不到盡頭。
DeepSeek 橫空出世是震撼還是振奮?

2025 年 1 月,中國 AI 新創公司深度求索(DeepSeek)橫空出世,推出一款以 R1 大型語言模型為基礎的 AI 聊天機器人,宣稱其並未花大錢訓練,就能提供更低廉的成本,且功能有過之而無不及,擺明是劍指龍頭 OpenAI 而來;儘管不少科技大廠與國家都質疑其有竊取技術之嫌,但多數人對於此一消息可說是既震撼又振奮!

我雖然長期關注 AI 產業,但很晚才對 DeepSeek 有所評論。首先,我覺得關於 DeepSeek 的很多細節跟事實,要經過一段時間才被釋放出來。其次,AI 產業處於極為瘋狂的競爭環境,導致 DeepSeek 不可能在釋出後卻毫無對手的反饋,一定會有對手的反應,才會有對應的釋出。比方說非常值得討論的 GPT 深度研究這個王牌,一直到後來才被逼出來。

DeepSeek 主要的技術層面變化如下,首先它是在開源陣營,也有對應的論文做支撐,一定程度地把思考鏈的做法公開出來。DeepSeek 的突破是在較小算力完成等同成果,從這個標準來說算是執行得很成功。他們用的技術有不少已經存在,但整合起來相當精巧。

他們用了很多方法精簡化整個效能,使用所謂混合專家模型(Mixture of Experts,MoE),他們有6,710億個參數,但每個 token 只用 370 億個參數參與計算。另外使用模型蒸餾技術(Model Distillation),講通俗點就是用大模型訓練小模型。還有使用多頭潛在注意力機制(Multi-Head Latent Attention,MHLA)。多頭注意力機制已經存在一陣子,主要是同時並行的運行多個獨立的 Transfomer 注意力機制,Deepseek 對這個技術做了更多的壓縮,藉此增強資料效能。此外訓練依賴的是強化學習獎勵工程來引導模型。上述這些技術就幾件事情--壓縮運算量,在較小的算力基礎上達到等同效能。

這個目標執行得頗為成功。關於 DeepSeek 的工作細節跟文章跟邏輯非常多,但我認為較早出來的文件不是很可靠,因為它通常有幾個問題。

他們不是很清楚或理解,相關的技術整合在過去其實沒有那麼罕見,因為 DeepSeek 是用更高的效能跟非常有效的成本,把這個邏輯做出來,即便他們有滿好的強化在裡面的一些技術,但並不意味這些技術是他們所發明的。不管是模型蒸餾或是混合專家模型,都不是從天上掉下來的技術,事實上 MoE 一直是法國 Mistral AI的強項,所以這次 Mistral 可以說是首當其衝(當然他們很快就推出對應的模型更新,並號稱推論比 DeepSeek 快很多)。

再來是成本的部分。雖然宣稱只花 600 萬美金,但 DeepSeek 並未把很多前置的訓練成本計算進來,只算了最後最後的訓練成本。這在宣傳上是可以理解的,但這樣評估顯然是一種宣傳的邏輯。如果說只有花 600 萬美金,但實際上的部署費用可能達 5 億~ 10 億美元,還是用了 5 萬張GPU,算力可能等同至少有 2 萬張較高效能的卡。

600 萬美元的說法就類似那個老笑話:小資族存錢 10 年就買到房子,沒說的是自己存錢 10 年是付了 5%的頭期款,但爸媽可是出了 95% 的房貸啊!

扣除這些過度宣傳的爭議,總結 DeepSeek 最大的貢獻有以下 3 個。

第一,它因為開源(這點當然也有人在爭議),所以相對可以自行部署,也有釋出對應的開發邏輯。本身對應的論文有把它的食譜一定程度地公開,所以這對整個 AI 領域是有幫助的。

第二,它證明在這幾個大廠之外,是有可能做出來一些新的空間。本來因為 GPU 成本問題,很多比較小的科技公司都放棄了基礎模型,如今有機會重新殺入戰局。大家對於工程上的解決方案感覺多了很多可能性,這對整個市場的投資是好事。

第三個貢獻是產生漣漪效應,讓這些大廠願意比較競爭,或是釋出更多的做法。如果不是 DeepSeek 的挑戰,我們想用超便宜的谷歌 Gemini API (到 2025 年 2 月Gemini 又重新變成最便宜的API)跟 GPT 的深度研究恐怕還要很多時間。

DeepSeek 對我們最大的幫助,是讓我們了解到 AI 本體的工程解還有很大的可能性,所以不一定只能仰賴大廠,這是一個我覺得蠻好的邏輯。雖然 5 億美金還是很多,但拿得出來的人也是很多。另外做法本身也是工程優化,所以成本降了一到兩個數量級,DeepSeek 公開後很多人用類似的工程手段做出類似的模型,例如 AI 數據教母李飛飛的團隊只花了 20 美元的算力就又蒸餾出一個類似的模型,整個 AI 產業可以清楚感受到,現在可以發揮很多有趣的可能性。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing