第一章 大語言模型技術基礎認知
本章快速說明大語言模型的相關背景與近期發展,而後引導了解使用大眾型線上服務的優缺點,從而體會自建服務的優缺點,以及對於這些缺點現階段有何配套緩解方式等,透過概念的建立以利後續章節的展開。
1-1 過往資訊查詢的挫折
大語言模型(Large Language Model,簡稱 LLM)是什麼?為何要自己建立(簡稱自建)呢?對此我們一步一步引導各位建立起概念。
先談談各位過往查詢資訊的經驗,相信多數人都用過 Google 搜尋引擎(Search Engine),輸入幾個關鍵字(Keyword)就會浮出對應的相關資訊,例如相關的網頁、影片或圖片等,Google 搜尋引擎服務已經有 20 年以上的歷史。
之後約從 2007 年開始,Apple 的 iPhone 手機開始有 Siri 語音助理功能,關鍵字搜尋改用口語唸出,之後一樣浮現相關的網址、圖片。進一步用口語問話,Siri 也可以用語音回應資訊,例如詢問天氣、股價等。
Siri 引領語音互動風潮後,其他科技業者也紛紛跟進,例如 Google 有
Google Assistant、Amazon 有 Alexa、Microsoft 有 Cortana 等。
事實上這做法只是將話語轉文字(Speech-to-Text),之後與關鍵字輸入上網一樣,或者也類似一些網站提供文字型聊天機器人(ChatBot,雖名為
機器人,但其實只是一套自動回話程式),只要打些關鍵字或問句,機器人就會給予相關的指引網址或直接給出文字回應。
不過各位應該也已經發現,不論是自己上網打字跟聊天機器人對話,或者是用口語發話詢問 Siri、Alexa 等語音助理程式,經常會有牛頭不對馬嘴的狀況,給出完全無關的訊息,或有俗稱的「鬼打牆」,即頻繁出現相似或相同的文字回覆,回應成了繞圈子,完全無助於真實回覆,給人挫折滿滿、幫倒忙,甚至是浪費時間。
1-2 ChatGPT 回應表現讓各方驚豔
而在 2022 年 11 月 30 日,人工智慧(Artificial Intelligence, AI)軟體技術新創業者 OpenAI 對大眾發表了該公司的 ChatGPT 線上服務,該服務的互動方式與一般服務網站上的聊天機器人無異,由大眾敲打文字發出詢問,而後回覆也是以文字訊息呈現。
不過,ChatGPT 的回覆文字已高度接近於真人回應,回話不制式、不死
板,甚至非常理解發話方的意涵,與前述的牛頭不對馬嘴、鬼打牆等糟糕體
驗截然不同,因而造成轟動。
由於 ChatGPT 服務是在 2022 年底開放使用,轟動效果持續熱燒,整個2023 年各界都持續為 ChatGPT 瘋狂,乃至更後續的 2024、2025 年等。
在多數人都有過 ChatGPT 的良善使用者體驗(User eXperience, UX)後,相信大家也會自然地延伸期待:如果往後使用搜尋引擎也是這樣人性化詢問、切中要義的人性化回覆,以及各服務網站的聊天機器人也是如此人性且智慧回話,那該有多好!
而 ChatGPT 為何能如此人性、智慧回應?背後所用的技術正是 LLM。
1-3 三種主要的人工智慧應用類型
接著我們要暫時跳脫上述,先說明兩個基本概念,而後再拉回主軸。首先是人工智慧(以下簡稱 AI)應用的主要類型有三,即電腦視覺(Computer Vision, CV)、自然語言處理(Natural Language Processing, NLP)、資料科學(Data Science, DS)等,電腦視覺即看到一個圖片或影像時能有所分辨,典型應用如車牌號碼識別、人潮流量計算等。
自然語言處理則是能理解人類的語言、文字,例如聽一段聲音即知道是韓語?是日語?打一段文字就知道對方要詢問什麼。至於資料科學的典型應用如設備的故障時間預測、股價預測等。
三種主要類型是一般共識,也有人提出推薦系統(Recommender System, RS)、智慧決策支援系統(Intelligent Decision Support System, IDSS)等應用主張。推薦系統即在網路書店瀏覽書籍後,透過瀏覽行為給予推薦的相關書籍,類似做法也用於網路購物、網路觀看影片等。
智慧決策則是與商務營運相關,例如金融業建立一個 AI 模型用於審核是否放貸,或醫療業建立一個 AI 模型用於 X 光初步病灶研判等,反正大體不脫三大類,額外分立略顯牽強。
1-4 人工智慧的弱、強、超
另一個基本概念是 AI 有弱、強、超三種區分;所謂弱人工智慧(Artificial Narrow Intelligence, ANI,或稱人工窄智慧)是一個 AI 模型只能實現一種人類的智慧判定,例如 A 模型只能用於識別車牌、B 模型只能用於判定天氣,但其實一個人本來就有多種智慧判定能力,既能識別車牌,也能判定天氣。
今日多數的 AI 模型均屬於弱人工智慧,有些模型的智慧能力依然比不上人類,但已經堪用,可以達到分憂解勞的效果。例如計算遊樂園的人流量,如果是用真人來計算,自然可以把成人、小孩、男女等進園人數分別計算清楚,但用 AI 的影像判定則可能有些誤差,不過誤差仍在可接受的範圍,而計算的資料已經足夠讓園區主管擬定未來活動或調整動線之依據。
不過也有些弱人工智慧已經超越人類,例如在相片分類競賽上,AI 已經超越人類,或者下圍棋專用的 AI 模型已經能戰勝人類等,但即便如此,依然是弱人工智慧。
至於強人工智慧(Artificial General Intelligence, AGI,或稱人工通用智慧)則是一個 AI 模型可以同時具有多種人類智力表現,既可以對水果進行分類,也可以判定牛排是幾分熟,或可以聽前奏就識別出歌曲名稱等,整體智慧表現更逼近於人類。若更細部而論,強人工智慧也是有層次之別,但在此只為了建立初步概念,故不再展開細談。
而超人工智慧(Artificial Super Intelligence, ASI)即是 AI 整體智慧表現超越了人類,包含超越一般人,甚至超越人類群體等。ASI 目前尚未實現,一旦實現,可能讓人放心,也可能令人擔憂。可以放心的是 ASI 可以做出比人類更智慧的決策,擔憂的是人類是否自此逐漸失去世界主導權,而必須聽令於 ASI。或有心人士利用其建立新威權,或 AI 一旦超越了人類智慧,又如何衡量 ASI 的超越程度呢?又若其誤判的傷害可能更大等,相關效應也不是本書的重點,故不再展開。
1-5 ChatGPT 的根基與持續推進
了解 CV∕NLP∕DS 以及 ANI∕AGI∕ASI 後再回到 ChatGPT 上,開始來了解如此人性文字回話的背後是怎樣的技術發展歷程。
ChatGPT 服務的背後其實是一個大語言模型(LLM),其歷史可追溯至2017 年。2017 年 Google 團隊提出的一個 Transformer(變壓器或變形金剛,均是此字)模型,隨後 OpenAI 公司以該模型為基礎持續發展,於 2018 年提出自己的模型,稱之為 GPT(Generative Pre-trained Transformer)。
之後 2019 年提出新一代的 GPT-2,2020 年又提出 GPT-3,之後往 GPT-4邁進,在尚未正式完成 GPT-4 模型前,2022 年 11 月 OpenAI 以訓練中的模型延伸開發出聊天用途的 ChatGPT 服務,因而大受歡迎。2023 年 GPT-4 正式練成,也可用來支援 ChatGPT 服務,故原有的服務模型稱為 GPT-3.5,新的則是 GPT-4。
以 GPT 系列引擎延伸出的應用不只是文字聊天用途的 ChatGPT,2024年還提出搜尋引擎的 SearchGPT,之後改稱 ChatGPT Search,或在 ChatGPT前曾有 InstructGPT 等。
GPT-4 的問世也開始引入多模態(Multimodal)能力,過往餵給 AI 模型的問題通常為單一種媒體,例如一段文句或一張圖片等,然後要求 AI 給予智慧性判別回應。
多模態則是可以同時給予多種媒體,例如給一張圖片後搭配一段問句,如圖片中有幾隻貓?去除黃貓不算,則有幾隻貓?AI 必須同時考慮圖片與問話才能回應。有了多模態後,AI 就更往前逼近 AGI 一步了。
更之後 GPT 系列模型持續精進,有了 GPT-4 Turbo、GPT-4o、GPT-4o mini、OpenAI o1、OpenAI o3 mini、GPT-4.5 等新模型,其中 Turbo、mini 等是針對既有的模型進行 AI 回應速度、AI 模型大小而有的調整版,但調整的同時也順便進行若干方面的表現精進,如強化數學問題能力、語言翻譯能力等。
1-6 預訓練模型與模型微調
既然 ChatGPT 如此好用,我們也希望各服務網站的聊天機器人也能跟ChatGPT 一樣,回話智慧又人性,事實上企業也希望如此,那該如何做?
直接把本來服務網站接收到的問題導引到 ChatGPT 上,再把 ChatGPT的回覆接收回來轉給發問者,這樣可行嗎?答案是不太可行,因為 ChatGPT背後的 AI 模型當初在訓練時所使用的資料(或稱數據集、資料集,Dataset)並沒有太多是該服務網站的專屬資料,因此回覆的答案無法很精準,通常是很概念性的無用答案,甚至是亂回話。
要如何讓 AI 模型的回話更合乎不同服務網站個別的需要,例如合乎律師事務所的簡單法律詢問、合乎醫院的線上掛號科別詢問,乃至金融業、電信業等,對此必須將模型複製出一份,而對複製的模型進行一些調整,此稱為微調(fine-tuning)。
微調需要給模型一些新的資料,以律師事務所而言,可能要提供一般的法律條文資料、事務所自己專屬的訴訟業務文件等,以此重新訓練模型,或若干性改變原有模型的架構。即便如此,也並非是訓練一個全新的模型,只是對現行模型進行程度性改造,使其更合乎特定用途。
之所以要複製出來一份,畢竟原有的模型依然要服務各方大眾,保持中立、全向、非專精的立場,只要用複製出的模型來微調,從而實現合乎自己需求的特定模型。而尚未進行微調,但已是高完成度的全向性回話模型,稱為預訓練模型(Pre-trained Model)。言下之意,已經被預先訓練好的模型,後續可依據個別用途再行微調。
更簡單來說,預訓練模型就像是一份結婚典禮上的範本賀詞稿,內容用詞通常四平八穩,取得這份範本後,依據不同的婚禮場合再進行修改其中文句,就成了更適合某場婚禮的動人賀詞稿。
企業與機構自建 LLM 提供服務,除了有更精準、專業回話的好處外,其實也可以避免使用共通性 LLM 的壞處,主要有三:
1. 避免洩漏企業商業機密
過去 ChatGPT 服務剛上線不久時,就曾發生南韓 Samsung 公司的員工在與 ChatGPT 文字對話過程中,誤將公司的商業機密傳遞到雲端,如此即洩漏公司機密給其他不知名的 ChatGPT 用戶,而獨立空間打造的自屬LLM則能相對避免洩漏問題。
2. 避免系統受誤導
ChatGPT 一方面回覆大眾問題,一方面也持續從大眾的反應來吸收學習改進,然而吸收過程中也容易被人誤導,例如林肯是偉人嗎?一開始回覆的答案是,但若經過一段時間大家密集討論《吸血鬼獵人:林肯總統》這部奇幻虛構電影,之後再詢問林肯是偉人嗎?答案可能變成:他是吸血鬼獵人。為了避免誤導,獨立打造自屬 LLM 可減少此一誤導影響,提供儘可能長期一致的回覆。
3. 避免普世價值把關機制
ChatGPT 屬於公眾使用定位,為了避免助長社會不良發展,故背後系統會刻意迴避一些問題,例如毒品、犯罪、炸藥等。但有些企業與機構因本身業務因素必須回覆這類的答案,如此就無法使用 ChatGPT,而必須打造自屬的 LLM,並移除關鍵字詞的迴避機制。