好書試閱


第 1 章:LLM 大型語言模型概念
1.1 什麼是大型語言模型(LLM)

大型語言模型(Large Language Model,簡稱 LLM)是一種根據上下文預測下一個字
詞並生成文字的模型,屬於生成式人工智慧(Generative AI)的一種。LLM 從大量語
料中挖掘規律,以預測最可能出現的字詞。這表示 LLM 本質上並非真正理解語言內
容,而是在進行基於上下文的預測推理。
許多人在使用 ChatGPT 時,心中常冒出一個問題:「AI 是不是真的懂我說的話?
使用 ChatGPT 等工具時,常會產生 AI 是否真正理解語言的疑問。這是因為 LLM
生成的文字往往看似合理,給人理解力的錯覺。實際上,模型僅根據語境預測合理的
語句,並不具備人類般的語意理解能力。
對開發者而言,重點在於利用 AI 的推理能力,而非期待其「具備人類的理解力。技
術上,當模型參數達到數十億規模,並經過大規模訓練,即可稱為大型語言模型。例
如 GPT-3 擁有 1750 億個參數 1。

語料、語境與語意
筆者過去在撰寫程式設計相關領域書藉時,過去較少使用「語意」與「語境」等詞
彙。隨著 AI 與程式設計的結合,將寫程式的思惟,從邏輯層面,提升到「語意」與
「語境」層面,成為現代程式設計師的重要課題。
在自然語言處理中,與語言相關的資料包括字詞、句型、語法與語意,統稱為「語
料」。這些語料可被收集並建立成語料庫 2,作為 AI 訓練的基礎資料。語境則指語
言發生的情境,例如在商店購買飲料時,說「給你 50 元」,店員會根據語境回應
「找你 5 元」。店員的回應依賴語境與語意的結合。

同一語句在不同語境下會產生不同語意,例如「給你 50 元」可能是購物付款,也可能是父母給小孩的零用錢。這說明語境對語意判斷的重要性。


推理能力(LLM Inference)
LLM 是專為自然語言處理(Natural Language Processing, NLP)訓練的深度學習模型。訓練資料不需特別標註語意,而是透過自監督學習,自動「從語料中挖掘模式與規律」,以預測下一個字詞。
換言之,LLM 並非學習語言意義,而是學會根據上下文推論下一個字詞,這即為 LLM 的推理能力(Inference)。LLM 的優勢在於龐大參數規模與自監督學習,使預測越來越精準。

AI 其實只是根據前面的語境猜下一句話,並不是真的「理解」內容模型接收一段文字後,推理出下一個字詞,並重複此流程生成完整語句。由於語言高度多變,LLM 需要龐大參數以捕捉語法與語意細節,提升推理精度。不同 LLM 模型的主要差異之一即在於參數規模。

是否需要真正懂語意的模型?
自 1950 年代起,科學家即嘗試打造能模仿人類智能的機器,具備推理與對話能力。LLM 的出現讓這個想像首次「看起來」成真。然而,這種「看似理解」實際上是高度擬態的語言模擬。
LLM 並非理解語言,而是推理並模擬語言行為。生成的內容雖合理,但可能出現錯誤,稱為「幻覺現象」。即便如此,只要能控制幻覺與語境錯位,LLM 仍是極具價值的生成工具。
筆者的觀點為,生成式 AI 目前較適用於「Open Domain Dialogue」的系統;所謂 Open Domain Dialogue(開放式對話)比較像是「閒聊」,而生成式 AI 的溫度(Tempurature)提高時,對話內容便較具「創意」。當我們需要的是「專業對話」,就可以採用預測式 AI 來取代生成式 AI。
LLM 不懂語意並無妨,關鍵在於工程師如何使用它。LLM 可視為開放的語言界面,Prompt(提示語)則是打通這層界面的 API。重點不在訓練模型生成正確內容,而在微調 Prompt 與語境,讓 LLM 產生正確回應。
因此,LLM 開發者角色將由傳統資料工程師轉向語境開發工程師(Prompt Engineer 或 Context Engineer)。Prompt Engineering 不僅是撰寫提示語,更是一門「語意編排術」,包括設計語境邏輯結構、選詞方式與角色語氣,模型依此生成語句。
這是近年「Prompt Engineer」職務興起的原因。如何編排語意、規劃邏輯結構、調整選詞與角色口吻,是 LLM 實用性的關鍵。
本書以「生成式 AI」的應用程式為主,但若考慮到更為專業的對話(而不是閒聊),則可以導入 Meta-Learning 的觀念。GPT-4 + Meta-Learning 可以實作出偏向「預測式 AI」的應用程式;GPT-5 則是能提供更多 Predictable AI 的能力。第 7 章將會介紹一個簡單的 Meta-Learning 技術。


模型推理:從語境預測到文字生成
當 LLM 模型訓練完成後,便能進入推理階段(Inference Phase)。此階段核心任務是根據使用者輸入內容,在既有語料規律中找出最可能的下一個詞。
運作流程如下:

1.將輸入的 Prompt 編碼為 token。
2.將 token 送入 Transformer 架構,進行前向運算(forward pass)。
3.模型參數保持不變,透過注意力機制與語境權重,計算每個 token 的機率分布。
4.依序選出最適合的輸出詞。

LLM 的推理行為,其本質為數學上的「條件機率」運算,只是根據已學得的語境結構,進行詞彙排序,而非真正理解語意。LLM 生成的內容看似具備語意邏輯,但實際上是語境的模擬結果。


調整推理策略:採樣機制與溫度參數

推理階段的輸出結果受採樣策略(Sampling Strategy)與溫度參數(Temperature)影響,這些設定決定模型選詞的保守程度與創造力。
常見採樣策略包括:

貪婪搜尋(Greedy Search):固定選擇機率最高的詞彙,回應穩定但易重複。
Top-k 採樣:從前 k 個機率最高詞彙中隨機選取,提高語言變化性。
Top-p 採樣(nucleus sampling):根據累積機率範圍動態決定候選詞集合,兼顧創造性與合理性。

temperature 參數控制生成隨機性:

• temperature = 1.0 時,依模型原始機率分布選詞。
• 低於 1.0,模型偏向選擇高機率詞彙,輸出較穩定。
• 高於 1.0,增加低機率詞選取機會,提升創意但增加幻覺風險。

範例程式碼:簡易 LLM 推理流程示意(Node.js)
以下程式碼示範如何使用簡化的推理流程,模擬 LLM 根據輸入文字進行 token 化與
選詞。此範例僅為教學用途,未包含完整模型運算。
// 簡易 Tokenizer 範例
function tokenize(text) {
return text.split('');
}
// 模擬機率分布,固定選擇下一個字
function predictNextToken(tokens) {
const candidates = ['了', '吧', '嗎'];
// 模擬機率分布
const probabilities = [0.25, 0.5, 0.25];
// 簡單隨機選擇
const rand = Math.random();
let sum = 0;
for (let i = 0; i < candidates.length; i++) {
sum += probabilities[i];
if (rand < sum) return candidates[i];
}
return candidates[0];
}

// 模擬推理生成句子
function generateSentence(prompt, maxLength = 20) {
let tokens = tokenize(prompt);
while (tokens.length < maxLength) {
const nextToken = predictNextToken(tokens);
tokens.push(nextToken);
if (nextToken === '。') break; // 假設句點為結束符
}
return tokens.join('');
}

// 範例執行
const prompt = '晚一點我們去餐廳吃晚餐';
const result = generateSentence(prompt);
console.log(result);
執行後可觀察到根據輸入文字,模型模擬選擇下一個字,逐步生成句子。此流程展示了 LLM 推理的核心概念。

結論
綜合以上流程,可以確認大型語言模型,主要透過龐大參數與自監督學習,從語料中挖掘規律,進行基於上下文的推理與文字生成。其核心不在於真正理解語意,而是模擬語境與語言行為。工程師應聚焦於設計有效的語境與提示語,提升模型的實用價值與生成品質。



1.2 Transformer:語言模型的新架構
2017 年,Google 發表〈Attention Is All You Need〉論文,提出 Transformer 架構,改變語言模型的基礎設計。Transformer 不再依賴遞迴神經網路(RNN)逐序列處理,而是引入全域注意力(self-attention)機制,使模型能同時比對句中任意詞與上下文的關聯。
這種設計賦予模型「任意關聯擷取能力」,成為大型語言模型(LLM)高效訓練與語意模擬的核心。Transformer 架構包含 Encoder 與 Decoder 兩部分,後續模型根據任務需求,選擇不同架構路線。
Transformer 是模組化架構,允許獨立使用 Encoder 或 Decoder,方便針對不同任務調整。BERT 採用 Encoder,強調語意理解,適用於分類、檢索與文本相似度判斷。GPT 系列採用 Decoder,強調生成能力,適合對話、寫作與程式碼自動補全。
GPT-2 將參數擴展至 15 億,GPT-3 則達到 1750 億個參數,顯著提升生成能力。Transformer 結合大規模預訓練,使 LLM 能跨任務處理多種語言應用,成為語意中介層,連結自然語言與程式、文件、資料庫等操作。

具體應用包括語境學習(In-Context Learning),僅靠 prompt 提供少量範例,無需下游微調。模型亦能進行語意生成與邏輯重構,輸出符合邏輯的段落、程式碼與多步驟規劃。知識內嵌與推論擬態則模擬知識回答與語境呼應,雖非真正理解,但具實用價值。

RNN 的限制
在 Transformer 出現前,遞迴神經網路(RNN)是處理序列資料的主要方法。RNN 逐詞計算,能維持短期記憶,但存在兩項限制:

1.序列依賴:必須依序處理,無法並行運算。
2.長距離衰減:序列距離越長,記憶訊號越弱。

語言理解需要全局關聯,RNN 難以同時關注遠距詞與近距詞,導致語意在長時間對話中逐漸遺失。Transformer 架構正是為解決這些問題而設計。


Transformer 的核心設計
Transformer 透過全域注意力機制一次處理整句,具備以下特點:

●非序列運算,支援並行計算,提高效率。
●全局注意力,每個詞可直接觀察整句內容。
●關聯矩陣由注意力權重推導,反映語法結構。

在 Prompt 實驗中,關鍵指令放在句末仍能維持高準確度,顯示模型並非依序掃描,而是同時評估整體關聯。


Encoder 與 Decoder 的分工
Transformer 包含 Encoder 與 Decoder 兩個模組。常見模型依任務選擇不同結構:
Encoder 擅長理解與特徵抽取,Decoder 擅長條件式生成。T5 將輸入與輸出視為文本,統一以文字到文字的方式處理多種任務。


多模態架構的延伸
資料不僅限於文字,還包含圖片、語音、影片等多種模態。多模態學習整合這些不同資料類型,提升模型對複雜資料的理解能力。
Transformer 具備處理多模態資料的能力,能同時理解文字、圖片與影片。基於 Encoder–Decoder 架構,Flamingo、GPT-4V、Gemini 等模型加入視覺與語音模組,透過跨模態對齊(Multi-Modal Alignment)融合多種資料,形成新的語意中介層。文字不再是唯一輸入,圖片與語音也參與 AI 推理。


開發模式的轉變
過去 AI 開發多著重於模型訓練,需大量資源與技術。ChatGPT 的出現帶來新的開發流程。
現代 AI 開發重心由模型訓練轉向語境控制(Context Engineering)。Prompt 成為 AI 應用的主要介面,語意設計直接影響 LLM 行為。


範例驗證:簡易 Transformer 注意力示意
以下程式碼示範如何計算簡化版的自注意力權重,幫助理解 Transformer 的核心機制。此範例使用 ES6 語法,並以矩陣運算展示注意力分數計算流程。
import * as tf from '@tensorflow/tfjs';

// 假設輸入為 3 個詞的向量表示(embedding size = 4)
const inputs = tf.tensor2d([
[1, 0, 1, 0],
[0, 2, 0, 2],
[1, 1, 1, 1]
]);

// 查詢(Query)、鍵(Key)、值(Value)矩陣,簡化為相同 inputs
const Q = inputs;
const K = inputs;
const V = inputs;

// 計算注意力分數:Q × K^T
const scores = tf.matMul(Q, K, false, true);

// 對分數進行 softmax,取得注意力權重
const weights = tf.softmax(scores);

// 計算加權和:權重 × V
const output = tf.matMul(weights, V);

output.print();
執行後可觀察到每個詞對其他詞的關聯權重,反映全域注意力機制。此示範有助理解 Transformer 如何同時考慮整句內容,非依序處理。


小結
Transformer 採用全域注意力機制與平行計算,解決序列依賴與長距衰減問題。其 Encoder–Decoder 架構支援多種任務拆分與組合。隨著多模態融合發展,AI 模型不再限於文本處理,而能跨模態整合文字與圖片等資料,提升對現實世界的理解能力。現代 AI 開發重心轉向語境設計,Prompt 成為與 LLM 互動的主要介面,影響模型生成品質與應用效果。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing