生成式AI開發實作|使用Transformers與擴散模型
Hands-On Generative AI with Transformers and Diffusion Models
內容簡介
內容簡介:探索生成式人工智慧的無限可能!
「如果你是開發者,想要掌握過去十年來最大規模的AI革命背後的工具及概念,本書是必備的指南。」
—Lewis Tunstall,Hugging Face機器學習工程師及《Hugging Face and coauthor of Natural Language Processing with Transformers》一書共同作者
「本書包含學習生成式AI的一切資源,包括全面的解說、深思熟慮的技巧,與DIY練習,可謂應有盡有。」
—Luba Elliott,AI藝術策展人,elluba.com
深入的理論解析與實用的程式碼範例,帶您掌握生成文本、圖像和音訊的最新技術。無論您是數據科學家還是軟體工程師,本書都將助您輕鬆上手,創造出令人驚豔的AI生成作品。立即開啟您的生成式AI之旅,讓創意與技術完美融合!
本書將教導資料科學家和軟體工程師,如何使用生成式媒體技術和人工智慧來創造新穎的圖像或音樂。書中介紹了理論概念,並提供豐富的程式碼範例和插圖,讓讀者能夠在Google Colaboratory、Kaggle或Hugging Face Spaces等服務上執行這些範例,並學習使用開源庫。
本書還探討了從頭開始訓練和使用大型預訓練模型之間的權衡,如何建立能夠修改圖像風格的模型,以及調整變形模型以達到創意目的。內容涵蓋了文本、圖像和音頻等多種數據類型的生成模型,並詳細講解了Transformer和擴散模型等先進技術的構建和訓練方法。最後介紹了如何訓練一個能夠根據個人風格撰寫文字的模型,以及如何部署模型作為互動展示或服務。
--------------------------------------------------
透過這本實作指南,學習運用生成式AI技術來建立奇妙的文本、圖像、音訊,甚至音樂。你將瞭解最先進的生成模型如何運作、如何微調與調整它們來滿足需求,以及如何結合現成的基礎模組來建立新模型,並在不同領域中開發創新的應用程式。
這本首選指南透過豐富的範例程式與容易瞭解的插圖來介紹理論概念,並帶你實際應用它們。
你將學習如何透過開源的程式庫來應用transformers和擴散模型,並探索程式、研究幾個既有的專案,藉以完成你的專案。
• 建立並自訂文本與圖像生成模型
• 瞭解「使用預訓的模型」與「微調自有的模型」之間的取捨
• 做出能夠以任意風格生成、編輯與修改圖像的模型,並運用它們
• 為各種創意用途量身打造transformer和擴散模型
• 訓練能夠反映獨特風格的模型
作者推薦先備書籍
•《精通機器學習》https://www.gotop.com.tw/books/BookDetails.aspx?Types=v&bn=A712
•《寫給程式設計師的深度學習》https://www.gotop.com.tw/books/BookDetails.aspx?Types=v&bn=A645
「如果你是開發者,想要掌握過去十年來最大規模的AI革命背後的工具及概念,本書是必備的指南。」
—Lewis Tunstall,Hugging Face機器學習工程師及《Hugging Face and coauthor of Natural Language Processing with Transformers》一書共同作者
「本書包含學習生成式AI的一切資源,包括全面的解說、深思熟慮的技巧,與DIY練習,可謂應有盡有。」
—Luba Elliott,AI藝術策展人,elluba.com
深入的理論解析與實用的程式碼範例,帶您掌握生成文本、圖像和音訊的最新技術。無論您是數據科學家還是軟體工程師,本書都將助您輕鬆上手,創造出令人驚豔的AI生成作品。立即開啟您的生成式AI之旅,讓創意與技術完美融合!
本書將教導資料科學家和軟體工程師,如何使用生成式媒體技術和人工智慧來創造新穎的圖像或音樂。書中介紹了理論概念,並提供豐富的程式碼範例和插圖,讓讀者能夠在Google Colaboratory、Kaggle或Hugging Face Spaces等服務上執行這些範例,並學習使用開源庫。
本書還探討了從頭開始訓練和使用大型預訓練模型之間的權衡,如何建立能夠修改圖像風格的模型,以及調整變形模型以達到創意目的。內容涵蓋了文本、圖像和音頻等多種數據類型的生成模型,並詳細講解了Transformer和擴散模型等先進技術的構建和訓練方法。最後介紹了如何訓練一個能夠根據個人風格撰寫文字的模型,以及如何部署模型作為互動展示或服務。
--------------------------------------------------
透過這本實作指南,學習運用生成式AI技術來建立奇妙的文本、圖像、音訊,甚至音樂。你將瞭解最先進的生成模型如何運作、如何微調與調整它們來滿足需求,以及如何結合現成的基礎模組來建立新模型,並在不同領域中開發創新的應用程式。
這本首選指南透過豐富的範例程式與容易瞭解的插圖來介紹理論概念,並帶你實際應用它們。
你將學習如何透過開源的程式庫來應用transformers和擴散模型,並探索程式、研究幾個既有的專案,藉以完成你的專案。
• 建立並自訂文本與圖像生成模型
• 瞭解「使用預訓的模型」與「微調自有的模型」之間的取捨
• 做出能夠以任意風格生成、編輯與修改圖像的模型,並運用它們
• 為各種創意用途量身打造transformer和擴散模型
• 訓練能夠反映獨特風格的模型
作者推薦先備書籍
•《精通機器學習》https://www.gotop.com.tw/books/BookDetails.aspx?Types=v&bn=A712
•《寫給程式設計師的深度學習》https://www.gotop.com.tw/books/BookDetails.aspx?Types=v&bn=A645
目錄
前言
【第一部分 利用開放模型】
第一章 生成媒體導論
生成圖像
生成文本
產生一段聲音
倫理與社會影響力
我們的過去與現狀
生成式AI模型是怎麼創造出來的?
總結
第二章 transformer
語言模型的實際運作
transformer區塊
transformer模型的發展譜系
預訓的威力
transformer回顧
專案時間:使用語言模型來生成文本
總結
練習題
挑戰題
參考文獻
第三章 壓縮資訊與表示資訊
AutoEncoders
Variational AutoEncoders
CLIP
CLIP的替代方案
專案時間:語義圖像搜尋
總結
練習題
挑戰題
參考文獻
第四章 擴散模型
關鍵洞察:逐步修正
訓練擴散模型
深入探討:雜訊排程
深入探討:UNet與替代方案
深入探討:擴散目標
專案時間:訓練你的擴散模型
總結
練習題
挑戰題
參考文獻
第五章 穩定擴散和條件生成
加入控制手段:條件擴散模型
提升效率:Latent Diffusion
Stable Diffusion:深入瞭解組件
綜合所有內容:註解採樣迴圈
開放資料,開放模型
專案時間:使用Gradio 建立互動式ML Demo
總結
練習題
挑戰題
參考文獻
【第二部分 運用遷移學習來建構生成模型】
第六章 微調語言模型
文本分類
生成文本
指令
適配器簡介
量化簡介
綜合所有內容
深入探討模型評估
專案時間:檢索增強生成
總結
練習題
挑戰題
參考文獻
第七章 微調Stable Diffusion
完整的Stable Diffusion微調
DreamBooth
訓練LoRA
賦予Stable Diffusion新能力
專案時間:自己訓練一個SDXL DreamBooth LoRA
總結
練習題
挑戰題
參考文獻
【第三部分 進一步探索】
第八章 文字轉圖像模型的創意應用
圖像轉圖像
圖像修補
提示詞加權與圖像編輯
透過反轉來編輯真實圖像
ControlNet
圖像提示與圖像變體
專案時間:你的創意畫布
總結
練習題
參考文獻
第九章 音訊生成
音訊資料
使用transformer-based 構來將語音轉為文字
從文字轉語音到音訊生成
評估音訊生成系統
下一步呢?
專案時間:完整的對話系統
總結
練習題
挑戰題
參考文獻
第十章 生成式AI的快速發展領域
偏好優化
極長的前後文
Mixture of Experts
優化與量化
資料
One Model to Rule Them All
電腦視覺
3D電腦視覺
影片生成
多模態
社群
附錄 A 開源工具
附錄 B LLM記憶體需求
附錄 C 全流程檢索增強生成
索引
【第一部分 利用開放模型】
第一章 生成媒體導論
生成圖像
生成文本
產生一段聲音
倫理與社會影響力
我們的過去與現狀
生成式AI模型是怎麼創造出來的?
總結
第二章 transformer
語言模型的實際運作
transformer區塊
transformer模型的發展譜系
預訓的威力
transformer回顧
專案時間:使用語言模型來生成文本
總結
練習題
挑戰題
參考文獻
第三章 壓縮資訊與表示資訊
AutoEncoders
Variational AutoEncoders
CLIP
CLIP的替代方案
專案時間:語義圖像搜尋
總結
練習題
挑戰題
參考文獻
第四章 擴散模型
關鍵洞察:逐步修正
訓練擴散模型
深入探討:雜訊排程
深入探討:UNet與替代方案
深入探討:擴散目標
專案時間:訓練你的擴散模型
總結
練習題
挑戰題
參考文獻
第五章 穩定擴散和條件生成
加入控制手段:條件擴散模型
提升效率:Latent Diffusion
Stable Diffusion:深入瞭解組件
綜合所有內容:註解採樣迴圈
開放資料,開放模型
專案時間:使用Gradio 建立互動式ML Demo
總結
練習題
挑戰題
參考文獻
【第二部分 運用遷移學習來建構生成模型】
第六章 微調語言模型
文本分類
生成文本
指令
適配器簡介
量化簡介
綜合所有內容
深入探討模型評估
專案時間:檢索增強生成
總結
練習題
挑戰題
參考文獻
第七章 微調Stable Diffusion
完整的Stable Diffusion微調
DreamBooth
訓練LoRA
賦予Stable Diffusion新能力
專案時間:自己訓練一個SDXL DreamBooth LoRA
總結
練習題
挑戰題
參考文獻
【第三部分 進一步探索】
第八章 文字轉圖像模型的創意應用
圖像轉圖像
圖像修補
提示詞加權與圖像編輯
透過反轉來編輯真實圖像
ControlNet
圖像提示與圖像變體
專案時間:你的創意畫布
總結
練習題
參考文獻
第九章 音訊生成
音訊資料
使用transformer-based 構來將語音轉為文字
從文字轉語音到音訊生成
評估音訊生成系統
下一步呢?
專案時間:完整的對話系統
總結
練習題
挑戰題
參考文獻
第十章 生成式AI的快速發展領域
偏好優化
極長的前後文
Mixture of Experts
優化與量化
資料
One Model to Rule Them All
電腦視覺
3D電腦視覺
影片生成
多模態
社群
附錄 A 開源工具
附錄 B LLM記憶體需求
附錄 C 全流程檢索增強生成
索引
配送方式
-
台灣
- 國內宅配:本島、離島
-
到店取貨:
不限金額免運費
-
海外
- 國際快遞:全球
-
港澳店取:
訂購/退換貨須知
退換貨須知:
**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**
-
依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
- 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
- 依消費者要求所為之客製化給付。(客製化商品)
- 報紙、期刊或雜誌。(含MOOK、外文雜誌)
- 經消費者拆封之影音商品或電腦軟體。
- 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
- 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
- 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
- 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
- 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。




商品評價