內容簡介:🎯 資料驅動時代,行銷決策不再靠直覺,你需要的是──科學證據! ・折扣真的能提高銷售?哪些顧客即使不推也會買? ・無法進行 A/B 測試時,還有哪些方法能推論效果? ・在資源有限的情況下,如何讓每一分行銷預算發揮最大效益? ✔把抽象的因果推論方法,運用到科技產業的真實商業問題上。 ✔教你如何思考模型背後的假設與挑戰,搭配實例分析,真正「用得出來」。 ✔全書以 Python 為實作語言,實務化門檻降低,符合產業主流技術。 ✔幫助行銷人、資料分析師、產品經理,解決真實業務問題。 🚩 最真實的國際讀者讚譽 「對數據科學家來說,這本書直接影響我的工作,充滿『恍然大悟』的時刻!」 「唯一一本將因果推論從數學理論到Python實作、聚焦產業應用的書!」 「適合統計、工程與經濟領域專業人士,完美填補實務缺口!」 🚩 來自專家的推薦 「Matheus寫的這本書,教導您如何從簡單的模型進展到適用於真實資料,並解決重要實際問題的先進方法,是該主題迄今的最佳著作。」 ——Sean J. Taylor,Motif Analytics首席科學家 「這是一本淺顯易懂的因果推論入門書,聚焦於Python資料分析社群最熟悉的工具和應用場景。」 ——Nick Huntington-Klein,經濟學教授、《The Effect: An Introduction to Research Design and Causality》作者 「少數真正符合科技產業實際需求的因果推論書。每一章都處理實際資料中會遇到的問題,並用 Python 從零實作。推薦給任何希望深入理解並實作因果推論的人。」 ──D.G. 哥倫比亞大學《工業資料科學》課程講師、Lyft應用科學家 每增加一美元的線上行銷預算,能吸引多少新顧客?哪些消費者只有在收到折扣券時才會購買商品?該如何制定最佳定價策略?因果推論提供了一種高效方法,幫助您準確評估各種影響因素對商業指標的改變,而這一切只需幾行簡潔的Python程式碼即可實現。 在本書中,作者Matheus Facure深入剖析了因果推論在影響力分析與效果估計上的巨大潛力。無論您是管理人員、資料科學家,還是商業分析師,都將在書中學習到一系列經典的因果推論方法,例如 A/B測試、線性迴歸、傾向分數、合成控制法以及雙重差異法(Difference-in-Differences)。此外,作者也帶您探索現代技術的應用,包括如何利用機器學習進行異質性效應估計。每一種方法都配有具體的產業應用範例,幫助您快速上手。 本書將幫助您: .學習因果推論的基本概念 .將商業問題建構為因果推論問題 .了解偏差會如何干擾因果推論 .認識因果效應如何因人而異 .使用同一顧客在不同行為上的觀察進行因果推論 .在隨機化不可行的情況下,運用地理或切換實驗完成因果分析 .檢視不遵從性偏差和效應減弱
卓越資料科學的技巧 幫助您在資料科學領域中脫穎而出! 「Daniel再次創作了一部傑作,為資料科學家和業務主管之間搭建了有助創造價值的橋樑。本書就是實現資料科學能獲得商業成功的那本關鍵手冊。」 —Adri Purkayastha BNP Paribas全球AI技術風險主管 「全面涵蓋從經濟學到廣告,甚至是流行病學等多個領域,以及如何實際應用資料科學技術。它開端於大多數書籍結束的地方,深入探討由資料洞察驅動的實際決策過程。是每位資料科學家書架上迫切需要的重要資源。」 —Brett Holleman 自由職業資料科學家 這本實用指南提供了傳統的資料工程和資料科學教育中常被忽略的技術和最佳實務。常見的迷思是,優秀的資料科學家是這個領域中「重大主題」的專家(機器學習和程式設計);但事實上,這些工具僅能帶我們走到一定程度而已。真正能區分頂尖資料科學家與普通資料科學家的,是他們對這些重大主題理解的細微差別,以及他們對商業產生影響的能力。 整體而言,本書內容能使在該領域工作的普通資料科學家和優秀資料科學家產生區別。作者Daniel Vaughan收集、擴展並應用這些技能來創造價值,並培訓來自不同公司和行業的資料科學家。 透過這本書,您將能夠: ‧確保您的資料科學工作流程能創造價值 ‧設計可操作的、及時的、相關的指標 ‧提供引人入勝的敘事,以獲得利益相關者的支持 ‧使用模擬來確保您的機器學習演算法是解決問題的正確工具 ‧識別、修正並預防資料洩漏 ‧透過估算因果效應來了解增量性
內容簡介:🔹 全面掌握雲端資料與AI平台設計關鍵 🔹 實戰導向,靈活運用AWS、Azure、Google Cloud、Snowflake、Databricks 🔹 從基礎到進階,打造符合企業需求的現代化資料平台 🔹 強化資料治理,加速AI/ML創新,驅動決策智慧 無論你是資料架構師、工程師,或是希望運用AI強化決策的企業領導者,本書都將成為你打造未來資料與機器學習平台的最佳指南! 在資料驅動的時代,企業該如何善用資料創造價值? 本書由三位資深工程師聯手打造,為雲端架構師與資料專業人士提供了一套清晰完整的解決方案。從雲端資料平台的設計到AI與機器學習的整合,帶您走過資料現代化的每一步。無論是整合分散的資料、實現即時決策,還是利用AI解鎖創新潛力,本書都提供了實用的架構與工具,幫助你在雲端時代保持優勢。 ----------------------------------------------------------- 「本書完整介紹,如何依據企業組織的策略方向,設計與建置現代雲端資料與ML平台的概念、模式與元件。真希望我能在多年前就能讀到這本書。」 —Robert Sahlin,Mathem資料平台主管 所有的雲端架構師都必須知道如何建置資料平台,以賦與企業能夠快速高效地做出資料驅動的決策,並在整個企業範圍內提供智能化服務。本書將展示如何使用AWS、Azure、Google Cloud以及Snowflake與Databricks這類多重雲端工具,設計、建置與現代化雲端原生資料與機器學習平台。 作者Marco Tranquillin、Valliappa Lakshmanan與Firat Tekiner使用真實世界企業架構來說明,內容涵蓋從雲端匯入到啟動整個資料生命週期。你將學到如何轉換、保全與現代化資料倉儲與資料湖這些熟悉的解決方案,也將能充份利用最新的AI/ML模式取得精準且快速的洞見,提升競爭優勢。 你將學會: *設計現代化且安全的雲端原生或混合資料分析與機器學習平台 *透過將企業資料整合到治理良好、可擴充的與彈性的資料平台,加速資料導向的創新。 *民主化存取企業資料,治理業務團隊提取洞見方式與建置AI/ML的能力。 *讓您的企業利用串流管道即時決策 *建置MLOps平台,移往預測性與指示性分析
🏆🏆🏆 Amazone 400+ 五星好評 🏆🏆🏆 👉 資料領域的必讀書單📚 ,適合IT專業人士和學生,尤其適合希望深入了解資料工程的讀者。 👉 書中提供資料工程的基本和進階概念,對於理解當前和未來的資料工程趨勢和技術非常有幫助。 👉 作者的寫作風格值得讚賞,使用的比喻和舉例能將複雜的概念有效簡化,更易理解。 👉 提供清晰的資料工程生命週期概念,有助提升資料管理和專案管理的能力。 「資料世界發展到現在已經有一段時間。首先從設計師開始,然後是資料庫管理員,接著是首席資訊官,然後是資料架構師。這本書將促使該行業朝著更加成熟和先進的方向發展。對於每一位認真對待自己的專業和職業的人來說,這都是一本必讀之作。」 —Bill Inmon 資料倉儲創建者 「《資料工程基礎》是一本絕佳的入門書籍,涵蓋了資料遷移、處理和管理的相關業務。我要強力推薦給任何想要快速瞭解資料工程或分析方面的人,或者想要填補自己知識漏洞的現有從業人員。」 —Jordan Tigani MotherDuck創始人和首席執行官 / BigQuery創始工程師和共同創始人 過去十年來,資料工程發展迅速,讓許多軟體工程師、資料科學家及分析師渴望全面了解這個領域的全貌。這本實用的書籍將告訴你,如何在資料工程生命週期的框架下,評估並選擇最適合的技術,規劃和建構系統能滿足你的組織與客戶需求的資料系統。 本書作者Joe Reis和Matt Housley將帶您深入瞭解資料工程生命週期,並解說如何把各種雲端技術接合起來,以滿足下游資料消費者的需求。你將瞭解如何應用資料產生、攝取、編排、轉換、儲存和治理等概念,這些概念在任何資料環境中都至關重要,而且與底層技術無關。 本書將助您: ‧掌握資料工程領域的精要與全貌。 ‧使用端到端的最佳實踐框架評估資料工程問題。 ‧正確選擇資料技術、架構和流程,避開誇大的行銷手法。 ‧使用資料工程生命週期來設計和建構強大、穩健的架構。 ‧將資料治理與安全性融入整個資料工程的生命週期。
開發雲端資料管道的權衡之計 「Sev Leonard的最佳實踐和策略可以為我的雇主節省數百萬美元。對比一本書的價格和閱讀時間而言,這是相當不錯的投資回報。」 —Bar Shirtcliff 軟體工程師 「這就是我們一直在等待的那本書,它為監控、控制和優化高效能雲端資料系統的成本,提供了清晰、有條不紊的指導。」 —Matthew Housley 首席技術長兼《資料工程基礎》的合著者 起初,雲端服務的成本看起來經濟實惠,但很容易在日後演變為一筆巨額開支。這對於開發資料管道的團隊來說是一個挑戰,特別是當技術和工作負載快速變化,而需要不斷重新設計週期,導致在開發、調試和停機方面產生額外的成本支出時,該如何提供可擴展、高度可用的產品,同時兼顧成本控制? 在這本實用指南中,Sev Leonard提供了適用於雲端環境設計下,一種可擴展資料管道的整體方法,幫助您在雲端運算和儲存、管道開發和測試、以及監控之間進行成本效能的權衡之計。透過專注於整個設計過程,資料工程師、軟體開發人員、架構師和管理人員可以交付具有成本效益的高品質產品。本書可以幫助您: ‧透過具有成本意識的服務和智慧設計策略,降低雲端費用支出 ‧調整運算資源規模,在不犧牲效能的情況下,最大限度減少資源浪費 ‧推動資料管道發展防止效能問題,並透過有效監控來快速調試、除錯 ‧設定開發和測試環境,盡可能減少雲端服務依賴性 ‧建立可測試且可擴展的資料管道程式碼,降低開發成本並加速管道演進 ‧透過驗證和測試來提高資料品質和管道運行
「為了選擇適合的工具來完成工作,我們必須了解其設計背後的概念和演算法。本書是由業界從業者為初學者撰寫的入門書籍,涵蓋了許多相關主題。」 -Michael Klishin RabbitMQ長期貢獻者 「對於任何從事資料庫技術有關的人來說,這是一本必備的書籍,尤其是在需要做出使用哪些系統的決策時。」 -Nate McCall Apache Cassandra貢獻者及PMC主席 在選擇、使用和維護資料庫時,了解其內部原理是必不可少的。然而,隨著當今有許多分散式資料庫和工具可供選擇,往往很難了解每個資料庫提供的功能和它們之間的差異。在這本實用指南中,Alex Petrov將引導開發人員深入了解現代資料庫和儲存引擎內部的概念。 在整本書中,您將探索從眾多書籍、論文、部落格文章及幾個開源資料庫的原始碼中所獲取的相關資料。您將發現,許多現代資料庫中,最重要的區別在於決定儲存結構和資料分散方式的子系統中。 您將深入探討以下內容: ‧儲存引擎:了解儲存分類和分類法,深入研究基於B樹(B-tree-based)和不可變的日誌(immutable log-structured)結構儲存引擎。 ‧儲存建構塊:了解如何使用輔助資料結構組織資料庫檔案,如頁面快取和緩衝池,來建立高效的儲存系統。 ‧分散式系統:逐步學習節點和進程如何連接並建立複雜的通訊模式。 ‧資料庫叢集:探索現代資料庫常用的一致性模型,以及分散式儲存系統如何實現一致性。
實現資料可信度的人員、流程和工具 「現今組織產生的資料量和種類比以往任何時候都來得多,企業需要更加了解手中的資料並為未來趨勢做好準備,他們必須採行現代資料治理方式—透過事先設計而不是事後才想到。」 —Jim Cushman, Collibra產品長 當您將資料移動到雲端時,對於資料該如何治理,您需要考慮全面的管理方法,以及定義明確且利益相關者皆有相同共識的策略,以確保您的組織滿足合規性要求。資料治理結合了人員、流程和技術協同工作的方式,以確保資料值得信賴並且可以有效使用。本實務指南向您展示如何在整個組織中實施和擴展資料治理。 首席資訊長、資料長和資訊安全長及其團隊將學習戰略和工具,以支持資料民主化並釋放其價值,同時執行安全、隱私和其他治理標準。通過良好的資料治理,您可以激發客戶信任,使您的組織能夠確定業務效率,產生更具競爭力的產品,並改善客戶體驗。這本書會教你怎樣做。 您會學到: ‧針對人員、流程和工具的資料治理策略 ‧基於雲端服務的資料治理方法的優勢和挑戰 ‧從資料擷取到資料準備和使用,資料治理是如何進行的 ‧如何對資料質量做持續性改進 ‧治理串流資料的挑戰和技術 ‧針對身份驗證、安全、備份和監控的資料保護 ‧如何在您的組織中建立資料文化
處理大量資料的基本工具 「這本書提供了清晰且易於遵循的範例,幫助您設置與使用最重要的資料科學和機器學習工具。」 —Anne Bonner Content Simplicity創辦人和CEO Python是許多研究人員的首選工具,它擁有豐富的儲存、操作及洞察資料的程式庫。這些資源散布在資料科學的領域中,藉由本書,您可以一次獲得這些資源,包括Ipython、NumPy、Pandas、Matplotlib、Scikit-Learn和其它相關的工具。 對於熟悉Python,需要處理大量資料的資料科學家和資料處理人員來說,這是一本非常有價值的案頭書。可以有效率地處理每天面對的問題,像是操作、轉換及清理資料,視覺化不同形式的資料,建立統計學或機器學習模型等。 藉由本書,你將可以學習到: ‧IPython和Jupyter:提供資料科學家使用的Python計算環境 ‧NumPy:在Python中進行高效儲存及操作密集資料陣列的ndarrys ‧Pandas:在Python中進行對於標籤式/欄位式的資料高效率儲存與操作 ‧Matplotlib:在Python中進行彈性範圍的資料視覺化功能 ‧Scikit-Learn:提供機器學習演算法以及簡潔的Python實作
擷取、清理、分析與轉換資料 「Kyran的書包含了大量資訊,從D3.js細節說明,到如何建構出由客製化互動式儀表板所使用的、且由資料庫所支持的API。可以肯定地說,您將從這本書中學到很多東西!」 —Peter Cook, 《D3 Start to Finish》作者 如何將原始、未經處理的資料轉化為動態的互動式web視覺化?在這本實用的書中,作者Kyran Dale向資料科學家、分析師以及Python、JavaScript開發人員,展示如何為工作建立理想的工具鏈。藉由提供引人入勝的範例以及分享得之不易的實務經驗,本書將引導您善用最佳的Python和JavaScript程式庫。 Python為爬取、清理和處理資料提供強大、成熟的程式庫。在web視覺化程式設計方面,JavaScript是最好的語言。這兩種語言相得益彰,可以幫助您建立現代web視覺化工具鏈。 您將學習如何: ‧使用爬取或web API(Requests、Scrapy、Beautiful Soup)獲取資料 ‧在NumPy生態系統(帶有pandas、Matplotlib和Seaborn的Jupyter notebook)中使用Python資料處理程式庫清理和處理資料 ‧使用靜態檔案或輕量級Python伺服器(Flask RESTful API)將資料交付到瀏覽器 ‧掌握足夠的web開發技能(HTML、CSS、JavaScript)將資料視覺化 ‧使用挖掘和精煉資料建立web圖表和視覺化(Plotly、D3)
創造商業影響力與洞察先機 「藉助Google Analytics的學習過程,熟悉這個數位行銷道具箱裡的每項工具,不僅能了解手上的資料、活化資料,還能創造出自己的競爭優勢,推動價值與成長。」 —Melinda Schiera, 策略分析師 在數位行銷分析領域裡,當前最新的資料模型非Google Analytics 4莫屬,因為GA4不只回報已經發生的事,新增的雲端整合功能還可以活用更多的資料,橫跨所有資料串流,串接線上與離線資料,提供點對點的行銷資料。這本實用手冊還會示範GA4如何支援這些新增的雲端整合功能,幫助讀者做好準備,迎向數位行銷的未來。 本書作者Mark Edmondson是Google Analytics和Google Cloud的開發專家,他針對GA4及其雲端整合應用,提供簡要但全面的入門介紹。資料、商業與行銷分析人員可以從本書學到GA4新的分析模式裡幾個強大的主要面向,主題包含資料架構與策略,資料擷取、儲存和建模,探索幾個常見的資料活用使用案例,指引分析人員實作案例時需要的步驟。 讀者將從本書學到: ‧Google雲端平台如何結合GA4 ‧GA4能與哪些使用案例結合 ‧建立GA4整合應用時需要哪些技術和資源 ‧啟用使用案例時,GA4必須先擷取多少資料 ‧設計資料流的程序,從策略到資料儲存、建模與活化 ‧如何調整使用案例,以符合自身的業務需求
「一本「將數據視為產品」全面且重要的介紹,包括達成此目標所需的文化、流程、技術和團隊變革。」 Manuel Pais 《Team Topologies》共同作者 「Zhamak詳細說明Data Mesh方法,讓這個新概念清晰且實用。」 Gwen Shapira Nile Platform共同創辦人與產品長,《Kafka: The Definitive Guide》作者 我們正處於數據的轉捩點。組織的複雜度、資料來源的激增及期望使用AI和資料分析來從數據取得價值等原因,已經讓目前的數據管理解決方案無法應對。在這本實用書中,作者Zhamak Dehghani介紹了數據網格,這是從現代化分散式架構描繪出的去中心化的社會技術典範,提供一種新的方法,規模化的獲取分析數據的來源、分享、存取和管理。 作者引導從業人員、架構師、技術主管和決策者,讓他們從傳統的大數據架構順利走向分散式、多維度的分析數據管理方法。數據網格將數據視為產品,將領域視為主要考量,套用平台思考模式來建立自我服務的數據基礎設施,同時介紹數據治理的聯合計算模型。 ‧完整介紹數據網格的原則與內容 ‧設計數據網格的架構 ‧引導數據網格的策略與執行 ‧引領組織設計去中心化的數據所有權模型 ‧將傳統資料倉儲與資料湖泊轉移到分散式數據網格
風險建模演算法 「Abdullah Karasan成功展現了在金融風險管理領域中使用機器學習的能力,這是對任何金融機構都攸關重要的功能。」 —Yves J. Hilpisch博士 The Python Quants與The AI Machine創辦人及總裁 「如果您需要將統計和機器學習方法應用在金融風險分析的入門指南,那麼這是一個很好的起點。」 —Graham L. Giller 《Adventures in Financial Data Science》作者 金融風險管理在人工智慧的幫助下發展迅速。透過這本實用指南,開發人員、程式設計師、工程師、金融分析師、風險分析師及定量和演算法分析師,將可以機器學習和深度學習模型進行金融風險評估。建立基於人工智慧的財務建模實務技能後,您將學習要如何運用機器學習模型來取代傳統的金融風險模型。 作者Abdullah Karasan幫助您探索金融風險建模背後的理論,再深入研究使用Python運用機器學習模型以對金融風險進行建模的實際方法。 有了這本書,您將可以: ‧回顧經典的時間序列應用並將其與深度學習模型進行比較 ‧使用支撐向量迴歸、神經網路和深度學習來探索波動率模型以衡量風險程度 ‧使用機器學習技術來改善市場風險模型(VaR和ES),並包括了流動性維度 ‧使用分群和貝氏方法來進行信用風險分析 ‧使用高斯混合模型和關聯結構模型來捕捉流動性風險的不同面向 ‧使用機器學習模型來進行詐欺偵測 ‧使用機器學習模型來預測股價崩盤並識別其決定因素
「本書提供了當代資料庫世界中你應當瞭解關於SQL的一切事物,從SQL的基本概念到分析用函式及大型資料庫操作等進階題材。」 —Mark Richards,《軟體架構原理》(歐萊禮出版)作者 當資料如潮水般湧入企業內部,你需要立即讓它們派上用場時,SQL就是最佳的利器。這本最新版的入門指南可以協助您迅速掌握SQL的基礎知識,以便撰寫資料庫應用程式、執行管理作業、並製作報表。讀者們還會看到新加入的章節,涵蓋分析用函式、操作大型資料庫的策略、以及SQL與大數據的關係與進展。 每一章專注於一項SQL的關鍵概念或技術,佐以大量的說明和註解清晰的範例。章傑最後的習題可以讓你立即練習剛剛學到的技巧,檢驗學習成效。瞭解SQL是操作資料的必備技能。藉由本書,你將能迅速學會如何發揮此種語言的威力及彈性。 .迅速掌握SQL的基本知識與進階功能 .以SQL的資料敘述來產生、操作及取得資料 .以SQL的架構敘述建立資料表、索引及約束條件等資料庫物件 .學習如何以查詢語句操作資料集合;理解子查詢的重要性 .以SQL的內建函式轉換及操作資料,並在資料敘述中運用條件邏輯
幫助Android/iOS開發者了解如何應用AI/機器學習技術開發app如果無處可用,AI什麼都不是。在人手一機的時代裡,如何應用AI已經成為行動裝置App開發人員的必修課程。本書是你在主流行動裝置平台(iOS與Android)上應用機器學習技術開發相關app的最佳指南。 本書介紹機器學習的相關技術與工具,並引導你應用ML Kit、TensorFlow Lite與Core ML等工具,開發電腦視覺與文字辨識等應用機器學習技術的Android/iOS應用程式。 .介紹可以應用在行動裝置上的AI/ML相關技術 .建立為iOS和Android的機器學習模型 .應用ML Kit與TensorFlow Lite開發Android/iOS應用程式 .如何依據需求選擇技術與工具,如雲端或裝置端的取捨,以及API的選擇 .了解機器學習技術應用的上的隱私與道德考量
「本書全面介紹深度電腦視覺的最先進作法,在Keras中建構端到端生產系統,提供經過實戰檢驗的最佳實務解決方案。」 —François Chollet 深度學習研究者和Keras創造者 這本實用指南向您展示了如何使用機器學習模型從影像中淬取資訊。ML工程師和資料科學家將會學習經過驗證的ML技術來解決各種影像問題,包括分類、物件偵測、自編碼器、影像產生、計數和圖說產生。本書卓越的介紹了端到端深度學習:資料集建立、資料前置處理、模型設計、模型訓練、評估、部署和可解釋性。 Google工程師Valliappa Lakshmanan、Martin Görner和Ryan Gillard向您展示了如何開發準確且可解釋的電腦視覺ML模型,並使用強大的ML架構以靈活且可維護的方式將它們投入大規模生產。您將學習如何使用以TensorFlow和Keras編寫的模型進行設計、訓練、評估和預測。 您將學習如何: ‧為電腦視覺任務設計機器學習架構 ‧選擇適合您的任務的模型(例如ResNet、SqueezeNet或EfficientNet) ‧建立端到端ML生產線來訓練、評估、部署和解釋您的模型 ‧前置處理影像以進行資料擴增進行並支援可學習性 ‧納入可解釋性和負責任的AI的最佳實務 ‧將影像模型部署為Web服務或在邊緣設備上 ‧監控和管理機器學習模型
從建構交易策略到使用Python的機器人投資顧問 機器學習和資料科學將在未來幾年顯著改變金融業。透過本實用指南,避險基金、投資和零售銀行以及金融科技公司的專業人士將學到如何建構對該行業極為關重要的ML演算法。您將研究ML概念和20多個案例研究,包括了監督式、非監督式和強化學習,以及自然語言處理(natural language processing, NLP)。 分析師、交易員、研究人員和開發人員還將深入研究投資組合管理、演算法交易、衍生性商品定價、詐欺偵測、資產價格預測、情緒分析和聊天機器人開發。您將探索現實生活中的問題,並學習以程式碼和範例作為後盾的科學上合理的解決方案。 本書包括: ‧基於迴歸的監督式學習交易策略和衍生性商品定價模型 ‧基於分類的監督式學習信用違約風險預測與詐欺偵測模型 ‧投資組合管理與收益率曲線建構中的降維技術及實例研究 ‧利用演算法和分群技術尋找交易策略和投資組合管理中相似物件的案例研究 ‧建立交易策略的強化學習模型和技巧,衍生性商品避險和投資組合管理 ‧使用Python函式庫(例如NLTK和Scikit-learn)的NLP技術
資料分析聽起來很難,但只要你會用Excel,其實就不難上手了。透過這本實作指南,能夠幫助你更進一步地理解資料分析與處理,並瞭解如何藉助程式語言進行資料分析與假說檢定。 資料分析的重點是找出關聯性,本書可以引導你學到更進階的資料分析技術。本書運用試算表作為練習基礎統計學概念的範例,並告訴你如何運用Python與R進行更有效率的資料分析。 這本實用指南可以幫助你: .了解如何利用Excel進行資料分析:透過Excel來測試變數之間的關係,並運用統計學製作令人信服的分析 .從Excel到R:學會如何使用R進行原本利用Excel所進行的資料分析工作 .從Excel到Python:學會如何應用Python進行原本利用Excel所進行的資料分析工作
用試算表和程式說故事 「關於資料視覺化,你需要知道的一切,都在這本書裏頭了!」 - Derek Eder Partner, DataMade 《精通資料視覺化》將告訴你如何設計可用於網站上的互動式圖表和定製地圖,只要利用Google試算表、Datawrapper和Tableau Public這類的工具就能辦到。我們還會告訴你,如何套用GitHub上的Chart.js、Highcharts和Leaflet等開源模板。 本書利用真實世界的案例與網路資源,一步步引導你學會如何將資料視覺化,即使沒有任何程式設計經驗也能辦得到。 .構建互動式圖表和地圖並將其嵌入你的網站中 .理解設計有效圖表和地圖的原則 .學習關鍵的數據可視化概念以幫助你選擇正確的工具 .轉換和變換表格和空間數據,講述你的資料故事 .在GitHub上編輯和託管Chart.js、Highcharts和Leaflet地圖程式模板 .學習如何檢測他人製作的圖表和地圖中的偏差
幫助沒有任何Python基礎的使用者,學會自動化Excel工作,在Excel中,輕鬆借助Python的資料分析和科學計算工具完成任務 在微軟的相關論壇中,使用者期望Excel支援Python的呼聲不斷,為什麼這個組合如此受人矚目?在這本實用的手冊當中,xlswings開發者Felix Zumstein,將現身說法,告訴您如何使用Python來達成Excel的自動化作業。 雖然Excel在過去幾年加入許多新功能,但其內建的腳本語言VBA已經停滯多年,許多Excel高手都已經開始運用Python來達成自動化作業,本書可以幫助您: .無需進階程式設計知識即可運用Python .使用現代化工具,包括Jupyter Notebook和Visual Studio Code .使用Pandas取得、清理與分析資料,並取代傳統的Excel計算 .將繁瑣的工作自動化,如彙整工作簿與產出報表 .透過xlswings建立使用Python作為運算引擎的Excel互動式工具 .透過Python程式協助Excel自資料庫、CSV檔與網路取得資料 .使用Python取代VBA與樞紐分析表 "本書告訴你如何整合Excel和Python,將你從不可避免的龐大活頁簿、數以千計的公式,以及狼狽不堪的VBA 程式碼中解放出來。這是我看過最有用的Excel工具書,也是Excel進階使用者必讀的一本佳作。"-Andreas F. Clenow, Acies資產管理資訊長暨暢銷財經書作家
從A/B測試、通用啟發法、吃角子老虎機演算法,到貝氏最佳化 「網頁搜尋、社交網路、手機app,它們每天都在最佳化! 這種概念對許多今後要進行數位化的產業來說不可或缺,也會從根本改變我們在行銷、產品開發和設計的思維。即使不是理工背景,也請從內容感受基於資料的最佳化世界的氛圍。」 -東京大學研究所工學系研究科 人工智慧工程研究中心/技術經營戰略學專攻 教授 松尾豐 只要是網路服務相關開發人員,都無法迴避此課題:提供更好的使用者體驗。本書介紹如何定量評估及改善使用者行為,以達成網路服務的成長。 本書從簡單的A/B測試開始,介紹線性模型、通用啟發法、吃角子老虎機演算法、貝氏最佳化,以及機器學習的各種知識,帶您了解如何用數學方式解決網站最佳化這個現實中的問題。 透過Python範例程式碼與圖表解說的數學模型,仔細解釋機器學習和統計的基礎知識,對於想了解網站最佳化方式與機器學習基礎知識的讀者來說,本書是最適合的選擇。
使用Python、Keras與TensorFlow於人工智慧與電腦視覺專案 「標題中包含了實用是很有根據的。現今產業中的機器學習實務有兩個優先事項:員工需要提升技能以及模型需要微調。本書是朝向兩者的捷徑。」 -Paco Nathan,Derwen AI創辦人 不論您是一位渴望進入人工智慧世界的軟體工程師,還是經驗老到的資料科學家,或是夢想著要建立下一個廣受歡迎的人工智慧應用程式的愛好者,您可能都會想要知道要如何開始進行。本書一步步的教導您如何為雲端、行動裝置、瀏覽器與邊緣裝置建立實用的深度學習應用。 藉由多年來將深度學習研究轉換為獲獎應用程式的產業經驗,本書的三位作者會指導您如何將想法創意轉換為人們可以使用的事物。 ‧以Keras、TensorFlow、Core ML與TensorFlow Lite訓練、調校及部署電腦視覺模型 ‧為各式裝置開發人工智慧應用,包括Raspberry Pi、Jetson Nano及Google Coral ‧探索有趣的專案,從矽谷的Not Hotdog應用程式到Google等級的影像搜尋,還有超過40個案例探討與產業範例 ‧在電腦遊戲環境中模擬自動駕駛汽車,並使用增強式學習來建立微型版本 ‧使用遷移學習在幾分鐘內訓練模型 ‧發掘用來最大化模型準確度與時間、除錯、以及調整至數百萬使用者規模的實用指示
資料準備、模型建構與MLOps常見挑戰的解決方案 「本書提供了豐富的範例,如果你是資料科學家或ML工程師,而且想要了解如何使用行之有效的解決方案來處理複雜的ML問題,你一定要看這本書。」 —David Kanter ML Commons執行長 「如果你想在建構ML解決方案的過程中減少傷害、碰撞和磨擦,Lak、Sara和Michael可以在背後支持你。」 —Will Grannis Google Cloud CTO Office常務董事 本書的設計模式介紹常見的機器學習最佳實踐法和解決方案。作者是三位Google工程師,他們整理了一些經過驗證的方法,協助資料科學家匯整ML程序中常見的問題,用這些設計模式來將數百位專家的經驗整理成直觀、平易近人的建議。 這本書詳細地解釋30種模式,介紹資料和問題的表示法、作業化、可重複性、再現性、靈活性、可解釋性和公平性,每一種模式都包含問題描述、各種可能的解決方案,以及視情況選擇最佳技術的建議。 你將學會: ‧在訓練、評估和部署ML模型時,認出常見的挑戰並處理它們 ‧表示各種ML模型的資料,包括embedding、feature cross(特徵交叉)等 ‧為具體的問題選擇適合的模型 ‧使用檢查點、發布策略和超參數調整來建立穩健的訓練循環 ‧部署可擴展的ML系統,以便用新資料來進行重新訓練和更新 ‧向關係人解釋模型為何做出那些預測,以確保模型公平地對待用戶 ‧提高模型的準確性、再現性和復原力
在當今的系統設計中,資料是許多挑戰的中心。需要克服各種困難,如可擴展性、一致性、可靠性、效率和可維護性。我們有各式各樣的工具可以選擇,包括關聯式資料庫、NoSQL資料儲存、串流或批次處理機以及訊息中介,又該如何做出正確的選擇?如何理解所有這些熱門詞彙? 本書深入剖析各種儲存技術的優缺點,幫助您做全面性的了解。軟體雖然一直變化,但基本的原則始終如一。本書可以幫助軟體工程師與架構師了解如何在實踐中運用這些這些理念,以及如何在現代應用中充分利用資料。 在這本實用而全面的指南中,作者Martin Kleppmann經由研究處理和儲存數據之各種技術的優缺點,幫助您一覽資料世界多樣化的景觀。雖然軟體持續演變,但基本原則始終如一。軟體工程師與架構師可以藉由本書瞭解這些基本的理念,以及如何充分應用資料的方法。 .檢視並學習如何更有效的使用與操作你正在使用的系統。 .了解各種工具的優缺點,並做出明智的選擇。 .圍繞一致性、可擴展性、容錯性和複雜性進行權衡。 .瞭解作為現代資料庫基礎的分佈式系統研究。 .探索並學習主流線上服務的架構。
「很多機器學習相關書籍都略過了最困難的部分:問題改善、模型除錯及為客戶部署;這本書聚焦於這些主題,您可以讓專案從構想轉化至產生影響。」 ──Alexander Gude Intuit資料科學家 本書旨在學習設計、建立及部署機器學習(ML)應用的必要技能。透過這本實作書籍的教學過程,您將打造一個從初步構想到部署產品的ML應用範例。無論您是資料科學家、軟體工程師及產品經理,或是經驗豐富的從事者和初學者,都將逐步學習在真實世界中建立ML應用所涉及的工具、最佳做法和挑戰。 作者Emmanuel Ameisen是一位經驗豐富的資料科學家,他領導了AI教育學程,並使用程式碼片段(code snippets)、圖解、螢幕截圖及企業領袖訪談來演示實際的機器學習概念。第一部分教您如何計畫ML應用和評估成功;第二部分說明如何建立可行的ML模型;第三部分演示改善模型的方法,直到符合您原先的規劃;第四部分介紹部署和監視的策略。 這本書將會幫助您: ‧定義您的產品目標並建立ML問題 ‧快速建立您的第一個端對端管線並取得初始資料集 ‧訓練並評估您的ML模型及解決效能瓶頸 ‧在生產環境中部署並監視您的模型
「本書使用TensorFlow徹底教你了解及實作機器學習與人工智慧模型。」 —Jialin Huang博士 微軟資料與應用科學家 「Laurence Moroney一直是讓TensorFlow成為全球AI框架龍頭的主力,我很榮幸可以透過deeplearning.ai與Coursera來協助他指導TensorFlow。希望你在學習TensorFlow的過程中一切順利。有Laurence當你的導師,你將展開一場偉大的冒險旅程。」 —Andrew Ng deeplearning.ai創辦人 如果你想從程式員轉職為AI專家,本書是理想的起點。本書來自Laurence Moroney的成功AI課程,將會帶著你親自動手寫程式,讓你充滿信心地學習重要的主題,你要做的,只是用Python和它的資料表示法及陣列處理法來做實驗。 你會學到如何實作機器學習最常見的場景,包括電腦視覺、自然語言處理(NLP),以及在web、行動設備、雲端與嵌入式等執行環境中建立序列模型。大多數的機器學習書籍在一開始都會展示大量且令人生畏的高等數學,但這本書提供實用的課程,直接帶你編寫實用的程式。 • 透過範例程式了解機器學習的基本知識 • 使用TensorFlow為各種場景建模模型 • 用只有一個神經元的神經網路建構模型 • 實作電腦視覺,包括在圖像中偵測特徵 • 使用NLP將單字和句子基元化及組成序列 • 將模型植入Android與iOS設備 • 使用TensorFlow Serving,讓模型透過web或雲端提供服務
從無到有的實作,在動手做的過程中強化對於深度學習的理解 或許您也曾經用過Tensorflow、PyTorch這類深度學習的框架(Framework),相信您也曾經對裡頭那些神奇的技術與有趣的結構嘆服不已。這本書就是為了解開這些疑問,正確瞭解這些技術而撰寫的。希望你可以從中體會這種技術性的「樂趣」。基於這個目的,本書將秉持著「從零開始製作」的方針,從無到有,一邊操作,一邊思考,透過實作加深理解,獲得審視現代深度學習框架的「新視野」。再藉由這個「新視野」,更廣泛、深入地理解深度學習。 高人氣、高評價的「Deep Learning基礎理論實作」系列第三部 《Deep Learning:用Python進行深度學習的基礎理論實作》、《Deep Learning 2|用Python進行自然語言處理的基礎理論實作》是從零開始進行深度學習,藉此瞭解相關結構。當時以單純性為優先,而「手動」設定了運算的「連結」。真正的框架是將這個部分自動化,Define-by-Run就是其中的一種手法,本書將利用從零開始製作DeZero的方式來學習這個機制。請別擔心,閱讀這本書不需要具備前作《Deep Learning:用Python進行深度學習的基礎理論實作》系列的知識。
建構AI應用程式,您不必拿PhD 「這是程式員精通深度學習的最佳資源之一。」 —Peter Norvig Google研究總監 「本書透過實際的操作,以簡單且實用的方法揭開深度學習的神秘面紗。」 —Curtis Langlotz 史丹佛大學醫學及成像人工智慧中心主任 深度學習通常被視為數學博士和大型科技公司的獨門秘術,然而,正如這本指南所言,如果你已經會寫Python,那麼你只要稍微了解數學、取得少量的資料,就可以用最精簡的程式,寫出令人印象深刻的深度學習作品。怎麼做?使用fastai!它是史上第一個以一致的介面來讓你使用最常見的深度學習應用的程式庫。 本書作者Jeremy Howard與Sylvain Gugger是fastai的創作者,他們將告訴你如何使用fastai和PyTorch訓練各種任務的模型,並帶領你逐步研究深度學習理論,以充分了解藏身幕後的演算法。 ‧訓練電腦視覺、自然語言處理、表格式資料和聯合過濾等任務的模型 ‧學習在實務上最重要且最新的深度學習技術 ‧釐清深度學習模型如何運作,改善準確度、速度與可靠度 ‧了解如何將模型轉換成web應用程式 ‧從零開始實作深度學習演算法 ‧思考作品的道德意義 ‧從PyTorch的聯合創始人Soumith Chintala的前言獲得真知灼見
「許多偉大的書籍專門探討基礎的ML演算法,但這本書揭露真實系統的結構。對渴望實際建構和部署NLP的專業人士而言,本書具備無可估量的價值。」 —Zachary Lipton Carnegie Mellon大學助理教授,Amazon AI科學家,《Dive into Deep Learning》作者 很多著作和課程都使用簡單的案例和定義良好的資料組來處理自然語言處理(NLP)問題,但是,如果你想在商業環境中建構、迭代與擴展NLP系統,並為特定的產業鏈量身打造系統,這本書是為你而寫的指南。軟體工程師與資料科學家可從這本書學會如何在遇到每一個複雜選項時做出正確的選擇。 本書作者們將說明如何在更大型的生產環境中建構真正的NLP解決方案,告訴你如何針對各種產業鏈(例如醫療保健、社交媒體與零售)調整解決方案。 藉由這本書,你將: ‧了解在NLP領域中,廣泛的問題陳述方式、任務與解決方案 ‧實作與評估各種運用機器學習與深度學習方法的NLP應用程式 ‧根據商務問題與產業鏈來微調NLP解決方案 ‧評估各種NLP生產任務、資料組與工作階段的演算法與做法 ‧遵守NLP系統的釋出、部署、DevOps的最佳實踐法製作軟體解決方案 ‧從商務與產品主管的角度,了解NLP的最佳實踐法、機會與路線圖
MongoDB是如何幫助你管理從網站應用程式蒐集而來的大量資料呢?藉由本書權威性的介紹,你可以了解文件導向式資料庫具有哪些優勢,以及如何駕馭MongoDB這個安全、高效能的系統,實作出一個高可用性、同時具備水平延展性的資料模型。 本書不僅可以做為開發人員的參考指南,系統管理員也可以從本書中學到進階的配置方案。無論是NoSQL新手或MongoDB的使用者,都可以從本書中學到你所需要的知識。 本書可以幫助您了解: .如何在MongoDB上進行寫入操作,查詢,以及建立複雜的查詢。 .為您的應用程式索引集合、彙總數據和使用交易。 .建立一個本地複製集,並瞭解複製如何與您的應用程序互動。 .設定叢集元件並為各種應用程式選擇碎片密鑰。 .探索應用管理的各個方面,並確定認證和授權。 .監控、備份和恢復部署時使用統計,部署MongoDB時使用系統設定。
🏆本書第一版曾經榮獲Jolt Productivity Award大獎🏆 挖掘隱藏在Twitter、Facebook、LinkedIn、Instagram與GitHub等熱門社群網站中的豐富數據。本書提供Python範例程式、Jupyter notebook與Docker檔可供練習。您可以從本書中,學到如何從社群媒體中挖掘各種寶貴的資料,像是某個人的人脈網路、現在的熱門話題,這些鄉民或網軍來自何方。 每個章節都是一個可以獨立閱讀學習的主題,分別介紹不同的資料探勘技術以及應用在不同的社群網站,同時還涵蓋了部落格與電子郵件。這個版本還額外增加了一個專門探討Instagram的章節。 .對社群網站有更加深入的了解 .提供打包好的Docker檔,可以直接執行本書的範例 .所有範例檔案皆可自本書專屬的Github儲存庫上取得 .學習如何使用簡單好用的Python工具來分析您取得的資料 .介紹先進的資料挖掘技術,如TF-IDF、餘弦相似性、搭配分析、圖像識別等等 .使用Python與JavaScript套件完成資料視覺化