大數據時代超吸睛視覺化工具與技術:Excel+Tableau成功晉升資料分析師
大數據視覺化類別銷售第一的《Tableau資料分析師進階高手養成實戰經典》的初階系列著作 這本大數據人工智慧人才晉級寶典,讓你具備資料分析力,邁向資料分析師高薪之路! 學習資料視覺化的第一本書 利用強大的視覺化分析技巧與工具 精準找出分析洞見與數據價值 透過Tableau快速製作精緻商業圖表 透過Excel進行資料清洗 × Tableau視覺化工具步驟式教學 了解各類視覺化圖表之特性與使用情境 × 靈活運用資料視覺化圖表 在大數據與資料視覺化的浪潮下,越來越多人在工作上需要面對資料分析的挑戰。無所不在的大數據資料,你想不想也一窺其中的奧妙呢?琳琅滿目的視覺化工具,又該如何選擇呢?現在就來學習與活用專業的資料視覺化工具與技術。 近年來,越來越多功能強大的視覺化工具推出,而Tableau是其中絕對不可錯過的一款超強軟體,其在美學設計、資料處理彈性、資料連線等功能上,都很切合現今企業的需要,也非常適合作為企業組織的核心分析與視覺化工具,可幫助資料詮釋者說出想要傳達的故事,成功吸引眾人目光。 本書是《Tableau資料分析師進階高手養成實戰經典》的初階系列著作,主要介紹資料視覺化工具概念與技術,包括視覺化原理、工具使用時機、圖表挑選準則等,內容除了教導你如何透過Excel進行資料清洗之外,也重點解析Tableau從安裝到到實務操作的一連串過程,最後可親手做出專屬於自己的資料視覺化網頁。此外,附錄中整理了數十種視覺化工具資訊,可滿足你的各種情境之需求。
資料淘金時代來臨:企業BI專案建置營運高生產力
資料淘金時代正式來臨,資料即現金 從繁瑣中找整齊,從混亂中找規律看懂本書 分析並預測客戶的消費傾向,企業應用BI正是時候 本書聚焦BI 和BI 專案,重點介紹BI專案的建設流程和營運技巧,並圍繞BI專案中的場景和人員兩大要素,分享BI在零售、金融、製造、醫療和教育等行業中的應用案例,提出了架設企業資料人才培養系統的方法。 書中結合BI產品,透過BI解決企業專案實施過程中的資料治理、資料應用等難題,對於公司BI項目實施工作有很大的幫助。 BI已經不再是空中樓閣虛擬般的存在,而是每個企業必須真正知已知彼了解客戶消費傾向的最佳工具,現在不用BI,隨時可能被對手超越。 對於剛開始建設BI的企業,或已經建設BI多年的企業來說,本書都具有可複製性,避免走彎路。 全書共6 章,結構涵蓋的內容可以分為以下四部分: ■第一部分:認識BI(第1 章),主要介紹BI 及相關概念,包括定義、BI 的類型、BI 的功能、技術和價值等,幫助讀者較為全面地認識BI。 ■第二部分:BI 專案的建設流程(第2 章)與營運技巧(第3 章), BI 專案建設流程介紹了明確需求、工具選型、專案規劃與實施方案、專案開發與管理等內容。BI 專案不是搭好平台就結束了,BI 專案要成功還需要做很多細緻的營運工作,主要涉及資料治理、業務模型、人員配合、資訊安全等方面的內容。 ■第三部分:BI 在企業實際場景中的應用,包括功能應用(第4 章)和業務應用(第5 章)。為企業提供案例作為參考,其中,BI 功能應用介紹了資料大螢幕、行動應用和自助分析的專案方案。BI 業務應用主要介紹BI 在零售、金融、製造、醫療和教育等五大產業的典型業務應用方案與執行實例。 ■第四部分:企業資料人才培養(第6 章)。BI 專案的建設和營運需要的資料人才,既可以對外應徵也可以內部培養,但是BI 專案與企業的業務、文化、管理等聯繫緊密,很難筆者建議「招不如養」,架設企業資料人才培養系統的方法,幫助企業培養能夠成功建設和營運BI 專案的優秀人才。 適合讀者群:負責規劃企業整體BI 戰略的CIO 、高層管理人員、負責實施BI 專案的專案經理、IT 人員、業務人員。
Reinforcement Learning中文版|強化學習深度解析
針對強化學習的關鍵概念和演算法,提供清晰而簡單的說明 什麼是強化學習 強化學習是學習該做什麼(如何將當前情形映射到動作上),以便最大化一個獎勵訊號數值。學習者不會被告知要採取哪些動作,而是必須透過嘗試來發現哪些動作會產生最大的回報。在最有趣和最具挑戰性的案例中,動作不僅會影響當下的獎勵,同時也會影響下一個情境,並且影響後續所有的獎勵。試誤搜尋和延遲獎勵這兩個特性,是強化學習中的兩個最重要的區別特徵。 本書精采內容包括: .涵蓋所有強化學習演算法的核心概念 .解決有限馬可夫決策問題的三種基本方法 .近似最佳策略進行控制的方式 .介紹並分析資格痕跡演算法的機制 .強化學習與心理學和神經科學之間的關係 .強化學習的相關應用與未來強化學習研究中一些正在進行的前瞻技術
深度強化式學習
深度強化式學習 (Deep Reinforcement Learning, DRL),就是將深度學習與強化式學習結合的技術。要讓 AI 應用落地,DRL 是必不可缺的技術。近期由兩位劍橋大學博士所帶領的 Wayve 團隊就利用了 DRL 技術,開發出可以自行從新環境中學習的自動駕駛技術,取代以往完全仰賴感測器的做法。除此之外,工廠內的自動化機器人, 或是打敗世界棋王的 AlphaGo 等,背後運作的演算法也都與 DRL 息息相關。 然而 DRL 的演算法五花八門,讓人看了眼花繚亂。事實上,它們都是為了應付各式各樣的任務而發展出來的改良版本,其核心概念的差異不大,都是立足於 DRL 最基本的 DQN (Deep Q-Network) 之上。因此本書會花費較多的篇幅,一步步帶您把 DQN 的架構完全摸透,並時時提點各個技術細節的重點,讓您可以因應不同的任務或問題,加入適當的技術或技巧來克服,再進一步實作出各種進階的演算法。 本書一共分成兩篇:基礎篇及進階篇。在基礎篇中,讀者將學習如何從無到有,建構出自己的第一個RL演算法,並用該演算法來解決多臂拉霸機問題。接著,讀者會認識RL中較為經典的演算法,如DQN、策略梯度法、A2C等。同時,各章節皆搭配數個專案,確保讀者可以在學習理論的過程中,培養實作出演算法的能力,不再只是紙上談兵。 在進階篇中,作者將會介紹較為新穎,也較為複雜的RL演算法。基本上,這些演算法都是以DQN為出發點,再加上特殊的技巧,便能處理現實中的難題。舉個例子,利用平均場DQN,學者們成功模擬出了電子的自旋狀況,進而解決了RL中的多代理人問題。同時,讀者們還將學到如何將attention機制與DQN做結合,進而實作出關聯性DQN(relational DQN),提高演算法的可解釋性。 本書提供了完整的學習架構,循序漸進地介紹各種演算法,包括: ● Deep Q-Network (DQN) ● 策略梯度法(Policy gradient methods) ● 優勢值演員-評論家(Advantage Actor-Critic, A2C) ● 分散式優勢值演員-評論家(Distributional Advantage Actor-Critic, DA2C) ● 進化演算法(Evolutionary algorithm) ● 分散式DQN(Distributional DQN) ● 鄰近Q-Learning(Neighborhood Q-Learning) ● 平均場Q-Learning(Mean field Q-Learning) ● 關聯性DQN(Relational DQN) 除了 RL 相關演算法之外,書中也介紹了近期應用 RL 而發展出來的熱門模型,相信可以提升讀者的硬實力,其中包括: ● 圖神經網路(Graph Neural Network, GNN) ● Transformer模型 ● Attention模型(Attention model) 總的來說,本書是最全面、最白話的強化式學習演算法實戰解析。只要您有基本的深度學習知識,並且想要認識強化式學習領域,那麼您就是本書在尋找的合適讀者! 本書特色 ●囊括各種強化式學習的基礎及進階演算法,學習架構完整 ●適當地補充數學及統計基礎,必要知識直接回顧,不用東翻西找其他資源 ●重點整理深度強化式學習的基本架構,打好基礎、再先進的改良模型也看得懂 ●以日常案例來實踐 DRL,理解起來事半功倍 ●利用Python+PyTorch實作各章專案,不會只是紙上談兵 ●所有程式皆已整理成Colab筆記本,一鍵即可檢驗結果 ●本書由施威銘研究室監修,內容易讀易懂,並加入大量「編註」與「小編補充」以幫助理解及補充必要知識。
大數據精析:PB級資料倉儲企業實戰
別以為Hadoop熱潮已過,而是太成熟了!讓你親身體驗全世界最大的一流企業如何利用Hadoop生態圈實作真正電商資料庫架構。只會MySQL資料庫管理員,當心隨時被No-SQL時代淘汰! & 資料即現金,企業在儲存設備上的投資與日俱增,無不就是要將這些金砂給保存下來。但要處理這些大量的資料絕非易事。雖然Hadoop已經出現十多年,但其生態圈仍是企業處理巨量資料的主流。目前Hadoop生態圈的產品十分成熟,而圍繞著Hadoop生態圈的應用也越來越多。你所熟知的電商,都早就把這些技術完全用在自己的平台上了。世界一流企業的超強科技目前也下放到平民百姓家,這本書就是最好的例子。電商的資料表從來都是企業最高的機密,本書也將這些資料庫、資料表用Hadoop生態圈的技術完全實作出來。巨量資料時代,PB級的資料處理將是每個資料庫管理員都會面對的難題,先學先贏,不落人後。 & ★&內容簡介 本書按照需求規劃、需求實現、需求視覺化的流程進行編排,遵循專案開發的實際流程,全面介紹了資料倉庫的架設過程。在整個資料倉庫的架設過程中,本書介紹了主要元件的安裝部署過程、需求實現的實際思路、各種問題的解決方案等,並在其中穿插了許多與大數據和資料倉庫相關的理論知識,包含大數據概論、資料倉庫概論、電子商務業務概述、資料倉庫理論準備、資料倉庫建模等。 & 本書從邏輯上可以分為三部分:第一部分是大數據與資料倉庫概論及專案需求描述,主要介紹了資料倉庫的概念、應用場景和架設需求;第二部分是專案部署的環境準備,介紹了如何從零開始架設一個完整的資料倉庫環境;第三部分是需求模組實現,針對不同需求分模組進行實現,是本書的重點部分。 & ★ 適合讀者 本書適合具有一定的程式設計基礎並對大數據有興趣的讀者閱讀。透過閱讀本書,讀者可以快速瞭解資料倉庫,全面掌握資料倉庫的相關技術。 &
機器學習入門:R語言(附範例光碟)
機器學習是AI人工智慧的基礎,但機器學習本身是門較高深的課程,而本書為了讓讀者能夠輕易理解,除了從入門者的角度做編寫外,並且利用R的簡潔代碼,來輕鬆駕馭繁雜的統計模型。書中先講述AI及R語言,從R安裝、基礎語法到進階語法,讓讀者能夠先掌握R語言,接著經由R來講述機器學習的各種實作項目,如資料分析、線性回歸模型及模型評估等,藉此能夠將R活用,並且對於機器學習有更進一步的認識。本書適用於大學、科大資工、電機、電子、電通科系「機器學習」課程使用。
Kafka超限精析:重磅級大數據流處理技術平台(2版)
● 圖文詳解Kafka的內部原理、設計與實踐● 全面分析以Kafka為中心的分散式串流資料平台● Kafka特性詳細解說,包含連接器和流處理Kafka自LinkedIn開源以來就以高性能、高輸送量、分散式的特性著稱,本書以0.10版本的源碼為基礎,深入分析了Kafka的設計與實現,包括生產者和消費者的消息處理流程,新舊消費者不同的設計方式,存儲層的實現,協調者和控制器如何確保Kafka集群的分散式和容錯特性,兩種同步集群工具MirrorMaker和uReplicator,流處理的兩種API以及Kafka的一些高級特性等。※ 本書範例程式可至官網下載
R語言邁向Big Data之路:王者歸來(第二版)
王者回來了! R語言與Big Data的最強結合 重磅新增 2015年這本書的第一版上市,隨即獲得許多好評,也獲得許多大專院校選為上課教材,這本書是第2版,相較第一版基本上增訂下列資訊: 將R的軟體改為最新版測試,可以參考附錄A。 附贈全書實例檔案。 讀者附贈是非、選擇、複選題的題目與解答,這些題目是美國Silicon Stone Education的國際證照考古題,另外加贈偶數實作題解答。 教學資源說明 本書所有習題實作題均有習題解答,如果您是學校老師同時使用本書教學,歡迎與本公司聯繫,本公司將提供習題解答。 另外,本書也有教學簡報檔案供教師教學使用。 讀者資源說明 請至本公司網頁deepmind.com.tw下載本書程式實例,此外,讀者也可從所下載的資源獲得實作題偶數題的解答。 本書特色 1:完全零基礎可以輕鬆學習。 2:學習最新版R語言。 3:從無到有一步一步教導讀者R語言的使用。 4:學習本書不需要有統計基礎,但在無形中本書已灌溉了統計知識給你。 5:精彩的圖表製作,讀者可以學會資料視覺化使用R。 6:完整講解所有R語言語法與使用技巧。 7:豐富的程式實例與解說,讓你事半功倍。 8:全書涵蓋是非、選擇、複選習題解答。 9:讀者贈送全部偶數題實作題解答。
文本探勘:小技術大應用(附範例光碟)
動輒十萬字、甚至數十萬字的小說,其中人物錯綜複雜的關係、心境轉折與環境的變遷;廣大的網路訊息與文件,其中有多少潛藏的訊息等待我們發掘。文本探勘,就是要在大量文字中萃取出我們所需要的資訊。本書之撰寫,是針對完全不具備R語言能力之初學者為主要對象,以手把手的方式進行教學,讀者只要跟隨書本的章節和範例,一步一步地練習,相信必能在最短的時間內學會文本探勘的基本技術,並應用在自身所屬的領域上。包括語料庫的建立與相關套件的使用;利用文本探勘對中、英文小說進行各種分析;以及利用文本探勘進行網路爬蟲。全書由淺入深、按部就班地指導讀者學會文本探勘技術,進而能從各類非結構化的文字當中擷取有用的資訊,以做為後續進行下決定(decision-making)或形成政策(policy-making)之用。
大數據時代超吸睛視覺化工具與技術:Tableau資料分析師進階高手養成實戰經典
大數據視覺化類別銷售第一的《Excel+Tableau成功晉升資料分析師》的進階系列著作 這本大數據人工智慧人才晉級寶典,讓你具備資料分析力,邁向資料分析師高薪之路! 內容詳解完整的Tableau進階應用技巧 配合豐富的Tableau實戰真實案例說明 快速掌握視覺化商業圖表的製作關鍵技術 Tableau視覺化工具步驟式教學 × 靈活運用資料視覺化圖表 提升資料分析實務能力 × 精準且有效率呈現資料價值 在大數據與資料視覺化的浪潮下,越來越多人在工作上需要面對資料分析的挑戰。近年來,持續推出了功能強大的視覺化工具,而Tableau是其中絕對不可錯過的一款超強軟體,其在美學設計、資料處理彈性、資料連線等功能上,都很切合現今企業的需要,也非常適合作為企業組織的核心分析與視覺化工具,可幫助資料詮釋者說出想要傳達的故事,成功吸引眾人的目光。 本書是大數據視覺化類別銷售第一的《Excel+Tableau成功晉升資料分析師》的進階系列著作,內容除了解說Tableau的完整功能及進階分析技巧之外,還有清楚詳盡的步驟說明,更介紹Tableau的彈性設計模組,並提供豐富的實戰案例,可讓你製作出優秀的視覺化圖表,充分發揮出這套強大視覺化Tableau軟體的威力,是從事產品經理、專案經理、資料分析人員、資料研究人員等工作的人不可或缺的首選之作。 作者將Tableau的實務知識分為入門、中級、高級、專家等四個層級,而本書在內容規劃上,主要教導讀者學會進階地圖、進階儀表板設計、資料故事設計等中級技巧,以及資料科學實作、資料分層管理LOD技巧、XY座標軸地圖設計等高級技巧。當你學完本書之後,你不但可逐步做出自己的資料視覺化圖表,還能全面提升資料處理分析力及圖表美學設計力,並大大增加Tableau的實務經驗。 【目標讀者】 ♕想學習進階資料分析技巧的人。 ♕想學習Tableau進階技巧的人。 ♕想了解如何透過Tableau設計進階地圖的人。 ♕想透過Tableau實戰進階函數應用的人。 ♕想實戰Tableau巨量資料分析的人。 本書特色 ♔了解Tableau完整功能。 ♔學習Tableau進階分析。 ♔解說Tableau設計模組。 ♔提供Tableau實戰案例。 ♔運用Tableau豐富圖表。 ♔提升Tableau實作經驗。
社群網站資料探勘|看數字說故事、不用拔草也能測風向
📶 給新聞工作者與菜鳥調查員的資料分析指南📶 Twitter上的網軍是否能左右總統大選?Facebook和Reddit的資料副本能提供哪些有關人類行為的資訊?BuzzFeed的資深新聞工作者Lam Thuy Vo將藉由本書告訴您如何利用Python和關鍵的資料分析工具,查找隱藏在社交平台底下的故事。 無論你是專業新聞工作者、學術研究人員或是公民調查員,都需要學習使用資訊工具蒐集和分析社交平台所提供的資料,建立引人入勝、以資料為導向的報告。 本書特色 • 使用Python腳本及API,從社交平台取得待分析的原始資料 • 下載分析對象的原生資料副本檔 • 檢視從網站下載的HTML網頁,找出有用的內容 • 利用Google試算表為蒐集的資料進行格式化、彙計、排序及篩選 • 建立視覺化圖表,以闡述研究結果 • 利用Python、Jupyter Notebooks及pandas程式庫從事進階資料分析 • 將所學的知識及技巧應用到自己的研究領域 社交平台充滿無數等待被揭露的內幕,看完本書,讀者可以學會利用專業人士常用的資料調查工具,寫出具備個人特色、以資料為依據的研究報告。
Statistics Hacks 統計學駭客75招
測量世界並掌握勝機的技巧與工具 為什麼要把你的生命留給機遇決定呢?你應該學習一些機率的技巧,以掌控你的命運。《Statistics Hacks》會教你怎麼做。 使用推論統計學的工具,你能夠理解機率的運作方式、發現隱藏的關係、以驚人的準確度預測事件,甚至藉由精明的賭注贏得一點錢。 《Statistics Hacks》介紹來自統計學、教育與心理測量學,以及實驗研究的實用工具,幫助你解決商務、遊戲與生活中的各種問題。你會學到如何: ‧聰明遊玩德州撲克、二十一點、輪盤遊戲、擲骰遊戲,甚至樂透 ‧設計你自己的高勝算酒吧賭注來賺錢並娛樂你的朋友 ‧預測棒球比賽的結果,知道何時在美式足球比賽中選擇「兩分轉換」,並以出人意料的準確度預知其他運動比賽的贏家 ‧解密神奇的巧合,區分「真正」的隨機和只是「看似」如此的隨機,甚至能讓你的iPod「隨機」播歌更為誠實 ‧看出偽造的資料,偵測抄襲,以及破解密碼 ‧在等候油漆乾的空閒時間改善你的考試分數 不管你是能在睡夢中進行計算的統計愛好者,或是覺得有趣問題的聰明解法很有娛樂效果的一般人,《Statistics Hacks》都有工具能賦予你優勢,掌握這世界的微小勝機。
D3實用指南|程式設計師和科學家的互動式圖形工具箱
如果您想要了解D3.js,這本書是您的最佳選擇。這是一本為擁有程式設計基礎或資料科學背景的技術型讀者所寫的書,內容簡潔明快。藉由本書,您可以了解如何使用D3處理手邊的問題。 本書對於SVG、HTML5、CSS、DOM等現代Web開發技術也會有所著墨,即使您僅有一般的程式設計基礎,也能快速上手。 .了解D3函式庫的組織原則 .學會如何使用資料繫結建立一份互動文件 .建立動畫圖與互動式使用者介面 .運用D3畫圖 .使用D3內建的圖表 .編寫可重用元件以簡化工作 “本書可以滿足您想要快速上手D3的需求” - Scott Murray, 《網頁互動式資料視覺化》作者 “解說精闢的指南,明快地說明了這個強大的框架及其內部運作方式” - Giuseppe Verni, 高通首席工程師
你也能做出Google:用Elasticsearch搭建叢集搜索引擎
本書重點 全書分三大部分,包括Elasticsearch前傳、實戰和生態,讓你先打好基礎 接下來進行實作,並且能熟練Elasticsearch的第三方好用外掛程式 全中文支援,最強的結巴、ansj、jcseg等斷詞功能整合 了解節點、分片、路由、分段、索引、文件等概念,更能針對API應用 ICU、ELK、Head, Cerebro, Beats的完整使用 & 本書主要內容 01 搜尋技術發展史 介紹搜尋引擎技術發展的歷史,並想像未來搜尋引擎技術的發展情況。 02 搜尋技術基礎 以資料的檢索為切入點,對搜尋引擎的核心模組進行詳細說明。 03 初 識Elasticsearch 介紹Elasticsearch 基本情況及安裝、設定、核心概念及其架構設計。 04 初級用戶端實戰 介紹在Elasticsearch 中初級客戶端相關API 的使用及用戶端常用的設定屬性等。 05 進階用戶端文件實戰一 介紹Java 進階用戶端對文件操作API 的使用。& & & & & & && 06 進階用戶端文件實戰二& 介紹文件進階API 的使用,均為批次操作介面。 07 搜尋實戰& 介紹搜尋API 的使用。 08 索引實戰& 介紹索引API 的使用,有關18 個索引操作相關的介面, 09 Elasticsearch 外掛程式 介紹Elasticsearch 的外掛程式生態。 10 Elasticsearch 生態圈 介紹Elasticsearch 的生態圈, 即ELK Stack。 適合讀者群& 有一定基礎知識的初、中階Elasticsearch學習者閱讀。 & 本書特色 & ◎ 初學者快速上手,建置搜尋引擎全景 ◎ 洞悉Elasticsearch 生態,建立連結知識網路 & ► 基於Elasticsearch 7.X 系列版本撰寫。 ► 聚焦初學者學習和實作需要,不求基礎知識全部覆蓋,但求必備知識透徹易懂。 ► 讓初學者快速上手的同時, 幫助他們建置搜尋引擎全景、洞悉 Elasticsearch 生態、建立連結知識網路。 ► 由淺入深,先讓初學者會用,再介紹背後的原理。 &
東京大學資料科學家養成全書:使用Python動手學習資料分析
「大數據會消失,資料科學不會」 「所有的科學都是資料科學」 ―――資訊科學時代最需要閱讀的一本書――― 東京大學資料科學人氣講座全收錄──── ★傳說中的東大松尾研究室超熱門課程,第一手內容完整公開! ★用Python學習基本的程式撰寫,邊做邊學,鍛鍊最強的資料科學技能! ★收錄大量練習題和綜合題演練,打好理論基本功,具體應用於實務現場! ★體驗資料科學的魅力,培養整合跨領域課題的創造力! 所謂科學,是從世界上混沌的現象裡找出本質,逐步解決各式各樣的問題。在日漸龐大的各種資料當中,運用科學的力量解決各種問題,便可說是資料科學。 資料科學不僅只是數學(統計、機率、機器學習等),更是借用IT等各種力量,不斷挑戰世界上的難題與背後課題的綜合領域。 運用這樣資料科學和人工智慧的力量,減少浪費與沒有效率的事物,進一步創造出新價值,可以讓這個世界更加美好。 █ 動手操作實際的資料,大量練習題馬上學、馬上練、馬上懂! 本書廣泛說明資料科學不可不知的基礎事項,蒐羅豐富的重要關鍵知識和好用的參考資料,成為學習資料科學的地圖與羅盤。 書中主要使用Python來學習基本的程式撰寫技巧,以及資料的取得、讀取、操作等,含括各式各樣Python函式庫的使用方式、機率統計的手法、機器學習(監督式學習、非監督式學習、性能調校),還有讓Python高速化的方法和Spark的簡單操作等。 書中說明如何實際將現場的資料進行加工與分析,如何具體運用於市場行銷或金融等,使用何種手法來撰寫程式比較好,以及組合程式的技巧和流程。除了理論解說,也介紹實務性的使用方法,可立即上手應用。 收錄各種類型的實作練習題和綜合問題,以實際的問題為前提來思考,一邊動手實踐。 █ 本書的出版緣由 本書以2017年至2018年於東京大學舉辦的「全球消費智慧捐贈講座」講義和線上課程教材為基礎,用簡潔易懂的形式彙整編纂而成。 這個廣受歡迎的熱門講座首度出版,原因有三: 首先,希望讓更多讀者了解資料科學,培養資料分析技能。資訊時代各行各業都需要資料分析的人才,了解應該具備哪些知識、有何種處理手法、能達成什麼樣的目標,善用資料科學將是致勝的關鍵。 其次,雖然線上資源豐富又方便取得,但並非隨時都能在線上學習。藉由書籍的形式,可因地制宜反覆演練複習。 第三,以學習效果來說,書本的編排有助於深入思考,成效更佳。 █ 本書的目標讀者 ▌有程式設計經驗、完成理科大一大二程度數學,以及對於學習資料科學有高度意願的一般人士 ▌藉由本書,可掌握資料科學入門程度至中級程度的內容,已達中級程度以上者也能參酌本書來複習資料分析相關知識 ▌對於目前備受矚目的深度學習,可透過本書掌握學習深度學習之前必需的基礎技能 █ 在本書裡學到的東西 ▌Python/Numpy/Scipy/Pandas/Matplotlib的基礎 ▌機率/統計/推論/迴歸的基礎 ▌使用Numpy/Scipy進行科學計算 ▌使用Pandas進行資料加工處理(遺漏資料/異常值的處理、時間序列資料的處理) ▌使用Matplotlib進行資料視覺化 ▌機器學習(多元線性迴歸、邏輯迴歸、決策樹、k-NN、聚類分析、主成分分析、購物籃分析、模型調校)
誰在帶風向、玩精準行銷|認知駭客如何操弄人心
▌揭露假新聞的操作手段 本書將告訴您,在社群媒體時代,演算法、心理學的濫用如何激化人類的偏見,影響輿論,甚至左右選舉的結果。 ▌什麼是「認知駭客」 任何基於統計數據而部分或完全做成結論的系統,都可透過操縱統計數據來左右遊戲規則,人類大腦的運作方式也是如此。隨著時間推移,我們的認知會整合成「類化」的模式,這些模式也會隨著新訊息的加入而不斷變化,而透過改變大腦的大量輸入後,這種「認知駭入」便能影響我們的大腦模式(很神奇吧?)。「認知駭客」便是利用這種「認知駭入」的手法,影響我們對事物的定義方式,左右我們將它們聯想為正面或負面的傾向--只要他們能在你觸及特定議題時,操縱夠多的媒體即可。 ▌內容推薦系統的功與過 在資訊大爆炸的時代,人們自然而然地依賴內容推薦系統來篩選源源不絕的訊息。然而,推薦系統也帶來了新的危機:演算法「投其所好」的結果,也激化了人們的偏見。 ▌被駭的民主 社群媒體讓各種團體能夠相互聯繫並協調他們的活動。同樣的工具也可以被用來傳播政治訊息,不僅讓合法團體與非法人士均可使用,甚至會被某些國家用來影響其他國家的選舉。本書將揭露其中一些操作手段,並探討未來的威脅和防禦。 誰適合閱讀本書 .社群編輯 .資料科學家 .媒體工作者 .想要更深入了解「假新聞」的人 來自讀者的讚譽 ♥ 完美詮釋為什麼會有假新聞,以及假新聞是怎麼運作的 ♥ 對於網軍如何利用社群媒體帶風向有詳盡的說明 ♥ 推薦給意識到假新聞正嚴重戕害民主的人閱讀
圖解!一次搞懂資料庫
無論是工作或是日常生活中,幾乎所有人都會用到資料庫。特別是涉足IT 領域的讀者,了解資料庫應該會成為您的強大武器。 以技術麻瓜也能聽懂的方式,配合大量的圖說明資料庫設計與資料庫系統開發的概念 用對話的方式學習資料庫 本書將和喵太與大衛這兩名人物一起認識所有與資料庫相關的基礎知識,從「資料庫究竟是什麼」開始,一直到關聯式資料庫的基礎、使用資料庫的需求機制、設計方法與操作維護等。 以圖解的方式解說抽象的概念 認識資料庫的過程中最重要的並不是記住術語,而是要理解並學會概念、想法,與邏輯。若是學會了這些,自然而然就會記住相關的術語。因此,本書使用大量的圖示解說抽象的資料庫概念,讓讀者更容易掌握資料庫的本質。 誰適合閱讀本書: .想要了解資料庫到底是什麼 .會使用到SQL .開發程式時,需要應用資料庫
scikit-learn新手的晉級:實作各種機器學習解決方案
使用scikit-learn探索各式機器學習模型,實作多種機器學習演算法 & 機器學習是近年的熱門話題,它將電腦科學與統計學結合在一起,打造智慧又有效率的模型。你可以使用機器學習提供的強大演算法和技術,來自動化任何分析模型,而scikit-learn正是一個優秀的Python機器學習函式庫,它可以實作多種機器學習演算法,是非常好用的工具。 & 本書詳細介紹一系列機器學習模型和scikit-learn的使用技巧。從機器學習的基礎理論講起,涵蓋了簡單線性迴歸、KNN演算法、特徵提取、多元線性迴歸、邏輯斯迴歸、單純貝氏、非線性分類、決策樹迴歸、隨機森林、感知器、支援向量機、類神經網路、K-MEANS演算法等重要話題。 & 本書亦詳細討論資料預處理、超參數最佳化和整體(ensemble)方法。你也將學會使用scikit-learn的API,從分類變數、文本和影像之中提取特徵,一步步建立改善模型效能的專業直覺。 & 適用讀者 本書適合機器學習領域的工程師,也適合想要了解scikit-learn的資料科學家。 & 在這本書中,你將學到: ・基本概念簡述,如「偏誤」和「變異數」 ・建置能夠分類文件、識別影像及偵測廣告的系統 ・使用「線性迴歸」和「KNN」預測連續變數的值 ・使用「邏輯斯迴歸」和「支援向量機」對文件和影像進行分類 ・使用「裝袋法」和「提升法」建立估計器整體 ・使用K-MEANS集群發現資料中的隱藏結構 ・在常見任務中評估機器學習系統的效能 & 【下載範例程式檔案】 本書的程式碼是由GitHub託管,可以在如下網址找到: github.com/PacktPublishing/Mastering-Machine-Learning-with-scikit-learn-Second-Edition
資料視覺化|製作充滿說服力的資訊圖表
視覺化是從複雜且龐大的數據中理出脈絡,傳達資訊最有效的方法。本書將告訴您如何解決資料視覺化的各種疑難雜症,如何將複雜資料轉為引人注目的圖表,以及各種圖表類型的使用時機。 .探討如何應用顏色來區分、呈現和凸顯資料 .了解如何透過重複編碼來改善圖表的易讀性 .利用本書提供的視覺化總覽,快速找出適合資料呈現的圖表類型 .藉由大量的範例了解何謂好的圖表與不好的圖表 .學會如何在報告中使用圖表來講述引人入勝的故事
一書貫通-從資料科學橫入人工智慧領域(熱銷版)
本書為有志從事數據科學工作的讀者提供系統化的學習路徑,使讀者掌握數據科學的理念、思路與分析步驟。力圖淡化技術,對於方法的介紹也盡量避免涉及過多的數學內容,而且都輔以圖形進行形象地展現。也注重對讀者思辯能力和分析能力的培養。商品特色:本書是一本集數據分析、數據挖掘、機器學習為一體,面向商業實戰的養成式學習手冊。
雲端&區塊鏈必備技能-Hadoop:大數據高效處理實戰範典
◆ 好用、可靠、可擴充的大規模資料儲存和分析系統◆ 結合Spark高效且快速進行巨量數據處理◆ 分散式系統容錯率高,當軟硬體出錯後系統都能繼續執行本書主要特點:1. 全面實用地論述了從實際應用中分析出的資料採擷和Hadoop 相關概念和技術。2. 用實際案例為使用者介紹Hadoop,而不只是在理論層面。3. 詳解Hadoop 相關領域最新的技術和商業應用大數據應用的動態變化。本書並非以教科書式概念作為架構,而是藉由一些真實可靠的案例範示呈現,說解在各種場景下如何應用Hadoop。本書能幫助讀者開闊眼界和找到方法,知道如何分析實際商業場景及業務問題,構建基於Hadoop大數據系統,透過使用數據管理及運用,對公司業務經營帶來直接效益。當然對於學生、教師和有志於從業大數據處理、分析與應用的人員來說,也是一本實用教材。
Impala大數據查詢引擎:Hadoop高手養成攻略
Cloudera官方推薦、全面說明Impala的中文書!作者結合本身多年的Oracle和大數據研發經驗,對Impala 效能最佳化提出自己的見解:透過資料比較可以看到良好的設計,以使計算效能有極大提升。希望本書對有興趣研究Impala 的專業人員或學習者有所幫助。
Kafka超限精析:重磅級大數據流處理技術平台
Kafka自LinkedIn開源以來就以高性能、高輸送量、分散式的特性著稱,本書以0.10版本的源碼為基礎,深入分析了Kafka的設計與實現,包括生產者和消費者的消息處理流程,新舊消費者不同的設計方式,存儲層的實現,協調者和控制器如何確保Kafka集群的分散式和容錯特性,兩種同步集群工具MirrorMaker和uReplicator,流處理的兩種API以及Kafka的一些高級特性等。 ●圖文詳解Kafka的內部原理、設計與實踐 ●全面分析以Kafka為中心的分散式串流資料平台 ●Kafka特性詳細解說,包含連接器和流處理
圖形演算法|Apache Spark與Neo4j實務範例
"從基本概念到重要的演算法,再到處理平臺和實際案例,作者為美妙圖形世界編寫了一本兼具指導性與說明性的參考指南。" —Kirk Borne, PhD Principal Data Scientist and Executive Advisor, Booz Allen Hamilton "一本實用且資訊豐富的指南,幫助你藉由使用圖形演算法檢測模式和結果,來獲取更多洞察力,圖形資料庫開發人員的必讀書籍。" —Luanne Misquitta Vice President of Engineering, GraphAware 學習圖形演算法可以幫助你利用資料關係的力量,開發更聰明的解決方案,以及增強你的機器學習模模型。有了這本實用的指南,開發者和資料科學家將會發現,圖形分析能提昇價值,無論是用圖形分析建構動態網路模型,還是預測真實世界中的行為。 Neo4j的Mark Needham和AmyHodler說明圖形演算法如何描述複雜結構,並揭示難以找出的模式—從發現漏洞和瓶頸到社群偵測和提升機器學習預測。你將會透過一些實際的範例了解如何在Apache Spark和Neo4j中使用圖形演算法,這兩個平台是圖形分析最常用的選擇。 ‧學習圖形分析如何從現今的資料中找到更多預測元素 ‧瞭解熱門的圖形演算法是如何工作以及如何應用 ‧使用超過20個圖形演算法範例的程式碼和提示 ‧學習對不同類型問題,挑選合適演算法 ‧使用Spark和Neo4j程式碼和樣本資料集探索範例 ‧結合Neo4j和Spark,建立一個用於連結預測的機器學習工作流程
Apache Kylin大數據入門
本書全面介紹Apache Kylin,內容包含:.環境架設、範例演練、原始程式分析、Cube最佳化⋯⋯等。.資料倉儲、資料模型、OLAP、資料立方體⋯⋯等方面的相關知識。.系統性學習與實戰操作,使讀者能夠架設以Apache Kylin為基礎的企業級大數據分析平台。.熟練使用Apache Kylin多維度分析巨量資料,並透過視覺化工具展現結果。商品特色:. Apache Kylin為第一個由華人團隊完整貢獻至Apache的專案。.作者為業界知名的Apache Kylin專家,本書為其多年的技術累積與實戰精華。.內容淺顯易懂、實作性強大,是目前第一本系統性介紹Kylin的實作書籍。.Apache Kylin為開放原始碼的分散式儲存引擎,提供Hadoop上的SQL查詢介面及多維分析能力以支援大規模資料。適用:大數據技術初學者;大數據分析人員、架構師等;亦適合Hadoop、HBase、Hive和Kylin等相關從業人員。
Spark技術手冊|輕鬆寫意處理大數據
本書是由Spark這個專案的成員所撰寫,詳盡的說明如何使用、部署與維運Apache Spark。本書將帶領您探索Spark結構化API基礎操作、結構化串流,並透過新的高階API建立端到端的串流應用。開發與系統管理人員可由本書學習到如何進行Spark的監控、調校以及除錯,以及如何使用MLlib分散式機器學習函式庫。 .完整說明大數據與Spark .透過實際的範例學習DataFrame、SQL與Dataset等Spark核心API概念 .深入了解Spark低階API、RDD以及DataFrame與SQL的關係 .學習如何在叢集環境運行Spark .針對Spark叢集與應用程式進行除錯、監控與調校 .體會Spark結構化串流處理引擎的威力 .學習MLlib函式庫並將其應用於多種分類或推薦等機器學習專案中 Bill Chambers是Databricks的產品經理,專注於大數據分析並提供企業用戶完整的文件與協作讓客戶藉由Spark與Databricks取得成功。 Matei Zaharia是史丹佛電腦科學系的助理教授以及Databricks的技術長。他於2009在加州柏克萊大學發起Spark專案,同時他也是Apache Mesos專案的共同發起人以及Apache Hadoop的早期貢獻者。
Spark SQL親自動手做(熱銷版):大數據時代的資料庫處理
Spark SQL是Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
CV+AI自己動手完成圖像搜尋引擎
圖像搜尋引擎有兩種實現方式—基於圖像上下文文字特徵的方式和基於圖像視覺內容特徵的方式。本書所指的圖像搜尋引擎是基於內容特徵的圖像檢索,也就是「以圖搜圖」來檢索相似圖片。本書主要講解搜尋引擎技術的發展脈絡、文字搜尋引擎的基本原理和搜尋引擎的一般結構,詳細講述圖像搜尋引擎各主要組成部分的原理和實現,並構建一個基於深度學習的Web圖像搜尋引擎。 本書首先介紹圖像搜尋引擎的相關理論和實現方法,結合具體的Java程式碼實例解釋理論,展示從文字搜尋演進到圖像搜尋的技術路徑。最後會帶領讀者逐步實現一個AI圖像搜尋引擎,使讀者不僅理解相關理論,而且具備實際的開發能力。&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& & 本書主要內容: ■ 從文字搜索到影像搜索 ■ 傳統影像特徵分析& & ■ 深度學習影像特徵分析 ■ 影像特徵索引與檢索 ■ 建置一個以深度學習為基礎的Web 影像搜尋引擎 適合讀者群:對圖像搜尋引擎有興趣的開發者、程式設計師、演算法工程師,或機器視覺等相關領域工作者,也適合作為大專院校相關科系師生參考用書。 本書特色 ➢以深度學習Web圖像搜尋引擎為基礎 ➢講解圖像搜尋引擎的原理和實現 ➢帶領讀者從零開始掌握圖像檢索技術
HBase應用大神:OpenTSDB時序式資料庫詳解
OpenTSDB 是一個分散式、可伸縮的時間序列資料庫,其底層儲存以HBase 為主,目前版本也支援Cassandra等儲存。正因為其底層儲存依賴於HBase,其寫入效能和可擴充性都獲得了保障。OpenTSDB 支援多tag 維度查詢,支援毫秒級的時序資料。 本書共 8 章,主要從原始程式角度深入剖析OpenTSDB 的原理和實現。 包括OpenTSDB的網路層、OpenTSDB中UniqueId元件的原理、OpenTSDB如何實現時序資料的存儲及相關優化、OpenTSDB如何實現時序資料的查詢、OpenTSDB中的中繼資料及Tree結構的實現和功能、OpenTSDB中的外掛程式及工具類實現原理內容。 各章之間的內容相對獨立,對OpenTSDB 有一定了解的讀者可以有目標地選擇合適的章節開始閱讀。 本書主要以OpenTSDB 的最新版本(2.3.1 版本)為基礎介紹。&&&&& & &&&&&&&&&&&&&&&&&&&&&&&&&&&& & 本書主要內容: ■ 快速入門 ■ 網路層& & ■ UniqueId ■ 資料儲存 ■ 資料查詢 ■ 中繼資料 ■ Tree ■ 外掛程式及工具類別 適合讀者群:對時序資料庫感興趣的讀者。 本書特色 OpenTSDB 是一個分散式、可伸縮的時間序列資料庫,本書從原始程式角度深入剖析OpenTSDB 的原理和實現。
科技巨頭神器下放民間:流式處理唯一選擇Kafka
本書從Kafka的基本概念入手,主要從生產端、消費端、服務端等3個方面進行全面的陳述,主要內容包括Kafka的基本使用方式、生產者用戶端的使用、消費者用戶端的使用、主題與分區、記錄檔儲存、深入原理解析、監控的設計、高級應用的擴展以及與Spark的整合等。 Kafka的核心使用Scala語言編寫,但是本書基本以Java語言作為主要的示例語言,方便絕大多數讀者的理解。 本書雖然沒有明確的界定,但是總體上可以劃分為三個部分:基礎篇、原理篇和擴展篇,以循序漸進的方式讓讀者容易接受。 本書主要內容: ■ 初識Kafka ■ 生產者& & ■ 消費者 ■ 主題與分區 ■ 記錄檔儲存 ■ 深入服務端 ■ 深入用戶端 ■ 可用性深入 ■ Kafka 應用 ■ Kafka 監控 ■ 進階應用 ■ Kafka 與Spark 的整合 ■ Kafka 原始程式環境架設 本書特色 ◎認識Kafka的基本概念 ◎從生產端、消費端、服務端說明 ◎擴展至進階應用與Spark整合
從大數據到人工智慧(熱銷版):理論及Spark實作
本書重點在大數據與雲端運算的融合,列出了大數據與雲端運算的一些基本概念的同時,以Spark 為開發工具,全面說明雲環境下的大數據技術部署與典型案例演算法實現,最後介紹了經典Spark 大數據與雲端運算融合的架構與演算法。商品特色:本書圍繞網際網路重大的技術革命:雲端運算、大數據進行說明。適用:雲端運算環境下Spark大數據技術人員、Spark MLlib機器學習技術人員。
Neo4j開發應用指南
優秀的資料庫,不僅可以提升應用的效能,而且可適應大規模的資料增長,減輕開發人員和資料庫管理人員的工作負擔,為你和你的企業以及使用者帶來前所未有的優越體驗。本書適合所有開發人員,特別是Spring Boot開發者,或資料庫管理人員和系統設計人員,並可作為系統策劃者進行資料庫選型的參考資料。商品特色:Neo4j圖資料庫是一個能夠適應業務需求不斷變化和大規模資料增長而產生的資料庫,它不但具有很強的適應能力,而且能夠自始至終保持高效的查詢效能。Neo4j沒有模式結構的定義,也不需要這些定義,它使用非結構化的方式來儲存連結資料,所以能夠直接表現資料的連結特性。
Kafka技術手冊|即時資料與串流處理
每個企業應用都在創造資料,包括日誌紀錄、指標、使用者行為、聊天訊息等各種形式的資料。如何移動這些資料本身已經變得幾乎跟資料本身一樣重要。如果您是應用架構師、開發人員或產品工程師並且剛開始使用Apache Kafka,這本實務指南將協助您從新手成為專家,並能熟練地應用此串流平台處理即時資料。 來自Confluent與LinkedIn負責開發Kafka的工程師為您說明如何部署Kafka叢集生產環境、撰寫可靠的事件驅動微服務,以及藉由此平台打造具延展性的串流處理應用。透過詳細的範例,您將了解Kafka的設計原則、可靠度保證、關鍵API以及許多架構細節,包含副本協定、控制者與儲存層等。 .了解發佈/訂閱訊息機制與如何將其融入大數據生態系中 .探索藉由Kafka生產者與消費者讀寫串流資料 .了解Kafka模型與確保可靠的資料傳遞使用案例 .透過Kafka建立資料處理流與應用的最佳實作 .管理生產環境Kafka叢集,包含監控、調校與維運任務 .學習維運Kafka時最關鍵的指標 .探索Kafka串流的傳送能力如何讓它成為串流處理系統的絕佳資料來源
InfoPath 電子表單 設計寶典
「最完整與強大的表單設計與應用軟體一躍升級成為電子表單設計達人!」在競爭激烈的今天,企業辦公方式已脫離以往還是以【辦公室】為主要的工作地點、【文件】為主要洽公依據的老舊的作業模式!行動辦公室以及辦公室資訊無紙化、與辦公通訊化、視訊化的掘起,已成為企業強化競爭力最佳的利器!而這一切最重要的、同時也是最基礎的就是:【辦公室全面電腦資訊化】。簡單的說InfoPath就是一款專門用來規劃、設計與處理電子表單與電子單據的辦公室應用軟體!最令人激賞的是:能使用視覺化的操作與設計方式,規劃與設計企業制式電子表單或是客製化的企業電子表單都能輕而易舉的完成!而且InfoPath更能使用XML來設計複雜層次的訂單或行銷單據,更能使用程式化來設計特定表單欄位的資料正確性檢核與帶入,更能結合其他Office 相關軟體 (Excel、Word…) 來整合所有業務行銷的表單或報表作業!本書Step By Step的由淺入深詳細教導讀者,相信所有讀者在辦公室的工作會更加得心應手!現在就讓我們一起進入InfoPath電子表單設計世界。
中文自然語言處理實戰:聊天機器人與深度學習整合應用
本書為市面唯一完美結合中文自然語言處理與聊天機器人應用的專業書籍! 本書特色 書中不僅介紹聊天機器人的發展歷史,還深入說明不同類型聊天機器人的技術實作。無論是擁有實體的聊天機器人還是聊天機器人軟體,其功能都跳脫不出「閒聊」、「問答」、「對話」和「主動互動」等四種。不同類型的聊天機器人,其著重點不同,但終極目標都是擁有自我感知能力,並能像人一樣進行情感互動。 本書涵蓋範圍廣泛,但受限於時間與篇幅,對某些特定的技術,將先列出簡要的介紹(例如語音辨識和語音合成技術),而將主要精力放在「與文字型聊天機器人的互動」上。 本書系統性的介紹聊天機器人的技術體系,以及自然語言處理在聊天機器人的應用,輔以案例,妥善結合理論和實作,其深入淺出的風格,對不同層級的讀者都有幫助: ♦ 對於入門的讀者,本書帶領您一窺其中奧秘; ♦ 對於業界的朋友,希望本書能夠在您尋找特定技術時提供一定的協助; ♦ 針對學術界的專家,本書提出的許多難題,也期待在理論上加以研究並尋求突破。
翻轉Excel 駕馭Power BI:商業智慧進化自助大數據分析實務應用
只會使用Excel做遜爆了的數據資料分析? 本書讓你從Excel基礎敏捷邁跨到超能Power BI技術! 埋首茫茫巨量數據資料中無所適從? 本書讓你飛速上手操作Power BI成為資料分析高手! 從資料搬運工進化成為高效數據分析師! & 本書內容基於Microsoft Power BI Desktop版本。 數據資料處理量更大;速度更快;數據資料分析功能更強大;視覺化效果更精美。 & Microsoft Power BI是微軟發佈的一套商業分析工具,其功能整合了Excel中的Power Query、Power Pivot、Power View、Power Map外掛程式,並加入了社交分享、雲端服務等功能。 本書以Excel基礎+Power BI為方法論,使用最平易近人的語言講解Power BI的技術知識,讓零基礎讀者也能快速上手操作Power BI。 以讀者的興趣閱讀為出發點,首先通過介紹視覺化模組讓讀者全面體驗Power BI操作,並掌握讓資料-飛起來-的祕技;然後向上邁跨一大步,讓讀者學習Power Query資料查詢功能,瞬間解決最耗費時間且附加值最低的工作;最後全力攻克Power BI的核心價值模組Power Pivot(資料建模)和DAX語言,讓讀者直達商業智慧數據分析的巔峰,站到Excel的肩膀上。 & ※範例資源請至上奇資訊網站下載 &
Power BI終極實戰寶典|使用Power Query與PowerBI進行資料分析
Amazon.com全五星無差評,看過的都說讚。晉身Power BI專家必讀的一本書 透過Power Query這項內建於Excel與Power BI的工具,就能輕鬆地匯入、重塑和清理任何資料,從數據當中發掘洞見。本書將告訴您如何駕馭Power Query這項功能強大的工具,藉由範例的操作,逐步了解如何運用Power Query進行有效率的資料分析。 藉由本書,您將學會: .使用Excel中的Power Query(「取得與轉換」)和Power BI快速準備分析資料 .只需點擊幾下滑鼠並進行簡單的公式編輯,即可解決常見的資料準備問題 .組合來自多個資料來源,多個查詢和不同表格當中的數據 .掌握表格的基礎和進階技術 .使用M語言自定義轉換並構建靈活的資料混搭 .使用Power Query解決協作挑戰 .取得關於文本資料的重要洞見 .分析取自社群網路的資料
大數據時代(強銷版):資料庫系統實作與案例分析
作者精心彙整大數據分析工作所需之理論知識、系統開發技術、程式撰寫與建立模型等實務經驗,以資料庫實作為主軸導向大數據應用與未來趨勢。由資料分析、資料倉儲到資料探勘,延展至資料應用,皆備周詳說明及予精闢釋例,讓讀者一目了然,於觀念結構建立上能更有效率的精準掌握;所舉列之重點案例更加讓讀者透過案例分析,而能對資料庫概念建置更深層的體認與領會。本書對有志成為資料科學家的初學者而言,絕對是一本最好的入門書籍。CH1、CH2、CH3、CH5:主要介紹關聯式資料庫中進階技巧,以檢視表為開端,接續單元介紹索引技術、交易管理和可程式性物件,讓讀者建立在處理大量結構化資料時能更有效率的觀念與基礎。CH4:介紹 ADO.NET資料庫程式設計,讓讀者從無到有建置一個小型資訊系統專案,建立對於資訊系統開發之認識,以及提升程式撰寫的能力。CH6:介紹資料倉儲與資料探勘,對於監督式學習或非監督式學習相關知識有一定程度的了解。CH7:介紹SQL Server 2016版才有的新功能,也是微軟致力於大數據分析的解決方案,主要提供資料科學家能夠透過原先所熟悉的R語言,不論是在交談式介面中透過SQL Server R Services直接撰寫R腳本指令進行資料分析,或是在Visual Studio.NET中透過R Tools for Visual Studio或Microsoft R Client的安裝,在原有Visual Studio開發環境撰寫R指令從事各種機器學習,進行關聯、分類、集群和預測的工作。商品特色:資料庫系統全面攻略/大數據分析深化掌握‧舉列實際案例循序引導,運用實作培養資料庫概念、核心與架構。‧詳盡說明資料分析、倉儲、探勘、應用等多方位課題。‧常用套件、知名套件之介紹、撰寫說明與範例示現。以資料庫系統實作為主軸,築實基礎並深入大數據應用與未來趨勢
唯一串流大數據處理平台 :Apache Kafka動手做
作者把學到的知識及原理集中整理、轉化成文字來幫助那些尚未接觸Kafka 的讀者們,希望讀者們能夠降低在學習Kafka 時所花費的時間成本、 快速上手;作者也期許眾讀者們,於閱讀完本書的同時,能夠和作者一樣,體驗到瞭解一個過去從未觸及的領域時,所產生的那種滿足及興奮感。
不懂程式也能學會的大數據分析術 : 使用 RapidMiner
行銷企劃、市場分析、統計預測、財務金融、風險管理...都該學! 養成大數據分析力的第一本書! & 資料分析、資料科學都是近來非常夯的關鍵字,與其相關的工作職務紛紛冒出,形成一股勢不可擋的大數據分析學習熱潮。 只是聽說學資料分析都得具備一定的技術能力 (例如要會撰寫 Python、R...程式),往往讓底子不夠、或非資訊背景的人止步...沒關係!不管您身處什麼領域、技術背景如何,本書就是為了想搭上這波學習熱潮的您而生。 書中將利用免費、完全不用撰寫程式的分析工具 - 【RapidMiner】,帶您走過資料科學 / 資料分析的經典分析領域。各專案會一步步帶您從「思考解決什麼樣的問題?」開始,從蒐集資料、清理資料、資料探索與視覺化、到實際建置模型、正確解讀結果...等。所用的分析方法均結合時下盛行的機器學習演算法,您會清楚了解如何利用已知的資料對未來做出預測分析。 在現今數據充斥的環境下,期盼讀者可以藉由本書將滿滿的數據「變現」,提早掌握重要資訊、贏得先機! 【釐清資料領域重要關鍵字】 ‧大數據‧開放資料‧資料分析‧資料科學‧機器學習 【資料分析雙鑽石模型】 ‧問題發掘‧蒐集與前處理‧資料探索與視覺化‧建模‧模型解讀 【完全免費的資料集散地任你挖寶】 ‧data.word‧Kaggle‧Github‧政府開放資料平台… 【統計、建模術語零阻礙,白話解說保證看懂】 ‧監督式/非監督式學習‧決策樹‧邏輯迴歸‧混淆矩陣‧分類問題‧迴歸問題‧RMSE、MSE‧分群問題‧K-means模型‧Elbow method‧時間序列‧ARIMA 模型 【不分領域、一看就懂的生活實例】 ‧預測NBA選秀球員發展性‧預測中古車的價格‧找出相似喜好的客群‧出生率預估 本書特色 ●零程式基礎!建立分析模型 Step by Step 保證做的到 ●零統計基礎!滿滿白話實例,輕鬆解讀統計、衡量指標概念 ●生活化實例全面展示【分類、迴歸、分群、時間序列】經典分析
Neo4j大事典:圖形資料庫&大數據時代
一種高效能、擅長處理複雜或龐大的關係網絡、新型態的NoSQL資料庫;大數據、圖形資料庫愛好者絕對值得擁有的專業書籍;全書涵蓋基本概念、基本操作和豐富的實際案例;無論是入門還是高級進階均具有極高之參考價值。圖形資料庫(Graph database)是應運”大數據時代”所產生的一種新型NoSQL資料庫;以圖論為理論根基,用節點與關係所組成的「圖」為真實世界直接建立資料庫模型,支持百億乃至千億規模之巨型圖的高效關係運算,非常適合用於高效、便捷、直觀的分析和處理大數據中之複雜關係。商品特色:本書全面深入介紹目前最為成熟優異、領先全球的最高端圖形資料庫─Neo4j,全書涵蓋基本概念、基礎操作與運用,以及提供豐富的實際案例,既可以作為Neo4初學者的入門教材,亦可作為相關行業Neo4j技術專家的絕佳參考手冊。
科技巨頭:Hadoop+Spark大規模實際運作進行式
說明大數據和Hadoop 相關概念的書已經有很多了,本書更多想做的不是新聞和概念的堆砌、範例程式的詳解,或是某一項技術的再一次陳述,而是從實際場景出發,為讀者們說明應用中的Hadoop 應該是怎樣的。 本書不是為了說明教科書式的概念,而是為了告訴大家Hadoop 究竟能夠為我們的企業做些什麼。我們會從一些真實可靠的案例出發,說明在各種場景下如何應用Hadoop。 本書可以幫助讀者開闊眼界和找到方法,知道如何分析實際商業場景和業務問題,構建基於Hadoop的大數據系統,透過使用數據運營,對公司業務運營帶來直接的效益。當然對於學生、教師和有志於從業大數據運營的人員來說,也是一本實用的教材。
集華人智慧之大成:Apache Kylin用中文處理大數據
Apache Kylin為第一個由華人團隊完整貢獻至Apache的專案。 & 作者為業界知名的Apache Kylin專家,本書為其多年的技術累積與實戰精華。 & 內容淺顯易懂、實作性強大,是目前第一本系統性介紹Kylin的實作書籍。 & Apache Kylin為開放原始碼的分散式儲存引擎,提供Hadoop上的SQL查詢介面及多維分析能力以支援大規模資料。 & 本書全面介紹Apache Kylin,內容包含: & 環境架設、範例演練、原始程式分析、Cube最佳化⋯⋯等。 & 資料倉儲、資料模型、OLAP、資料立方體⋯⋯等方面的相關知識。 & 系統性學習與實戰操作,使讀者能夠架設以Apache Kylin為基礎的企業級大數據分析平台。 & 熟練使用Apache Kylin多維度分析巨量資料,並透過視覺化工具展現結果。 適用:大數據技術初學者;大數據分析人員、架構師等;亦適合Hadoop、HBase、Hive和Kylin等相關從業人員。
一書貫通從資料科學橫入人工智慧領域
《本書特色》 本書是一本集數據分析、數據挖掘、機器學習為一體,面向商業實戰的養成式學習手冊。 & 《本書內容》 本書為有志從事數據科學工作的讀者提供系統化的學習路徑,使讀者掌握數據科學的理念、思路與分析步驟。力圖淡化技術,對於方法的介紹也盡量避免涉及過多的數學內容,而且都輔以圖形進行形象地展現。也注重對讀者思辯能力和分析能力的培養。
巨量資料分析與智能應用(第2版)
巨量資料分析,強化洞悉事物能力;智能應用於裝置產品,大幅提升價值;讓本書給您洞悉力與價值觀,點燃人生亮點。以智能開發模型注入到巨量資料分析實務練習中,按部就班讓讀者由淺入深的學習如何為產品量身訂做智能化裝置,進而以範例說明如何應用在行動商務、醫療診斷服務、自助服務式智能商務、金融科技等新世代裝置產品的開發上,適用於現代人想投入智能產品開發的人才培育與自學用實務教材。
精通Azure Analytics|在雲端上使用Azure Data Lake、HDInsight與Spark
為了儲存、處理及分析各式各樣規模、形式及擷取速度的資料,Microsoft Azure提供超過25種「平台即服務(PaaS)」選項,幫助使用者完整建置資料分析管線。如何為你的組織需求選定最適切的服務?本書列舉一個實用且具體的參考框架,引導你借助Azure服務,打造屬於自己的巨量資料分析解決方案。 本書作者Zoiner Tejada首先介紹諸如Lambda資料架構及資料湖等基本概念,接著帶領讀者仔細探討資料分析管線中每一階段的程式碼範例。為了幫助使用者在每一階段選擇並應用適當的Azure服務,作者利用一則貫穿全書的案例研究,引導讀者瞭解如何在現實情境中應用Azure服務及相應程式碼。 .了解如何超大規模存放資料 .設計並實作解決方案,迅速提供「熱」查詢結果,並正確產生「冷」結果。 .批次處理資料,以「即時微批次」或「一次一tuple」的方式處理串流資料。 .將機器學習功能整合到資料分析管線。 .管理、治理與保護你的資料資產。 .使用C#、Scala及Java的範例程式碼,以及現行資料分析管線內服務的原生語言 Zoiner Tejada是一位在雲端運算、大數據、資料分析及機器學習等領域中具備專業知識的軟體工程架設師。在Azure及資料平台(Data Platform)兩個領域中,Microsoft皆授與他MVP(最有價值專家)榮譽認證。 「如果您在設計資料分析策略時感到迷茫困惑,本書將是導引你離開無助荒野的求生指南。」 —Microsoft Azure CAT資深專案經理 Rama Ramani
大數據時代的資料庫處理:Spark SQL親自動手做
Spark SQL是 Spark大數據框架的一部分,支援使用標準SQL查詢和HiveQL來讀寫資料,可用於結構化資料處理,並可以執行類似SQL的Spark資料查詢,有助於開發人員更快地建置和執行Spark程式。全書分為4篇,共9章,第一篇講解Spark SQL 發展歷史和開發環境搭建。第二篇講解Spark SQL 實例,幫助讀者掌握Spark SQL的入門操作,瞭解Spark RDD、DataFrame和DataSet,並熟悉 DataFrame 各種操作。第三篇講解基於WiFi探針的商業大數據分析專案,實例中包含資料獲取、預處理、存儲、利用Spark SQL 挖掘資料,一步步帶領讀者學習Spark SQL強大的資料採擷功能。第四篇講解Spark SQL 最佳化的知識。 適用:Spark初學者、Spark資料分析人員以及Spark程式開發人員,也可作為大專院校和培訓機構等相關專業的師生教學參考。
機器學習|工作現場的評估、導入與實作
本書是專為想要將機器學習實際應用在工作上的讀者所寫的書,說明如何在職場上應用機器學習與資料分析的工具。 透過本書,您可以了解: .如何啟動機器學習的專案 .如何讓機器學習與現存的系統互動 .如何收集機器學習的資料 .如何建立假設與分析 .機器學習的基礎知識 .分門別類介紹機器學習演算法的各種特徵 .以阻絕垃圾郵件的範例說明如何評估離線預測模型的方法 .如何在機器學習的分類工作收集正確資料的方法 .使用統計學的檢定、因果推論、A/B測試驗證方案效果