【電子書】從試算表到資料平台:重構資料工程的技術與團隊
【本書特色】 ★ 不只是工具教學——本書源自顧問為企業導入現代資料棧的實戰經驗 ★ 精準拆解以 dbt、Metabase、Meltano 為核心,並示範 DuckDB 與其它資料倉儲選項的現代資料棧應用,讓你少走 90% 的冤枉路 ★ 用案例解析常見瓶頸,教你避開踩坑與重工的惡性循環 ★ 適用於決策者、技術主管、資料團隊——立即啟動資料驅動決策文化 用顧問級方法,替你的團隊打造「不再重工、不再卡關」的資料基礎建設,讓決策更快、產出更穩、團隊更有餘裕專注真正的價值創造。 https://youtu.be/Q3Zqd-hfBQ8【書籍內容】你是否曾懷疑過自己用錯了工具,因而浪費了許多時間?在過去的職業生涯中,我以為自己掌握了開發軟體的核心技能,但在遇到真實的資料工程與資料分析問題時,我只用了軟體開發的方法去硬做,結果浪費了大量時間。因為過去繞了很長的遠路,也順手做了不少研究,而這本書是我的心得。這本書帶你深入了解現代資料棧,教你如何用更靈活、易於組裝的工具和方法論來有效處理資料,以提升數倍的產出。◎本書為你提供:►現代資料棧:像 Linux Shell 一樣靈活的工具組合,協助你快速構建高品質的資料基礎建設。►資料分析的技巧與實務:透過研究實例與前人的分析方法,幫助你拆解陌生問題、提升解題效率。►管理實務:如何在組織內有效導入新技術,克服技術與決策的障礙。◎誰應該讀這本書?這本書寫給那些在資料相關領域中,感受到「卡住了」的人。無論你是哪一種角色,只要曾經在以下情境中點頭如搗蒜,這本書就是為你而寫:►你身為資料分析師,卻困在資料不乾淨、報表每週重工、每週趕進度的困境裡。►你是資料工程師,卻常常在寫一堆 ETL 程式,對資料倉儲與資料品質管控始終感到不夠優雅。►你是產品經理或行銷經理,每週都在催資料報表,卻不確定報表背後的資料是否一致、準確。►你是中階主管或技術領導者,想導入更好的資料流程,但每次提案總被打回票:「我們現在沒空重做」。►你身為數位轉型推動者,想改變整個組織面對資料的方式,但不知道該從哪裡開始。這不是一本教你單一工具操作的書,而是一本幫助你理解「資料基礎建設」背後的思維框架、常見瓶頸、與改進路徑的書。如果你希望節省時間、提升品質、減少重工、甚至把某些原本工程師才能做的事轉交給資料分析師做,那你會在這本書裡找到具體可行的方法論與實踐路徑。【專業推薦】中國信託商業銀行 數位科技處部長|林佩蘭XREX INC., Backend Engineering Manager|Stone HuangXREX INC., 資料科學家|陳安祖
【電子書】商業大數據的視覺化設計與Power BI實作應用
世新大學校長 陳清河 / 國立中央大學副校長 許秉瑜 ~誠摯推薦~ 【中華企業資源規劃學會 視覺化軟體應用師認證教材指定用書】 現在是一個大數據無處不在的年代,無論是企業或個人,建立一個快速解讀資料的能力,顯得相當實用且重要。其中,資料視覺化就是一個備受關注且重視的面向。用視覺化的方式來呈現資料的內容,能夠讓決策者更容易理解,執行者能更輕易的利用圖表與他人進行溝通。因此,資料視覺化的應用已經是許多企業相當看重的大數據分析技術之一。 然而,圖表的類別龐雜,如何選擇適切的圖表來忠實呈現資料,卻是操作者的困擾。因此,本書將資料視覺化的圖形予以整理及分類,藉由各章的說明、介紹、優劣比較與繪製建議,搭配企業個案資料來實際操作,減少讀者天馬行空的想像。 目前坊間資料視覺化的書籍多以軟體功能的介紹與操作為主,本書則是以不同應用類型的視覺化圖表為重點,搭配Power BI進行教學與解說,期待讓讀者在未來的應用上能夠更為得心應手。 最後,本書設計了一個整合的應用,利用企業的資料來進行實戰。透過資料視覺化的相關整合應用,去解讀企業營運時的狀態與樣貌,進而部署儀表板,提供即時決策參考。
【電子書】AI時代的資料科學:小白到數據專家的全面指南
這本趣味的指南在探索AI與資料科學領域的奇妙世界方面,具有以下特點,並獲得學界和業界的推薦:◆全面性:涵蓋從數據收集到機器學習模型構建的全過程,適合初學者和進階學習者。◆工具應用:重點介紹Python及其他主要工具的應用,這些工具是當今AI與資料科學必不可少的基礎。◆學界推薦:來自頂尖學術界專家的推薦,確保本書內容的學術性和專業性。◆業界推薦:專業資訊人士的推薦,證明本書在實際應用和職場技能需求的價值。◆實際案例和習題:提供豐富的實際案例和習題,有助於讀者從理論到實踐的無縫過渡,加深對知識的理解和應用能力。本書的特點使得這本指南不僅適合想要建立堅實基礎並深入研究AI與資料科學的新手,也適合希望在這些領域中追求更高專業水準的進階學習者。無論是學術研究還是商業應用,這本書都將成為讀者實現卓越的重要工具書。書籍推薦人:伽碩企業有限公司附設職業訓練中心執行長 郭明洽銘傳大學資訊科技與管理學程教授 尹邦嚴前仁寶電腦財務主管、法藍瓷行政主管、中強光電營運主管、國巨稽核主管 鄭穎臨日本東京農工大學 感染症未來疫学研究センター 特任助理教授 林立云王致遠 藥師國際商業機器股份有限公司 IBM 工程師 陳尚瑋優貝克股份有限公司資料工程師 吳俊毅
【電子書】一週學會Google Analytics 4:迅速打下分析基礎
「怎麼辦?對Google分析一竅不通,好焦慮!!」 趕快打開這個為期7天的學習計劃 每天都從有趣的漫畫開始 按部就班享受有趣且高效的GA4學習過程 「OMG!Google Analytics又改版,該不會要打掉重練吧......」 別擔心,我們會教你如何併用和遷移到GA4 曾經的努力會一直都在的^^ 「我不是不會,只是"稍微"忘記一點點」 需要回想哪個部分,就從哪個部分開始就好 32位撰稿人據自己的專長進行撰寫與發揮 精心安排的高效學習曲線 每章最後的QA練習讓你立刻加深印象 再也不怕轉頭就忘! Google Analytics或網站分析的專業書籍,但總感覺有點難度。為了應對這類困擾,本書從「基本中的基本」開始說明相關基礎知識,為讀者提供全方位協助。 本書規劃以一日一個主題的方式,一週就能讓您理解Google Analytics 4的運作和操作方法,並且掌握製作簡單報表的能力。 全面認識Google Analytics 4的工作原理、操作及分析方法 踏入網站分析實務之前, 先確實提升基礎能力吧!
【電子書】文科生也可以輕鬆學會Web Scraper網路爬蟲與Power Automate X Excel大數據分析
不用動手寫程式,讓Web Scraper爬蟲 X Power Automate自動化工具幫你搞定! • 活用ChatGPT學習網路爬蟲、大數據分析和辦公室自動化 • ChatGPT學習SQL語法,建立高效率Excel資料處理術 Web Scraper是第一名Chrome擴充功能的爬蟲工具,不用撰寫程式碼,就可以建立CSS選擇器的網站爬取地圖從網站擷取資料,本書不只教你利用內建視覺化工具輕鬆爬取Web網站,更能夠使用ChatGPT學習HTML標籤+CSS選擇器,並了解各種網站巡覽結構。 Power Automate Desktop自動化工具,可以建立流程來執行一系列動作,輕鬆打造Windows應用程式和Excel自動化,來提高辦公室的工作效率,不只如此,再搭配書中使用ChatGPT學習SQL語法後,我們更可以整合Power Automate Desktop + SQL建立高效率的Excel資料處理。
【電子書】資料科學入門完全指南:資料分析的觀念.處理.實作
Chapter1 資料的概念:在最開始的地方,以一系列的案例讓讀者認識到資料的價值(1.1),並且學習透過資料的型態(1.2) 和尺度(1.3) 來認識資料。 Chapter2 Python 基礎:對於沒有程式基礎的讀者,會從 Python的介紹和環境安裝(2.1 ∼ 2.2) 開始,並且介紹一些基礎的程式語法與邏輯(2.3 ∼ 2.4),讓讀者可以快速上手Python。 Chapter3 基本數值資料處理:分別介紹在資料分析中最常用到的NumPy(3.1) 和Pandas(3.2),讓讀者可以對各種基本的資料進行處理與分析。 Chapter4 各式資料處理:除了基本的數值資料以外,更進一步介紹對於影像(4.1 ∼ 4.2)、音訊(4.3 ∼ 4.4)、文字(4.5 ∼ 4.6) 類型資料的觀念與實作。 Chapter5 資料前處理:專門介紹各種拿到資料後要先做的前處理方式,包含資料清理(5.1)、資料轉換(5.2),以及如何進行合適的資料視覺化(5.3)。 Chapter6 其他專題補充:針對本書無法展開的內容,透過一個個小實作專題進行補充介紹,包含探索式分析(6.1)、網頁爬蟲(6.2)、機器學習與模型評估(6.3)、ChatGPT API(6.4)、HuggingFace(6.5)、資料管線(6.6)、常見誤區(6.7) 等。 &
【電子書】大數據分析實務:RapidMiner之應用
本書使用免費下載的「RapidMiner」軟體,該軟體使用圖形化界面,不需編寫程式、操作簡易、功能強大且應用廣泛,適合初學與進階資料分析人士使用。 本書從基礎的資料取得、事前處理到模型的建置、評分、驗證與實例分析等,以實作方式,循序漸進的介紹大數據分析的操作步驟與流程。 全書提供30個案例,內容包含金融、製造、銷售、管理、醫療、休閒、氣象與情感分析文字探勘等諸多領域的應用實例,除了對現有結構與非結構式資料進行分析外,同時利用訓練模型預測未來,提升數據分析的實用價值。 本書除提供數據資料檔Data File外,亦附有各章節之程式/流程檔供讀者參考。
【電子書】實戰Tableau資料分析與視覺化分析
學會Tableau的操作方法以及思維,培養Tableau腦想要讓數位轉型成功的企業,就少不了Tableaui這類BI工具的應用。本書的目的是透過多道題目介紹「製作判斷所需的視覺化分析」的方法,以及「根據資料找出想知道的數值」的方法。讓我們一起學會Tableau的操作方法以及思維,培養Tableau大腦。 大量的技巧與提示本書大量介紹了各種技巧與Tips。由於能快速找到每個問題的解決方案,所以能快速地提升Tableau的技巧。本書除了介紹常見的技巧以及問題之外,也介紹一些需要Tableau獨特創意的內容,所以大家能透過本書學會更多分析技巧,全面提升Tableau的實力。 透過實際演練,了解Tableau的操作與邏輯要想熟悉Tableau,就必須多練習、多累積經驗。不斷地優先練習那些不容易記住的題目,藉此學會思考模式。大量練習之下,練習的品質也會跟著提升。建議大家不要只是瀏覽步驟,而是要實際動手演練。不斷地練習,總有一天會有所突破。只要能夠熟悉Tableau的操作,就能在短時間之內完成高品質的分析。但願有更多人能夠體驗使用Tableau進行視覺分析的趣味與益處。 本書的目標讀者○ 已經學會Tableau基本操作的人 ○ 想學會更多分析方法,推動業務的人 ○ 想透過實際的練習強化相關技巧的人
【電子書】圖解資料科學的工作原理
書中收錄給新手的重點詞彙集! 從分析方法到AI基本概念,圖解所有應該掌握的知識 圖表、數值種類、資料結果等,從基礎知識開始講解! 技術相關項目也會圖解說明,幫助初學者理解內容! 完整收錄統計學、AI基礎概念等相關知識! 網羅資訊社會中資料運用的問題點與課題! 資料科學家(Data Scientist)一詞已經使用超過10年,資料科學(Data Science)也時有耳聞。AI、物聯網愈發受到注目,IT工程人員紛紛投入資料分析的業務,運用他人的分析結果建構系統的事例亦不斷增加。相信不久的將來,在商務中使用資料會將變得理所當然。 稍微掌握基礎知識後,會想要嘗試複雜的分析手法。然而即便完成高階分析,如果接收者無法理解分析結果,就失去資料分析的意義了。 分析人員對分析手法會有深入了解,會仔細調查新的分析方法,但接收分析結果的受眾,不見得有充實的背景知識。 因此,如果最後的結論相同,建議使用比較簡單的方法。即便不用高階統計方法、機器學習,簡單的圖表也足以解釋背後的意義。有時也不需要使用數值資料準確地分析,簡單易懂的圖解就十分足夠。 然而接收分析結果的人不宜毫無背景知識,也不應因方便而要求使用簡單的分析方法。不僅是分析人員,接收分析結果的人的也需要學習。 本書將會圖解介紹各種分析方法的概要,但收錄的內容終究僅是概略的內容,想要進一步深入了解的話,建議搭配專業書籍來閱讀。不過,了解有哪些分析方法、掌握各種手法的特徵,其實本書就綽綽有餘了。在運用手邊的資料之前,一起學習資料的分析方法及處理時的注意事項吧。 -增井敏克
【電子書】Notion高效管理250招:筆記×資料庫×團隊協作,數位生活與工作最佳幫手
國內第一本最多應用技巧的Notion全面參考指南! 10大主題.全方位計劃管理 隨時都能開始的筆記與資料整理術 ■活用連結分頁資料庫以及筆記平台內容嵌入,Word、Excel文件整合。 ■涵蓋閱讀書單、費用計算、雲端書櫃、旅遊行程、專案時程、排程日曆...等應用實例。 ■電腦、手機跨平台(Windows / macOS、iOS / Android)適用,靈活操作即時更新。 【超值加贈】 全書範例與素材/達人都在用的28款實用範本 頁面設計優質圖示資源速查表/快速鍵隨身速查表 學習資源使用方式影音教學 解鎖Notion,讓你懂觀念、有想法、會應用 高效雲端管理,分享協作密技不藏私大公開 使用Notion時,你可能會遇到這些問題: ‧操作不熟悉 - 區塊類型選擇困難 ‧資料整理不拿手 – 整合散亂筆記有問題 ‧資料庫問題多 – 資料類型與關聯不清楚 由Notion最實用最基本的操作開始,一步驟一圖文全面詳解,不論是個人或團隊應用,輕鬆編排文字、圖片、音樂、影片、附件...等,以及資料庫到報告產出,跨平台應用,全方位高效掌握。 *熟悉Notion,扎實前端基礎 區塊自訂重組編排,頁面階層無限延伸,文字、資料庫、各式媒體格式,以及YouTube、Google Drive、Google Maps...等資料完全整併,善用Markdown語法及操作快速鍵,事半功倍、提升效率。 *結合生活與工作,完全實務應用 設計、教育、閱讀和寫作、銷售量、健康保健、人力資源...數十種不同情境範本,完全掌握工作效率及大小活動流程,跨平台、系統通用,用電腦、行動裝置隨手記事,輕鬆成為雲端工作達人。 *高質感素材與區塊樣式美化筆記,專業呈現 不僅要求作品專業完美,也希望工具平台介面簡單有設計感?Notion是一款介面簡潔的軟體,有設計感,靈活、流暢的操作加上Block編輯模式,大量免費封面圖片、圖示、Unsplash圖庫,輕鬆設計出不同用途的專業內容。 *善用資料庫,幫你管理各種專案進度 資料庫支援匯入、建置、屬性類型指定、關聯、計算...等全面應用,有 Timeline、Board、List、Gallery、Calendar...等多種檢視模式,搭配篩選條件各別檢視以及計算功能,掌握預算不超標。 *團隊協作,邀請他人共同編輯與分配權限 提升團隊協作效率,完美地跨時區、跨平台共同編輯作業,還可以依每位成員或訪客的性質調整編輯管理權限,讓團隊成員可取得最精準的同步資料與即時討論。
【電子書】圖解資料庫的工作原理
在電腦與網路普及的現代社會中,大量的資訊讓我們得以擁抱便利的生活。只要稍微仔細觀察,就能發現生活中充斥了許多資訊。例如,社群網路服務與通訊軟體、電車時刻表、記錄於出勤系統中的時間、地圖軟體中的餐廳資訊、設定手機提醒的行事曆,以及網路購物的商品資訊等。如今,這些資訊在世界各處持續增加,大量的資料要如何儲存,又要儲存在哪裡?處理大量的資料時又該怎麼做?解決這些問題時,資料庫是一項關鍵的技術。 本書包含使用資料庫前必須了解的知識,包括: .資料庫的基礎知識 .資料庫的操作方法 .系統設計的相關知識 .資料庫運用的相關知識
【電子書】Metadata後設資料:精準搜尋、一找就中,數據就是資產!教你活用「描述資料的資料」,加強資訊的連結和透通
了解後設資料(metadata),是資訊科學的必修課。 一本書,幫助我們掌握資料的流通和運用! & Metadata是「描述資料的資料」,有許多中文譯名,包括後設資料、詮釋資料、元資料、元數據等等,本書譯為「後設資料」。 & 後設資料就是用來詮釋資料屬性的資訊,有助於標出資訊儲存的位置、文件紀錄、尋找資源、相關評價和過濾資訊。 & 以手寫信為例,信封上的寄件人和收件人地址、姓名屬於後設資料,但書信內容並不是。以手機通聯紀錄為例,發話人和受話人的手機號碼、通話日期、通話地點和通話時間是後設資料,但交談內容並不是。 & 在網路尚未普及之前,圖書館的卡片目錄就是後設資料,每一張卡片必定有這本書專屬的「索書號」,前往圖書館找書的人們就能迅速找到藏書。 & 隨著網路普及,後設資料已經成為資訊科學的基礎,並且能夠滿足管理和搜尋的需求:電子檔案逐漸取代紙本資料,必須善加管理;為了因應網路上龐大的搜尋,必須讓人迅速找到結果。 & 如果沒有後設資料,所有資訊都必須倚賴人力查找,將導致成本增加。近年來,後設資料的格式也愈來愈多,人們熟悉的大數據(big data),也是源自於後設資料。 & 本書作者傑福瑞.彭蒙藍茲是資訊科學家,曾任威斯康辛大學麥迪遜校區圖書館與資訊研究學院兼任教授、北卡羅來納大學教堂山分校資訊圖書學院助理教授、華盛頓大學資訊學院客座教授。他的線上課程「後設資料:組織和探索資訊」(Metadata: Organizing and Discovering Information)課程,深獲業界人士和學生喜愛。 & 作者提醒我們,後設資料已經不只是在圖書館用來描述和管理藏書的書卡,也可以用於描述和管理網路資源、應用程式介面、描述影音格式,甚至是藝術品和科學資料集,後設資料將會持續演進。 & 閱讀本書,有助於我們: 1.了解後設資料,加速資料的流通傳播和長期保存 2.為資料建立系統、提升資訊科學素養 3.活用後設資料,強化資料的應用(組織、識別、管理、保存、搜尋、發現和獲取) & 一本書,幫助我們了解資料的保存和流通、建立完整的管理系統,進而精準活用數據!
【電子書】GA到GA4掌握網站數據分析新工具的技術原理與商業思維
快速上手 GA 4,建立工具操作與商業經營的緊密連結! GA 4 與通用版 GA 的異與同 企業的導入策略與步驟 報表結構與數據判讀 「事件導向」的數據模型 手把手完成 GA 4 事件相關的設定 GTM 簡介 深入解析 utm 參數的應用 以 AI 為基礎的豪華版「探索」分析圖表 以數據分析支撐商業決策的實例探討 Google 分析 (GA) 雖然已是大部分企業的標準配備,但因為工具的複雜與善變,讓不少有多年經驗的使用者,仍然覺得難以親近。而新版 GA 4 問世,數據模型的跨代改變,複雜度遽增,更加深了大家的焦慮感。 但如果使用工具時,除了操作,還能夠細究其技術邏輯,深入理解工具反映的商業概念,則會發現複雜、善變的背後,其實有一定的脈絡可循。 本書的設計,以技術架構為經,透過實作範例,完整執行 GA 4 事件設定與進階分析流程,讓負責操作的朋友,可以與通用版 GA 無縫接軌,快速上手;同時以商業策略為緯,詳細解釋了 GA 4 各種功能與報表,在商業情境中的具體意義與應用策略,讓無需動手的決策人員,也可以透過本書,具體瞭解 GA 4 到底在做什麼。
【電子書】人人都學得會的網路大數據分析入門:一步步教!超詳細!專為非專業人士所寫的機器學習指引
你是領先群倫的專業人士, 因此擔心自己或公司在資訊技術日益進步的時代淪為落伍者? 你覺得「大數據、機器學習」對你來說是「遙不可及」嗎? 你更憂慮不知道該如何下手?! 這本書就是來教你「具體該怎麼做」! 作者精心設計用最白話、最易懂的方式,一個步驟一個步驟地教你如何由網路收集資料、如何統計分析。 只有建立你自己的資料庫、活用大數據, 靠量化分析才能讓你做出最精準的判斷與決策, 無論你是否學過,只要有一部電腦或一台筆電! 這是一本任何人都學得會,並且做得到的大數據、機器學習之最佳入門書! 其實,任何背景的人要從網路下載大量資料,進行量化分析,甚至導入機器學習的方法,做更進一步的分析,都只要幾個小時的「苦練」。 市場上有關程式設計、甚至機器學習的書及課程很多,他們的目的是在教導讀者全面性的觀念,而你學會之後,再運用在你有興趣的地方。這樣很好,不過,對初學者而言較難。大多數人學會了之後,也不知如何運用。 本書則是以不同的方式編寫,作者先教你如何由網路上下載資料,再教你整理並分析的相關技術。我們會把所有的程式碼上網公布,方便你剪貼運用,你可以很快的用這本書的內容做資料收集及分析的工作(特別是量化分析)。 你不必成為程式設計師,但是至少要知道如何運用資訊科技來搜集並分析資料。而且雖然萬事起頭難,可是你一旦會用excel vba、簡單的機器學習工具來分析資料,你會發現再擴展到其他領域其實不是那麼難。你由此出發,有興趣再去補其他資訊科技之不足。 你可能會問為什麼要學會資料分析、機器學習的相關技術,好吧!俗氣的來說,這是當紅的技術。而且你如果把它運用在工作上,可以提升你或你公司的營運效率。 我想你應當受夠了和老闆及同事開會時各說各話的情況,決策全憑大家的「捷思」法,舉出版一本書的例子來說:我認為投資書要以投資系統為寫作主題,而你認為要寫名詞解釋的入門書比較好,雙方都可以自憑記憶找出佐證,但是由網站把所有書下載,比比看誰賣得好、誰出得多,在量化的基礎上不僅可以免除偏見,並有助於進行更進一步的討論。 現有軟體已經可以對固定化格式的資料進行大量的分析,不過,機器學習的技術可以讓資料分析有更高的可信度。一些需要人工判斷的資料,要先經過人工處理、分群,然後再加以分析。如果資料幾百筆,OK,你用人工分。但如果資料上萬筆呢?如此就要引進機器學習的技術,讓它替你分群,或是讓它學會你分群的邏輯,接手你的工作。 以上聽起來有點難,但是原理不難理解,本書也將提供入門的指引。 本書特色 ◆專心於資料分析的資訊技術,減少學習的負擔 一般的上班族就算對資料的分析有需求,對程式的設計也沒有興趣,本書只討論有關資料取得、分析等方面的程式工具。有資料分析需求的讀者,學會這些就夠了,其他的有時間再深入。 ◆大量的程式可供下載套用,拿來改一改就可以用了 分析網路資料大約有幾個部分:資料下載、資料整理、資料分析。其中運用到的程式語法說多不多,說少不少,一個一個重新打,很煩人。本書的所有程式碼都開放下載,你自己修改起來就方便許多。 ◆作者成立讀者社群,提供相關資訊下戴,也有利於相互共同學習
【電子書】R語言邁向Big Data之路:王者歸來
王者回來了! R語言與Big Data的最強結合 重磅新增 2015年這本書的第一版上市,隨即獲得許多好評,也獲得許多大專院校選為上課教材,這本書是第2版,相較第一版基本上增訂下列資訊: 將R的軟體改為最新版測試,可以參考附錄A。 附贈全書實例檔案。 讀者附贈是非、選擇、複選題的題目與解答,這些題目是美國Silicon Stone Education的國際證照考古題,另外加贈偶數實作題解答。 教學資源說明 本書所有習題實作題均有習題解答,如果您是學校老師同時使用本書教學,歡迎與本公司聯繫,本公司將提供習題解答。 另外,本書也有教學簡報檔案供教師教學使用。 讀者資源說明 請至本公司網頁deepmind.com.tw下載本書程式實例,此外,讀者也可從所下載的資源獲得實作題偶數題的解答。 本書特色 1:完全零基礎可以輕鬆學習。 2:學習最新版R語言。 3:從無到有一步一步教導讀者R語言的使用。 4:學習本書不需要有統計基礎,但在無形中本書已灌溉了統計知識給你。 5:精彩的圖表製作,讀者可以學會資料視覺化使用R。 6:完整講解所有R語言語法與使用技巧。 7:豐富的程式實例與解說,讓你事半功倍。 8:全書涵蓋是非、選擇、複選習題解答。 9:讀者贈送全部偶數題實作題解答。
【電子書】大數據╳資料探勘╳智慧營運
【想深入了解大數據、資料探勘的讀者請進!!】 什麼是資料前處理? 電信業者跟資料探勘有什麼關係? 神經網路具體到底是什麼? 集群分析的演算法有哪些? ◎資料探勘的「十大經典演算法」你都認識嗎? 國際權威的學術組織the IEEE International Conference on Data Mining (ICDM)評出了資料探勘領域的十大經典演算法:C4.5、K-Means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、Naive Bayes和CART。 & 1.C4.5演算法 C4.5是一種用在機器學習和資料探勘領域的分類問題中的演算法。它基於以下假設:給定一個資料集,其中的每一個元組都能用一組屬性值來描述,每一個元組屬於一個互斥的類別中的某一類。C4.5的目標是透過學習,找到一個從屬性值到類別的映射關係,並且這個映射能用於對新的類別未知的實體進行分類。 2.The K-Means Algorithm (K-Means演算法) K-MeansAlgorithm是一種聚類演算法,它把n個對象根據他們的屬性分為k個分割,k ◎結構化/半結構化/非結構化資料有什麼不同? (一)結構化資料:能夠用數據或統一的結構加以表示的資料,如數字、符號。傳統的關係資料模型,儲存於資料庫,通常可用二維表結構表示。 (二)非結構化資料:是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化資料(如數字、符號等資訊)而且更適合處理非結構化資料(全文文字、圖像、聲音、影視、超媒體等資訊)。 (三)半結構化資料: XML、HTML文檔就屬於半結構化資料。它一般是自描述的,資料結構和內容混在一起,沒有明顯的區分。 ◎如何設計神經網路的拓撲結構? 在開始訓練之前,用戶必須確定網路拓撲,說明輸入層的單元數、隱藏層數(如果多於一層)、每個隱藏層的單元數和輸出層的單元數。 對訓練元組中每個屬性的輸入測量值進行規範化將有助於加快學習過程。通常,對輸入值規範化,使得它們落入0.0和1.0之間。離散值屬性可以重新編碼,使得每個域值有一個輸入單元。例如,如果屬性A有3個可能的或已知的值{a0,a1,a2}則可以分配三個輸入單元表示A,即我們可以用I0,I1,I2作為輸入單元。每個單元都初始化為0。如果A=a0,則I0置為1,其餘為0;如果A=a1,則I1置1,其餘為0;諸如此類。 神經網路可以用於分類(預測給定元組的類標號)和數值預測(預測連續值輸出)。對於分類,一個輸出單元可以用來表示兩個類(其中值1代表一個類,而值0代表另一個類)。如果多於兩個類,則每個類使用一個輸出單元。 全書特色 全書分為九章,內容包括:大資料探勘與智慧營運的概念,資料前處理,資料探勘中的四種主流演算法:集群分析、分類分析、迴歸分析、關聯分析,增強型資料探勘演算法,資料探勘在營運商智慧營運中的應用案例,未來大資料探勘的發展趨勢等。主要提供給電信業者及其他高科技企業員工、大專院校學生和研究生,以及其他對資料探勘與精準行銷感興趣的讀者。 &
【電子書】社群網站資料探勘:看數字說故事、不用拔草也能測風向
📶 給新聞工作者與菜鳥調查員的資料分析指南📶 Twitter上的網軍是否能左右總統大選?Facebook和Reddit的資料副本能提供哪些有關人類行為的資訊?BuzzFeed的資深新聞工作者Lam Thuy Vo將藉由本書告訴您如何利用Python和關鍵的資料分析工具,查找隱藏在社交平台底下的故事。 無論你是專業新聞工作者、學術研究人員或是公民調查員,都需要學習使用資訊工具蒐集和分析社交平台所提供的資料,建立引人入勝、以資料為導向的報告。 本書特色 • 使用Python腳本及API,從社交平台取得待分析的原始資料 • 下載分析對象的原生資料副本檔 • 檢視從網站下載的HTML網頁,找出有用的內容 • 利用Google試算表為蒐集的資料進行格式化、彙計、排序及篩選 • 建立視覺化圖表,以闡述研究結果 • 利用Python、Jupyter Notebooks及pandas程式庫從事進階資料分析 • 將所學的知識及技巧應用到自己的研究領域 社交平台充滿無數等待被揭露的內幕,看完本書,讀者可以學會利用專業人士常用的資料調查工具,寫出具備個人特色、以資料為依據的研究報告。
【電子書】互聯網進化史:網路AI超應用.大數據╳雲端╳區塊鏈
「當人們展望未來,我卻回看歷史。」 隨著時代的發展, 網路發展如同滾雪球一般越來越大、越來越快,無法遏止。 「工業4.0」、「互聯網工業革命」、「物聯網」…… 一個又一個新生的名詞目不暇給的冒出水面,占據我們的生活, 於是當互聯網+的概念被提出, 你忍不住要停下來問一問自己,這一切到底是怎麼發生的? 網際網路(Internet)的在阿帕網(ARPANET)的基礎架構下發展,網路與網路之間的點與點,無數的電腦和裝置之間互相透過網路連接在一起的串連,這些網路之間以特定的通訊的協定,形成了龐大的網路體系。 Internet的基礎上發展出全球性的網際網路,儘管網路的發展經歷了西元兩千年的路泡沫化,但隨著科技的發展以及網路的便利性,網路在現代正發揮著強大的重要性。由於網路的便捷讓世界形成了地球村,催生了許多BBS、PTT、Blog(部落格)、Facebook(臉書)、Youtube等虛擬社群的網路文化發展,便利性的通訊軟體如MSN、Line、Wechat等,強大的網站巨人谷歌、微軟、亞馬遜、eBay、維基百科等。 本書徹底分析網路從無到有,從有到發展盛況的精練解說以及精彩的案例,絕對是您不能錯過的一部網路發展概論史。
【電子書】一本書搞懂雲端計算、物聯網、大數據
全新時代已經到來! 雲端計算、物聯網、大數據…… 人類走過了一次又一次的工業革命,如今,第四次工業個命已然來臨。 加快你的腳步,別被物聯網的浪潮給甩下! & 本書闡述了雲端計算和物聯網的理論知識,以及切實可行的實施步驟和技術,彙總了作者在實施環保物聯雲端計算平台的實際經驗,對雲端計算和物聯網具有重要的資訊。 & 全書包括雲端計算和物聯網介紹、基於物聯網技術的雲端計算平台、雲端服務和服務對接、物聯、雲端計算平台、雲端儲存、雲數據中心、雲端服務中心、門戶服務、雲端計算平台管理等內容。 & 本書適合對雲端計算和物聯網技術感興趣的讀者閱讀,對軟體平台的系統分析師和架構師而言是一本很好的技術參考;同時也可作為從事雲端計算和物聯網研究與開發人員的參考資料。 &
【電子書】圖解!一次搞懂資料庫
無論是工作或是日常生活中,幾乎所有人都會用到資料庫。特別是涉足IT 領域的讀者,了解資料庫應該會成為您的強大武器。 以技術麻瓜也能聽懂的方式,配合大量的圖說明資料庫設計與資料庫系統開發的概念 用對話的方式學習資料庫 本書將和喵太與大衛這兩名人物一起認識所有與資料庫相關的基礎知識,從「資料庫究竟是什麼」開始,一直到關聯式資料庫的基礎、使用資料庫的需求機制、設計方法與操作維護等。 以圖解的方式解說抽象的概念 認識資料庫的過程中最重要的並不是記住術語,而是要理解並學會概念、想法,與邏輯。若是學會了這些,自然而然就會記住相關的術語。因此,本書使用大量的圖示解說抽象的資料庫概念,讓讀者更容易掌握資料庫的本質。 誰適合閱讀本書: .想要了解資料庫到底是什麼 .會使用到SQL .開發程式時,需要應用資料庫
【電子書】大數據分析Excel Power BI全方位應用(第三版)
台灣微軟技術經理 王恩琦 專業推薦! 隨著電腦技術的發展,資料存儲量呈現倍增成長,以資料採礦為核心的Business Intelligence(BI)顯然成為IT和其他行業的必爭之地,同時市場潮流Big Data讓巨量資料分析變得更重要,商業智慧也順理成章成為企業注重的一環,專業的分析人員更是市場人才寵兒。 基於此利基Microsoft Excel Power BI實現在數據分析與商業智慧分析領域,達到方便且有效率的作業模式。使用Excel Power BI可迅速完成以往只有透過專業商業智慧工具或花費大量時間才能完成的任務,它同時提供蒐集合併清理內外部資料來源功能(Power Query)、精華版OLAP工具(Power Pivot)、視覺化分析資料探索(Power View)與2D/3D地圖資訊分析(Power Map),協助企業能夠整合來自不同來源的巨量資料並轉化成資訊和洞察,應用在市場策略上,最終達到令人滿意的效果。同時,Microsoft Power BI服務除了具有Microsoft Excel Power BI功能之外,更增加許多視覺化效果的模板,而且還能客製化。 ■ 適用Excel 2019/2016/2013 ■ 瞭解自助式商業智慧分析流程,提升人員決策能力 ■ 學習利用Power BI工具建立視覺化圖表分析 ■ 學習如何使用Excel Power Pivot、Power View、Power Map與Power Query ■ 內容逐步實際操作,從入門到進階,縮短學習時間,讓您有效率的抓住學習重點 ■ 帶領您瞭解Power BI服務的範疇,快速掌握Power BI Desktop的使用技巧
【電子書】實戰機器學習:使用Spark
學習熱門的機器學習演算法 本書介紹熱門的機器學習演算法及其實作方式。你將會了解如何在Spark ML這套開發框架之內,實作各種機器學習概念。首先,我們會帶你在單一節點與多重節點的運算叢集上,完成Spark的安裝工作;接著,說明如何執行以Scala和Python語言撰寫的Spark ML程式;然後以幾套資料集為範例,深入探索分群、分類與迴歸;最後,利用Spark ML來處理文字資料。 打造可以應用於工作中的機器學習程式 弄懂概念之後,便可運用來實作演算法,可能是從頭開始,或是將既有的系統轉移到這個新平台,像是從Mahout或Scikit轉移到Spark ML。當你讀完本書之時,應該能夠善加運用Spark,打造可以應用於工作中的機器學習程式。 本書將帶您: .實際動手嘗試最新版的Spark ML .以Scala與Python語言撰寫Spark程式 .在本機以及Amazon ECS雲端平台上,安裝並設置Spark開發環境 .取用公開的機器學習資料集,使用Spark進行資料的載入、處理、清理與轉換等動作 .處理巨量的文字資料,包括特徵萃取,並使用文字資料作為輸入餵給機器學習模型 .撰寫Spark函式,評估機器學習模型的表現能力