0119~0120_燃燒的西太平洋(5)

資料科學學習手冊|Python資料處理、探索、視覺化與建模實作

Learning Data Science
  • 85 833
    980

活動訊息

2025年度總結,讀者大數據最愛書單公布👉 快來看看

線上國際書展5折起,指定書單送書展門票,全館滿$1,000送100點金幣

2026年節展,年節禮盒5折起,送禮一次搞定!

內容簡介

「這本書正是我當年提出『資料科學家』這個職稱時,所希望能擁有的一本書。如果您希望投身資料科學/工程、人工智慧,或機器學習領域,就該從這裡開始。」
── DJ Patil 博士,美國首任首席資料科學家

身為一位有志成為資料科學家的讀者,能夠理解各類組織為何仰賴資料來做出關鍵決策──無論是公司在設計網站、還是市政府在改善公共服務,或者是科學家在致力於阻止疾病擴散。而您也希望具備將雜亂資料整理為可行洞見的能力。我們將這整個過程稱為「資料科學生命週期」:也就是從資料的收集、整理、分析,到導出結論的完整流程。

本書是第一本涵蓋程式設計與統計兩大基礎技能、並貫穿整個資料科學生命週期的書籍。本書的對象包括希望成為資料科學家的人、與資料科學家共事的專業人士,以及希望跨越「技術/非技術」界線的資料分析師。只要具備基本的 Python 程式設計知識,便可學習如何透過業界標準工具(如 pandas)來處理資料:

.將感興趣的問題精煉為可透過資料探究的研究問題
.執行資料蒐集,其中可能涉及文字處理、網頁爬蟲等技術
.透過資料清理、探索與視覺化,萃取出有價值的洞見
.學會使用建模來描述資料特性
.推廣研究結果,進行超出資料本身的推論

作者

Sam Lau 是加州大學聖地牙哥分校 Halıcıoğlu 資料科學研究所的助理教學教授,擁有十年的教學經驗,並曾在加州大學柏克萊分校與聖地牙哥分校設計並教授旗艦級資料科學課程。

Joey Gonzalez 是加州大學柏克萊分校電機工程與電腦科學系的副教授,亦為柏克萊人工智慧研究團隊與 RISE Lab 的創始成員之一。他同時是 Turi Inc. 與 Aqueduct 的共同創辦人,致力於開發資料科學工具。

Deborah Nolan 為加州大學柏克萊分校統計學名譽教授,並擔任計算、資料科學與社會學院的學生事務副院長。

目錄

前言

【第一部分 資料科學生命週期】

第一章 資料科學生命週期
生命週期的各個階段
生命週期的範例
總結

第二章 問題與資料範疇
大數據與新機會
研究母體、抽樣架構與樣本
儀器與操作程序
自然現象的量測
準確度
總結

第三章 模擬與資料設計
抽籤模型
範例:模擬選舉民調的偏誤與變異性
範例:模擬疫苗的隨機試驗
範例:空氣品質測量
總結

第四章 以摘要統計量建構模型
常數模型
最小化損失
總結

第五章 個案研究:為什麼我的公車總是拖班?
問題與範疇
資料整理
探索公車時間
建立等車時間模型
總結

【第二部分】 矩形資料

第六章 使用pandas操作資料框架
子集合選取(Subsetting)
匯總
合併
轉換
資料框架與其他資料表達法有何不同?
總結

第七章 使用SQL操作關係
子集合選取(Subsetting)
匯總
合併
轉換與共通表格運算式
總結

【第三部分】 理解資料

第八章 整理檔案
資料來源範例
檔案格式
檔案編碼
檔案大小
殼層與命令行工具
表格形狀與粒度
總結

第九章 整理資料框架
範例:整理冒納羅亞觀測站的CO2測量資料
品質檢查
缺漏的值與紀錄
轉換與時間戳記
修改結構
範例:處理餐廳安全違規資料
總結

第十章 探索性資料分析
特徵類型
觀察分布的重點
在關係中應注意的事項
多變數情境下的比較
探索準則
範例:房屋售價
總結

第十一章 資料視覺化
選擇合適的刻度以揭示結構
資料的平滑化與匯總
促進有意義的比較
融入資料設計
加入情境資訊
使用plotly繪製圖表
其他視覺化工具
總結

第十二章 案例研究:空氣品質測量有多準確?
問題、設計與範疇
尋找共址感測器
整理與清洗 AQS感測器資料
整理PurpleAir感測器資料
探索PurpleAir與AQS測量值
建立校準PurpleAir測量值之模型
總結

【第四部分】 其他資料來源

第十三章 處理文字資料
文字與任務的範例
字串處理
正規表達式
文字分析
總結

第十四章 資料交換
NetCDF資料
JSON資料
HTTP
REST
XML、HTML與XPath
總結

【第五部分】 線性建模

第十五章 線性模型
簡單線性模型
範例:空氣品質的簡單線性模型
擬合簡單線性模型
多元線性模型
擬合多元線性模型
範例:哪裡是機會之地?
數值型測量值之特徵工程
類別型測量值的特徵工程
總結

第十六章 模型選擇
過度擬合
訓練-測試切分
交叉驗證
正則化
模型偏誤與變異性
總結

第十七章 推論與預測的理論基礎
分布:母體、經驗、抽樣
假設檢定的基本概念
以自助法推論
信賴區間的基本概念
預測區間的基本概念
用於推論與預測的機率理論
總結

第十八章 案例研究:如何幫驢子秤體重?
驢子研究的問題與範圍
資料整理與轉換
探索
建立驢子體重的模型
總結

【第六部分】 分類

第十九章 分類
範例:風災倒木
建模與分類
對比例(與機率)建模
邏輯斯模型的損失函數
從機率到分類
總結

第二十章 數值最佳化
梯度下降法基礎
最小化Huber損失
凸形且可微分的損失函數
梯度下降法的變體
總結

第二十一章 個案研究:偵測假新聞
問題與範疇
取得與整理資料
探索資料
建模
總結

延伸資料
資料來源
索引

配送方式

  • 台灣
    • 國內宅配:本島、離島
    • 到店取貨:
      金石堂門市 不限金額免運費
      7-11便利商店 ok便利商店 萊爾富便利商店 全家便利商店
  • 海外
    • 國際快遞:全球
    • 港澳店取:
      ok便利商店 順豐 7-11便利商店

詳細資料

詳細資料

    • 語言
    • 中文繁體
    • 裝訂
    • 紙本平裝
    • ISBN
    • 9786264252591
    • 分級
    • 普通級
    • 頁數
    • 616
    • 商品規格
    • 18開17*23cm
    • 出版地
    • 台灣
    • 適讀年齡
    • 全齡適讀
    • 注音
    • 級別

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』,隨時掌握出貨動態:

加入金石堂LINE官方帳號『完成綁定』,隨時掌握出貨動態
金石堂LINE官方帳號綁定教學

提醒您!!
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機,請不要聽從指示,以免受騙上當!

退換貨須知:

**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**

  • 依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
    1. 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
    2. 依消費者要求所為之客製化給付。(客製化商品)
    3. 報紙、期刊或雜誌。(含MOOK、外文雜誌)
    4. 經消費者拆封之影音商品或電腦軟體。
    5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
    6. 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
  • 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
  • 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
  • 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing