0916~0919_開學季語言展

網站擷取|使用Python 第三版

  • 85 612
    720
  • 分類:
    中文書電腦資訊APP開發/程式設計Python
    追蹤
    ? 追蹤分類後,您會在第一時間收到分類新品通知。
  • 作者: Ryan Mitchell 追蹤 ? 追蹤作者後,您會在第一時間收到作者新書通知。
  • 譯者:賴屹民
  • 出版社: 歐萊禮 追蹤 ? 追蹤出版社後,您會在第一時間收到出版社新書通知。
  • 出版日:2025/08/27

活動訊息

想找書的時候,特別想偷看網友的書櫃... 原來大家都在看這本 ↓↓↓

用閱讀開啟視野,讓書成為照亮你人生的光
【金石堂選書】本月推薦您這些好書👉 快來看看

內容簡介

內容簡介:從現代網頁爬取資料

爬取×解析×轉換──讓資料收集快、準、全,告別繁瑣工作!

從HTML到API、從圖片到文字,使用Python做網頁爬取,能廣泛應用於市場預測、機器翻譯甚至是醫學診斷,實用性極高。因此,無論在哪一個領域,網路爬蟲都可以更有效地應用於商務、分析、提升生產效能,開創新機會。

「本書是內容豐富的傑作,可幫助讀者有意識地、有效地抓取網頁資料,值得推薦給想從網站爬取資料、打算建立網站和分享資料的每一個人。」
—Michael Hopkins
P.Geo., PMP

如果說程式設計像魔法一樣,那麼「網站擷取」無疑就是一種巫術,只要寫一個簡單的自動程式,就可以用它來查詢網頁伺服器、請求資料、解析資料,並提取所需資訊。本書第三版經過徹底翻新,不僅介紹網路爬取,也全面性地教你如何從現代網頁抓取幾乎每一種類型的資料。

本書的第一部分專門討論網路爬取機制,包括使用 Python 從網頁伺服器請求資訊、初步處理伺服器的回應,以及自動和網站進行互動。第二部分則探討更具體的工具和應用,以應對可能遇到的各種網頁爬取情境。

本書教你如何:
•解析複雜的HTML網頁
•使用Scrapy框架來開發爬蟲
•儲存你抓到的資料
•從文件中讀取和提取資料
•清理格式不嚴僅的資料,以及將之正規化
•讀寫自然語言
•爬取表單與登入網站
•爬取JavaScript和 API
•使用和編寫「圖片轉文字」軟體
•避免爬網陷阱和反機器人封鎖
•使用爬蟲來測試自己的網站

作者

Ryan Mitchell 是 GLG 的高級軟體工程師,也是網路抓取、網路安全,和資料科學專家。她曾經主持多場研討會,並在許多活動中發表演說,包括 Data Day 和 DEF CON。此外,她也教導網路程式設計和資料科學,並在多家機構中提供相關課程的諮詢服務。Ryan 也是 Instant Web Scraping with Java(Packt Publishing)的作者。

目錄

第一部分 建構爬蟲
第 1 章 網際網路的運作方式
第 2 章 網頁爬蟲的法律問題與道德原則
第 3 章 網頁爬蟲的應用
第 4 章 寫出你的第一個網路爬蟲
第 5 章 進階 HTML 解析
第 6 章 編寫網路爬蟲
第 7 章 網頁爬取模型
第 8 章 Scrapy
第 9 章 儲存資料

第二部分 進階抓取
第 10 章 讀取文件
第 11 章 處理髒資料
第 12 章 讀寫自然語言
第 13 章 藉由表單與登入來爬網
第 14 章 抓取 JavaScript
第 15 章 透過 API 來爬取資料
第 16 章 圖片處理與文字辨識
第 17 章 避免抓取陷阱
第 18 章 使用爬蟲來測試你的網站
第 19 章 平行爬網
第 20 章 網路爬蟲代理

序/導讀

電腦程式設計對尚未掌握技巧的人來說如同一種魔法。如果說程式設計就像魔法,那麼網路抓取就像巫術了,所謂的巫術,就是輕鬆寫意地施展魔法來實現令人印象深刻且實用的壯舉。

在我擔任軟體工程師的時期,很少程式設計實務可以像網路爬取一樣,讓程式設計師和外行人都備感期待。寫一個簡單的自主程式來收集資料,並將那些資料顯示在終端機上或儲存在資料庫裡並非難事,但無論你完成幾次,那種令人振奮的體驗和無限可能的感受都不會消失。

遺憾的是,當我和其他程式設計師討論網路爬取時,他們依然對這一門技術有一些誤解與困惑。有些人不確定這樣做是否合法(它是合法的),或不知道如何處理大量使用 JavaScript 的網頁,或需要登入才能爬取的情況。很多人不明白如何啟動大型的網路爬蟲專案,甚至不知道該去哪裡尋找資料。本書的目標是解答這些常見的疑問與誤解,並提供大多數網路爬取任務的完整指南。

網路爬取是一個多樣且變化迅速的領域,本書試著提供高階的概念和具體的範例,希望涵蓋你可能會遇到的各種資料收集專案。在整本書中,我提供許多程式來示範這些概念,並讓你實際操作它們;所有程式範例都可以在 GitHub 上閱讀和下載。這些範例程式可以自由使用和修改,無論你是否註明來源(當然,若能註明來源,我將感激不盡)。

配送方式

  • 台灣
    • 國內宅配:本島、離島
    • 到店取貨:
      金石堂門市 不限金額免運費
      7-11便利商店 ok便利商店 萊爾富便利商店 全家便利商店
  • 海外
    • 國際快遞:全球
    • 港澳店取:
      ok便利商店 順豐 7-11便利商店

詳細資料

詳細資料

    • 語言
    • 中文繁體
    • 裝訂
    • 紙本平裝
    • ISBN
    • 9786264250948
    • 分級
    • 普通級
    • 頁數
    • 356
    • 商品規格
    • 18開17*23cm
    • 出版地
    • 台灣
    • 適讀年齡
    • 全齡適讀
    • 注音
    • 級別

商品評價

訂購/退換貨須知

加入金石堂 LINE 官方帳號『完成綁定』,隨時掌握出貨動態:

加入金石堂LINE官方帳號『完成綁定』,隨時掌握出貨動態
金石堂LINE官方帳號綁定教學

提醒您!!
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機,請不要聽從指示,以免受騙上當!

退換貨須知:

**提醒您,鑑賞期不等於試用期,退回商品須為全新狀態**

  • 依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
    1. 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
    2. 依消費者要求所為之客製化給付。(客製化商品)
    3. 報紙、期刊或雜誌。(含MOOK、外文雜誌)
    4. 經消費者拆封之影音商品或電腦軟體。
    5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
    6. 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
  • 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
  • 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
  • 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
※ 網友掛保證,絕不踩雷書單如下 ↓↓↓
預計 2025/09/20 出貨 參考庫存量:4 
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing