熱門關鍵字:

BN說明

Python網路爬蟲:大數據擷取、清洗、儲存與分析-王者歸來

  • 365天內有 26↑個人買過此商品
  • 館長推薦
? 快來將您對閱讀的熱情和對書籍的想法分享給所有讀友,每完成一篇讀者書評並審核通過者,即可獲得讀者書評點數,點數還可換電子禮券唷!
分享:
版本:

商品訊息

  • 追蹤分類 ? 追蹤分類後,您會在第一時間收到分類新品通知。
  • 作者: 洪錦魁 追蹤作者 ? 追蹤作者後,您會在第一時間收到作者新書通知。
  • 出版社: 深智數位 追蹤出版社 ? 追蹤出版社後,您會在第一時間收到出版社新書通知。
  • 出版日:2019/10/23
  • ISBN:9789865501020
  • 適讀年齡:全齡適讀
  • 定價: 650
  • 特價: 79 514
  • 紅利可抵: 15 ? 除單一商品售價低於50元或特價折扣低於3折(含)以下者,其餘商品均可使用紅利點數。
  • 到店取貨: ? 『金石堂』門市取貨免運費。
    『全家、OK、萊爾富、掌櫃』滿350元,免運費;350元以下,運費20元。
    宅配: ? 滿1,000元,免運費
    490元-999元,運費50元
    490元以下,運費65元
  • 配送地區: 全球、 香港OK、 台澎金馬
  • 付款方式: ATM、 信用卡、 LINE Pay、 街口帳戶支付、 貨到付款、 PayPal、 FamiPort、 取貨付款
  • 預計 2019/12/7 出貨 參考庫存量:6 查詢門市庫存 ? 若您欲在金石堂門市購買商品,請選擇欲查看庫存之門市。網頁之「庫存狀態」僅供參考,實際貨況以門市為準。

強力推薦

內容簡介

這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,下列是本書有關網路爬蟲知識的主要內容。

# 認識搜尋引擎與網路爬蟲
# 認識約定成俗的協議robots.txt
# 從零開始解析HTML網頁
# 認識與使用Chrome開發人員環境解析網頁
# 認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
# 說明lxml模組
# Selenium模組
# XPath方法解說
# css定位網頁元素
# Cookie觀念
# 自動填寫表單
# 使用IP代理服務與實作
# 偵測IP
# 更進一步解說更新的模組Requests-HTML
# 認識適用大型爬蟲框架的Scrapy模組

在書籍內容,本書設計爬蟲程式探索下列相關網站,讀者可以由不同的網站主題,深入測試自己設計網路爬蟲的能力,以適應未來職場的需求。

# 金融資訊
# 股市數據
# 人力銀行
# 交友網站
# 維基網站
# 主流媒體網站
# 政府開放數據網站
# 社群服務網站
# PTT網站
# 電影網站
# 星座網站
# 小說網站
# 台灣高鐵
# 露天拍賣網站
# httpbin網站
# python.org網站
# github.com網站
# ipstack.com網站API實作
# Google API實作
# Facebook API實作

探索網站成功後,本書也說明下列如何下載或儲存不同資料格式的數據。

# CSV檔案格式
# JSON檔案格式
# XML、Pickle
# Excel
# SQLite資料庫

本書沿襲作者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計。

作者

洪錦魁

一位跨越電腦作業系統與科技時代的電腦專家,著作等身的作家。

■ DOS 時代他的代表作品是 IBM PC 組合語言、C、C++、Pascal、資料結構。
■ Windows 時代他的代表作品是 Windows Programming 使用 C、Visual Basic。
■ Internet 時代他的代表作品是網頁設計使用 HTML。
■ 大數據時代他的代表作品是 R 語言邁向 Big Data 之路。

除了作品被翻譯為簡體中文、馬來西亞文外,2000 年作品更被翻譯為Mastering HTML 英文版行銷美國。

近年來作品則是在北京清華大學和台灣深智同步發行:
1:Java 入門邁向高手之路王者歸來
2:Python 入門邁向高手之路王者歸來
3:HTML5 + CSS3 王者歸來
4:R 語言邁向Big Data 之路

他的著作最大的特色是,所有程式語法會依特性分類,同時以實用的程式範例做解說,讓整本書淺顯易懂,讀者可以由他的著作事半功倍輕鬆掌握相關知識。
 

目錄

第零章 認識網路爬蟲
0-1 認識HTML
0-2 網路地址URL
0-3 爬蟲的類型
0-4 搜尋引擎與爬蟲原理
0-5 網路爬蟲的搜尋方法
0-6 網路爬蟲是否合法
0-7 認識HTTP 與HTTPS
0-8 表頭(headers)

第一章 JSON 資料與繪製世界地圖
1-1 JSON 資料格式前言
1-2 認識json 資料格式
1-3 將Python 應用在json 字串形式資料
1-4 將Python 應用在json 檔案
1-5 簡單的json 檔案應用
1-6 世界人口數據的json 檔案
1-7 繪製世界地圖
1-8 XML

第二章 使用Python 處理CSV 文件
2-1 建立一個CSV 文件
2-2 用記事本開啟CSV 檔案
2-3 csv 模組
2-4 讀取CSV 檔案
2-5 寫入CSV 檔案
2-6 專題- 使用CSV 檔案繪製氣象圖表
2-7 pickle 模組
2-8 Python 與Microsoft Excel

第三章 網路爬蟲基礎實作
3-1 上網不再需要瀏覽器了
3-2 下載網頁資訊使用requests 模組
3-3 檢視網頁原始檔
3-4 分析網站使用Chrome 開發人員工具
3-5 下載網頁資訊使用urllib 模組
3-6 認識httpbin 網站
3-7 認識Cookie
3-8 設置代理IP

第四章 Pandas 模組
4-1 Series
4-2 DataFrame
4-3 基本Pandas 資料分析與處理
4-4 檔案的輸入與輸出
4-5 Pandas 繪圖
4-6 時間序列(Time Series)
4-7 專題 鳶尾花
4-8 專題 匯入網頁表格資料

第五章 Beautiful Soup 解析網頁
5-1 解析網頁使用BeautifulSoup 模組
5-2 其它HTML 文件解析
5-3 網路爬蟲實戰 圖片下載
5-4 網路爬蟲實戰 找出台灣彩券公司最新一期威力彩開獎結果
5-5 網路爬蟲實戰 列出Yahoo 焦點新聞標題和超連結
5-6 IP 偵測網站FileFab

第六章 網頁自動化
6-1 hashlib 模組
6-2 環保署空氣品質JSON 檔案實作
6-3 檢測網站內容是否更新
6-4 工作排程與自動執行
6-5 環保署空氣品質的CSV 檔案

第七章 Selenium 網路爬蟲的王者
7-1 順利使用Selenium 工具前的安裝工作
7-2 獲得webdriver 的物件型態
7-3 擷取網頁
7-4 尋找HTML 文件的元素
7-5 XPath 語法
7-6 用Python 控制點選超連結
7-7 用Python 填寫表單和送出
7-8 用Python 處理使用網頁的特殊按鍵
7-9 用Python 處理瀏覽器運作
7-10 自動進入Google 系統
7-11 自動化下載環保署空氣品質資料

第八章 PTT 爬蟲實戰
8-1 認識批踢踢實業坊
8-2 進入PTT 網址
8-3 解析PTT 進入須滿18 歲功能鈕
8-4 各篇文章的解析
8-5 解析文章標題與作者
8-6 推文數量
8-7 文章發表日期
8-8 將PTT 目前頁面內容以JSON 檔案儲存
8-9 前一頁面處理的說明
8-10 進入PPT 的Beauty 論壇網站
8-11 ipstack

第九章 Yahoo 奇摩電影網站
9-1 本週新片
9-2 中文片名和英文片名
9-3 上映日期
9-4 期待度
9-5 影片摘要
9-6 劇照海報
9-7 爬取兄弟節點
9-8 預告片
9-9 排行榜

第十章 台灣主流媒體網站
10-1 蘋果日報
10-2 聯合報
10-3 經濟日報
10-4 中國時報
10-5 工商時報

第十一章 Python 與SQLite 資料庫
11-1 SQLite 基本觀念
11-2 資料庫連線
11-3 SQLite 資料類型
11-4 建立SQLite 資料庫表單
11-5 增加SQLite 資料庫表單紀錄
11-6 查詢SQLite 資料庫表單
11-7 更新SQLite 資料庫表單紀錄
11-8 刪除SQLite 資料庫表單紀錄
11-9 DB Browser for SQLite
11-10 將台北人口數儲存SQLite 資料庫

第十二章 股市數據爬取與分析
12-1 證券櫃檯買賣中心
12-2 台灣證券交易所
12-3 Google 全球股市資訊
12-4 Yahoo 股市資訊
12-5 台灣股市資料讀取與圖表製作

第十三章 金融資訊的應用
13-1 台灣銀行利率查詢
13-2 取得HTML 文件
13-3 分析HTML 文件
13-4 將利率表儲存成CSV 檔案
13-5 取得最優惠利率
13-6 基金資料

第十四章 Dcard 社群服務網站
14-1 進入網站
14-2 分析網站
14-3 抓取預設的熱門貼文
14-4 爬取更多Dcard 熱門文章

第十五章 星座屋網站
15-1 進入星座屋網站
15-2 分析網站與爬取星座運勢文字
15-3 星座圖片的下載

第十六章 小說網站
16-1 進入小說網站
16-2 解析網頁
16-3 處理編碼問題
16-4 爬取書籍章節標題
16-5 爬取章節內容的連結
16-6 從章節超連結輸出小說內容
16-7 將小說內文存入檔案

第十七章 台灣高鐵網站
17-1 查詢台灣高鐵的站名
17-2 時刻表查詢

第十八章 維基百科
18-1 維基百科的中文網址
18-2 爬取台積電主文資料
18-3 台積電的簡史
18-4 URL 編碼

第十九章 Python 與Facebook
19-1 Facebook 圖形API
19-2 facebook-sdk 存取資料的應用

第二十章 Google API
20-1 申請Google API 金鑰
20-2 基本操作Google Map
20-3 爬蟲擷取Google 地理資訊
20-4 地理資訊的基本應用
20-5 找尋指定區域內的景點

第二十一章 Yahoo 拍賣網站
21-1 Yahoo 拍賣網站
21-2 分析網頁與單個商品搜尋
21-3 系列商品搜尋

第二十二章 Hotels.com 旅宿網站
22-1 Hotels.com 旅宿網站
22-2 解析輸入表單
22-3 獲得查詢資料
22-4 列出一系列所找到的旅館

第二十三章 交友網站
23

序/導讀


 
這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約350個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識。
 
在Internet時代,所有數據皆在網路呈現,從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊,更進一步將此數據資訊做擷取、清洗、儲存與分析的有效應用,已經是資訊科學非常重要的領域,目前國內作者這方面著作不多,同時內容單薄,這也是筆者撰寫本書的動力。本書保持筆者一貫特色,實例豐富,容易學習,有系統的一步一步引導讀者深入不同網站主題,進行探索,下列是本書有關網路爬蟲知識的主要內容。
 
□認識搜尋引擎與網路爬蟲
□認識約定成俗的協議robots.txt
□從零開始解析HTML網頁
□認識與使用Chrome開發人員環境解析網頁
□認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
□說明lxml模組
□Selenium模組
□XPath方法解說
□css定位網頁元素
□Cookie觀念
□自動填寫表單
□使用IP代理服務與實作
□偵測IP
□更進一步解說更新的模組Requests-HTML
□認識適用大型爬蟲框架的Scrapy模組
 
在書籍內容,筆者設計爬蟲程式探索下列相關網站。
 
□金融資訊
□股市數據
□人力銀行
□交友網站
□維基網站
□主流媒體網站
□政府開放數據網站
□社群服務網站
□PTT網站
□電影網站
□星座網站
□小說網站
□台灣高鐵
□露天拍賣網站
□httpbin網站
□python.org網站
□github.com網站
□ipstack.com網站API實作
□Google API實作
□Facebook API實作
 
探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據。
 
□CSV檔案格式
□JSON檔案格式
□XML、Pickle
□Excel
□SQLite
 
在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題。
□URL編碼與中文網址觀念
□將中文儲存在JSON格式檔案
□亂碼處理
□簡體中文在繁體中文Windows環境資料下載與儲存
□解析Ajax動態加載網頁,獲得更多頁次資料
□使用Chromium瀏覽器協助Ajax動態加載
 
註:讀者需了解網路爬蟲是針對特定網站擷取特定資料,本書所有程式雖經測試,在撰寫當下是正確,筆者同時列出執行結果。但是,如果網站結構改變,可能造成程式失效。
 
寫過許多的電腦書著作,本書沿襲筆者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計,編著本書雖力求完美,但是學經歷不足,謬誤難免,尚祈讀者不吝指正。

 
洪錦魁2019-10-15
jiinkwei@me.com

詳細資料

詳細資料

    • 編/譯者
    • 語言
    • 中文繁體
    • 規格
    • 紙本平裝
    • ISBN
    • 9789865501020
    • 分級
    • 普通級
    • 開數
    • 頁數
    • 560
    • 出版地
    • 台灣
    • 適讀年齡
    • 全齡適讀

訂購須知

下載『金石堂APP』並開啟推播設定,隨時掌握出貨動態:

Google play
App Store

    商品運送說明:

  • 本公司所提供的產品配送區域範圍目前僅限台灣本島。注意!收件地址請勿為郵政信箱。
  • 商品將由廠商透過貨運或是郵局寄送。消費者訂購之商品若無法送達,經電話或 E-mail無法聯繫逾三天者,本公司將取消該筆訂單,並且全額退款。
  • 當廠商出貨後,您會收到E-mail及APP出貨通知,您也可透過【訂單查詢】確認出貨情況。
  • 建議您可下載『金石堂APP』並開啟推播設定,即可收到出貨通知。
  • 產品顏色可能會因網頁呈現與拍攝關係產生色差,圖片僅供參考,商品依實際供貨樣式為準。
  • 如果是大型商品(如:傢俱、床墊、家電、運動器材等)及需安裝商品,請依商品頁面說明為主。訂單完成收款確認後,出貨廠商將會和您聯繫確認相關配送等細節。
  • 偏遠地區、樓層費及其它加價費用,皆由廠商於約定配送時一併告知,廠商將保留出貨與否的權利。

提醒您!!
金石堂及銀行均不會請您操作ATM! 如接獲電話要求您前往ATM提款機,請不要聽從指示,以免受騙上當!

退換貨須知

  • 依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,以下商品購買後,除商品本身有瑕疵外,將不提供7天的猶豫期:
    1. 易於腐敗、保存期限較短或解約時即將逾期。(如:生鮮食品)
    2. 依消費者要求所為之客製化給付。(客製化商品)
    3. 報紙、期刊或雜誌。(含MOOK、外文雜誌)
    4. 經消費者拆封之影音商品或電腦軟體。
    5. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等)
    6. 已拆封之個人衛生用品。(如:內衣褲、刮鬍刀、除毛刀…等)
  • 若非上列種類商品,均享有到貨7天的猶豫期(含例假日)。
  • 辦理退換貨時,商品(組合商品恕無法接受單獨退貨)必須是您收到商品時的原始狀態(包含商品本體、配件、贈品、保證書、所有附隨資料文件及原廠內外包裝…等),請勿直接使用原廠包裝寄送,或於原廠包裝上黏貼紙張或書寫文字。
  • 退回商品若無法回復原狀,將請您負擔回復原狀所需費用,嚴重時將影響您的退貨權益。
預計 2019/12/7 出貨 參考庫存量:6 查詢門市庫存?

34