【電子書】Python網路爬蟲:大數據擷取、清洗、儲存與分析-王者歸來
內容簡介
	Python網路爬蟲
	大數據擷取、清洗、儲存與分析
	王者歸來(第二版)
	★★★本書第一版是【博客來2020年】【電腦書年度暢銷榜第3名】★★★
	★★★★★【26個主題】+【400個實例】★★★★★
	★★★★★從【零】開始的【網路爬蟲入門書籍】★★★★★
	★★★★★大數據【擷取】、【清洗】、【儲存與分析】★★★★★
	★★★★★【網路趨勢】+【了解輿情】★★★★★
	
	第二版和第一版做比較,增加下列內容:
	★:全書增加約50個程式實例
	★:網路趨勢,了解輿情
	★:網路關鍵字查詢
	★:YouBike資訊
	★:國際金融資料查詢
	★:博客來圖書排行榜
	★:中央氣象局
	★:租屋網站
	★:生活應用
	
	下列是本書有關網路爬蟲知識的主要內容:
	★:認識搜尋引擎與網路爬蟲
	★:認識約定成俗的協議robots.txt
	★:從零開始解析HTML網頁
	★:認識與使用Chrome開發人員環境解析網頁
	★:認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
	★:說明lxml模組
	★:XPath方法解說
	★:css定位網頁元素
	★:Cookie觀念
	★:自動填寫表單
	★:使用IP代理服務與實作
	★:偵測IP
	★:更進一步解說更新的模組Requests-HTML
	★:認識適用大型爬蟲框架的Scrapy模組
	
	在書籍內容,筆者設計爬蟲程式探索下列相關網站:
	☆:國際與國內股市資訊
	☆:基金資訊
	☆:股市數據
	☆:人力銀行
	☆:維基網站
	☆:主流媒體網站
	☆:政府開放數據網站
	☆:YouBike服務網站
	☆:PTT網站
	☆:電影網站
	☆:星座網站
	☆:小說網站
	☆:博客來網站
	☆:中央氣象局
	☆:露天拍賣網站
	☆:httpbin網站
	☆:python.org網站
	☆:github.com網站
	☆:ipstack.com網站API實作
	☆:Google API實作
	☆:Facebook API實作
	
	探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據:
	★:CSV檔案格式
	★:JSON檔案格式
	★:XML、Pickle
	★:Excel
	★:SQLite
	
	在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題:
	☆:URL編碼與中文網址觀念
	☆:將中文儲存在JSON格式檔案
	☆:亂碼處理
	☆:簡體中文在繁體中文Windows環境資料下載與儲存
	☆:解析Ajax動態加載網頁,獲得更多頁次資料
	☆:使用Chromium瀏覽器協助Ajax動態加載
目錄
	第零章 認識網路爬蟲
	0-1 認識HTML
	0-2 網路地址URL
	0-3 爬蟲的類型
	0-4 搜尋引擎與爬蟲原理
	0-5 網路爬蟲的搜尋方法
	0-6 網路爬蟲是否合法
	0-7 認識HTTP 與HTTPS
	0-8 表頭(headers)
	
	第一章 JSON 資料與繪製世界地圖
	1-1 JSON 資料格式前言
	1-2 認識json 資料格式
	1-3 將Python 應用在json 字串形式資料
	1-4 將Python 應用在json 檔案
	1-5 簡單的json 檔案應用
	1-6 世界人口數據的json 檔案
	1-7 繪製世界地圖
	1-8 XML
	
	第二章 使用Python 處理CSV 文件
	2-1 建立一個CSV 文件
	2-2 用記事本開啟CSV 檔案
	2-3 csv 模組
	2-4 讀取CSV 檔案
	2-5 寫入CSV 檔案
	2-6 寫入與讀取含中文的 CSV 文件
	2-7 專題—使用 CSV 檔案繪製氣象圖表
	2-8 pickle 模組
	2-9 Python 與Microsoft Excel
	
	第三章 網路爬蟲基礎實作
	3-1 上網不再需要瀏覽器了
	3-2 下載網頁資訊使用 requests 模組
	3-3 檢視網頁原始檔
	3-4 分析網站使用Chrome 開發人員工具
	3-5 下載網頁資訊使用urllib 模組
	3-6 認識httpbin 網站
	3-7 認識Cookie
	3-8 設置代理IP
	
	第四章 Pandas 模組
	4-1 Series
	4-2 DataFrame
	4-3 基本Pandas 資料分析與處理
	4-4 檔案的輸入與輸出
	4-5 Pandas 繪圖
	4-6 時間序列(Time Series)
	4-7 專題—鳶尾花
	4-8 專題—匯入網頁表格資料
	
	第五章 BeautifulSoup 解析網頁
	5-1 解析網頁使用BeautifulSoup 模組
	5-2 其它HTML 文件解析
	5-3 網路爬蟲實戰—圖片下載
	5-4 網路爬蟲實戰—找出台灣彩券公司最新一期威力彩開獎結果
	5-5 網路爬蟲實戰—列出Yahoo 焦點新聞標題和超連結
	5-6  IP 偵測網站 FileFab
	
	第六章 網頁自動化
	6-1 hashlib 模組
	6-2 環保署空氣品質JSON 檔案實作
	6-3 檢測網站內容是否更新
	6-4 工作排程與自動執行
	6-5 環保署空氣品質的CSV 檔案
	
	第七章 Selenium 網路爬蟲的王者
	7-1 順利使用Selenium 工具前的安裝工作
	7-2 獲得webdriver 的物件型態
	7-3 擷取網頁
	7-4 尋找HTML 文件的元素
	7-5 XPath 語法
	7-6 用Python 控制點選超連結
	7-7 用Python 填寫表單和送出
	7-8 用Python 處理使用網頁的特殊按鍵
	7-9 用Python 處理瀏覽器運作
	7-10 自動化下載環保署空氣品質資料
	
	第八章 PTT 爬蟲實戰
	8-1 認識批踢踢實業坊
	8-2 進入PTT 網址
	8-3 解析PTT 進入須滿18 歲功能鈕
	8-4 各篇文章的解析
	8-5 解析文章標題與作者
	8-6 推文數量
	8-7 文章發表日期
	8-8 將PTT 目前頁面內容以JSON 檔案儲存
	8-9 前一頁面處理的說明
	8-10 進入PPT 的beauty 論壇網站
	8-11 ipstack
	
	第九章 Yahoo 奇摩電影網站
	9-1 本週新片
	9-2 中文片名和英文片名
	9-3 上映日期
	9-4 期待度
	9-5 影片摘要
	9-6 劇照海報
	9-7 爬取兄弟節點
	9-8 預告片
	9-9 排行榜
	
	第十章 台灣主流媒體網站
	10-1 蘋果日報
	10-2 聯合報
	10-3 經濟日報
	10-4 中國時報
	10-5 工商時報
	
	第十一章 Python 與SQLite 資料庫
	11-1 SQLite 基本觀念
	11-2 資料庫連線
	11-3 SQLite 資料類型
	11-4 建立SQLite 資料庫表單
	11-5 增加SQLite 資料庫表單紀錄
	11-6 查詢SQLite 資料庫表單
	11-7 更新SQLite 資料庫表單紀錄
	11-8 刪除SQLite 資料庫表單紀錄
	11-9 DB Browser for SQLite
	11-10 將台北人口數儲存SQLite 資料庫
	
	第十二章 股市數據爬取與分析
	12-1 證券櫃檯買賣中心
	12-2 台灣證券交易所
	12-3 Yahoo 股市資訊
	12-4 台灣股市資料讀取與圖表製作
	12-5 國際股市數據爬取
	
	第十三章 金融資訊的應用
	13-1 台灣銀行利率查詢
	13-2 取得HTML 文件
	13-3 分析HTML 文件
	13-4 將利率表儲存成CSV 檔案
	13-5 取得最優惠利率
	13-6 基金資料
	
	第十四章 YouBike 數據
	14-1 台北市的YouBike 數據
	14-2 認識YouBike 的JSON 數據
	14-3 下載與儲存YouBike 資料
	14-4 獲得天母運動公園的YouBike 數據
	14-5 計算YouBike 車輛使用效率
	
	第十五章 星座屋網站
	15-1 進入星座屋網站
	15-2 分析網站與爬取星座運勢文字
	15-3 星座圖片的下載
	
	第十六章 小說網站
	16-1 進入小說網站
	16-2 解析網站
	16-3 處理編碼問題
	16-4 爬取書籍章節標題
	16-5 爬取章節內容的連結
	16-6 從章節超連結輸出小說內容
	16-7 將小說內文存入檔案
	
	第十七章 台灣高鐵與中央氣象局數據
	17-1 台灣高鐵
	17-2 中央氣象局
	
	第十八章 維基百科
	18-1 維基百科的中文網址
	18-2 爬取台積電主文資料
	18-3 台積電的簡史
	18-4 URL 編碼
	
	第十九章 Python 與Facebook
	19-1 Facebook 圖形API
	19-2 facebook-sdk 存取資料的應用
	
	第二十章 Google API
	20-1 申請Google API 金鑰
	20-2 基本操作Google Map
	20-3 爬蟲擷取Google 地理資訊
	20-4 地理資訊的基本應用
	20-5 找尋指定區域內的景點
	
	第二十一章 Yahoo 拍賣網站
	21-1 Yahoo 拍賣網站
	21-2 分析網頁與單個商品搜尋
	21-3 系列商品搜尋
	
	第二十二章 日常生活的應用
	22-1 租房資訊
	22-2 台
序/導讀
	序
	
	這是一本使用Python從零開始指導讀者的網路爬蟲入門書籍,全書以約404個程式實例,完整解說大數據擷取、清洗、儲存與分析相關知識,若是和第一版做比較,這本書增加下列內容:
	
	1:全書增加約50個程式實例
	2:網路趨勢與網路關鍵字查詢
	3:國際金融資料查詢
	4:YouBike
	5:博客來圖書排行榜
	6:租房網站
	7:中央氣象局
	8:生活應用
	
	在Internet時代,所有數據皆在網路呈現,從網路獲得資訊已經成為我們日常生活的一部份。然而如何從網路上獲得隱性的數據資訊,更進一步做將此數據資訊做擷取、清洗、儲存與分析的有效應用,已經是資訊科學非常重要的領域,目前國內作者這方面著作不多,同時內容單薄,這也是筆者撰寫本書的動力。本書保持筆者一貫特色,實例豐富,容易學習,有系統的一步一步引導讀者深入不同網站主題,進行探索,下列是本書有關網路爬蟲知識的主要內容。
	
	■    認識搜尋引擎與網路爬蟲
	■    認識約定成俗的協議robots.txt
	■    從零開始解析HTML網頁
	■    認識與使用Chrome開發人員環境解析網頁
	■    認識Python內建urllib、urllib2模組,同時介紹好用的requests模組
	■    說明lxml模組
	■  Selenium模組
	■  XPath方法解說
	■ css定位網頁元素
	■  Cookie觀念
	■ 自動填寫表單
	■ 使用IP代理服務與實作
	■ 偵測IP
	■ 更進一步解說更新的模組Requests-HTML
	■ 認識適用大型爬蟲框架的Scrapy模組
	
	在書籍內容,筆者設計爬蟲程式探索下列相關網站。
	
	■    國際與國內股市資訊
	■    基金資訊
	■    股市數據
	■    人力銀行
	■    維基網站
	■    主流媒體網站
	■    政府開放數據網站
	■  YouBike服務網站
	■  PTT網站
	■ 電影網站
	■ 星座網站
	■ 小說網站
	■ 博客來網站
	■ 中央氣象局
	■ 露天拍賣網站
	■ httpbin網站
	■ python.org網站
	■ github.com網站
	■ ipstack.com網站API實作
	■ Google API實作
	■ Facebook API實作
	
	探索網站成功後,筆者也說明下列如何下載或儲存不同資料格式的數據。
	■ CSV檔案格式
	■ JSON檔案格式
	■ XML、Pickle
	■ Excel
	■ SQLite
	
	在設計爬蟲階段我們可能會碰上一些技術問題,筆者也以實例解決下列相關問題。
	
	■ URL編碼與中文網址觀念
	■ 將中文儲存在JSON格式檔案
	■ 亂碼處理
	■ 簡體中文在繁體中文Windows環境資料下載與儲存
	■ 解析Ajax動態加載網頁,獲得更多頁次資料
	■ 使用Chromium瀏覽器協助Ajax動態加載
	
	註:讀者需了解網路爬蟲是針對特定網站擷取特定資料,本書所有程式雖經測試,在撰寫當下是正確,筆者同時列出執行結果。但是,如果網站結構改變,可能造成程式失效。
	
	寫過許多的電腦書著作,本書沿襲筆者著作的特色,程式實例豐富,相信讀者只要遵循本書內容必定可以在最短時間精通Python網路爬蟲設計,編著本書雖力求完美,但是學經歷不足,謬誤難免,尚祈讀者不吝指正。
	
	教學資源說明
	
	教學資源有教學投影片,內容超過1500頁。
	
	如果您是學校老師同時使用本書教學,歡迎與本公司聯繫,本公司將提供教學投影片。請老師聯繫時提供任教學校、科系、Email、和手機號碼,以方便深智數位股份有限公司業務單位協助您。
	    
	臉書粉絲團
	    
	歡迎加入:王者歸來電腦專業圖書系列    
	    
	歡迎加入:iCoding程式語言讀書會(Python, Java, C, C++, C#, JavaScript, 大數據, 人工智慧等不限),讀者可以不定期獲得本書籍和作者相關訊息。
	    
	歡迎加入:穩健精實AI技術手作坊    
	   
	讀者資源說明
	    
	請至本公司網頁deepmind.com.tw下載本書程式實例。
	
	洪錦魁2021-10-15
	jiinkwei@me.com
詳細資料
詳細資料
- 
                                        
- 語言
 - 中文繁體
 - 裝訂
 
 - 
                                        
- ISBN
 - 9789860776478
 - 分級
 - 普通級
 
 - 
                                        
- 頁數
 - 552
 - 商品規格
 - 23*17
 
 - 
                                        
- 出版地
 - 台灣
 - 適讀年齡
 - 全齡適讀
 
 - 
                                        
- 注音
 - 級別
 
 
訂購/退換貨須知
購買須知:
使用金石堂電子書服務即為同意金石堂電子書服務條款。
電子書分為「金石堂(線上閱讀+APP)」及「Readmoo(兌換碼)」兩種:
- 請至會員中心→電子書服務「我的e書櫃」領取複製『兌換碼』至電子書服務商Readmoo進行兌換。
 
退換貨須知:
- 因版權保護,您在金石堂所購買的電子書僅能以金石堂專屬的閱讀軟體開啟閱讀,無法以其他閱讀器或直接下載檔案。
 - 依據「消費者保護法」第19條及行政院消費者保護處公告之「通訊交易解除權合理例外情事適用準則」,非以有形媒介提供之數位內容或一經提供即為完成之線上服務,經消費者事先同意始提供。(如:電子書、電子雜誌、下載版軟體、虛擬商品…等),不受「網購服務需提供七日鑑賞期」的限制。為維護您的權益,建議您先使用「試閱」功能後再付款購買。
 
    
        
                  
                
		


商品評價