R語言學習筆記：從統計入門到AI應用(第1版)【試閱】

好書試閱

R語言學習筆記：從統計入門到AI應用(第1版)

95折特價522元

加入購物車

第5章網路爬蟲與文字探勘：從資料抓取到語意洞察

把「文字」變成「資料」的魔法術
校園情境開場：數字懂了，那文字呢？

又是一個午後，小政坐在辦公室裡，眼神空洞地望著電腦畫面，一動也不動。阿育老師路過，發現這熟悉的場景。

阿育老師：「小政啊，又在研究資料嗎？怎麼這次看起來更沮喪了？」

小政轉過頭，有點無奈地說：「老師，我學了好多統計分析的方法，也跑了好多R語法，但這些都適用在數字資料。現在我在整理教學平台上的留言，有學生的反饋、家長的回應，我很想知道他們在想什麼⋯⋯ 」

小政：「但要打開網頁，一則一則看、一個一個點、滑鼠點到手酸⋯⋯資料量又這麼多，真的好累人⋯⋯ 」

阿育老師聽了，語重心長地點點頭：「這就是當老師的必經之路啊！我也是這樣走過來的，我們要關心學生、理解家長，每一則留言背後都是一段聲音、一個故事。雖然辛苦，但這是我們的責任，是教育專業的基本功。」

阿育老師正要對小政進行教師專業講座的開講時，Doctor S悄然登場。

Doctor S：「如果你們不想再一則一則點留言，不妨試試看文字探勘吧！」

概念導讀：什麼是文字探勘？
文字探勘(Text Mining)是指從非結構化文字資料（如留言、文章、對話紀錄）中，找出規律、關鍵詞、主題等有用資訊的技術。和統計分析處理結構化資料（如Excel表格）不同，文字探勘的挑戰在於：資料沒有欄位與標準格式，以及含有大量口語化內容。常見應用包括：關鍵詞抽取、文字分類、主題建模、情感分析等。現在教育現場的溝通越來越依賴平台系統，留言、問卷開放式回饋、課程評鑑意見等，其實都是一座等待被開採的資料寶庫。

為什麼教育工作者需要文字探勘？
傳統方式：
人工閱讀留言、逐字統計、主觀感受評估、忽略潛在聲音
文字探勘方式：
自動整理常見主題、自動萃取高頻詞、客觀量化語意特徵、發覺隱藏情感與需求

本章將從文字的取得、處理到分析進行全面教學，分為三大部分：
*網路爬蟲：讓R自動幫你蒐集留言或文章，不用再點滑鼠。
*文字探勘：斷詞、去除停用字、計算詞頻、找出重點字詞。
*視覺化呈現：製作詞雲、共現網絡圖、主題分布圖，一眼看出資料重點。

Doctor S的溫馨提醒
Doctor S：「別忘了，生成式AI之所以懂人類語言，正是因為背後進行了大量的文字探勘與語料分析。我們現在用的這些技術，其實就是AI世界的基本語言。」

5.1　網路爬蟲：不用手動複製也能大量擷取資料
校園情境開場：蒐集大家的聲音不能只靠滑鼠

這天早上，阿育老師拿著筆電走進辦公室，一臉認真地對小政說：「小政，最近學校正在進行教學品質提升計畫，我想請你幫忙上網蒐集學生和家長對課程的留言與建議，尤其是那個討論區，上面好多心得和問題，很有參考價值。」

小政一聽立刻點頭：「這個我知道，我可以用網路爬蟲(Web Scraping)來處理，不用一則一則手動複製。不過要先看懂網頁的原始碼，像是用什麼CSS class，才能知道要擷取的內容在哪裡。」

阿育老師聽得一頭霧水，猛點頭後突然問：「你說『爬蟲』？網頁上有蟲？是說有病毒嗎⋯⋯還是你在玩生物入侵的遊戲？」

小政忍不住笑出來，正要解釋時，Doctor S早就準備好登場了。

Doctor S：「老師別擔心，小政說的爬蟲，是一種自動化程式，可以模擬使用者上網行為，把網頁上的文字抓下來。這在教育資料蒐集上非常有用。」

Doctor S：「你們可以用R語言的 rvest 套件來寫，而且如果不會找CSS標籤，可以安裝一個叫做『SelectorGadget』的瀏覽器擴充工具，幫助你一鍵查出元素標籤喔！」

概念導讀：什麼是網路爬蟲(Web Scraping)？
在資訊爆炸的時代，許多有價值的資料存在於網頁中，例如論壇留言、新聞文章、產品評論等。若只靠人工一筆一筆複製，將耗費大量時間與心力。網路爬蟲是一種自動化技術，能快速擷取網站中規則性的內容，常用於新聞摘要、價格比對、留言分析等。在R語言中，可以使用rvest套件，模擬使用者進入網頁，然後擷取所需的文字內容。所有網頁背後都有「原始碼」，這些碼中包含標籤（如

、

等）與 class 名稱（如 .title、.comment），可以視為「要抓哪一塊」的指令。

這一節將介紹如何用R語言對網頁資料進行自動化擷取，這不只是技術應用，更是一種節省時間、擴大觀察範圍的研究手段。搭配文字探勘技術，更可以進一步理解背後的語意與趨勢。本節使用 rvest 套件來示範如何擷取文字資訊，包含：取得單一網頁的指定區塊文字、設計迴圈批次擷取多頁資料，以及累積並儲存所有爬取內容。

回商品頁