第5章 網路爬蟲與文字探勘:從資料抓取到語意洞察
把「文字」變成「資料」的魔法術
校園情境開場:數字懂了,那文字呢?
又是一個午後,小政坐在辦公室裡,眼神空洞地望著電腦畫面,一動也不動。阿育老師路過,發現這熟悉的場景。
阿育老師:「小政啊,又在研究資料嗎?怎麼這次看起來更沮喪了?」
小政轉過頭,有點無奈地說:「老師,我學了好多統計分析的方法,也跑了好多R語法,但這些都適用在數字資料。現在我在整理教學平台上的留言,有學生的反饋、家長的回應,我很想知道他們在想什麼⋯⋯ 」
小政:「但要打開網頁,一則一則看、一個一個點、滑鼠點到手酸⋯⋯資料量又這麼多,真的好累人⋯⋯ 」
阿育老師聽了,語重心長地點點頭:「這就是當老師的必經之路啊!我也是這樣走過來的,我們要關心學生、理解家長,每一則留言背後都是一段聲音、一個故事。雖然辛苦,但這是我們的責任,是教育專業的基本功。」
阿育老師正要對小政進行教師專業講座的開講時,Doctor S悄然登場。
Doctor S:「如果你們不想再一則一則點留言,不妨試試看文字探勘吧!」
概念導讀:什麼是文字探勘?
文字探勘(Text Mining)是指從非結構化文字資料(如留言、文章、對話紀錄)中,找出規律、關鍵詞、主題等有用資訊的技術。和統計分析處理結構化資料(如Excel表格)不同,文字探勘的挑戰在於:資料沒有欄位與標準格式,以及含有大量口語化內容。常見應用包括:關鍵詞抽取、文字分類、主題建模、情感分析等。現在教育現場的溝通越來越依賴平台系統,留言、問卷開放式回饋、課程評鑑意見等,其實都是一座等待被開採的資料寶庫。
為什麼教育工作者需要文字探勘?
傳統方式:
人工閱讀留言、逐字統計、主觀感受評估、忽略潛在聲音
文字探勘方式:
自動整理常見主題、自動萃取高頻詞、客觀量化語意特徵、發覺隱藏情感與需求
本章將從文字的取得、處理到分析進行全面教學,分為三大部分:
*網路爬蟲:讓R自動幫你蒐集留言或文章,不用再點滑鼠。
*文字探勘:斷詞、去除停用字、計算詞頻、找出重點字詞。
*視覺化呈現:製作詞雲、共現網絡圖、主題分布圖,一眼看出資料重點。
Doctor S的溫馨提醒
Doctor S:「別忘了,生成式AI之所以懂人類語言,正是因為背後進行了大量的文字探勘與語料分析。我們現在用的這些技術,其實就是AI世界的基本語言。」
5.1 網路爬蟲:不用手動複製也能大量擷取資料
校園情境開場:蒐集大家的聲音不能只靠滑鼠
這天早上,阿育老師拿著筆電走進辦公室,一臉認真地對小政說:「小政,最近學校正在進行教學品質提升計畫,我想請你幫忙上網蒐集學生和家長對課程的留言與建議,尤其是那個討論區,上面好多心得和問題,很有參考價值。」
小政一聽立刻點頭:「這個我知道,我可以用網路爬蟲(Web Scraping)來處理,不用一則一則手動複製。不過要先看懂網頁的原始碼,像是用什麼CSS class,才能知道要擷取的內容在哪裡。」
阿育老師聽得一頭霧水,猛點頭後突然問:「你說『爬蟲』?網頁上有蟲?是說有病毒嗎⋯⋯還是你在玩生物入侵的遊戲?」
小政忍不住笑出來,正要解釋時,Doctor S早就準備好登場了。
Doctor S:「老師別擔心,小政說的爬蟲,是一種自動化程式,可以模擬使用者上網行為,把網頁上的文字抓下來。這在教育資料蒐集上非常有用。」
Doctor S:「你們可以用R語言的 rvest 套件來寫,而且如果不會找CSS標籤,可以安裝一個叫做『SelectorGadget』的瀏覽器擴充工具,幫助你一鍵查出元素標籤喔!」
概念導讀:什麼是網路爬蟲(Web Scraping)?
在資訊爆炸的時代,許多有價值的資料存在於網頁中,例如論壇留言、新聞文章、產品評論等。若只靠人工一筆一筆複製,將耗費大量時間與心力。網路爬蟲是一種自動化技術,能快速擷取網站中規則性的內容,常用於新聞摘要、價格比對、留言分析等。在R語言中,可以使用rvest套件,模擬使用者進入網頁,然後擷取所需的文字內容。所有網頁背後都有「原始碼」,這些碼中包含標籤(如
把「文字」變成「資料」的魔法術
校園情境開場:數字懂了,那文字呢?
又是一個午後,小政坐在辦公室裡,眼神空洞地望著電腦畫面,一動也不動。阿育老師路過,發現這熟悉的場景。
阿育老師:「小政啊,又在研究資料嗎?怎麼這次看起來更沮喪了?」
小政轉過頭,有點無奈地說:「老師,我學了好多統計分析的方法,也跑了好多R語法,但這些都適用在數字資料。現在我在整理教學平台上的留言,有學生的反饋、家長的回應,我很想知道他們在想什麼⋯⋯ 」
小政:「但要打開網頁,一則一則看、一個一個點、滑鼠點到手酸⋯⋯資料量又這麼多,真的好累人⋯⋯ 」
阿育老師聽了,語重心長地點點頭:「這就是當老師的必經之路啊!我也是這樣走過來的,我們要關心學生、理解家長,每一則留言背後都是一段聲音、一個故事。雖然辛苦,但這是我們的責任,是教育專業的基本功。」
阿育老師正要對小政進行教師專業講座的開講時,Doctor S悄然登場。
Doctor S:「如果你們不想再一則一則點留言,不妨試試看文字探勘吧!」
概念導讀:什麼是文字探勘?
文字探勘(Text Mining)是指從非結構化文字資料(如留言、文章、對話紀錄)中,找出規律、關鍵詞、主題等有用資訊的技術。和統計分析處理結構化資料(如Excel表格)不同,文字探勘的挑戰在於:資料沒有欄位與標準格式,以及含有大量口語化內容。常見應用包括:關鍵詞抽取、文字分類、主題建模、情感分析等。現在教育現場的溝通越來越依賴平台系統,留言、問卷開放式回饋、課程評鑑意見等,其實都是一座等待被開採的資料寶庫。
為什麼教育工作者需要文字探勘?
傳統方式:
人工閱讀留言、逐字統計、主觀感受評估、忽略潛在聲音
文字探勘方式:
自動整理常見主題、自動萃取高頻詞、客觀量化語意特徵、發覺隱藏情感與需求
本章將從文字的取得、處理到分析進行全面教學,分為三大部分:
*網路爬蟲:讓R自動幫你蒐集留言或文章,不用再點滑鼠。
*文字探勘:斷詞、去除停用字、計算詞頻、找出重點字詞。
*視覺化呈現:製作詞雲、共現網絡圖、主題分布圖,一眼看出資料重點。
Doctor S的溫馨提醒
Doctor S:「別忘了,生成式AI之所以懂人類語言,正是因為背後進行了大量的文字探勘與語料分析。我們現在用的這些技術,其實就是AI世界的基本語言。」
5.1 網路爬蟲:不用手動複製也能大量擷取資料
校園情境開場:蒐集大家的聲音不能只靠滑鼠
這天早上,阿育老師拿著筆電走進辦公室,一臉認真地對小政說:「小政,最近學校正在進行教學品質提升計畫,我想請你幫忙上網蒐集學生和家長對課程的留言與建議,尤其是那個討論區,上面好多心得和問題,很有參考價值。」
小政一聽立刻點頭:「這個我知道,我可以用網路爬蟲(Web Scraping)來處理,不用一則一則手動複製。不過要先看懂網頁的原始碼,像是用什麼CSS class,才能知道要擷取的內容在哪裡。」
阿育老師聽得一頭霧水,猛點頭後突然問:「你說『爬蟲』?網頁上有蟲?是說有病毒嗎⋯⋯還是你在玩生物入侵的遊戲?」
小政忍不住笑出來,正要解釋時,Doctor S早就準備好登場了。
Doctor S:「老師別擔心,小政說的爬蟲,是一種自動化程式,可以模擬使用者上網行為,把網頁上的文字抓下來。這在教育資料蒐集上非常有用。」
Doctor S:「你們可以用R語言的 rvest 套件來寫,而且如果不會找CSS標籤,可以安裝一個叫做『SelectorGadget』的瀏覽器擴充工具,幫助你一鍵查出元素標籤喔!」
概念導讀:什麼是網路爬蟲(Web Scraping)?
在資訊爆炸的時代,許多有價值的資料存在於網頁中,例如論壇留言、新聞文章、產品評論等。若只靠人工一筆一筆複製,將耗費大量時間與心力。網路爬蟲是一種自動化技術,能快速擷取網站中規則性的內容,常用於新聞摘要、價格比對、留言分析等。在R語言中,可以使用rvest套件,模擬使用者進入網頁,然後擷取所需的文字內容。所有網頁背後都有「原始碼」,這些碼中包含標籤(如
、
等)與 class 名稱(如 .title、.comment),可以視為「要抓哪一塊」的指令。
這一節將介紹如何用R語言對網頁資料進行自動化擷取,這不只是技術應用,更是一種節省時間、擴大觀察範圍的研究手段。搭配文字探勘技術,更可以進一步理解背後的語意與趨勢。本節使用 rvest 套件來示範如何擷取文字資訊,包含:取得單一網頁的指定區塊文字、設計迴圈批次擷取多頁資料,以及累積並儲存所有爬取內容。