Chapter 13 集群分析與區別分析
集群分析與因素分析原理十分類似,因素分析是將指標題項相關較大的合併為一個群組 (共同因素),群組 (共同因素) 反映的是指標題項測得的潛在特質或因素構念,同一群組 (共同因素) 內的指標題項有較高的同質性;集群分析是把觀察值 (受試者) 屬性或特徵相似者分類在同一群組,同一群組內的觀察值(受試者) 有較高的相似性。集群分析若以變項分類,其分類過程便與因素分析相似,同一集群內變項的相似性最大,相同的變數個數與資料檔,採用集群分析程序與因素分析程序所得結果可能有所不同。
以觀察集的分類而言,若之前沒有觀察值分群的資訊,集群分析程序可採用一般「集群觀察值」的分類方法,根據輸出結果凝聚過程的參數進行判斷,再根據輸出結果的樹狀圖決定集群的個數,經凝聚過程相似性、組內差異係數與樹狀圖的綜合判斷,初步決定分群的 (集群) 個數後,研究者可進一步採用 K 平均數集群分析法,指定觀察值分群的個數,並將分群變項以獨立直行儲存在工作表。
集群分析的簡易架構圖如下:
區別分析可以根據預測變項對觀察值原先真實的分組情況進行預測與再分類,預測與分類乃根據投入區別分析之預測變項建立的區別函數 (或典型區別函數) 對觀察值進行再分類,預測分類的情況若是與觀察值原先真實的組別相同,表示預測變項的預測分類正確,相對的,分類的情況若是與觀察值原先真實的組別不相同,表示預測變項預測分類錯誤。區別分析的依變項為類別變項,預測變項為計量變項,如果預測變項為間斷變項,要將變項轉換為虛擬變項,區別分析架構圖中顯示根據預測變項進行預測分類正確的觀察值有 15 個、預測分類錯誤的觀察值有 5 個 (觀察值真實組別與預測分類組別不一樣),區別分析正體預測正確百分比為 15 ÷ 20 = 75%。
第一節 集群分析
集群分析可以適用於將相似觀察值分成數個群組,或是將相似性高的變項分類成數個群組,同一群組內的觀察值 (變項) 相似性較高 (或相關較高),不同群組間的觀察值 (變項) 相似性相低 (或相關較低)一、問題範例
某研究者想根據學生的「學習動機」、「投入程度」、「課堂參與」與「學業成就」四個學習表現,將學生分成有意義的群組,隨機抽取 20 名學生,搜集學生在四個學習表現的資料,各變項測量值愈高,對應的學習表現愈佳或學習成就愈好。
工作表資料檔中,直行 C1 的變數名稱為「編號」,變項屬性為文字;直行C2 的變數名稱為「學習動機」,變項屬性為數值;直行 C3 的變數名稱為「投入程度」,變項屬性為數值;直行 C4 的變數名稱為「課堂參與」,變項屬性為數值;直行 C5 的變數名稱為「學業成就」,變項屬性為數值。
二、操作程序
執行功能表「St a t 」( 統計) / 「Mu l t i v a r i a t e 」( 多變量) / 「Cl u s t e r
Observations」(集群觀察值) 程序,程序會開啟「Cluster Observations」(集群觀察值) 對話視窗。程序的提示語為「Classify observations into groups based on their similarity. Use when you do not have prior grouping information for your observations.」(當研究者對於觀察值沒有先前分組資訊時,可以根據觀察值的相似性將觀察值分類成數個群組),程序提示語的說明在於採用階層集群分析法將觀察值進行分類 (或分群)。
「Cluster Observations」對話視窗中,從變數清單中選取「C2 學習動機」、「C3 投入程度」、「C4 課堂參與」、「C5 學業成就」四個計量變項至「Variables or distance matrix:」(變項或距離矩陣) 下方框內,方框訊息為「‘學習動機’ - ‘學業成就’」;「Linkage method:」(連結方法) 右邊選單選取「Average」(平均連結法),「Distance measure:」(距離測量) 右邊選單「Squared Euclidean」(歐幾里德平方),「Specify final partition by」(最後決定分割集群數) 方盒選取「Number of clusters:」(集群個數) 選項,右側的最後集群數值輸入 1;勾選「Show dendrogram 」(顯示樹狀圖) 選項,按「Customize」(自訂) 鈕,開啟「Cluster Observations Dendrogram: Customize」(集群觀察值樹狀圖:自訂) 次對話視窗。
集群分析與因素分析原理十分類似,因素分析是將指標題項相關較大的合併為一個群組 (共同因素),群組 (共同因素) 反映的是指標題項測得的潛在特質或因素構念,同一群組 (共同因素) 內的指標題項有較高的同質性;集群分析是把觀察值 (受試者) 屬性或特徵相似者分類在同一群組,同一群組內的觀察值(受試者) 有較高的相似性。集群分析若以變項分類,其分類過程便與因素分析相似,同一集群內變項的相似性最大,相同的變數個數與資料檔,採用集群分析程序與因素分析程序所得結果可能有所不同。
以觀察集的分類而言,若之前沒有觀察值分群的資訊,集群分析程序可採用一般「集群觀察值」的分類方法,根據輸出結果凝聚過程的參數進行判斷,再根據輸出結果的樹狀圖決定集群的個數,經凝聚過程相似性、組內差異係數與樹狀圖的綜合判斷,初步決定分群的 (集群) 個數後,研究者可進一步採用 K 平均數集群分析法,指定觀察值分群的個數,並將分群變項以獨立直行儲存在工作表。
集群分析的簡易架構圖如下:
區別分析可以根據預測變項對觀察值原先真實的分組情況進行預測與再分類,預測與分類乃根據投入區別分析之預測變項建立的區別函數 (或典型區別函數) 對觀察值進行再分類,預測分類的情況若是與觀察值原先真實的組別相同,表示預測變項的預測分類正確,相對的,分類的情況若是與觀察值原先真實的組別不相同,表示預測變項預測分類錯誤。區別分析的依變項為類別變項,預測變項為計量變項,如果預測變項為間斷變項,要將變項轉換為虛擬變項,區別分析架構圖中顯示根據預測變項進行預測分類正確的觀察值有 15 個、預測分類錯誤的觀察值有 5 個 (觀察值真實組別與預測分類組別不一樣),區別分析正體預測正確百分比為 15 ÷ 20 = 75%。
第一節 集群分析
集群分析可以適用於將相似觀察值分成數個群組,或是將相似性高的變項分類成數個群組,同一群組內的觀察值 (變項) 相似性較高 (或相關較高),不同群組間的觀察值 (變項) 相似性相低 (或相關較低)一、問題範例
某研究者想根據學生的「學習動機」、「投入程度」、「課堂參與」與「學業成就」四個學習表現,將學生分成有意義的群組,隨機抽取 20 名學生,搜集學生在四個學習表現的資料,各變項測量值愈高,對應的學習表現愈佳或學習成就愈好。
工作表資料檔中,直行 C1 的變數名稱為「編號」,變項屬性為文字;直行C2 的變數名稱為「學習動機」,變項屬性為數值;直行 C3 的變數名稱為「投入程度」,變項屬性為數值;直行 C4 的變數名稱為「課堂參與」,變項屬性為數值;直行 C5 的變數名稱為「學業成就」,變項屬性為數值。
二、操作程序
執行功能表「St a t 」( 統計) / 「Mu l t i v a r i a t e 」( 多變量) / 「Cl u s t e r
Observations」(集群觀察值) 程序,程序會開啟「Cluster Observations」(集群觀察值) 對話視窗。程序的提示語為「Classify observations into groups based on their similarity. Use when you do not have prior grouping information for your observations.」(當研究者對於觀察值沒有先前分組資訊時,可以根據觀察值的相似性將觀察值分類成數個群組),程序提示語的說明在於採用階層集群分析法將觀察值進行分類 (或分群)。
「Cluster Observations」對話視窗中,從變數清單中選取「C2 學習動機」、「C3 投入程度」、「C4 課堂參與」、「C5 學業成就」四個計量變項至「Variables or distance matrix:」(變項或距離矩陣) 下方框內,方框訊息為「‘學習動機’ - ‘學業成就’」;「Linkage method:」(連結方法) 右邊選單選取「Average」(平均連結法),「Distance measure:」(距離測量) 右邊選單「Squared Euclidean」(歐幾里德平方),「Specify final partition by」(最後決定分割集群數) 方盒選取「Number of clusters:」(集群個數) 選項,右側的最後集群數值輸入 1;勾選「Show dendrogram 」(顯示樹狀圖) 選項,按「Customize」(自訂) 鈕,開啟「Cluster Observations Dendrogram: Customize」(集群觀察值樹狀圖:自訂) 次對話視窗。