迴歸分析(regression analysis)在研究一個或多個自變數對依變數的影響情況,它多用於預測、估計與解釋的統計方法;所謂的預測、估計即是以一個或多個預測變數來描述一個特定效標變數的分析方法(陳順宇,2000)。迴歸分析也是機器學習的一種監督式學習(supervised learning)技術,旨在由訓練資料中學到或建立一個模型,並依此模型推測新的實例。
迴歸分析適用於自變數(independent variable,又稱為預測變數,predictor)及依變數(dependent variable,又稱為效標變數,criterion)均為計量的變數(含等距變數及比率變數)的分析。如果自變數及依變數各為一個,稱為簡單迴歸;如果有多個自變數,一個依變數,稱為多元迴歸或複迴歸(multiple regression);如果自變數及依變數均為多個,則是多變量多元迴歸(multivariate multiple regression)。
假使自變數是定性的變數(如為名義變數或次序變數),應將該變數轉換為虛擬變數(dummy variable);如果依變數是二類的名義變數,通常會進行二分的邏輯斯迴歸分析(binary logistic regression analysis)或probit機率迴歸分析;假使依變數是多類別的名義變數,通常會進行區別分析(discriminant)或多項式邏輯斯迴歸分析(multinomial logistic regression analysis);如果依變數是次序變數,則可進行次序性邏輯斯或機率迴歸分析。
2.1 迴歸的意義
1885年Francis Galton(1982-1911)與Karl Pearson(1857-1936)在其「Regression towards Mediocrity in hereditary Stature」研究中,發現身高高的父母,其子女之平均身高低於父母的平均身高;反之,身高矮的父母,其子女之平均身高高於父母的平均身高,發現子代有趨向全體平均身高的現象,當時以「regression」一詞表示這樣的效應,表示兩極端身高會「迴歸」到平均數的現象。
圖2-1散布圖的X軸是父母身高,以(父親身高 + 母親身高 × 1.08)/ 2代表(因為父親平均身高是母親的1.08倍)。Y軸是子女身高,如果是男性以原始身高代表,女性則乘以1.08倍。圖中的虛線代表父母身高與子女身高相同,斜率為1;直線則是迴歸線,斜率為0.73。由於迴歸線的斜率小於1,所以子代的身高不會等於父母的身高。而兩線相交的地方是(175.82, 175.85),父母身高超過175.82公分(平均數),則子代平均身高比其父母矮;反之,父母身高不到175.82公分,子代平均身高會比其父母高。
迴歸分析與變異數分析(analysis of variance)是研究者經常使用的統計方法。而迴歸分析主要的用途有二:一為解釋,二為預測。解釋的功能主要在於說明預測變數與效果變數間的關聯強度及關聯方向;預測的功能則是使用迴歸方程式,利用已知的自變數來預測未知的依變數。例如:研究者可以利用高中生在學校的各科畢業成績為預測變數,而以其大學入學成績為效標變數,來建立迴歸方程式,以解釋哪些科目對大學入學成績最有預測作用,及其總預測效果如何。如果其他條件相同,則可利用今年度尚未參加大學入學考試的高中應屆畢業生的各科畢業成績,以預測他們參加入學考試的成績。實務上,兩種取向並未嚴格區分,經常合併使用。
迴歸分析適用於自變數(independent variable,又稱為預測變數,predictor)及依變數(dependent variable,又稱為效標變數,criterion)均為計量的變數(含等距變數及比率變數)的分析。如果自變數及依變數各為一個,稱為簡單迴歸;如果有多個自變數,一個依變數,稱為多元迴歸或複迴歸(multiple regression);如果自變數及依變數均為多個,則是多變量多元迴歸(multivariate multiple regression)。
假使自變數是定性的變數(如為名義變數或次序變數),應將該變數轉換為虛擬變數(dummy variable);如果依變數是二類的名義變數,通常會進行二分的邏輯斯迴歸分析(binary logistic regression analysis)或probit機率迴歸分析;假使依變數是多類別的名義變數,通常會進行區別分析(discriminant)或多項式邏輯斯迴歸分析(multinomial logistic regression analysis);如果依變數是次序變數,則可進行次序性邏輯斯或機率迴歸分析。
2.1 迴歸的意義
1885年Francis Galton(1982-1911)與Karl Pearson(1857-1936)在其「Regression towards Mediocrity in hereditary Stature」研究中,發現身高高的父母,其子女之平均身高低於父母的平均身高;反之,身高矮的父母,其子女之平均身高高於父母的平均身高,發現子代有趨向全體平均身高的現象,當時以「regression」一詞表示這樣的效應,表示兩極端身高會「迴歸」到平均數的現象。
圖2-1散布圖的X軸是父母身高,以(父親身高 + 母親身高 × 1.08)/ 2代表(因為父親平均身高是母親的1.08倍)。Y軸是子女身高,如果是男性以原始身高代表,女性則乘以1.08倍。圖中的虛線代表父母身高與子女身高相同,斜率為1;直線則是迴歸線,斜率為0.73。由於迴歸線的斜率小於1,所以子代的身高不會等於父母的身高。而兩線相交的地方是(175.82, 175.85),父母身高超過175.82公分(平均數),則子代平均身高比其父母矮;反之,父母身高不到175.82公分,子代平均身高會比其父母高。
迴歸分析與變異數分析(analysis of variance)是研究者經常使用的統計方法。而迴歸分析主要的用途有二:一為解釋,二為預測。解釋的功能主要在於說明預測變數與效果變數間的關聯強度及關聯方向;預測的功能則是使用迴歸方程式,利用已知的自變數來預測未知的依變數。例如:研究者可以利用高中生在學校的各科畢業成績為預測變數,而以其大學入學成績為效標變數,來建立迴歸方程式,以解釋哪些科目對大學入學成績最有預測作用,及其總預測效果如何。如果其他條件相同,則可利用今年度尚未參加大學入學考試的高中應屆畢業生的各科畢業成績,以預測他們參加入學考試的成績。實務上,兩種取向並未嚴格區分,經常合併使用。