第一章 學習評量的相關議題
第六節 評量的一般原則
評量是決定學生學習與發展的性質與範疇一個完整的過程,在實際運用上若能考慮到下列原則,將會收到最大的效果(余民寧,1997;郭生玉,1999;謝廣全,1994;McMillan, 2014; Miller, Linn, & Gronlund, 2013):
一、依據教學目標
所有教學活動以教育目標為依據,因此,評量教師教學效能與學生學習成果,當然必須以教學目標為依據,才能判定是否達成既定目標。
二、說明預期的表現結果
在陳述或說明教學與學習目標時,必須清楚明確地指出能夠具體觀察到、測量到、且能量化的行為目標或預期結果,這樣才知道要測量的具體學習結果是什麼,應該採用何種類型的方法來評量。
三、確認優先評量事項
有效評量係依據描述所要測量的特質細目,在評量前須先明白確認所要達成的學習目標。例如:地理科的內容標準,必須指明學生必須「理解地形和證明其中的地理性關連」,然後考慮採用選擇題或申論題。教師必須能回答:「什麼觀念」?想要「證明什麼」?「什麼地理性關連」?以及「什麼是充分理解的證據」?
四、顧及學習的多面性
每一種學習活動均包括三方面的學習:(一)主學習(primary learning):一個單元教學活動中所獲得的主要概念、原理或正確知識;(二)副學習(associate learning):在學習主學習過程中所培養出來的一種態度、情操或理想;和(三)附(輔)學習(concomitant learning):在整個學習活動中所附帶學習到的其他方面的相關知識或技能。因此,教學或學習評量不應只偏重主學習,副學習與附學習同樣很重要(謝廣全,1994)。
五、顧及學生全面發展
教育目標在追求智、德、體、群、美育的均衡發展,學習的領域涵蓋認知、情意和動作等三方面。以過去偏重認知領域的評量結果,升學主義掛帥,忽略學生在理想、態度、興趣與習慣技能方面的學習,無法達成學生全人發展的目標。
六、選擇特定評量程序
評量程序的選擇通常是依據它們的客觀性、正確性與方便性。某些程序適用於這課程,可能不適用於另外課程。例如在評量學生的學業成就,既定教學目標必須與用來評量功課的形式密切配合。如果學習目標是寫出一篇完整的文章,採用選擇題測驗寫作的機制,可能不是個好主意;擴展式建構反應評量才能達成這項評量的目的。七、評量方法多元化
沒有單一的工具或程序,可用以評量繁多的學校方案所強調的學習和發展結果。學業成就的選擇題和簡答題在測量知識、理解和應用結果很有用,但申論題和其他寫作計畫,卻是用來評量組織的能力與表達觀念。「觀察技術」被用來評量學生的表現技巧與不同的行為方面的觀點,而「自陳量表」在評量興趣與態度很有用處。學生成就與發展的完整圖像,需要使用到各種評量程序。
八、評量過程的限制
評量程序可以從十分高度發展的測量工具(例如標準化性向測驗與成就測驗),到粗糙的評量設計(例如觀察技術與自我檢核技術)。即使是最優良的教育與心理測量工具所得到的結果,仍然會產生各類型的「測量誤差」(measurement error),例如:
(一)抽樣誤差(sampling error)
沒有任何一個測驗或評量,可以適當地呈現一個全面性覆蓋的與內容標準、課程目標或教學結果相應的知識、技能和理解,而是只呈現對應的疑難或問題的一個樣本。既然評量或測驗都僅是抽樣的行為樣本而不是全面性的普查,內容樣本(題目)數越少,抽樣誤差越大。
(二)機會誤差(chance error)
由一些無法控制的因素會影響到評量結果,例如:客觀測驗的「猜測」因素、申論題的「主觀評分」因素、觀察設計的「判斷誤差」因素、自陳報告工具的「不一致反應」因素(例如,態度量表)等。小心應用評量程序,可以使這些測量誤差降低到最小程度。
(三)錯誤解釋結果
使用者有時解釋結果超過精確,或將某特質指標誇大超出原設計所要測量的品質。例如,學術性向測驗分數誤把它當作是先天能力,而不是可塑造的能力量數值;或將個人價值測量誤當作語文或數字推理測量解釋。
九、結果的應用重於形式
教學活動中所進行的各種評量,是要依據它來訂定或修訂教學目標,依據它來選擇教材教法,並且依據它們來修正教法、調整進度、做個別化教學、請求資源人士協助等等,不只是將評量結果判定個「優」或「劣」的等第就了事,它對教師的教學效率、課程設計的妥適性,都做了相當程度的反應或詮釋。知所惕勵謀求改進,才不致淪為「教學的形式評量」(謝廣全,1994)。十、評量本身不是目的
評量程序意味著一些有用的服務目的,例如,回饋教師使他/她們瞭解教學目標達成的程度、教材教法的適當性、教學進度的管控、學習困難所在等。回饋學生使他/她們瞭解已學會了什麼,尚未精熟的是哪些部分或領域。因此,學習評量最好將它視為獲得資訊以便做成決定的過程,評量本身並不是目的。
第六節 評量的一般原則
評量是決定學生學習與發展的性質與範疇一個完整的過程,在實際運用上若能考慮到下列原則,將會收到最大的效果(余民寧,1997;郭生玉,1999;謝廣全,1994;McMillan, 2014; Miller, Linn, & Gronlund, 2013):
一、依據教學目標
所有教學活動以教育目標為依據,因此,評量教師教學效能與學生學習成果,當然必須以教學目標為依據,才能判定是否達成既定目標。
二、說明預期的表現結果
在陳述或說明教學與學習目標時,必須清楚明確地指出能夠具體觀察到、測量到、且能量化的行為目標或預期結果,這樣才知道要測量的具體學習結果是什麼,應該採用何種類型的方法來評量。
三、確認優先評量事項
有效評量係依據描述所要測量的特質細目,在評量前須先明白確認所要達成的學習目標。例如:地理科的內容標準,必須指明學生必須「理解地形和證明其中的地理性關連」,然後考慮採用選擇題或申論題。教師必須能回答:「什麼觀念」?想要「證明什麼」?「什麼地理性關連」?以及「什麼是充分理解的證據」?
四、顧及學習的多面性
每一種學習活動均包括三方面的學習:(一)主學習(primary learning):一個單元教學活動中所獲得的主要概念、原理或正確知識;(二)副學習(associate learning):在學習主學習過程中所培養出來的一種態度、情操或理想;和(三)附(輔)學習(concomitant learning):在整個學習活動中所附帶學習到的其他方面的相關知識或技能。因此,教學或學習評量不應只偏重主學習,副學習與附學習同樣很重要(謝廣全,1994)。
五、顧及學生全面發展
教育目標在追求智、德、體、群、美育的均衡發展,學習的領域涵蓋認知、情意和動作等三方面。以過去偏重認知領域的評量結果,升學主義掛帥,忽略學生在理想、態度、興趣與習慣技能方面的學習,無法達成學生全人發展的目標。
六、選擇特定評量程序
評量程序的選擇通常是依據它們的客觀性、正確性與方便性。某些程序適用於這課程,可能不適用於另外課程。例如在評量學生的學業成就,既定教學目標必須與用來評量功課的形式密切配合。如果學習目標是寫出一篇完整的文章,採用選擇題測驗寫作的機制,可能不是個好主意;擴展式建構反應評量才能達成這項評量的目的。七、評量方法多元化
沒有單一的工具或程序,可用以評量繁多的學校方案所強調的學習和發展結果。學業成就的選擇題和簡答題在測量知識、理解和應用結果很有用,但申論題和其他寫作計畫,卻是用來評量組織的能力與表達觀念。「觀察技術」被用來評量學生的表現技巧與不同的行為方面的觀點,而「自陳量表」在評量興趣與態度很有用處。學生成就與發展的完整圖像,需要使用到各種評量程序。
八、評量過程的限制
評量程序可以從十分高度發展的測量工具(例如標準化性向測驗與成就測驗),到粗糙的評量設計(例如觀察技術與自我檢核技術)。即使是最優良的教育與心理測量工具所得到的結果,仍然會產生各類型的「測量誤差」(measurement error),例如:
(一)抽樣誤差(sampling error)
沒有任何一個測驗或評量,可以適當地呈現一個全面性覆蓋的與內容標準、課程目標或教學結果相應的知識、技能和理解,而是只呈現對應的疑難或問題的一個樣本。既然評量或測驗都僅是抽樣的行為樣本而不是全面性的普查,內容樣本(題目)數越少,抽樣誤差越大。
(二)機會誤差(chance error)
由一些無法控制的因素會影響到評量結果,例如:客觀測驗的「猜測」因素、申論題的「主觀評分」因素、觀察設計的「判斷誤差」因素、自陳報告工具的「不一致反應」因素(例如,態度量表)等。小心應用評量程序,可以使這些測量誤差降低到最小程度。
(三)錯誤解釋結果
使用者有時解釋結果超過精確,或將某特質指標誇大超出原設計所要測量的品質。例如,學術性向測驗分數誤把它當作是先天能力,而不是可塑造的能力量數值;或將個人價值測量誤當作語文或數字推理測量解釋。
九、結果的應用重於形式
教學活動中所進行的各種評量,是要依據它來訂定或修訂教學目標,依據它來選擇教材教法,並且依據它們來修正教法、調整進度、做個別化教學、請求資源人士協助等等,不只是將評量結果判定個「優」或「劣」的等第就了事,它對教師的教學效率、課程設計的妥適性,都做了相當程度的反應或詮釋。知所惕勵謀求改進,才不致淪為「教學的形式評量」(謝廣全,1994)。十、評量本身不是目的
評量程序意味著一些有用的服務目的,例如,回饋教師使他/她們瞭解教學目標達成的程度、教材教法的適當性、教學進度的管控、學習困難所在等。回饋學生使他/她們瞭解已學會了什麼,尚未精熟的是哪些部分或領域。因此,學習評量最好將它視為獲得資訊以便做成決定的過程,評量本身並不是目的。