好書試閱

一開始該做的事
分析時間序列資料時,第一步要做的是「理解資料」。這指的是透過與資料對話(例如:彙總或圖表化等),來嘗試理解資料本身。具體來說,可以將時間序列資料視覺化(例如:折線圖),按期間(例如:去年與今年)計算平均值並進行比較、將資料拆解為趨勢成分與季節成分等,以及針對定態性進行探討等。
●視覺化:使用折線圖等方式掌握時間序列的推移。
●比較:按年度計算總和或平均值等基本統計量並進行比較。
●成分拆解:將時間序列資料分解為趨勢成分、季節成分與殘差成分,以掌握整體傾向。
●定態性探討:分析並調整原始時間序列資料,研究該如何做才能使其成為「定態」。
這幾項雖然都很重要,但其中最難理解、也是時間序列分析初學者最容易遇到瓶頸的,就是「定態性的探討」。
所謂定態性的探討,是指透過查明「如何調整時間序列資料才能使其成為定態」,進而加深對時間序列資料的理解,並將其運用在時間序列資料的模型化(表達式化)上。
因此,進行時間序列分析時,「定態」是非常重要的核心概念之一。

究竟什麼是定態?
所謂的定態性,是指時間序列資料的統計特性不隨時間而改變。也就是說,資料的平均數、變異數,以及自共變異數在整個時間軸上都保持一致。
定態之所以重要,是因為許多時間序列模型都是以資料具有定態性作為前提的。如果將這些模型直接套用在非定態的資料上,很可能會導出錯誤的結果。因此,分析時間序列資料時,必須先確認資料是否為定態;若不是,則須透過差分處理等方式,將資料定態化。關於這部分,後面會再另外說明。
此外,「定態」本身也有不同的種類,主要可分為強定態(strongstationarity)與弱定態(weakstationarity)。不過,強定態的假設過於嚴苛且極難驗證,在現實中並不實用。因此,強定態性較少被使用,提到定態時,多半指的是「弱定態」。
間不斷變大,這違反了期望值不隨時間改變的定態條件。又例如像氣溫是夏天高、冬天低,具有明顯季節性的時間序列資料,由於夏天與冬天的平均氣溫差異巨大,顯然也是非定態。其實,弱定態這個假設本身就非常強力。它隱含了一個關鍵前提:「當時間序列資料遵循某種『規則』或『模式』,即使時間推移,這些『規則』或『模式』本身也不會改變。」具體來說,滿足以下三個條件的時間序列資料,就稱為弱定態。
●條件1(期望值不隨時間改變):時間序列資料的期望值在所有時間點都相同。
●條件2(變異數不隨時間改變):變異數在所有時間點皆保持一致。
●條件3(自共變異數不隨時間改變):自共變異數只會和時間間隔有關。
例如,如果某個地區一整年下來的平均氣溫每年都大致相同(當然仍會有些微波動),那麼這組氣溫資料就可以說是「期望值不隨時間改變」。也就是說,即使拉長時間來看,平均氣溫也不會有劇烈變動。
所謂的「變異數」,是用來表示資料相對於期望值的離散程度。舉例來說,如果某項考試每年的平均分數都一樣,但某一年分數分布非常分散,而另一年則相對集中,那麼這些年度之間的變異數就不是固定的。「變異數不隨時間改變」,指的是某一年的資料離散程度與其他年份相比沒有變化。
「共變異數」則是用來衡量兩個資料之間關聯強度的指標。例如,讀書時間與考試成績之間的關係是呈現一方增加時另一方也傾向增加(或減少)的關聯。
「自共變異數」是指在時間序列資料中,某一時間點的資料與相隔一定時間後的資料之間的共變異數。例如,一月與四月的氣溫之間的關聯性(時間間隔為三個月)強度。
所謂「自共變異數不隨時間改變」指的是無論選擇哪一個時間點作為起點,只要時間間隔相同,自共變異數幾乎沒有差異。例如,一月與四月的氣溫關聯性(間隔三個月),與七月與十月的氣溫關聯性(間隔三個月)幾乎相同。不論從哪個月開始計算,只要時間間隔相同,就可以說自共變異數不依賴於具體的時間點。
明顯不符合定態性條件的非定態時間序列資料,最具代表性的就是「趨勢」與「季節性」。例如,數值持續上升的趨勢,代表資料的期望值會隨時間不斷變大,這違反了期望值不隨時間改變的定態條件。又例如像氣溫是夏天高、冬天低,具有明顯季節性的時間序列資料,由於夏天與冬天的平均氣溫差異巨大,顯然也是非定態。
金石堂門市 全家便利商店 ok便利商店 萊爾富便利商店 7-11便利商店
World wide
活動ing