[๋จธ์ ๋ฌ๋][์๊ณ์ด] AR, MA, ARMA, ARIMA์ ๋ชจ๋ ๊ฒ - ๊ฐ๋ ํธ
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋จธ์ ๋ฌ๋์๊ณ์ด-AR-MA-ARMA-ARIMA์-๋ชจ๋ -๊ฒ-๊ฐ๋ ํธ
์ค๋์ ๋จธ์ ๋ฌ๋ ์๊ณ์ด์์ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋ AR, MA, ARMA, ARIMA์ ๋ํด ์ ๋ฆฌํด๋ณด๋ ์๊ฐ์ ๊ฐ์ง๋ ค๊ณ ํฉ๋๋ค. ํด๋น ํฌ์คํธ๋ ๊ณ ๋ ค๋ํ๊ต ๊น์ฑ๋ฒ ๊ต์๋์ ๊ฐ์๋ฅผ ๋ฐํ์ผ๋ก ์ ์๋์์ต๋๋ค.
๋ชฉ์ฐจ
- ์ ์ ํ๋ก์ธ์ค์ ๋น์ ์ ํ๋ก์ธ์ค
- Autoregressive (AR) Models
- Moving Average (MA) Models
- Autoregressive and Moving Average (ARMA)
- Autoregressive Integrated Moving Average (ARIMA)
-
ACF(์๊ธฐ์๊ดํจ์)์ PACF(๋ถ๋ถ์๊ธฐ์๊ดํจ์)
-
์ ์ ํ๋ก์ธ์ค์ ๋น์ ์ ํ๋ก์ธ์ค
(1) Stationary Process (์ ์ ํ๋ก์ธ์ค) : ์๊ฐ์ ๊ด๊ณ์์ด ํ๊ท ๊ณผ ๋ถ์ฐ์ด ์ผ์ ํ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
(2) Non-Stationary Process (๋น์ ์ ํ๋ก์ธ์ค) : ์๊ฐ์ ๊ด๊ณ์์ด ํ๊ท ๊ณผ ๋ถ์ฐ์ด ์ผ์ ํ์ง ์์ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์๋ฏธํฉ๋๋ค.
๐ ์ฌ๊ธฐ์ ์ ๊น! ๊ทธ๋ ๋ค๋ฉด ์ด๋ป๊ฒ ์ ์๊ณผ ๋น์ ์ ํ๋ก์ธ์ค๋ฅผ ๋น๊ตํ ๊น์?
X์ถ์ Lag (ํ์ฌ ๋ฐ์ดํฐ์์ ์์ ์ฐจ์ด)๋ก Y์ถ์ ACF(Autocorrelation Function)์ผ๋ก ์๊ฐํ ํ์์ ๋ ํน์ ํจํด์ด ์์ผ๋ฉด Stationary Process (์ ์ ํ๋ก์ธ์ค)๋ก ๋ณผ ์ ์์ต๋๋ค.
๐ค ์คํธ๋ผ.. ๊ทธ๋ ๋ค๋ฉด AC(Autocorrelation)์ ๋๋์ฒด ๋ญ์ฃ ?
์ฐ๋ฆฌ๊ฐ ๋ง์ด ์ ํด๋ณธ Correlation์ ๋ ๋ณ์ ์ฌ์ด์ ๊ด๊ณ๋ฅผ -1 ~ 1์ ๊ฐ์ผ๋ก ํํํ๋ ์ฒ๋์ ๋๋ค. Autocorrealation์ Correlation์ Auto๋ผ๋ ๊ฐ๋ ์ด ์ถ๊ฐ๋ ๊ฒ์ผ๋ก, ์ฝ๊ฒ ์ค๋ช ํ์๋ฉด ์๊ณ์ด์ ๊ด์ ์ผ๋ก ๋ณด์์ ๋ time shifted๋ ์๊ธฐ ์์ ๊ณผ์ correlation์ ์๋ฏธํฉ๋๋ค.
-
Autoregressive (AR) Models
์๊ธฐ์์ ์ ์ข ์๋ณ์(dependent variable) yty_tytโ๋ก ํ๊ณ , ์ด์ ์์ ์ ์๊ณ์ด(Lag) [ytโ1,ytโ2,โฆ,ytโp][y_{t-1}, y_{t-2} , โฆ, y_{t-p}][ytโ1โ,ytโ2โ,โฆ,ytโpโ] ๋ฅผ ๋ ๋ฆฝ๋ณ์(independent variable)๋ก ๊ฐ๋ ๋ชจ๋ธ(model that use lags of the dependent variable as independent variables)์ ์๋ฏธํฉ๋๋ค.
yt=โ 0+โ 1ytโ1+โ 2ytโ2+โฆ+โ pytโp+ฮตty_{t}=\emptyset_{0}+\emptyset_{1} y_{t-1}+\emptyset_{2} y_{t-2}+\ldots+\emptyset_{p} y_{t-p}+\varepsilon_{t}ytโ=โ 0โ+โ 1โytโ1โ+โ 2โytโ2โ+โฆ+โ pโytโpโ+ฮตtโ
Hyperparameter : p
-
Moving Average (MA) Models
์๊ธฐ์์ ์ ์ข ์๋ณ์(dependent variable) yty_tytโ๋ก ํ๊ณ , ํด๋น ์์ ๊ณผ ๊ทธ ๊ณผ๊ฑฐ์ white noise distribution error๋ค๋ก, [ฮตt,ฮตtโ1,โฆ,ฮตtโq][ฮต_{t}, ฮต_{t-1}, โฆ, ฮต_{t-q}][ฮตtโ,ฮตtโ1โ,โฆ,ฮตtโqโ]๋ฅผ ๋ ๋ฆฝ๋ณ์(independent variable)๋ก ๊ฐ๋ ๋ชจ๋ธ (model that use past errors that follow a white noise distribution as explanatory variables)์ ์๋ฏธํฉ๋๋ค.
yt=ฮธ0+ฮตt+ฮธ1ฮตtโ1+ฮธ2ฮตtโ2+โฆ+ฮธqฮตtโqy_{t}=\theta_{0}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\theta_{2} \varepsilon_{t-2}+\ldots+\theta_{q} \varepsilon_{t-q}ytโ=ฮธ0โ+ฮตtโ+ฮธ1โฮตtโ1โ+ฮธ2โฮตtโ2โ+โฆ+ฮธqโฮตtโqโ
Hyperparameter : q
-
Autoregressive and Moving Average (ARMA)
์๊ธฐ์์ ์ ์ข ์๋ณ์(dependent variable) yty_tytโ๋ก ํ๊ณ , ์ด์ ์์ ์ ์๊ณ์ด(Lag) [ytโ1,ytโ2,โฆ,ytโp][y_{t-1}, y_{t-2} , โฆ, y_{t-p}][ytโ1โ,ytโ2โ,โฆ,ytโpโ]๊ณผ [ฮตt,ฮตtโ1,โฆ,ฮตtโq][ฮต_{t}, ฮต_{t-1}, โฆ, ฮต_{t-q}][ฮตtโ,ฮตtโ1โ,โฆ,ฮตtโqโ]๋ฅผ ๋ ๋ฆฝ๋ณ์(independent variable)๋ก ๊ฐ๋ ๋ชจ๋ธ๋ก, ARMA๋ผ๋ ์ด๋ฆ์์๋ ์ ์ ์๋ฏ์ด AR๊ณผ MA๋ฅผ ํฉ์น ๋ชจ๋ธ์ ๋๋ค.
yt=โ 0+โ 1ytโ1+โ 2ytโ2+โฏโ pytโp+ฮตt+ฮธ1ฮตtโ1+ฮธ2ฮตtโ2+โฆ+ฮธqฮตtโqy_{t}=\emptyset_{0}+\emptyset_{1} y_{t-1}+\emptyset_{2} y_{t-2}+\cdots \emptyset_{p} y_{t-p}+\varepsilon_{t}+\theta_{1} \varepsilon_{t-1}+\theta_{2} \varepsilon_{t-2}+\ldots+\theta_{q} \varepsilon_{t-q}ytโ=โ 0โ+โ 1โytโ1โ+โ 2โytโ2โ+โฏโ pโytโpโ+ฮตtโ+ฮธ1โฮตtโ1โ+ฮธ2โฮตtโ2โ+โฆ+ฮธqโฮตtโqโ
Hyperparameter : p, q
-
Autoregressive Integrated Moving Average (ARIMA)
๊ธฐ์กด AR, MA, ARMA ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ฐ์ดํฐ๊ฐ ์ ์ (Stationary)์ด์ด์ผ ํจ์ผ๋ก ๋น์ ์ (Nonstationary)์ธ ๊ฒฝ์ฐ๋ ์ฐจ๋ถ (differencing)์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ์์ผ๋ก ๋ณํํด์ฃผ์ด์ผ ํฉ๋๋ค. ARIMA๋ ARMA ๋ชจํ์ ์ฐจ๋ถ์ dํ ์ํํด์ค ๋ชจ๋ธ์ ๋๋ค.
Hyperparameter : p, q, d
๐ ์ฌ๊ธฐ์ ์ ๊น! ์ฐจ๋ถ (differencing)์ด๋ ๋ญ๊น์?
์ฐจ๋ถ (differencing)์ด๋, ํ ์์ ๋ฐ์ดํฐ์์ d์์ ์ด์ ๋ฐ์ดํฐ๋ฅผ ๋บ ๊ฒ์ ๋๋ค. ์๋ ๊ทธ๋ฆผ๊ณผ ์์ ํตํด ๊ฐ๋จํ๊ฒ ์ด๋ค ๋ฉ์ปค๋์ฆ์ธ์ง ์ดํดํ์ค ์ ์์ผ์ค ๊ฒ๋๋ค.
1์ฐจ ์ฐจ๋ถ : Yt=XtโXtโ1=โXtY_{t}=X_{t}-X_{t-1}=\nabla X_{t}Ytโ=XtโโXtโ1โ=โXtโ
2์ฐจ ์ฐจ๋ถ : Yt(2)=XtโXtโ2=โ(2)XtY_{t}^{(2)}=X_{t}-X_{t-2}=\nabla^{(2)} X_{t}Yt(2)โ=XtโโXtโ2โ=โ(2)Xtโ
3์ฐจ ์ฐจ๋ถ : Yt(d)=XtโXtโd=โ(d)XtY_{t}^{(d)}=X_{t}-X_{t-d}=\nabla^{(d)} X_{t}Yt(d)โ=XtโโXtโdโ=โ(d)Xtโ
์๋๋ ๊ฐ๊ฐ 1์ฐจ ์ฐจ๋ถ, 2์ฐจ ์ฐจ๋ถ ์ํ ๊ฒฐ๊ณผ๋ฅผ ์๊ฐํํ ๊ฒฐ๊ณผ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์๊ณ์ด ๊ณก์ ์ด ํน์ ํ ํธ๋ ๋(constant average trend)๋ฅผ ๊ฐ์ง๊ณ ์๋ค๋ฉด 1์ฐจ ์ฐจ๋ถ์, ์๊ฐ์ ๋ฐ๋ผ ๋ค์ฅ๋ ์ฅํ ํธ๋ ๋๊ฐ ์๋ค๋ฉด 2์ฐจ ์ฐจ๋ถ์ ํต์์ ์ผ๋ก ์ํํฉ๋๋ค.
-
ACF(์๊ธฐ์๊ดํจ์)์ PACF(๋ถ๋ถ์๊ธฐ์๊ดํจ์)
ACF(AutoCorrelation Function)์ด๋?
ACF(AutoCorrelation Function, ์๊ธฐ์๊ดํจ์) ๋ k์๊ฐ ๋จ์๋ก ๊ตฌ๋ถ๋ ์๊ณ์ด์ ๊ด์ธก์น ๊ฐ ์๊ด๊ณ์ ํจ์๋ฅผ ์๋ฏธํ๋ฉฐ, k๊ฐ ์ปค์ง์๋ก ACF๋ 0์ ๊ฐ๊น์์ง๋๋ค.
์ด ๋, ACF๋ฅผ ๊ตฌํ๋ ์์ ์ผ๋ฐ Correlation ๊ตฌํ๋ ์๊ณผ ๋์ผํฉ๋๋ค. ๋ค์์ yty_{t}ytโ์ ytโky_{t-k}ytโkโ ์ฌ์ด์ ์๊ธฐ์๊ด์ ๊ตฌํ๋ ์์ ๋๋ค.
ACF(k)=โt=1Nโk(ytโyห)(yt+kโyห)โt=1N(ytโyห)2A C F(k)=\frac{\sum_{t=1}^{N-k}\left(y_{t}-\bar{y}\right)\left(y_{t+k}-\bar{y}\right)}{\sum_{t=1}^{N}\left(y_{t}-\bar{y}\right)^{2}}ACF(k)=โt=1Nโ(ytโโyหโ)2โt=1Nโkโ(ytโโyหโ)(yt+kโโyหโ)โ
PACF(Partial ACF)์ด๋?
๋จผ์ ๋ถ๋ถ ์๊ด (Partial Correlation) ์ด๋ ๋ ํ๋ฅ ๋ณ์ X์ Y์ ์ํด ๋ค๋ฅธ ๋ชจ๋ ๋ณ์๋ค์ ๋ํ๋ ์๊ด ๊ด๊ณ๋ฅผ ์ค๋ช ํ๊ณ ๋ ์ดํ์๋ ์ฌ์ ํ ๋จ์์๋ ์๊ด ๊ด๊ณ๋ผ๊ณ ์ ์ํ ์ ์์ต๋๋ค.
๋ฐ๋ผ์, ๋ถ๋ถ์๊ธฐ์๊ดํจ์ (PACF) ๋ ์๊ธฐ์๊ดํจ์์ ๋ง์ฐฌ๊ฐ์ง๋ก ์๊ณ์ด ๊ด์ธก์ง ๊ฐ ์๊ด ๊ด๊ณ ํจ์์ด๊ณ , ์์ฐจ k์์์ k๋จ๊ณ๋งํผ ๋จ์ด์ ธ ์๋ ๋ชจ๋ ๋ฐ์ดํฐ ์ ๋ค๊ฐ์ ์์ํ ์๊ด ๊ด๊ณ๋ฅผ ๋งํฉ๋๋ค. ๋ค์๋งํด yty_{t}ytโ์ ytโky_{t-k}ytโkโ์ PACF๋, yty_{t}ytโ์ ytโky_{t-k}ytโkโ๊ฐ์ ์์ํ ์๊ด๊ด๊ณ๋ก์ ๋ ์์ ์ฌ์ด์ ํฌํจ๋ ๋ชจ๋ ytโ1,ytโ2,โฆ,ytโk+1y_{t-1}, y_{t-2}, \ldots, y_{t-k+1}ytโ1โ,ytโ2โ,โฆ,ytโk+1โ์ ์ํฅ๋ ฅ์ ์ ๊ฑฐ๋จ์ ์๋ฏธํฉ๋๋ค.
๋ค์์ yty_{t}ytโ์ ytโky_{t-k}ytโkโ ์ฌ์ด์ ํธ์๊ธฐ์๊ด์ ๊ตฌํ๋ ์์ ๋๋ค.
PACF(k)=Corrโก(et,etโk)P A C F(k)=\operatorname{Corr}\left(e_{t}, e_{t-k}\right)PACF(k)=Corr(etโ,etโkโ)
์ด๋ป๊ฒ ์ฌ์ฉ๋๋๊ฐ?
ACF์ PACF์ ๋ชจ์์ ํตํด ARIMA(AR, MA, ARMA) ๋ชจ๋ธ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ธ p์ q๋ฅผ ๊ฒฐ์ ํ๋๋ฐ ๊ทธ ๋ฐฉ๋ฒ์ ์๋ ํ์ ๊ฐ์ต๋๋ค.
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ^~^