[๋จธ์ ๋ฌ๋][์ฐจ์์ถ์] ๋ณ์ ์ ํ๋ฒ
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋จธ์ ๋ฌ๋์ฐจ์์ถ์-๋ณ์-์ ํ๋ฒ-16
๋ณธ ํฌ์คํธ๋ ๊ณ ๋ ค๋ํ๊ต ๊ฐํ์ฑ ๊ต์๋
์ ๊ฐ์๋ฅผ ์๊ฐ ํ ์ ๋ฆฌ๋ฅผ ํ ๊ฒ์
๋๋ค. ์์ฑ ๋ฐ ์ค๋ช
์ ํธ์๋ฅผ ์ํด ์๋ ํฌ์คํธ๋ ๋ฐ๋ง๋ก ์์ฑํ ์ ์ํด๋ถํ๋๋ฆฝ๋๋ค.
Dimensionality Reduction
Curse of dimensionality
-
์ ์
์ด๋ก ์ (theory)์ผ๋ก๋ ๋ณ์์ ๊ฐ์๊ฐ ์ฆ๊ฐํ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ๋ ์ฆ๊ฐํ๋ค. ํ์ง๋ง, ํ์ค(reality)์์๋ ๋ณ์์ ๊ฐ์๊ฐ ์ ํ์ ์ผ๋ก ๋์ด๋ ๋, ๋์ผํ ์ค๋ช ๋ ฅ์ ๊ฐ๊ธฐ ์ํด ํ์ํ ๊ฐ์ฒด์ ์๋ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ฉฐ ์ฐจ์์ด ๋๋ฌด ์ปค์ง๋ฉด ์๋์ ๊ฐ์ ๋ฌธ์ ์ ์ ์ผ๊ธฐํ๋ค.
-
๋ฐ์ดํฐ์ ๋ณ์๊ฐ ๋ง์์ง ๋์ ๋ฌธ์ ์
โ Noise โ โก ๊ณ์ฐ ๋ณต์ก๋ โ โข ๋์ผํ ์ฑ๋ฅ์ ๊ฐ๊ธฐ ์ํด ํ์ํ ๋ฐ์ดํฐ ์ โ
Dimensionality Reduction
-
๋ชฉ์
๋ฐ์ดํฐ์ ๋ณธ์ง์ ๋ํ๋ด๋ ๋ด์ฌ์ ์ฐจ์(intrinsic dimension)์ ์ค์ ์ฐจ์๋ณด๋ค ์๋ค. ๋ฐ๋ผ์, ์ต์ ์ ๋ณ์๋ค์ ๋ถ๋ถ์งํฉ(best subset of variables that fit the model)๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค.
-
๋ฐฉ๋ฒ
โ ๋๋ฉ์ธ ์ง์์ ์ด์ฉํ ๋ณ์ ์ ํ
โก ๋ชฉ์ ํจ์์ regularization term ์ถ๊ฐ
โข ์ ๋์ ์ธ ์ฐจ์์ถ์ ๊ธฐ๋ฒ์ ์ํ
-
์ํฅ
โ ๋ณ์ ๊ฐ์ ์๊ด์ฑ ์ ๊ฑฐ
โก ํ์ฒ๋ฆฌ(post-processing)์ ๊ฐ์ํ
โข ์ค๋ณต๋๊ฑฐ๋ ๋ถํ์ํ ๋ณ์ ์ ๊ฑฐ
โฃ ์๊ฐํ์ ์ฉ์ด์ฑ
-
๋ถ๋ฅ : feed-back loop์ ์กด์ฌ์ ๋ฐ๋ผ
โ Supervised Dimensionality Reduction (์ง๋)
โก Un-supervised Dimensionality Reduction (๋น์ง๋)
-
๋ถ๋ฅ : ๋ณ์๋ฅผ ์ ํํ๋๊ฐ ์ถ์ถํ๋๊ฐ์ ๋ฐ๋ผ
โ Variable Feature Selection (๋ณ์ ์ ํ)
โก Variable Feature Extraction (๋ณ์ ์ถ์ถ)
์๋ ํ๋ Dimensionality Reduction (์ฐจ์ ์ถ์)๋ฅผ ์์ ๋ถ๋ฅ๋ฒ์ ๋ฐ๋ผ ์ ๋ฆฌํด ๋ณธ ๊ฒ์ด๋ค.
Supervised Variable Selection
์ ์ผ ์ฒซ๋ฒ์งธ ์๊ฐํ ๋ฐฉ๋ฒ์ ๋ณ์ ์ ํ ์ค Wrapper ๊ธฐ๋ฒ์ธ Supervised Variable Selection์ด๋ค.
Exhaustive Search
๋ชจ๋ ๋ณ์์ ์กฐํฉ์ ๋ํ์ฌ ํ์์ ์ํํจ. ํญ์ global optimum ๋ฐํํ์ง๋ง ๋๋ฆฌ๋ค.
Forward Selection
์๋ฌด ๋ณ์๊ฐ ์๋ ๊ฒ๋ถํฐ, ๊ฐ์ฅ ์ ์ํ ๋ณ์๋ค์ ํ๋์ฉ ์์ฐจ์ ์ผ๋ก ์ถ๊ฐํ๋ฉฐ ํ์์ ์ํํจ (์ด๋, ํ๋ฒ ์ถ๊ฐ๋ ๋ณ์๋ ์ ๊ฑฐ๋์ง ์๋๋ค.)
Backward Elimination
๋ชจ๋ ๋ณ์๊ฐ ๋ค ์๋ ๊ฒ๋ถํฐ ๋ถํ์ํ ๋ณ์๋ค์ ํ๋์ฉ ์์ฐจ์ ์ผ๋ก ์ ๊ฑฐํด๊ฐ๋ฉฐ ํ์์ ์ํํจ (์ด๋, ํ๋ฒ ์ ๊ฑฐ๋ ๋ณ์๋ ๋ค์ ์ถ๊ฐ๋์ง ์๋๋ค.)
Stepwise Selection
์๋ฌด ๋ณ์๊ฐ ์๋ ๊ฒ๋ถํฐ, Forward Selection๊ณผ Backward Elimination์ ๋ฒ๊ฐ์ ๊ฐ๋ฉฐ ์ํํจ (์ด๋, ๋ณ์๊ฐ ํ๋ฒ ์ ํ ๋๋ ์ ๊ฑฐ๊ฐ ๋์์์ง๋ผ๋, ๋ค์ ๋ฒ์ ๋ค์ ๋ฝํ๊ฑฐ๋ ์ ๊ฑฐ๋ ์ ์๋ค.)
์ฌ์ฉ๋ ์ ์๋ Performance Metric๋ก๋ ์๋์ ๊ฐ์ ๊ธฐ๋ฒ๋ค์ด ์ฌ์ฉ๋ ์ ์๋ค.
- Akaike Information Criteria (AIC)
AIC=nโ lnโก(SSEn)+2kAIC=n \cdot \ln \left(\frac{S S E}{n}\right)+2 kAIC=nโ ln(nSSEโ)+2k
- Bayesian Information Criteria (BIC)
BIC=nโ lnโก(SSEn)+2(k+2)nฯ2SSEโ2n2ฯ4SSE2B I C=n \cdot \ln \left(\frac{S S E}{n}\right)+\frac{2(k+2) n \sigma^{2}}{S S E}-\frac{2 n^{2} \sigma^{4}}{S S E^{2}}BIC=nโ ln(nSSEโ)+SSE2(k+2)nฯ2โโSSE22n2ฯ4โ
- Adjusted R2
ย Adjustedย R2=1โ(nโ1nโkโ1)(1โR2)=1โnโ1nโkโ1SSESST\text { Adjusted } R^{2}=1-\left(\frac{n-1}{n-k-1}\right)\left(1-R^{2}\right)=1-\frac{n-1}{n-k-1} \frac{S S E}{S S T}ย Adjustedย R2=1โ(nโkโ1nโ1โ)(1โR2)=1โnโkโ1nโ1โSSTSSEโ
์ฐธ๊ณ ๋ก, ์ฌ๊ธฐ์ ๋์ค๋ SST์ SSA๋ ํ๊ท๋ถ์ ๋ถ์ ์์ ์์ฃผ ์ฐ์ด๋ Term์ผ๋ก ์๋์ ๊ฐ์ด ์ ์๋๋ค.
SST=SSR+SSESST = SSR + SSESST=SSR+SSE
wherewherewhere,
SST=sumใofใsquaresใofใtotalSST = sumใofใsquaresใofใtotalSST=sumใofใsquaresใofใtotal
SSR=sumใofใsquaresใofใregressionSSR = sumใofใsquaresใofใregressionSSR=sumใofใsquaresใofใregression
SSE=sumใofใsquaresใofใerrorsSSE = sumใofใsquaresใofใerrorsSSE=sumใofใsquaresใofใerrors
Genetic Algorithm
์์์ ์๊ฐํ Exhaustive Search๊ณผ Local Search์ ๋ค์๊ณผ ๊ฐ์ ๋จ์ ์ด ์กด์ฌํ๋ค.
โ Exhaustive Search : ๋ฐ์ดํฐ๋ฅผ ์ ์ผ ์ ์ค๋ช ํ ์ ์๋ ์ต์ ์ ๋ถ๋ถ์งํฉ์ ์ฐพ์๋ผ ์ ์์ง๋ง, ์ด๋ฅผ ์ฐพ๋ ๋ฐ๊น์ง ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฐ๋ค.
โก Local Search (forward/backward/stepwise) : ํจ๊ณผ์ ์ผ๋ก ์ฐพ๋ ๋ฐฉ๋ฒ์ด์ง๋ง, search space๊ฐ ์ ํ์ ์ด๋ผ์ ์ต์ ํด๊ฐ ์๋ ํด๋ฅผ ์ฐพ๊ฒ ๋ ์ ์๋ค.
์์ ์๊ฐํ ๊ธฐ๋ฒ๋ค์ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ โ๋ชจ๋ธ์ โ์ฑ๋ฅโ ๊ณผ โ์๋โ ๋ฅผ ๋ชจ๋ ์ฌ๋ฆด ์ ์๋ ๋ฐฉ๋ฒ์ด ์์๊น?โ๋ผ๋ ์ง๋ฌธ์ ํด๊ฒฐํ๊ธฐ ์ํด ์์ฐํ์์ ๋ณธ ๋ฐ ์ ์๋ ๊ฒ์ด ๋ฐ๋ก Meta-Heuristic Approach
์ด๋ค.
ex) ANN(์ธ๊ฐ์ ๋), Ant Colony Algorithm(๊ฐ๋ฏธ ๊ตฐ์ง), Particle Swarm Optimization(์ ์ ๊ตฐ์ง)
Genetic Algorithm ์ญ์ ์ด์ ๊ฐ์ Meta-Heuristic Approach ์ค ํ๋๋ก, โ์์ฐ์ ํ์คโ + โ์์(์ ์ ) ํ๋ก์ธ์คโ ๋ฅผ ๋ชจ๋ฐฉํ ๋ฐฉ๋ฒ์ด๋ค.
์์ ๊ทธ๋ฆผ์ Genetic Algorithm(GA)์ Process์ด๋ฉฐ, GA๋ ํฌ๊ฒ ์๋์ ๊ฐ์ด 3๊ฐ์ง ํ๋ก์ธ์ค๋ก ๊ตฌ์ฑ๋์ด ์๋ค:
โ Selection(์ ํ) : ํ์ง(quality)๋ฅผ ์ฌ๋ฆฌ๊ธฐ ์ํด ์ฐ์ํ ์ ์ ์(solution)์ ์ ํ
โก Crossover(๊ต๋ฐฐ) : ํ์ฌ ์ ํ๋ ์ ์ ์๋ค(solution) ๊ฐ์ ๊ต๋ฐฐ๋ฅผ ํตํด ๋์์ ํ์
โข Mutation(๋์ฐ๋ณ์ด) : local optimum(๊ตญ์ ์ต์ )์์ ๋๊ฐ ์ ์๋๋ก ๋ณ์ด(mutation)๋ฅผ ๋ํจ
์๋๋ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ์ผ์์ฒด(Chromosome) ๊ทธ๋ฆผ์ด๋ค. ์ผ์์ฒด๋ ๋งค์ฐ ๊ธด ๊ฐ๋ฅ์ DNA๋ก ๊ตฌ์ฑ๋๋ฉฐ ๋ง์ ์ ์ ์(Gene)๊ฐ ๋ค์ด ์๋ค(์๋ฐฑ ๊ฐ์์ ์์ฒ ๊ฐ).
๋ณ์ ์ ํ๋ฒ์ผ๋ก์จ ์ฐ์ด๋ GA์์ ์ผ์์ฒด(Chromosome)์ ๋ณ์์ ์งํฉ, ์ ์ ์(Gene)์ ํ๋์ ๋ณ์๋ฅผ ์๋ฏธํ๋ค. ์๋ ๊ทธ๋ฆผ์ ์ด๋ฅผ ํํํด๋ณธ ๊ฒ์ด๋ค.
์๋๋ GA๋ฅผ ์ด์ฉํ ๋ณ์ ์ ํ๋ฒ์ ํ๋ก์ธ์ค์ ์ฉ์ด ์ค๋ช ์ ์๋์ ๊ฐ๋ค.
- Population Size: ์ฌ์ฉํ ์ผ์์ฒด์ ์
-
Fitness Function: ์ผ์์ฒด ํ๋ฆฌํฐ ํ๊ฐ ๊ธฐ์ค(AIC, BIC, R2)
- ๋ ์ผ์์ฒด๊ฐ ๊ฐ์ ์ฑ๋ฅ(performance)๋ฅผ ๋ณด์ด๋ฉด ๋ณ์์ ์๊ฐ ์ ์ ๊ฒ์ด good
- ๋ ์ผ์์ฒด์ ๋ณ์์ ๊ฐ์๊ฐ ๊ฐ์ผ๋ฉด ์ข ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ผ์์ฒด๊ฐ good
-
Selection Mechanism: ์ฐ์ํ ์ผ์์ฒด(superior chromosome)๋ฅผ ์ ํํ๋ ๋ฐฉ์
- deterministic selection: ์์ N%๋ง ์ฑํํ๊ณ , ํ์ (100-N)%๋ ํ๊ธฐํ๋ค.
- probabilistic selection: performance๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ํ ๊ฐ์ค์น(selection weight) ์ ์ ํ ํ๋ฅ ์ ์ผ๋ก ์ผ์์ฒด๋ฅผ ์ ํํ๋ค.
-
Crossover Mechanism: ๊ต๋ฐฐ(๊ต์ฐจ) ๋ฐฉ์
- crossover point: ๊ต์ฐจ๊ฐ ๋ช ๋ฒ ์ผ์ด๋ ์ง ์ ํด์ค๋ค. ๋์ ์์ฑ ํ cut-off๋ฅผ ๋์ผ๋ฉด crossover์ ํ๋๋ก ์ง์ ์ด ๊ฐ๋ฅํ๋ค.
-
Rate of Mutation : ๋์ฐ๋ณ์ด์จ
-
๋์ ์์ฑ ํ ๋์ฐ๋ณ์ด์จ๋ณด๋ค ๋ฎ์ ๊ฐ์ mutation์ ์ํํ๋ค.
-
-
iteration: ์ธ๋ ๋ฐ๋ณต ํ์
- ํ ์ธ๋๋ ํ์ต์ ์ด์ฉ๋ ์ผ์์ฒด ์ ํ๋ถํฐ ๋ค์ ์ธ๋์ ์ผ์์ฒด ์์ฑ๊น์ง์ ๋จ๊ณ๋ฅผ ์ผ์ปซ๋๋ค.
-
์์ ์ฅ์น๋ก์, ์ด์ ์ธ๋์ best ์ผ์์ฒด๋ค์ ๋ค์ ์ธ๋์ ๊ฐ์ ธ์์ ํจ๊ป ์ด์ฉํ๊ธฐ๋ ํ๋ค. ์ฑ๋ฅ์ด ๊ฐ์๋์ง ์๋๋ก ํ๋ ์ญํ ์ ์ํํ๋ค. (๋ง์ผ ๋ ์ข์ ์์ ์ธ๋๊ฐ ๋์ค๋ฉด best๊ฐ ๊ต์ฒด๋๊ณ , ๊ทธ๋ ์ง ์์ผ๋ฉด ํ์ฌ best ๊ฐ์ ์๋ ดํ๊ฒ ํ๋ ์ญํ )
- Stopping Criteria: ํ์ต ์ข ๋ฃ์กฐ๊ฑด
- minimum fitness improvement (ํ๋ฆฌํฐ ํฅ์์ด ๋ ์ด์ ์ผ์ด๋์ง ์์ ๋ ํ์ต ์ข ๋ฃ)
- maximum iteration (์ด๊ธฐ์ ์ค์ ํด ๋ ๋ฐ๋ณต ํ์์ ๋๋ฌ ์ ํ์ต ์ข ๋ฃ)
๊ธด ๊ธ ์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ^~^