[NLP] 5. ์์ฐ์ด ์ฐจ์ ์ถ์(Dimension Reduction) ๊ธฐ๋ฒ
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/NLP-Dimension-Reduction-Methods
์ฐจ์ ์ถ์ (Dimensionality Reduction)
๋ณธ ๊ฐ์๋ DSBA ๊ฐํ์ฑ ๊ต์๋์ ๊ฐ์๋ฅผ ์ฐธ์กฐํ์ฌ ์์ฑ๋์์ต๋๋ค.
์ฐจ์ ์ถ์๋ ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ ๋ฐ์ดํฐ๋ก ๋ณํํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
์ด๋ฅผ ํตํด ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๊ณ , ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ์๊ฐํ๋ฅผ ์ฉ์ดํ๊ฒ ํ ์ ์์ต๋๋ค.
์ฐจ์ ์ถ์๋ ๋ค์ ๋ ๊ฐ์ง๋ก ๋ถ๋ฅ๋ฉ๋๋ค:
- ํน์ง ์ ํ(Feature Selection): ์ค์ํ์ง ์์ ํน์ฑ์ ์ ๊ฑฐํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ํํฉ๋๋ค.
- ํน์ง ์ถ์ถ(Feature Extraction): ๋ฐ์ดํฐ์ ํน์ฑ์ ์ ๋ณด์กดํ๋ ์๋ก์ด ๋ณ์๋ฅผ ์ถ์ถํฉ๋๋ค.
๊ฐ์์์๋ ์ฐจ์ ์ถ์์ ์ ์์ ํจ๊ป, ํ ์คํธ ๋ฐ์ดํฐ์ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ ๊ฐ์กฐํ์์ต๋๋ค:
- ํ๋์ ๋ฌธ์์ ๋ง์ ๋จ์ด๋ค์ด ํฌํจ๋๋ค.
- ๋๋ถ๋ถ์ ๋จ์ด๊ฐ ์ ์ฒ๋ฆฌ ํ ๋ถ์์ ์ฌ์ฉ๋์ง ์๋๋ค.
1.1 ํ ์คํธ ๋ฐ์ดํฐ์ ๋ฌธ์ ์
- ๊ณ ์ฐจ์์ฑ: ์ฉ์ด(term)์ ์๊ฐ ๋ฌธ์(document)์ ์๋ณด๋ค ํจ์ฌ ๋ง์ต๋๋ค.
- ํฌ์์ฑ: ๋๋ถ๋ถ์ ์์๊ฐ 0์ธ ํฌ์ ํ๋ ฌ(Sparse Matrix) ํํ๋ฅผ ๊ฐ์ง๋๋ค.
1.2 ์ฐจ์ ์ถ์๊ฐ ํ์ํ ์ด์
- ํ ์คํธ ๋ง์ด๋ ๊ฒฐ๊ณผ์ ํ์ง์ ๋์ด๊ธฐ ์ํด
- ์ปดํจํฐ ์์์ ํจ์จ์ ํ์ฉ์ ์ํด
ํน์ง ์ ํ์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๋ ๋ง์ ๋ณ์ ์ค์์ ์ ์๋ฏธํ ๋ณ์๋ง์ ์ ํํ๋ ๊ณผ์ ์ ๋๋ค.
๊ฐ์์์๋ ๋ค์ 10๊ฐ์ง ํน์ง ์ ํ ์งํ๋ฅผ ์๊ฐํ์์ต๋๋ค:
- Document Frequency (DF): ํน์ ๋จ์ด๊ฐ ๋ฌธ์์ ๋ฑ์ฅํ๋ ์.
- Accuracy: ํน์ ๋จ์ด๊ฐ ํน์ ํด๋์ค์ ๋ฌธ์์ ๋ฑ์ฅํ๋ ์ ํ๋.
- Accuracy Ratio: ํด๋์ค ๊ฐ ์ ํ๋์ ๋น์จ ์ฐจ์ด.
- Probability Ratio: ํด๋์ค ๊ฐ ํ๋ฅ ์ ๋น์จ.
- Odds Ratio: ์ฑ๊ณตํ ํ๋ฅ ๊ณผ ์คํจํ ํ๋ฅ ์ ๋น์จ.
- Odds Ratio Numerator: Odds Ratio์ ๋ถ์๋ฅผ ๋จ์ํํ ๊ฐ.
- F1-Measure: Recall๊ณผ Precision์ ์กฐํ ํ๊ท .
- Information Gain: ๋จ์ด๊ฐ ์ ๊ณตํ๋ ์ ๋ณด๋.
- Chi-squared Statistic: ๋จ์ด ๋ฑ์ฅ ๋น๋์ ํด๋์ค ๊ฐ ๋ ๋ฆฝ์ฑ์ ํต๊ณ์ ํ ์คํธ.
- Bi-Normal Separation: ํด๋์ค ๊ฐ ๋ถํฌ ์ฐจ์ด.
๊ฐ ์งํ๋ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ถ์ํ์ฌ ๋ ๋์ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ํ์ฉ๋ฉ๋๋ค.
ํน์ง ์ถ์ถ์ ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ๋ณํํ์ฌ ์๋ก์ด ์ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ฐ์์์๋ ๋ค์ ์ธ ๊ฐ์ง ์ฃผ์ ๊ธฐ๋ฒ์ ๋ค๋ฃจ์์ต๋๋ค:
3.1 Singular Value Decomposition (SVD)
SVD๋ ํ๋ ฌ์ ์ธ ๊ฐ์ ํ๋ ฌ(U, ฮฃ, Vแต)๋ก ๋ถํดํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ผ๋ก ๋ณํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฐ์ดํฐ์ ์ฃผ์ ํจํด์ ์ ์งํ๋ฉฐ ์ฐจ์์ ์ถ์ํ ์ ์์ต๋๋ค.
๊ฐ์์์๋ SVD์ ๋ค์๊ณผ ๊ฐ์ ํน์ง์ด ์ค๋ช ๋์์ต๋๋ค:
- U์ V๋ ์ง๊ต ํ๋ ฌ์ด๋ฉฐ, ฮฃ๋ ๋๊ฐ ํ๋ ฌ์ ๋๋ค.
- ฮฃ์ ๋๊ฐ ์์๋ ๋ฐ์ดํฐ์ ์ค์๋๋ฅผ ๋ํ๋ ๋๋ค.
- ์ถ์๋ SVD๋ฅผ ํตํด ์ฃผ์ํ ์ฑ๋ถ๋ง์ ์ ํํ ์ ์์ต๋๋ค.
SVD๋ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ , ๋ถํ์ํ ์ ๋ณด๋ฅผ ์ ๊ฑฐํ์ฌ ๋ฐ์ดํฐ ๋ถ์์ ํจ์จ์ฑ์ ๊ทน๋ํํฉ๋๋ค.
3.2 Latent Semantic Analysis (LSA)
LSA๋ SVD๋ฅผ ์ฌ์ฉํ์ฌ ํ ์คํธ ๋ฐ์ดํฐ์ ์ ์ฌ ์๋ฏธ๋ฅผ ์ถ์ถํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
๊ฐ์์์๋ ๋ค์ ๋จ๊ณ๋ฅผ ๋ค๋ฃจ์์ต๋๋ค:
- SVD๋ฅผ ํตํด ํ๋ ฌ A๋ฅผ ๋ถํดํฉ๋๋ค.
- ์ฃผ์ํ k๊ฐ์ ํน์ด๊ฐ๋ง์ ๋จ๊ฒจ ์ ์ฐจ์ ํ๋ ฌ์ ์์ฑํฉ๋๋ค.
- ์์ฑ๋ ์ ์ฐจ์ ํ๋ ฌ์ ํตํด ๋ฐ์ดํฐ ๋ง์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํฉ๋๋ค.
LSA๋ ํ ์คํธ ๋ฐ์ดํฐ์ ์๋ฏธ๋ก ์ ๊ตฌ์กฐ๋ฅผ ์ถ์ถํ์ฌ ๊ฒ์ ์์ง ๋ฐ ์ถ์ฒ ์์คํ ์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
3.3 Stochastic Neighbor Embedding (SNE)
SNE๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์์ ๋ฐ์ดํฐ ๊ฐ์ ๊ฐ๊น์ด ์ด์ ๊ด๊ณ๋ฅผ ์ ์ฐจ์์์๋ ์ ์งํ๋ฉฐ ๋ณํํ๋ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ ๋๋ค. ์ด๋ ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ์ ์ฌ๋๋ฅผ ํ๋ฅ ์ ์ผ๋ก ํํํ๊ณ , ์ ์ฐจ์ ๊ณต๊ฐ์์๋ ์ด ํ๋ฅ ๋ถํฌ๋ฅผ ์ต๋ํ ๋ณด์กดํ๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋งคํํ๋ ๋ฐฉ์์ ๋๋ค.
๊ฐ์์์๋ ๋ค์๊ณผ ๊ฐ์ SNE์ ์ฃผ์ ๊ฐ๋ ์ ์๊ฐํ์์ต๋๋ค:
- ๊ณ ์ฐจ์ ๊ณต๊ฐ์ ํ๋ฅ ์ ์ ์ฌ๋ ์ ์: ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์์ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ค๋ฅธ ํฌ์ธํธ๋ฅผ ๊ฐ๊น์ด ์ด์์ผ๋ก ์ ํํ ํ๋ฅ ์ ์ ์ํฉ๋๋ค. ์ด ํ๋ฅ ์ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
- ์ ์ฐจ์ ๊ณต๊ฐ์ ์ ์ฌ๋ ๋งคํ: ์ ์ฐจ์ ๊ณต๊ฐ์์๋ ์ ์ฌ๋๋ฅผ ๋์ผํ ๋ฐฉ์์ผ๋ก ์ ์ํ์ฌ ๊ณ ์ฐจ์ ๊ณต๊ฐ์ ํ๋ฅ ๋ถํฌ์ ์ต๋ํ ์ผ์นํ๋๋ก ๋ฐ์ดํฐ๋ฅผ ๋ฐฐ์นํฉ๋๋ค.
- ๋น์ฉ ํจ์ ์ต์ ํ: ๊ณ ์ฐจ์๊ณผ ์ ์ฐจ์ ํ๋ฅ ๋ถํฌ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๊ธฐ ์ํด Kullback-Leibler(KL) ๋ฐ์ฐ์ ๋น์ฉ ํจ์๋ก ์ฌ์ฉํฉ๋๋ค.
SNE์ ํ๊ณ์ : ๊ธฐ์กด SNE๋ ๋ฐ์ดํฐ๊ฐ ๋ฐ์ง๋ ์๋ก ์ ์ฐจ์์์์ ๋ถํฌ๊ฐ ์๊ณก๋๋ โCrowding Problemโ์ ๊ฒช์ต๋๋ค. ์ด๋ ๊ณ ์ฐจ์์์ ๋๊ฒ ํผ์ ธ ์๋ ๋ฐ์ดํฐ๊ฐ ์ ์ฐจ์์ผ๋ก ์ถ์๋ ๋, ์ค์ฌ์ผ๋ก ๋ชฐ๋ฆฌ๋ ๊ฒฝํฅ ๋๋ฌธ์ ๋๋ค.
(์ฐธ๊ณ ) Locally Linear Embedding (LLE)
LLE๋ SNE์ ๋ฌ๋ฆฌ, ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ์ด์ ํฌ์ธํธ์ ์ ํ ๊ฒฐํฉ์ผ๋ก ํํํ์ฌ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๋ก์ปฌ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ๋ ๋ฐฉ์์ ๋๋ค. ๋ค์์ ๊ฐ์์์ ์๊ฐ๋ LLE์ ์ฃผ์ ํน์ง์ ๋๋ค:
- ๋ก์ปฌ ๊ตฌ์กฐ ๋ณด์กด: ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ ์ด์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ์ ํ ์กฐํฉ์ผ๋ก ํํ๋๋ฉฐ, ์ด ๊ด๊ณ๋ฅผ ์ ์ฐจ์์์๋ ์ ์งํฉ๋๋ค.
- ํจ์จ์ ์ธ ๊ณ์ฐ: ํ๋ฅ ๋์ ์ ํ ๊ฒฐํฉ ๊ณ์๋ฅผ ํ์ฉํ๋ฏ๋ก ๊ณ์ฐ ํจ์จ์ฑ์ด ๋์ต๋๋ค.
- ๋น์ ํ ๊ด๊ณ ํํ: ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ๋ณต์กํ ํจํด์ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ํ ์ ์์ต๋๋ค.
SNE์ LLE์ ๊ด๊ณ
๊ฐ์์์๋ SNE์ LLE๊ฐ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์๋ ๊ธฐ๋ฒ์์ ๋ช ํํ ํ์์ต๋๋ค. SNE๊ฐ LLE๋ฅผ ๊ทน๋ณตํ๊ฑฐ๋ ๋์ฒดํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ ๊ฒ์ ์๋๋ฉฐ, ๋ ๊ธฐ๋ฒ์ ์๋ก ๋ค๋ฅธ ์ ๊ทผ๋ฒ๊ณผ ๋ชฉ์ ์ ๊ฐ์ง๋๋ค:
- SNE: ํ๋ฅ ๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก ๋ฐ์ดํฐ ํฌ์ธํธ ๊ฐ์ ์ ์ฌ๋๋ฅผ ๋ณด์กด.
- LLE: ์ ํ ๊ด๊ณ ๊ธฐ๋ฐ ์ ๊ทผ์ผ๋ก ๋ก์ปฌ ๊ตฌ์กฐ๋ฅผ ๋ณด์กด.
LLE๋ ํนํ ๋ฐ์ดํฐ์ ์ง์ญ์ ๊ตฌ์กฐ๋ฅผ ๊ฐ์กฐํ๋ฉฐ, SNE๋ ๋ฐ์ดํฐ ๊ฐ์ ์ ์ฒด์ ์ธ ์ ์ฌ๋๋ฅผ ์๊ฐํํ๊ฑฐ๋ ํด๋ฌ์คํฐ๋ง ๊ตฌ์กฐ๋ฅผ ํ์ํ๋ ๋ฐ ์ ํฉํฉ๋๋ค.
Symmetric SNE์ t-SNE
๊ฐ์์์๋ Crowding Problem์ ๊ทน๋ณตํ๊ธฐ ์ํ ๋ ๊ฐ์ง ๊ฐ์ ๋ ๋ฒ์ ์ ๋ค๋ฃจ์์ต๋๋ค:
- Symmetric SNE: ๋์นญ์ ์ธ ํ๋ฅ ๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์กด SNE์ ํํ ์ ๋ขฐ์ฑ์ ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ ์ฐจ์์์์ ๋ฐ์ดํฐ ๊ฐ ์๋์ ์ธ ์ ์ฌ๋๋ฅผ ๋ ์ ํํ ๋ฐ์ํ ์ ์์ต๋๋ค.
- t-SNE: t-๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ Crowding Problem์ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ ๋ฒ์ ์ ๋๋ค. t-SNE๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ํด๋ฌ์คํฐ๋ง ๊ตฌ์กฐ๋ฅผ ๋ ๋ช ํํ ๋๋ฌ๋ด๊ณ , ํด๋ฌ์คํฐ ๊ฐ์ ๊ฒฝ๊ณ๋ฅผ ๊ฐ์กฐํ์ฌ ๋ฐ์ดํฐ ์๊ฐํ์์ ๋๋ฆฌ ํ์ฉ๋ฉ๋๋ค.
Symmetric SNE
Symmetric SNE๋ ๊ธฐ์กด SNE์์ ๋ฐ์ํ๋ ๋น๋์นญ์ ์ธ ํ๋ฅ ๊ณ์ฐ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๊ณ ์๋ ๊ฐ์ ๋ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ ๋๋ค.
-
๊ธฐ์กด SNE์์๋ ๊ณ ์ฐจ์์์ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ iii๊ฐ ๋ค๋ฅธ ๋ฐ์ดํฐ ํฌ์ธํธ jjj๋ฅผ ์ด์์ผ๋ก ์ ํํ ํ๋ฅ pjโฃip_{j i}pjโฃiโ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ์์ด์์ผ๋, Symmetric SNE๋ ์ด๋ฌํ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋์ ๋์นญ์ ํ๋ฅ pijp_{ij}pijโ๋ฅผ ์ ์ํ์ฌ ํํํฉ๋๋ค. - ์ด๋ฅผ ํตํด ๊ณ ์ฐจ์ ๊ณต๊ฐ๊ณผ ์ ์ฐจ์ ๊ณต๊ฐ์ ํ๋ฅ ๋ถํฌ ๊ฐ ์ผ๊ด์ฑ์ ๊ฐํํฉ๋๋ค.
์ฃผ์ ํน์ง
-
๋์นญ์ ํ๋ฅ ์ ์:
-
Symmetric SNE๋ pij=pjโฃi+piโฃj2np_{ij} = \frac{p_{j i} + p_{i j}}{2n}pijโ=2npjโฃiโ+piโฃjโโ๋ก ํ๋ฅ ์ ์ ์ํ์ฌ ํ๋ฅ ๊ฐ์ด ๋์นญ์ฑ์ ๊ฐ์ง๋๋ก ์ค์ ํฉ๋๋ค. - ์ด๋ฌํ ๋ฐฉ์์ ์ ์ฐจ์ ๊ณต๊ฐ์์์ ๋ฐ์ดํฐ ๊ฐ ๊ด๊ณ๋ฅผ ๋ ๊ท ์ผํ๊ฒ ํํํ๋ฉฐ, ๊ธฐ์กด SNE ๋๋น ๊ณ์ฐ์ ์์ ์ฑ์ ์ ๊ณตํฉ๋๋ค.
-
-
๋น์ฉ ํจ์ ๋ฐ ์ต์ ํ:
- ๋น์ฉ ํจ์๋ ์ฌ์ ํ KullbackโLeibler(KL)Kullback-Leibler(KL)KullbackโLeibler(KL) ๋ฐ์ฐ์ ์ฌ์ฉํ๋, ๋์นญ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ํ๊ฐ ์งํ๋ฉ๋๋ค.
- ์ด๋ ๊ณ ์ฐจ์๊ณผ ์ ์ฐจ์์ ๋ฐ์ดํฐ ๋ถํฌ ์ฐจ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ค์ด๋ฉฐ, ๋ฐ์ดํฐ ํํ์ ์ ๋ขฐ์ฑ์ ๋์ ๋๋ค.
ํ๊ณ์
Symmetric SNE๋ ๊ธฐ์กด SNE์ Crowding Problem์ ์์ ํ ํด๊ฒฐํ์ง๋ ๋ชปํ๋ฉฐ, ์ ์ฐจ์์์์ ๋ฐ์ดํฐ ๋ฐ๋ ์๊ณก์ ์ฌ์ ํ ์กด์ฌํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ๋ณด์ํ๊ธฐ ์ํด t-SNE๊ฐ ๋์ ๋์์ต๋๋ค.
t-SNE
t-SNE(t-distributed Stochastic Neighbor Embedding)๋ Symmetric SNE์์ ๋ ๋์๊ฐ Crowding Problem์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๊ธฐ๋ฒ์ผ๋ก, ์ ์ฐจ์์์์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋์ฑ ์์ฐ์ค๋ฝ๊ฒ ํํํฉ๋๋ค.
- ํนํ, ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ํด๋ฌ์คํฐ๋ง ๊ตฌ์กฐ๋ฅผ ๋ช ํํ ๋๋ฌ๋ด๋ ๋ฐ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ฃผ์ ํน์ง
-
t-๋ถํฌ ๊ธฐ๋ฐ ํ๋ฅ ์ ์:
- ์ ์ฐจ์ ๊ณต๊ฐ์์์ ์ ์ฌ๋ ๊ณ์ฐ์ t-๋ถํฌ๋ฅผ ์ ์ฉํ์ฌ ๋ฐ์ดํฐ ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด์ง์๋ก ์ ์ฌ๋๊ฐ ๊ธ๊ฒฉํ ๊ฐ์ํ์ง ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ์ด๋ ๊ณ ์ฐจ์์์์ ๋ฐ์ดํฐ ๊ฐ ๊ฑฐ๋ฆฌ์ ์ ์ฐจ์ ๊ฐ ๊ฑฐ๋ฆฌ๊ฐ ๋ถ๊ท ํํ๊ฒ ํํ๋๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค.
-
๋ฐ์ดํฐ ์๊ฐํ์ ์ต์ ํ:
- ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ํด๋ฌ์คํฐ ๊ฐ ๊ฒฝ๊ณ๋ฅผ ๊ฐ์กฐํ๋ฉฐ, ์ ์ฐจ์ ๊ณต๊ฐ์์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ๋ฆฌํฉ๋๋ค.
- ํนํ, ๋ฐ์ดํฐ ์ ๋ค์ด ๊ณ ์ ํ ํจํด์ ๋ํ๋ด๋๋ก ์ ์ฐจ์์ ๋ฐฐ์น๋๊ธฐ ๋๋ฌธ์ ์๊ฐ์ ์ผ๋ก ์ง๊ด์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
-
๋น์ฉ ํจ์ ๋ฐ ์ต์ ํ:
- ๋น์ฉ ํจ์๋ KL ๋ฐ์ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ๊ณ ์ฐจ์๊ณผ ์ ์ฐจ์์ ํ๋ฅ ๋ถํฌ ์ฐจ์ด๋ฅผ ์ต์ํํฉ๋๋ค.
- ์ต์ ํ ๊ณผ์ ์์๋ t-๋ถํฌ์ ํน์ฑ์ ํ์ฉํด ๋ฐ์ดํฐ์ ๊ตฌ์กฐ๋ฅผ ์ ์ฐจ์ ๊ณต๊ฐ์์ ํจ๊ณผ์ ์ผ๋ก ์ฌํํฉ๋๋ค.
ํ๊ณ์
t-SNE๋ ๋ฐ์ดํฐ์ ์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ฅผ ์ ์งํ๊ธฐ๋ณด๋ค๋ ์ง์ญ์ ๊ตฌ์กฐ(Local Structure)๋ฅผ ๊ฐ์กฐํ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค.
- ๋ํ, ๋ฐ์ดํฐ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ๊ณ์ฐ ๋น์ฉ์ด ์ฆ๊ฐํ๋ฉฐ, ์ด๊ธฐ ์ค์ (์: ํผํ๋ ์ํฐ ๊ฐ)์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค.
๊ฒฐ๋ก
์ด๋ฒ ๊ฐ์๋ ์ฐจ์ ์ถ์์ ์ค์์ฑ๊ณผ ์ด๋ฅผ ๊ตฌํํ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ ์ฌ๋ ์๊ฒ ๋ค๋ค์ต๋๋ค.
ํนํ, Feature Selection
๊ณผ Feature Extraction
์ด๋ผ๋ ๋ ๊ฐ์ง ํฐ ์ถ์ ์ค์ฌ์ผ๋ก ๋ค์ํ ๊ธฐ๋ฒ์ ํน์ฑ๊ณผ ์ ์ฉ ์ฌ๋ก๋ฅผ ๋น๊ต ๋ถ์ํ์ต๋๋ค.
- Feature Selection์ ๊ณ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ค์ด๊ธฐ ์ํด ๋ถํ์ํ ๋ณ์๋ฅผ ์ ๊ฑฐํ๋ฉฐ, ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
- Feature Extraction์ ๊ธฐ์กด ๋ฐ์ดํฐ๋ฅผ ์ ์ฐจ์์ ํํ์ผ๋ก ๋ณํํ๋ฉฐ, SVD์ LSA๋ฅผ ํตํด ์ ์ฌ ์๋ฏธ๋ฅผ ์ถ์ถํ๊ฑฐ๋, SNE์ t-SNE๋ฅผ ํตํด ๋ฐ์ดํฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์๊ฐํํ ์ ์์ต๋๋ค.
๋ํ, SNE์ ๊ทธ ๊ฐ์ ๋ฒ์ ์ธ Symmetric SNE ๋ฐ t-SNE๋ ๋ฐ์ดํฐ์ ์ ์ฒด์ ์ธ ์ ์ฌ๋๋ฅผ ์ ์งํ๋ฉด์ ํด๋ฌ์คํฐ ๊ฐ ๊ฒฝ๊ณ๋ฅผ ๊ฐ์กฐํ๋ ๋ฐ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
- ์ด๋ ๋ฐ์ดํฐ ์๊ฐํ์ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์ ํ์์ ๋งค์ฐ ์ ์ฉํ๋ฉฐ, Crowding Problem๊ณผ ๊ฐ์ ๊ธฐ์กด ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
๋ง์ง๋ง์ผ๋ก, LLE์ SNE๊ฐ ์๋ก ๋ค๋ฅธ ๋ชฉ์ ๊ณผ ์ ๊ทผ๋ฒ์ ๊ฐ์ง ๋ ๋ฆฝ์ ์ธ ๊ธฐ๋ฒ์์ ์ดํดํ๊ณ , ๊ฐ๊ฐ์ ์ฅ๋จ์ ์ ํ์ ํ์ฌ ์ ์ ํ ํ์ฉํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ ์ ํ์ ๋ถ์ ๋ชฉํ์ ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ฐ๋ผ ๋ฌ๋ผ์ ธ์ผ ํ๋ฉฐ, ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ ๋์ ๋ถ์๊ณผ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ํ ์ ์์ต๋๋ค.