[NLP] 5. ์ž์—ฐ์–ด ์ฐจ์› ์ถ•์†Œ(Dimension Reduction) ๊ธฐ๋ฒ•

Posted by Euisuk's Dev Log on January 28, 2025

[NLP] 5. ์ž์—ฐ์–ด ์ฐจ์› ์ถ•์†Œ(Dimension Reduction) ๊ธฐ๋ฒ•

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/NLP-Dimension-Reduction-Methods

์ฐจ์› ์ถ•์†Œ (Dimensionality Reduction)

๋ณธ ๊ฐ•์˜๋Š” DSBA ๊ฐ•ํ•„์„ฑ ๊ต์ˆ˜๋‹˜์˜ ๊ฐ•์˜๋ฅผ ์ฐธ์กฐํ•˜์—ฌ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ์ฐจ์› ์ถ•์†Œ๋ž€ ๋ฌด์—‡์ธ๊ฐ€?

์ฐจ์› ์ถ•์†Œ๋Š” ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ์‹œ๊ฐํ™”๋ฅผ ์šฉ์ดํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฐจ์› ์ถ•์†Œ๋Š” ๋‹ค์Œ ๋‘ ๊ฐ€์ง€๋กœ ๋ถ„๋ฅ˜๋ฉ๋‹ˆ๋‹ค:

  1. ํŠน์ง• ์„ ํƒ(Feature Selection): ์ค‘์š”ํ•˜์ง€ ์•Š์€ ํŠน์„ฑ์„ ์ œ๊ฑฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ„์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.
  2. ํŠน์ง• ์ถ”์ถœ(Feature Extraction): ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ์ž˜ ๋ณด์กดํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

๊ฐ•์˜์—์„œ๋Š” ์ฐจ์› ์ถ•์†Œ์˜ ์ •์˜์™€ ํ•จ๊ป˜, ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ•์กฐํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • ํ•˜๋‚˜์˜ ๋ฌธ์„œ์— ๋งŽ์€ ๋‹จ์–ด๋“ค์ด ํฌํ•จ๋œ๋‹ค.
  • ๋Œ€๋ถ€๋ถ„์˜ ๋‹จ์–ด๊ฐ€ ์ „์ฒ˜๋ฆฌ ํ›„ ๋ถ„์„์— ์‚ฌ์šฉ๋˜์ง€ ์•Š๋Š”๋‹ค.

1.1 ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๋ฌธ์ œ์ 

  1. ๊ณ ์ฐจ์›์„ฑ: ์šฉ์–ด(term)์˜ ์ˆ˜๊ฐ€ ๋ฌธ์„œ(document)์˜ ์ˆ˜๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์Šต๋‹ˆ๋‹ค.
  2. ํฌ์†Œ์„ฑ: ๋Œ€๋ถ€๋ถ„์˜ ์š”์†Œ๊ฐ€ 0์ธ ํฌ์†Œ ํ–‰๋ ฌ(Sparse Matrix) ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

1.2 ์ฐจ์› ์ถ•์†Œ๊ฐ€ ํ•„์š”ํ•œ ์ด์œ 

  1. ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๊ฒฐ๊ณผ์˜ ํ’ˆ์งˆ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด
  2. ์ปดํ“จํ„ฐ ์ž์›์˜ ํšจ์œจ์  ํ™œ์šฉ์„ ์œ„ํ•ด

  1. Feature Selection(ํŠน์ง• ์„ ํƒ)

ํŠน์ง• ์„ ํƒ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•˜๋Š” ๋งŽ์€ ๋ณ€์ˆ˜ ์ค‘์—์„œ ์œ ์˜๋ฏธํ•œ ๋ณ€์ˆ˜๋งŒ์„ ์„ ํƒํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

๊ฐ•์˜์—์„œ๋Š” ๋‹ค์Œ 10๊ฐ€์ง€ ํŠน์ง• ์„ ํƒ ์ง€ํ‘œ๋ฅผ ์†Œ๊ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  1. Document Frequency (DF): ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ์— ๋“ฑ์žฅํ•˜๋Š” ์ˆ˜.
  2. Accuracy: ํŠน์ • ๋‹จ์–ด๊ฐ€ ํŠน์ • ํด๋ž˜์Šค์˜ ๋ฌธ์„œ์— ๋“ฑ์žฅํ•˜๋Š” ์ •ํ™•๋„.
  3. Accuracy Ratio: ํด๋ž˜์Šค ๊ฐ„ ์ •ํ™•๋„์˜ ๋น„์œจ ์ฐจ์ด.
  4. Probability Ratio: ํด๋ž˜์Šค ๊ฐ„ ํ™•๋ฅ ์˜ ๋น„์œจ.
  5. Odds Ratio: ์„ฑ๊ณตํ•  ํ™•๋ฅ ๊ณผ ์‹คํŒจํ•  ํ™•๋ฅ ์˜ ๋น„์œจ.
  6. Odds Ratio Numerator: Odds Ratio์˜ ๋ถ„์ž๋ฅผ ๋‹จ์ˆœํ™”ํ•œ ๊ฐ’.
  7. F1-Measure: Recall๊ณผ Precision์˜ ์กฐํ™” ํ‰๊ท .
  8. Information Gain: ๋‹จ์–ด๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์ •๋ณด๋Ÿ‰.
  9. Chi-squared Statistic: ๋‹จ์–ด ๋“ฑ์žฅ ๋นˆ๋„์™€ ํด๋ž˜์Šค ๊ฐ„ ๋…๋ฆฝ์„ฑ์˜ ํ†ต๊ณ„์  ํ…Œ์ŠคํŠธ.
  10. Bi-Normal Separation: ํด๋ž˜์Šค ๊ฐ„ ๋ถ„ํฌ ์ฐจ์ด.

๊ฐ ์ง€ํ‘œ๋Š” ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์„ ๋ถ„์„ํ•˜์—ฌ ๋” ๋‚˜์€ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.


  1. Feature Extraction(ํŠน์ง• ์ถ”์ถœ)

ํŠน์ง• ์ถ”์ถœ์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋ฅผ ๋ณ€ํ™˜ํ•˜์—ฌ ์ƒˆ๋กœ์šด ์ €์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ฐ•์˜์—์„œ๋Š” ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ธฐ๋ฒ•์„ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค:

3.1 Singular Value Decomposition (SVD)

SVD๋Š” ํ–‰๋ ฌ์„ ์„ธ ๊ฐœ์˜ ํ–‰๋ ฌ(U, ฮฃ, Vแต€)๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ์ฃผ์š” ํŒจํ„ด์„ ์œ ์ง€ํ•˜๋ฉฐ ์ฐจ์›์„ ์ถ•์†Œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฐ•์˜์—์„œ๋Š” SVD์˜ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์ด ์„ค๋ช…๋˜์—ˆ์Šต๋‹ˆ๋‹ค:

  • U์™€ V๋Š” ์ง๊ต ํ–‰๋ ฌ์ด๋ฉฐ, ฮฃ๋Š” ๋Œ€๊ฐ ํ–‰๋ ฌ์ž…๋‹ˆ๋‹ค.
  • ฮฃ์˜ ๋Œ€๊ฐ ์›์†Œ๋Š” ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”๋„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ์ถ•์†Œ๋œ SVD๋ฅผ ํ†ตํ•ด ์ฃผ์š”ํ•œ ์„ฑ๋ถ„๋งŒ์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SVD๋Š” ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๊ณ , ๋ถˆํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.

3.2 Latent Semantic Analysis (LSA)

LSA๋Š” SVD๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์ž ์žฌ ์˜๋ฏธ๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

๊ฐ•์˜์—์„œ๋Š” ๋‹ค์Œ ๋‹จ๊ณ„๋ฅผ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค:

  1. SVD๋ฅผ ํ†ตํ•ด ํ–‰๋ ฌ A๋ฅผ ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค.
  2. ์ฃผ์š”ํ•œ k๊ฐœ์˜ ํŠน์ด๊ฐ’๋งŒ์„ ๋‚จ๊ฒจ ์ €์ฐจ์› ํ–‰๋ ฌ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  3. ์ƒ์„ฑ๋œ ์ €์ฐจ์› ํ–‰๋ ฌ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.

LSA๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์˜๋ฏธ๋ก ์  ๊ตฌ์กฐ๋ฅผ ์ถ”์ถœํ•˜์—ฌ ๊ฒ€์ƒ‰ ์—”์ง„ ๋ฐ ์ถ”์ฒœ ์‹œ์Šคํ…œ์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

3.3 Stochastic Neighbor Embedding (SNE)

SNE๋Š” ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ฐ€๊นŒ์šด ์ด์›ƒ ๊ด€๊ณ„๋ฅผ ์ €์ฐจ์›์—์„œ๋„ ์œ ์ง€ํ•˜๋ฉฐ ๋ณ€ํ™˜ํ•˜๋Š” ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๊ณ , ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ๋„ ์ด ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ตœ๋Œ€ํ•œ ๋ณด์กดํ•˜๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ๋งคํ•‘ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

๊ฐ•์˜์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ SNE์˜ ์ฃผ์š” ๊ฐœ๋…์„ ์†Œ๊ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค:

  • ๊ณ ์ฐจ์› ๊ณต๊ฐ„์˜ ํ™•๋ฅ ์  ์œ ์‚ฌ๋„ ์ •์˜: ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ๋‹ค๋ฅธ ํฌ์ธํŠธ๋ฅผ ๊ฐ€๊นŒ์šด ์ด์›ƒ์œผ๋กœ ์„ ํƒํ•  ํ™•๋ฅ ์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ™•๋ฅ ์€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
  • ์ €์ฐจ์› ๊ณต๊ฐ„์˜ ์œ ์‚ฌ๋„ ๋งคํ•‘: ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ๋„ ์œ ์‚ฌ๋„๋ฅผ ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ์ •์˜ํ•˜์—ฌ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์˜ ํ™•๋ฅ  ๋ถ„ํฌ์™€ ์ตœ๋Œ€ํ•œ ์ผ์น˜ํ•˜๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐฐ์น˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๋น„์šฉ ํ•จ์ˆ˜ ์ตœ์ ํ™”: ๊ณ ์ฐจ์›๊ณผ ์ €์ฐจ์› ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด Kullback-Leibler(KL) ๋ฐœ์‚ฐ์„ ๋น„์šฉ ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

SNE์˜ ํ•œ๊ณ„์ : ๊ธฐ์กด SNE๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋ฐ€์ง‘๋ ์ˆ˜๋ก ์ €์ฐจ์›์—์„œ์˜ ๋ถ„ํฌ๊ฐ€ ์™œ๊ณก๋˜๋Š” โ€œCrowding Problemโ€์„ ๊ฒช์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ณ ์ฐจ์›์—์„œ ๋„“๊ฒŒ ํผ์ ธ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์ €์ฐจ์›์œผ๋กœ ์ถ•์†Œ๋  ๋•Œ, ์ค‘์‹ฌ์œผ๋กœ ๋ชฐ๋ฆฌ๋Š” ๊ฒฝํ–ฅ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

(์ฐธ๊ณ ) Locally Linear Embedding (LLE)

LLE๋Š” SNE์™€ ๋‹ฌ๋ฆฌ, ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์ด์›ƒ ํฌ์ธํŠธ์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์œผ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ๋กœ์ปฌ ๊ตฌ์กฐ๋ฅผ ๋ณด์กดํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ๋‹ค์Œ์€ ๊ฐ•์˜์—์„œ ์†Œ๊ฐœ๋œ LLE์˜ ์ฃผ์š” ํŠน์ง•์ž…๋‹ˆ๋‹ค:

  • ๋กœ์ปฌ ๊ตฌ์กฐ ๋ณด์กด: ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋Š” ์ด์›ƒ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์˜ ์„ ํ˜• ์กฐํ•ฉ์œผ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ์ด ๊ด€๊ณ„๋ฅผ ์ €์ฐจ์›์—์„œ๋„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ: ํ™•๋ฅ  ๋Œ€์‹  ์„ ํ˜• ๊ฒฐํ•ฉ ๊ณ„์ˆ˜๋ฅผ ํ™œ์šฉํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.
  • ๋น„์„ ํ˜• ๊ด€๊ณ„ ํ‘œํ˜„: ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ๋ณต์žกํ•œ ํŒจํ„ด์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

SNE์™€ LLE์˜ ๊ด€๊ณ„

๊ฐ•์˜์—์„œ๋Š” SNE์™€ LLE๊ฐ€ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์ž„์„ ๋ช…ํ™•ํžˆ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. SNE๊ฐ€ LLE๋ฅผ ๊ทน๋ณตํ•˜๊ฑฐ๋‚˜ ๋Œ€์ฒดํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ๋‘ ๊ธฐ๋ฒ•์€ ์„œ๋กœ ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•๊ณผ ๋ชฉ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค:

  • SNE: ํ™•๋ฅ  ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์œผ๋กœ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ๋ณด์กด.
  • LLE: ์„ ํ˜• ๊ด€๊ณ„ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ์œผ๋กœ ๋กœ์ปฌ ๊ตฌ์กฐ๋ฅผ ๋ณด์กด.

LLE๋Š” ํŠนํžˆ ๋ฐ์ดํ„ฐ์˜ ์ง€์—ญ์  ๊ตฌ์กฐ๋ฅผ ๊ฐ•์กฐํ•˜๋ฉฐ, SNE๋Š” ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ „์ฒด์ ์ธ ์œ ์‚ฌ๋„๋ฅผ ์‹œ๊ฐํ™”ํ•˜๊ฑฐ๋‚˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ตฌ์กฐ๋ฅผ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

Symmetric SNE์™€ t-SNE

๊ฐ•์˜์—์„œ๋Š” Crowding Problem์„ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•œ ๋‘ ๊ฐ€์ง€ ๊ฐœ์„ ๋œ ๋ฒ„์ „์„ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค:

  1. Symmetric SNE: ๋Œ€์นญ์ ์ธ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์กด SNE์˜ ํ‘œํ˜„ ์‹ ๋ขฐ์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ €์ฐจ์›์—์„œ์˜ ๋ฐ์ดํ„ฐ ๊ฐ„ ์ƒ๋Œ€์ ์ธ ์œ ์‚ฌ๋„๋ฅผ ๋” ์ •ํ™•ํžˆ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  2. t-SNE: t-๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Crowding Problem์„ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•œ ๋ฒ„์ „์ž…๋‹ˆ๋‹ค. t-SNE๋Š” ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ตฌ์กฐ๋ฅผ ๋” ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ด๊ณ , ํด๋Ÿฌ์Šคํ„ฐ ๊ฐ„์˜ ๊ฒฝ๊ณ„๋ฅผ ๊ฐ•์กฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”์—์„œ ๋„๋ฆฌ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

Symmetric SNE

Symmetric SNE๋Š” ๊ธฐ์กด SNE์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๋น„๋Œ€์นญ์ ์ธ ํ™•๋ฅ  ๊ณ„์‚ฐ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์•ˆ๋œ ๊ฐœ์„ ๋œ ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • ๊ธฐ์กด SNE์—์„œ๋Š” ๊ณ ์ฐจ์›์—์„œ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ iii๊ฐ€ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ jjj๋ฅผ ์ด์›ƒ์œผ๋กœ ์„ ํƒํ•  ํ™•๋ฅ  pjโˆฃip_{j i}pjโˆฃiโ€‹๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด์—ˆ์œผ๋‚˜, Symmetric SNE๋Š” ์ด๋Ÿฌํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๋Œ€์‹  ๋Œ€์นญ์  ํ™•๋ฅ  pijp_{ij}pijโ€‹๋ฅผ ์ •์˜ํ•˜์—ฌ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋ฅผ ํ†ตํ•ด ๊ณ ์ฐจ์› ๊ณต๊ฐ„๊ณผ ์ €์ฐจ์› ๊ณต๊ฐ„์˜ ํ™•๋ฅ  ๋ถ„ํฌ ๊ฐ„ ์ผ๊ด€์„ฑ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

  1. ๋Œ€์นญ์  ํ™•๋ฅ  ์ •์˜:

    • Symmetric SNE๋Š” pij=pjโˆฃi+piโˆฃj2np_{ij} = \frac{p_{j i} + p_{i j}}{2n}pijโ€‹=2npjโˆฃiโ€‹+piโˆฃjโ€‹โ€‹๋กœ ํ™•๋ฅ ์„ ์ •์˜ํ•˜์—ฌ ํ™•๋ฅ  ๊ฐ’์ด ๋Œ€์นญ์„ฑ์„ ๊ฐ€์ง€๋„๋ก ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ ๋ฐ์ดํ„ฐ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ๋” ๊ท ์ผํ•˜๊ฒŒ ํ‘œํ˜„ํ•˜๋ฉฐ, ๊ธฐ์กด SNE ๋Œ€๋น„ ๊ณ„์‚ฐ์  ์•ˆ์ •์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  2. ๋น„์šฉ ํ•จ์ˆ˜ ๋ฐ ์ตœ์ ํ™”:

    • ๋น„์šฉ ํ•จ์ˆ˜๋Š” ์—ฌ์ „ํžˆ Kullbackโˆ’Leibler(KL)Kullback-Leibler(KL)Kullbackโˆ’Leibler(KL) ๋ฐœ์‚ฐ์„ ์‚ฌ์šฉํ•˜๋‚˜, ๋Œ€์นญ์  ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ตœ์ ํ™”๊ฐ€ ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.
    • ์ด๋Š” ๊ณ ์ฐจ์›๊ณผ ์ €์ฐจ์›์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์ฐจ์ด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ด๋ฉฐ, ๋ฐ์ดํ„ฐ ํ‘œํ˜„์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

ํ•œ๊ณ„์ 

Symmetric SNE๋Š” ๊ธฐ์กด SNE์˜ Crowding Problem์„ ์™„์ „ํžˆ ํ•ด๊ฒฐํ•˜์ง€๋Š” ๋ชปํ•˜๋ฉฐ, ์ €์ฐจ์›์—์„œ์˜ ๋ฐ์ดํ„ฐ ๋ฐ€๋„ ์™œ๊ณก์€ ์—ฌ์ „ํžˆ ์กด์žฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ๋ณด์™„ํ•˜๊ธฐ ์œ„ํ•ด t-SNE๊ฐ€ ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

t-SNE

t-SNE(t-distributed Stochastic Neighbor Embedding)๋Š” Symmetric SNE์—์„œ ๋” ๋‚˜์•„๊ฐ€ Crowding Problem์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ๊ธฐ๋ฒ•์œผ๋กœ, ์ €์ฐจ์›์—์„œ์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ๋”์šฑ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

  • ํŠนํžˆ, ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ตฌ์กฐ๋ฅผ ๋ช…ํ™•ํžˆ ๋“œ๋Ÿฌ๋‚ด๋Š” ๋ฐ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

  1. t-๋ถ„ํฌ ๊ธฐ๋ฐ˜ ํ™•๋ฅ  ์ •์˜:

    • ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ์˜ ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ์— t-๋ถ„ํฌ๋ฅผ ์ ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๊ฐ„ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด์งˆ์ˆ˜๋ก ์œ ์‚ฌ๋„๊ฐ€ ๊ธ‰๊ฒฉํžˆ ๊ฐ์†Œํ•˜์ง€ ์•Š๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋Š” ๊ณ ์ฐจ์›์—์„œ์˜ ๋ฐ์ดํ„ฐ ๊ฐ„ ๊ฑฐ๋ฆฌ์™€ ์ €์ฐจ์› ๊ฐ„ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•˜๊ฒŒ ํ‘œํ˜„๋˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•ฉ๋‹ˆ๋‹ค.
  2. ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”์— ์ตœ์ ํ™”:

    • ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ํด๋Ÿฌ์Šคํ„ฐ ๊ฐ„ ๊ฒฝ๊ณ„๋ฅผ ๊ฐ•์กฐํ•˜๋ฉฐ, ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ํŠนํžˆ, ๋ฐ์ดํ„ฐ ์ ๋“ค์ด ๊ณ ์œ ํ•œ ํŒจํ„ด์„ ๋‚˜ํƒ€๋‚ด๋„๋ก ์ €์ฐจ์›์— ๋ฐฐ์น˜๋˜๊ธฐ ๋•Œ๋ฌธ์— ์‹œ๊ฐ์ ์œผ๋กœ ์ง๊ด€์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  3. ๋น„์šฉ ํ•จ์ˆ˜ ๋ฐ ์ตœ์ ํ™”:

    • ๋น„์šฉ ํ•จ์ˆ˜๋Š” KL ๋ฐœ์‚ฐ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ๊ณ ์ฐจ์›๊ณผ ์ €์ฐจ์›์˜ ํ™•๋ฅ  ๋ถ„ํฌ ์ฐจ์ด๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • ์ตœ์ ํ™” ๊ณผ์ •์—์„œ๋Š” t-๋ถ„ํฌ์˜ ํŠน์„ฑ์„ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ๋ฅผ ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ์žฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.

ํ•œ๊ณ„์ 

t-SNE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ „์ฒด์ ์ธ ๊ตฌ์กฐ๋ฅผ ์œ ์ง€ํ•˜๊ธฐ๋ณด๋‹ค๋Š” ์ง€์—ญ์  ๊ตฌ์กฐ(Local Structure)๋ฅผ ๊ฐ•์กฐํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋˜ํ•œ, ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๊ณ„์‚ฐ ๋น„์šฉ์ด ์ฆ๊ฐ€ํ•˜๋ฉฐ, ์ดˆ๊ธฐ ์„ค์ •(์˜ˆ: ํผํ”Œ๋ ‰์‹œํ‹ฐ ๊ฐ’)์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๋ก 

์ด๋ฒˆ ๊ฐ•์˜๋Š” ์ฐจ์› ์ถ•์†Œ์˜ ์ค‘์š”์„ฑ๊ณผ ์ด๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋‹ค๋ค˜์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ, Feature Selection๊ณผ Feature Extraction์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ํฐ ์ถ•์„ ์ค‘์‹ฌ์œผ๋กœ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์˜ ํŠน์„ฑ๊ณผ ์ ์šฉ ์‚ฌ๋ก€๋ฅผ ๋น„๊ต ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Feature Selection์€ ๊ณ ์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ค„์ด๊ธฐ ์œ„ํ•ด ๋ถˆํ•„์š”ํ•œ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ฑฐํ•˜๋ฉฐ, ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
  • Feature Extraction์€ ๊ธฐ์กด ๋ฐ์ดํ„ฐ๋ฅผ ์ €์ฐจ์›์˜ ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋ฉฐ, SVD์™€ LSA๋ฅผ ํ†ตํ•ด ์ž ์žฌ ์˜๋ฏธ๋ฅผ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜, SNE์™€ t-SNE๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์‹œ๊ฐํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, SNE์™€ ๊ทธ ๊ฐœ์„  ๋ฒ„์ „์ธ Symmetric SNE ๋ฐ t-SNE๋Š” ๋ฐ์ดํ„ฐ์˜ ์ „์ฒด์ ์ธ ์œ ์‚ฌ๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ํด๋Ÿฌ์Šคํ„ฐ ๊ฐ„ ๊ฒฝ๊ณ„๋ฅผ ๊ฐ•์กฐํ•˜๋Š” ๋ฐ ๊ฐ•์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

  • ์ด๋Š” ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”์™€ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์˜ ํƒ์ƒ‰์— ๋งค์šฐ ์œ ์šฉํ•˜๋ฉฐ, Crowding Problem๊ณผ ๊ฐ™์€ ๊ธฐ์กด ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, LLE์™€ SNE๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชฉ์ ๊ณผ ์ ‘๊ทผ๋ฒ•์„ ๊ฐ€์ง„ ๋…๋ฆฝ์ ์ธ ๊ธฐ๋ฒ•์ž„์„ ์ดํ•ดํ•˜๊ณ , ๊ฐ๊ฐ์˜ ์žฅ๋‹จ์ ์„ ํŒŒ์•…ํ•˜์—ฌ ์ ์ ˆํžˆ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์˜ ์„ ํƒ์€ ๋ถ„์„ ๋ชฉํ‘œ์™€ ๋ฐ์ดํ„ฐ์˜ ํŠน์„ฑ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ ธ์•ผ ํ•˜๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋” ๋‚˜์€ ๋ถ„์„๊ณผ ๋ชจ๋ธ๋ง ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.



-->