[NLP] 2. Steps of Text Analytics

Posted by Euisuk's Dev Log on July 28, 2024

[NLP] 2. Steps of Text Analytics

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/ํ…์ŠคํŠธ-๋ถ„์„-๋‹จ๊ณ„

Steps of Text Analytics

ํ…์ŠคํŠธ ๋ถ„์„์€ ๋น„์ •ํ˜• ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์กฐํ™”ํ•˜๊ณ  ์œ ์˜๋ฏธํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•œ ์ผ๋ จ์˜ ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ํ•ด๋‹น ํฌ์ŠคํŠธ์—์„œ๋Š” ํ…์ŠคํŠธ ๋ถ„์„์˜ ์ฃผ์š” ๋‹จ๊ณ„๋ฅผ ์ˆœ์ฐจ์ ์œผ๋กœ ์†Œ๊ฐœํ•˜์—ฌ, ๊ฐ ๋‹จ๊ณ„์—์„œ ์ˆ˜ํ–‰๋˜๋Š” ์ž‘์—…๊ณผ ๊ทธ ์ค‘์š”์„ฑ์„ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

โ‘  STEP 1. ์ •์˜ ๋ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘(Define & Collect)

  • ํ…์ŠคํŠธ ๋ถ„์„์˜ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋ถ„์„ํ•  ๋ชฉํ‘œ๋ฅผ ๋ช…ํ™•ํžˆ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
  • ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋ถ„์„์˜ ๋ฐฉํ–ฅ์„ ์„ค์ •ํ•˜๊ณ  ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜์—ฌ ๋ถ„์„์˜ ๊ธฐ์ดˆ๋ฅผ ๋‹ค์ง‘๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฑ—๋ด‡ ๊ฐœ๋ฐœ์„ ์œ„ํ•ด ์‚ฌ์šฉ์ž์™€์˜ ๋Œ€ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ฑฐ๋‚˜, ํŠน์ • ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ด€๋ จ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ‘ก STEP 2. ์ „์ฒ˜๋ฆฌ ๋ฐ ๋ณ€ํ™˜(Preprocess & Transform)

  • ์ˆ˜์ง‘๋œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋Š” ๊ทธ๋Œ€๋กœ ๋ถ„์„์— ์‚ฌ์šฉ๋˜๊ธฐ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ์—, ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์„ ํ†ตํ•ด ๊นจ๋—ํ•˜๊ณ  ๋ถ„์„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋ฐ์ดํ„ฐ์—์„œ ๋ถˆํ•„์š”ํ•œ ์š”์†Œ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ , ๋ฌธ์žฅ๊ณผ ๋‹จ์–ด ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ์˜๋ฏธ ์žˆ๋Š” ๋ถ„์„ ๋‹จ์œ„๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค. ์ „์ฒ˜๋ฆฌ ์ž‘์—…์—๋Š” ๋ถˆ์šฉ์–ด ์ œ๊ฑฐ, ํ˜•ํƒœ์†Œ ๋ถ„์„, ํ† ํฐํ™” ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

โ‘ข STEP 3. ํŠน์ง• ์„ ํƒ ๋ฐ ์ถ”์ถœ(Select & Extract Features)

  • ์ „์ฒ˜๋ฆฌ๊ฐ€ ์™„๋ฃŒ๋œ ๋ฐ์ดํ„ฐ์—์„œ ๋ถ„์„์— ํ•„์š”ํ•œ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์„ ํƒํ•˜๊ณ  ์ถ”์ถœํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.
  • ์ด ๋‹จ๊ณ„์—์„œ๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๊ณ , ์ค‘์š”ํ•œ ๋‹จ์–ด ๋˜๋Š” ๋ฌธ์„œ์˜ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•˜์—ฌ ๋ถ„์„์˜ ํ•ต์‹ฌ ์š”์†Œ๋ฅผ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” TF-IDF, ์ฃผ์ œ ๋ชจ๋ธ๋ง(LDA), ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

โ‘ฃ STEP 4. ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต ๋ฐ ํ‰๊ฐ€(Algorithm Learning & Evaluation)

  • ์ตœ์ข… ๋‹จ๊ณ„์—์„œ๋Š” ์ „ ๋‹จ๊ณ„์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์„ ๋ฐ”ํƒ•์œผ๋กœ ์ ์ ˆํ•œ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ•™์Šต์‹œํ‚ค๊ณ , ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด ๋‹จ๊ณ„์—์„œ๋Š” ๋ถ„๋ฅ˜, ๊ตฐ์ง‘ํ™”, ํšŒ๊ท€ ๋“ฑ์˜ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ , ๋ชจ๋ธ์˜ ์ •ํ™•๋„๋ฅผ ํ‰๊ฐ€ํ•˜์—ฌ ์ตœ์ ์˜ ๋ชจ๋ธ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ŠคํŒธ ๋ฉ”์ผ ๋ถ„๋ฅ˜, ๊ฐ์„ฑ ๋ถ„์„, ๋ฌธ์„œ ์ฃผ์ œ ๋ถ„๋ฅ˜ ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

๊ฐ๊ฐ์˜ ๋‹จ๊ณ„์— ๋Œ€ํ•ด์„œ ์ž์„ธํ•˜๊ฒŒ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค:

STEP 1. ์ •์˜ ๋ฐ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

ํ…์ŠคํŠธ ๋ถ„์„์˜ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ๋ถ„์„ํ•  ๋ชฉํ‘œ๋ฅผ ๋ช…ํ™•ํžˆ ์ •์˜ํ•˜๊ณ , ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„๋Š” ๋ถ„์„์˜ ์ „์ฒด์ ์ธ ๋ฐฉํ–ฅ์„ ์„ค์ •ํ•˜๊ณ , ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜์—ฌ ๋ถ„์„์˜ ๊ธฐ์ดˆ๋ฅผ ๋‹ค์ง€๋Š” ์ค‘์š”ํ•œ ๊ณผ์ •์ž…๋‹ˆ๋‹ค.

โ‘  ๋ชฉํ‘œ ์ •์˜

  • ํ…์ŠคํŠธ ๋ถ„์„์˜ ๋ชฉํ‘œ๋Š” ๋ถ„์„ํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์˜ ์„ฑ๊ฒฉ์— ๋”ฐ๋ผ ๋‹ค์–‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ตœ์‹  ํŠธ๋ Œ๋“œ๋ฅผ ๋ฐ˜์˜ํ•œ ์˜ˆ์‹œ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

    • ์ฑ—๋ด‡ ๊ฐœ๋ฐœ: ์‚ฌ์šฉ์ž์™€์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋Œ€ํ™”๋ฅผ ํ†ตํ•ด ์ •๋ณด ์ œ๊ณต, ๊ณ ๊ฐ ์ง€์›, ์—”ํ„ฐํ…Œ์ธ๋จผํŠธ ๋“ฑ์˜ ๊ธฐ๋Šฅ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ์ฑ—๋ด‡์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ฑ—๋ด‡์˜ ๋Œ€์ƒ ์‚ฌ์šฉ์ž, ์ฃผ์š” ๊ธฐ๋Šฅ, ์˜ˆ์ƒ๋˜๋Š” ๋Œ€ํ™” ์‹œ๋‚˜๋ฆฌ์˜ค ๋“ฑ์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.
    • LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ) ํ•™์Šต: ํŠน์ • ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜๋ฃŒ, ๋ฒ•๋ฅ , ๊ธฐ์ˆ  ์ง€์› ๋“ฑ ํŠน์ • ๋ถ„์•ผ์˜ ์ „๋ฌธ ์ง€์‹์„ ๊ฐ–์ถ˜ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๊ณ ์ž ํ•  ๋•Œ, ํ•ด๋‹น ๋„๋ฉ”์ธ์— ๊ด€๋ จ๋œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ์„ฑ ๋ถ„์„: ์†Œ์…œ ๋ฏธ๋””์–ด, ๊ณ ๊ฐ ๋ฆฌ๋ทฐ ๋“ฑ์—์„œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์‚ฌ์šฉ์ž ๊ฐ์ •(๊ธ์ •, ๋ถ€์ •, ์ค‘๋ฆฝ)์„ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ฃผ์ œ ๋ชจ๋ธ๋ง: ๋Œ€๋Ÿ‰์˜ ๋ฌธ์„œ์—์„œ ์ฃผ์š” ์ฃผ์ œ๋“ค์„ ์ถ”์ถœํ•˜์—ฌ ๋ฌธ์„œ์˜ ๋‚ด์šฉ์„ ์š”์•ฝํ•˜๊ณ , ์ •๋ณด๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ‘ก ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

  • ๋ชฉํ‘œ๊ฐ€ ๋ช…ํ™•ํžˆ ์ •์˜๋œ ํ›„์—๋Š” ์ด๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘์€ ๋‹ค์–‘ํ•œ ์ถœ์ฒ˜์—์„œ ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋Š” ๋ถ„์„์˜ ํ’ˆ์งˆ์„ ์ขŒ์šฐํ•˜๋Š” ์ค‘์š”ํ•œ ์š”์†Œ์ž…๋‹ˆ๋‹ค:

    • ์›น ํฌ๋กค๋ง(Web Crawling): ์ธํ„ฐ๋„ท ์ƒ์˜ ์›น์‚ฌ์ดํŠธ์—์„œ ์ž๋™์œผ๋กœ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‰ด์Šค ๊ธฐ์‚ฌ, ๋ธ”๋กœ๊ทธ ๊ฒŒ์‹œ๋ฌผ, ํฌ๋Ÿผ ๊ธ€ ๋“ฑ์„ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • API ํ™œ์šฉ: ํŠธ์œ„ํ„ฐ, ํŽ˜์ด์Šค๋ถ ๋“ฑ์˜ ์†Œ์…œ ๋ฏธ๋””์–ด ํ”Œ๋žซํผ์—์„œ ์ œ๊ณตํ•˜๋Š” API๋ฅผ ์ด์šฉํ•˜์—ฌ ์‚ฌ์šฉ์ž ๊ฒŒ์‹œ๊ธ€, ๋Œ“๊ธ€ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹: ์ด๋ฏธ ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Kaggle, UCI ๋จธ์‹ ๋Ÿฌ๋‹ ๋ ˆํฌ์ง€ํ† ๋ฆฌ ๋“ฑ์—์„œ ๋‹ค์–‘ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณต๋ฐ›์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ: ๊ธฐ์—… ๋‚ด๋ถ€์—์„œ ์ƒ์„ฑ๋œ ๊ณ ๊ฐ ๋ฌธ์˜, ์ง€์› ํ‹ฐ์ผ“, ์ด๋ฉ”์ผ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

STEP 2. ์ „์ฒ˜๋ฆฌ ๋ฐ ๋ณ€ํ™˜

STEP 2-1: ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„

  • ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„(Level 0, Level 1, Level 2)๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•œ ์ˆœ์ฐจ์ ์ธ ํ”„๋กœ์„ธ์Šค๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ๊ฐ ๋‹จ๊ณ„๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์กฐ์  ๋ณต์žก์„ฑ๊ณผ ์„ธ๋ถ„ํ™” ์ˆ˜์ค€์— ๋”ฐ๋ผ ๊ตฌ๋ถ„๋ฉ๋‹ˆ๋‹ค.
  • ์ด๋ฅผ ํ†ตํ•ด ์›์‹œ ํ…์ŠคํŠธ๋ฅผ ์ ์ฐจ์ ์œผ๋กœ ์ •๋ฆฌํ•˜๊ณ , ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ Level 0: Text

  • ๊ธฐ์ค€: ์ „์ฒด ๋ฌธ์„œ ์ˆ˜์ค€์—์„œ์˜ ์ „์ฒ˜๋ฆฌ.
  • ์„ค๋ช…:
    • ๋ชฉ์ : ๋ฌธ์„œ์—์„œ ๋ถˆํ•„์š”ํ•œ ์š”์†Œ๋“ค์„ ์ œ๊ฑฐํ•˜์—ฌ ๊นจ๋—ํ•œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๊ฒƒ.
    • ์ž‘์—… ๋‚ด์šฉ:
      • ๊ด‘๊ณ , ๊ทธ๋ฆผ, HTML ํƒœ๊ทธ, ํ•˜์ดํผ๋งํฌ ๋“ฑ์˜ ์ œ๊ฑฐ.
      • ๋ฌธ์„œ์˜ ์ „์ฒด์ ์ธ ์ฒญ์†Œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ๋ถ„์„์— ๋ฐฉํ•ด๊ฐ€ ๋˜๋Š” ์š”์†Œ๋“ค์„ ๋ฐฐ์ œ.
    • ์˜ˆ์‹œ:
      • ์›น ํŽ˜์ด์ง€์—์„œ ํ…์ŠคํŠธ๋งŒ ์ถ”์ถœํ•˜๊ณ  ๋ถˆํ•„์š”ํ•œ ์š”์†Œ(์ด๋ฏธ์ง€, ๊ด‘๊ณ  ๋“ฑ)๋ฅผ ์ œ๊ฑฐ.
      • ํ…์ŠคํŠธ ํŒŒ์ผ์—์„œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ(์ž‘์„ฑ์ž, ๋‚ ์งœ ๋“ฑ)๋ฅผ ์ œ๊ฑฐํ•˜์ง€ ์•Š๊ณ  ์œ ์ง€.

๐Ÿ“Œ Level 1: Sentence

  • ๊ธฐ์ค€: ๋ฌธ์žฅ์„ ๊ธฐ๋ณธ ๋‹จ์œ„๋กœ ํ•˜๋Š” ์ „์ฒ˜๋ฆฌ.
  • ์„ค๋ช…:
    • ๋ชฉ์ : ๋ฌธ์žฅ์„ ๊ตฌ๋ถ„ํ•˜์—ฌ ๊ฐ ๋ฌธ์žฅ์„ ๊ฐœ๋ณ„์ ์ธ ๋ถ„์„ ๋‹จ์œ„๋กœ ๋งŒ๋“ค๊ธฐ.
    • ์ž‘์—… ๋‚ด์šฉ:
      • ๋ฌธ์žฅ ๊ฒฝ๊ณ„๋ฅผ ์ธ์‹ํ•˜๊ณ  ๊ตฌ๋ถ„(๋ฌธ์žฅ๋ถ€ํ˜ธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์žฅ์„ ๋ถ„๋ฆฌ).
      • ๋ฌธ์žฅ ๊ฒฝ๊ณ„ ์ธ์‹์˜ ์–ด๋ ค์šด ์‚ฌ๋ก€ ์ฒ˜๋ฆฌ(์•ฝ์–ด, ๋ฌธ์žฅ ๋‚ด๋ถ€์˜ ๋งˆ์นจํ‘œ ๋“ฑ).
    • ์˜ˆ์‹œ:
      • โ€œMr. Smith went to Washington.โ€์ฒ˜๋Ÿผ ์•ฝ์–ด๊ฐ€ ํฌํ•จ๋œ ๋ฌธ์žฅ์—์„œ๋„ ์ •ํ™•ํžˆ ๋ฌธ์žฅ ๊ฒฝ๊ณ„๋ฅผ ์ธ์‹.
      • โ€œ๊ทธ๋Š” ์˜ค๋Š˜ U.S.์— ๊ฐ”๋‹ค.โ€์ฒ˜๋Ÿผ ์•ฝ์–ด์™€ ๋ฌธ์žฅ ์ข…๋ฃŒ ๋ถ€ํ˜ธ๋ฅผ ๊ตฌ๋ถ„.

๐Ÿ“Œ Level 2: Token

  • ๊ธฐ์ค€: ๋‹จ์–ด๋ฅผ ๊ธฐ๋ณธ ๋‹จ์œ„๋กœ ํ•˜๋Š” ์ „์ฒ˜๋ฆฌ.
  • ์„ค๋ช…:
    • ๋ชฉ์ : ๋ฌธ์žฅ์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‹จ์–ด, ์ˆซ์ž, ๊ธฐํ˜ธ ๋“ฑ์„ ๊ฐœ๋ณ„ ํ† ํฐ์œผ๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ์†Œ ๋‹จ์œ„๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ.
    • ์ž‘์—… ๋‚ด์šฉ:
      • ํ† ํฐํ™”: ๋ฌธ์žฅ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ๋‹จ์–ด๋“ค์„ ์ถ”์ถœ.
      • ๋ถˆ์šฉ์–ด ์ œ๊ฑฐ: ์˜๋ฏธ ์—†๋Š” ๋‹จ์–ด๋“ค ์ œ๊ฑฐ.
      • ํ˜•ํƒœ์†Œ ๋ถ„์„: ํ˜•ํƒœ์†Œ ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๋‹จ์–ด์˜ ๊ธฐ๋ณธ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜(ํ˜•ํƒœ์†Œ๋Š” ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ๊ฐ€์žฅ ์ž‘์€ ๋‹จ์œ„).
      • ์ผ๊ด€์„ฑ ์žˆ๋Š” ํ† ํฌ๋‚˜์ด์ € ์‚ฌ์šฉ.
    • ์˜ˆ์‹œ:
      • โ€œJohnโ€™s houseโ€๋ฅผ โ€œJohnโ€, โ€œโ€™sโ€, โ€œhouseโ€๋กœ ๋ถ„๋ฆฌ.
      • ๋ถˆ์šฉ์–ด โ€œtheโ€, โ€œaโ€ ๋“ฑ์„ ์ œ๊ฑฐ.
      • โ€œrunningโ€์„ โ€œrunโ€์œผ๋กœ ๋ณ€ํ™˜(ํ˜•ํƒœ์†Œ ๋ถ„์„).

๐Ÿ’กLevel 2 ์ถ”๊ฐ€ ์„ค๋ช…

์œ„์—์„œ ์†Œ๊ฐœํ•œ Level2 ๋‹จ๊ณ„์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” ํ˜•ํƒœ์†Œ ๋ถ„์„, ํ˜•ํƒœ์†Œ ๋‹จ์œ„๋กœ ๋ถ„๋ฆฌํ•˜์—ฌ ๋‹จ์–ด์˜ ๊ธฐ๋ณธ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜(ํ˜•ํƒœ์†Œ๋Š” ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ๊ฐ€์žฅ ์ž‘์€ ๋‹จ์œ„)์˜ ์ฃผ์š” ๊ฐœ๋…์ธ ๋ถˆ์šฉ์–ด ์ œ๊ฑฐ / Tokenํ™” ๊ธฐ๋ฒ•์— ๋Œ€ํ•ด์„œ ์ถ”๊ฐ€์ ์ธ ์„ค๋ช…์„ ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค:

(1) Stop-words ์ œ๊ฑฐ

  • ๋ชฉ์ : ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ์•„๋ฌด๋Ÿฐ ์˜๋ฏธ๊ฐ€ ์—†๋Š” ๋‹จ์–ด๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋ถ„์„ ์†๋„๋ฅผ ๋†’์ž„.
    • Power Distribution: ๋‹จ์–ด ๋นˆ๋„์˜ ๋ฉฑ-๊ธ‰์ˆ˜ ๋ฒ•์น™์— ๋”ฐ๋ฅด๋ฉด, ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์—์„œ ์ผ๋ถ€ ๋‹จ์–ด๊ฐ€ ๋งค์šฐ ๋นˆ๋ฒˆํ•˜๊ฒŒ ์ถœํ˜„ํ•˜๋Š”๋ฐ, ์ด ์ค‘ ๋Œ€๋ถ€๋ถ„์ด ๋ถˆ์šฉ์–ด์ž…๋‹ˆ๋‹ค.
    • How?: ๋ถˆ์šฉ์–ด ๋ฆฌ์ŠคํŠธ๋ฅผ ๋งŒ๋“ค์–ด ํ•ด๋‹น ๋‹จ์–ด๋“ค์„ ์ œ๊ฑฐํ•จ.
      • ์˜ˆ์‹œ: ์˜์–ด์˜ โ€œaโ€, โ€œanโ€, โ€œtheโ€์™€ ๊ฐ™์€ ๋‹จ์–ด๋“ค.

(2) Stemming ๋ฐ Lemmatization

  • ๋ชฉ์ : ๋‹จ์–ด์˜ ๋‹ค์–‘ํ•œ ํ˜•ํƒœ๋ฅผ ์ •๊ทœํ™”ํ•˜์—ฌ ๋ถ„์„์˜ ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๊ณ  ์ฐจ์›์„ ์ถ•์†Œํ•จ.
    • Stemming: ๋‹จ์–ด์˜ ์ ‘๋ฏธ์‚ฌ๋ฅผ ์ œ๊ฑฐํ•˜์—ฌ ๊ธฐ๋ณธ ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •.
      • ์žฅ์ : ๊ฐ„๋‹จํ•˜๊ณ  ๋น ๋ฅด๋ฉฐ, ์ฐจ์›์„ ๋งŽ์ด ์ค„์ผ ์ˆ˜ ์žˆ์Œ.
      • ๋‹จ์ : ๋ฌธ๋ฒ•์  ์ •ํ™•์„ฑ์ด ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ์Œ.
      • ์˜ˆ์‹œ:
        • Love -> Lov
        • Loves -> Lov
        • Innovations -> Innovat
        • Innovate -> Innovat
    • Lemmatization: ๋‹จ์–ด์˜ ๊ธฐ๋ณธ ์‚ฌ์ „ํ˜•์„ ์ฐพ์•„ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •.
      • ์žฅ์ : ๋ฌธ๋ฒ•์  ์ •ํ™•์„ฑ์„ ์œ ์ง€ํ•˜๋ฉฐ ๋‹จ์–ด์˜ ๊ธฐ๋ณธ ์˜๋ฏธ๋ฅผ ๋ณด์กด.
      • ๋‹จ์ : ์ƒ๋Œ€์ ์œผ๋กœ ๋ณต์žกํ•˜๊ณ  ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋А๋ฆผ.
      • ์˜ˆ์‹œ:
        • Love -> Love
        • Loves -> Love
        • Innovations -> Innovation
        • Innovate -> Innovate

ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ์˜ ๊ฐ ๋‹จ๊ณ„๋Š” ์ ์ง„์ ์œผ๋กœ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ •๋ฆฌํ•˜๊ณ  ๊ตฌ์กฐํ™”ํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ ๋ถ„์„ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜ ๋‹จ๊ณ„๋“ค์„ ํ†ตํ•ด ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ๋ณต์žก์„ฑ์„ ์ค„์ด๊ณ , ํšจ์œจ์ ์ธ ๋ถ„์„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

  • Level 0์—์„œ๋Š” ์ „์ฒด ๋ฌธ์„œ์—์„œ ๋ถˆํ•„์š”ํ•œ ์š”์†Œ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ ,
  • Level 1์—์„œ๋Š” ๋ฌธ์žฅ ๋‹จ์œ„๋กœ ๊ตฌ๋ถ„ํ•˜๋ฉฐ,
  • Level 2์—์„œ๋Š” ๋‹จ์–ด ๋‹จ์œ„๋กœ ์„ธ๋ถ„ํ™”ํ•˜์—ฌ ์ตœ์ข…์ ์œผ๋กœ ๋ถ„์„์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํƒœ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

STEP 2-2: ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋‹จ๊ณ„

ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋‹จ๊ณ„์—์„œ๋Š” ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์—ฐ์†ํ˜• ์ˆซ์ž ๋ฒกํ„ฐ(์ธ์ฝ”๋”ฉ/์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ)๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

  • ๋ชฉ์ : ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆซ์ž ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด ์ฃผ์š” ๋ชฉ์ ์ž…๋‹ˆ๋‹ค.
  • ์ฃผ์š” ๋ฐฉ๋ฒ•:

    • Bag-of-words, TF-IDF, One-hot-vector, Distributed representation์ด ์žˆ์œผ๋ฉฐ, ๊ฐ๊ฐ์˜ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

1. Bag-of-words

  • ๊ฐœ๋…: ํ…์ŠคํŠธ๋ฅผ ๋‹จ์–ด๋“ค์˜ ๋น„์ •๋ ฌ ์ปฌ๋ ‰์…˜์œผ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชฉ์ : ๊ฐ ๋‹จ์–ด์˜ ๋นˆ๋„ ์ •๋ณด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์„œ๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค๋ช…: Bag-of-words(BOW) ๋ชจ๋ธ์€ ๋ฌธ์„œ๋ฅผ ๋‹จ์–ด๋“ค์˜ ๋น„์ •๋ ฌ ์ปฌ๋ ‰์…˜์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์—์„œ๋Š” ๊ฐ ๋ฌธ์„œ๋ฅผ ๊ณ ์œ ํ•œ ๋‹จ์–ด๋“ค์˜ ๋นˆ๋„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ž‘๋™ ๋ฐฉ์‹:
    1. ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐœ๋ณ„ ๋‹จ์–ด๋กœ ๋ถ„ํ• (ํ† ํฐํ™”)ํ•ฉ๋‹ˆ๋‹ค.
    2. ๊ฐ ๋‹จ์–ด์˜ ๋ฐœ์ƒ ๋นˆ๋„๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    3. ๋ฒกํ„ฐ์˜ ๊ฐ ์š”์†Œ๋Š” ํ•ด๋‹น ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ์—์„œ ๋“ฑ์žฅํ•œ ํšŸ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ์žฅ์ :
    • ๊ฐ„๋‹จํ•˜๊ณ  ์ง๊ด€์ ์ž…๋‹ˆ๋‹ค.
    • ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋‚ฎ์Šต๋‹ˆ๋‹ค.
  • ๋‹จ์ :
    • ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์žƒ์–ด๋ฒ„๋ฆฝ๋‹ˆ๋‹ค.
    • ๋‹จ์–ด ์ˆœ์„œ๊ฐ€ ๊ณ ๋ ค๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
    • ๊ณ ์ฐจ์›์˜ ํฌ์†Œ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ์‹œ:

1
2
3
4
5
6
7
๋ฌธ์„œ1: "I love machine learning"
๋ฌธ์„œ2: "I love deep learning"

๋‹จ์–ด ๋ชฉ๋ก: ["I", "love", "machine", "learning", "deep"]

๋ฌธ์„œ1 ๋ฒกํ„ฐ: [1, 1, 1, 1, 0]
๋ฌธ์„œ2 ๋ฒกํ„ฐ: [1, 1, 0, 1, 1]

2. TF-IDF

  • ๊ฐœ๋…: ํŠน์ • ๋‹จ์–ด์˜ ์ค‘์š”๋„๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชฉ์ : ๋ฌธ์„œ ๋‚ด ๋‹จ์–ด์˜ ์ค‘์š”์„ฑ์„ ๋ฐ˜์˜ํ•œ ๋ฒกํ„ฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค๋ช…: TF-IDF(Term Frequency-Inverse Document Frequency)๋Š” ๋‹จ์–ด์˜ ๋นˆ๋„(Term Frequency)์™€ ์—ญ๋ฌธ์„œ ๋นˆ๋„(Inverse Document Frequency)๋ฅผ ์กฐํ•ฉํ•˜์—ฌ ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ์—์„œ ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ๊ฐ€์ค‘์น˜๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ์ž‘๋™ ๋ฐฉ์‹:
    1. TF: ๋‹จ์–ด ๋นˆ๋„๋Š” ๋ฌธ์„œ ๋‚ด์—์„œ ํŠน์ • ๋‹จ์–ด์˜ ๋ฐœ์ƒ ํšŸ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    2. IDF: ์—ญ๋ฌธ์„œ ๋นˆ๋„๋Š” ๋‹จ์–ด๊ฐ€ ์ „์ฒด ๋ฌธ์„œ ์ง‘ํ•ฉ์—์„œ ์–ผ๋งˆ๋‚˜ ๋“œ๋ฌผ๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
    3. TF์™€ IDF๋ฅผ ๊ณฑํ•˜์—ฌ ๊ฐ ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
  • ์žฅ์ :
    • ๋‹จ์–ด์˜ ์ค‘์š”๋„๋ฅผ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
    • ํ”ํžˆ ๋‚˜ํƒ€๋‚˜๋Š” ๋‹จ์–ด์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋‚ฎ์ถฐ์ค๋‹ˆ๋‹ค.
  • ๋‹จ์ :
    • ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’์Šต๋‹ˆ๋‹ค.
    • ์—ฌ์ „ํžˆ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์žƒ์–ด๋ฒ„๋ฆฝ๋‹ˆ๋‹ค.

TF (Term Frequency)

  • TF๋Š” ํŠน์ • ๋‹จ์–ด๊ฐ€ ๋ฌธ์„œ ๋‚ด์—์„œ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•์—๋Š” ์—ฌ๋Ÿฌ ๊ฐ€์ง€๊ฐ€ ์žˆ์ง€๋งŒ, ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•๋“ค์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:
    • Raw Count:
      • TF(t,d) = ๋ฌธ์„œ d์—์„œ ๋‹จ์–ด t์˜ ์ถœํ˜„ ํšŸ์ˆ˜
    • ๋กœ๊ทธ ์Šค์ผ€์ผ๋ง:
      • TF(t,d) = 1 + log(๋ฌธ์„œ d์—์„œ ๋‹จ์–ด t์˜ ์ถœํ˜„ ํšŸ์ˆ˜)
      • 0์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด 1์„ ๋”ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด์ง„ํ™”:
      • TF(t,d) = 1 (๋‹จ์–ด t๊ฐ€ ๋ฌธ์„œ d์— ์กด์žฌํ•˜๋ฉด)
      • TF(t,d) = 0 (๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด)
    • ์ •๊ทœํ™”:
      • TF(t,d) = (๋ฌธ์„œ d์—์„œ ๋‹จ์–ด t์˜ ์ถœํ˜„ ํšŸ์ˆ˜) / (๋ฌธ์„œ d์˜ ์ด ๋‹จ์–ด ์ˆ˜)

IDF (Inverse Document Frequency)

  • IDF๋Š” ํŠน์ • ๋‹จ์–ด๊ฐ€ ์ „์ฒด ๋ฌธ์„œ ์ง‘ํ•ฉ์—์„œ ์–ผ๋งˆ๋‚˜ ํฌ๊ท€ํ•œ์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
  • ๊ณ„์‚ฐ ๋ฐฉ๋ฒ•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค: IDF(t) = log(N / DF(t))
    • N: ์ „์ฒด ๋ฌธ์„œ์˜ ์ˆ˜
    • DF(t): ๋‹จ์–ด t๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ์˜ ์ˆ˜ (Document Frequency)
  • ๋กœ๊ทธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š” ๋ฌธ์„œ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ IDF ๊ฐ’์ด ๋„ˆ๋ฌด ํฌ๊ฒŒ ์ฆ๊ฐ€ํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.

์˜ˆ์‹œ:

  • ์•„๋ž˜ 5๊ฐœ์˜ ๋ฌธ์žฅ์œผ๋กœ TF, IDF, TF-IDF๋ฅผ ๊ณ„์‚ฐํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค:

    โ‘  ์‚ฌ๊ณผ๋Š” ๋นจ๊ฐ›๋‹ค.

    โ‘ก ์‚ฌ๊ณผ๋Š” ๋ง›์žˆ๋‹ค.

    โ‘ข ๋ฐ”๋‚˜๋‚˜๋Š” ๋…ธ๋ž—๋‹ค.

    โ‘ฃ ๋ฐ”๋‚˜๋‚˜๋Š” ๋ง›์žˆ๋‹ค.

    โ‘ค ๊ฐ•์•„์ง€๋Š” ๊ท€์—ฝ๋‹ค.

1. TF (Term Frequency) ๊ณ„์‚ฐ

  • ๊ฐ ๋ฌธ์„œ(๋ฌธ์žฅ)์—์„œ์˜ ๋‹จ์–ด ๋นˆ๋„๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.

    ๋‹จ์–ด ๋ฌธ์žฅ1 ๋ฌธ์žฅ2 ๋ฌธ์žฅ3 ๋ฌธ์žฅ4 ๋ฌธ์žฅ5
    ์‚ฌ๊ณผ 1 1 0 0 0
    ๋นจ๊ฐ›๋‹ค 1 0 0 0 0
    ๋ง›์žˆ๋‹ค 0 1 0 1 0
    ๋ฐ”๋‚˜๋‚˜ 0 0 1 1 0
    ๋…ธ๋ž—๋‹ค 0 0 1 0 0
    ๊ฐ•์•„์ง€ 0 0 0 0 1
    ๊ท€์—ฝ๋‹ค 0 0 0 0 1

2. IDF (Inverse Document Frequency) ๊ณ„์‚ฐ

  • IDF = log(์ด ๋ฌธ์„œ ์ˆ˜ / ๋‹จ์–ด๊ฐ€ ์ถœํ˜„ํ•œ ๋ฌธ์„œ ์ˆ˜)

    ์ด๋•Œ, ์ด ๋ฌธ์„œ ์ˆ˜๋Š” 5(5๊ฐœ ๋ฌธ์žฅ)์ž…๋‹ˆ๋‹ค.

    ๋‹จ์–ด ์ถœํ˜„ ๋ฌธ์„œ ์ˆ˜ IDF ๊ณ„์‚ฐ IDF ๊ฐ’ (๋ฐ˜์˜ฌ๋ฆผ)
    ์‚ฌ๊ณผ 2 log(5/2) 0.92
    ๋นจ๊ฐ›๋‹ค 1 log(5/1) 1.61
    ๋ง›์žˆ๋‹ค 2 log(5/2) 0.92
    ๋ฐ”๋‚˜๋‚˜ 2 log(5/2) 0.92
    ๋…ธ๋ž—๋‹ค 1 log(5/1) 1.61
    ๊ฐ•์•„์ง€ 1 log(5/1) 1.61
    ๊ท€์—ฝ๋‹ค 1 log(5/1) 1.61

3. TF-IDF ๊ณ„์‚ฐ

  • TF-IDF = TF * IDF

    ๋‹จ์–ด ๋ฌธ์žฅ1 ๋ฌธ์žฅ2 ๋ฌธ์žฅ3 ๋ฌธ์žฅ4 ๋ฌธ์žฅ5
    ์‚ฌ๊ณผ 0.92 0.92 0 0 0
    ๋นจ๊ฐ›๋‹ค 1.61 0 0 0 0
    ๋ง›์žˆ๋‹ค 0 0.92 0 0.92 0
    ๋ฐ”๋‚˜๋‚˜ 0 0 0.92 0.92 0
    ๋…ธ๋ž—๋‹ค 0 0 1.61 0 0
    ๊ฐ•์•„์ง€ 0 0 0 0 1.61
    ๊ท€์—ฝ๋‹ค 0 0 0 0 1.61
  • ์ด TF-IDF ๊ฐ’์„ ํ†ตํ•ด ๊ฐ ๋ฌธ์žฅ์—์„œ ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ๋” ์ค‘์š”ํ•œ์ง€ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ๋นจ๊ฐ›๋‹คโ€, โ€œ๋…ธ๋ž—๋‹คโ€, โ€œ๊ฐ•์•„์ง€โ€, โ€œ๊ท€์—ฝ๋‹คโ€๋Š” ๊ฐ๊ฐ์˜ ๋ฌธ์žฅ์—์„œ ๋†’์€ TF-IDF ๊ฐ’์„ ๊ฐ€์ง€๋ฏ€๋กœ, ํ•ด๋‹น ๋ฌธ์žฅ์„ ํŠน์ง•์ง“๋Š” ์ค‘์š”ํ•œ ๋‹จ์–ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. One-hot-vector

  • ๊ฐœ๋…: ๋‹จ์–ด๋ฅผ ๊ณ ์œ ํ•œ ์ธ๋ฑ์Šค์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชฉ์ : ๋‹จ์–ด ๊ฐ„์˜ ๊ตฌ๋ณ„์„ ๋ช…ํ™•ํžˆ ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค๋ช…: One-hot-vector๋Š” ๊ฐ ๋‹จ์–ด๋ฅผ ๊ณ ์œ ํ•œ ๋ฒกํ„ฐ๋กœ ์ •์˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ๋„ ๋งŽ์ด ์“ฐ์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • ๋ฒกํ„ฐ์˜ ๊ฐ ์š”์†Œ๋Š” ํ•ด๋‹น ๋‹จ์–ด์˜ ์œ„์น˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๋‚˜๋จธ์ง€๋Š” ๋ชจ๋‘ 0์ž…๋‹ˆ๋‹ค.

  • ์ž‘๋™ ๋ฐฉ์‹:
    1. ๊ณ ์œ ํ•œ ๋‹จ์–ด๋งˆ๋‹ค ๊ณ ์œ ํ•œ ์ธ๋ฑ์Šค๋ฅผ ํ• ๋‹นํ•ฉ๋‹ˆ๋‹ค.
    2. ๊ฐ ๋‹จ์–ด๋ฅผ ํ•ด๋‹น ์ธ๋ฑ์Šค์— 1์„ ๋ถ€์—ฌํ•˜๊ณ  ๋‚˜๋จธ์ง€๋Š” 0์œผ๋กœ ์„ค์ •ํ•œ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
  • ์žฅ์ :
    • ๊ฐ€์žฅ ๊ฐ„๋‹จํ•˜๊ณ  ์ง๊ด€์ ์ž…๋‹ˆ๋‹ค.
  • ๋‹จ์ :
    • ๋‹จ์–ด ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ํ‘œํ˜„ํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.
    • ์ฐจ์›์ด ๋งค์šฐ ๋†’์•„์ง‘๋‹ˆ๋‹ค.

์˜ˆ์‹œ:

1
2
3
4
5
6
7
๋‹จ์–ด ๋ชฉ๋ก: ["I", "love", "machine", "learning", "deep"]

"I" -> [1, 0, 0, 0, 0]
"love" -> [0, 1, 0, 0, 0]
"machine" -> [0, 0, 1, 0, 0]
"learning" -> [0, 0, 0, 1, 0]
"deep" -> [0, 0, 0, 0, 1]

4. Distributed representation

  • ๊ฐœ๋…: ๋‹จ์–ด๋ฅผ ๋‹ค์ฐจ์› ๊ณต๊ฐ„์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชฉ์ : ๋‹จ์–ด ๊ฐ„์˜ ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.
  • ์„ค๋ช…: Distributed representation์€ ๋‹จ์–ด๋ฅผ ๋‹ค์ฐจ์› ๊ณต๊ฐ„์˜ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜์—ฌ ๋‹จ์–ด ๊ฐ„์˜ ์œ ์‚ฌ์„ฑ์„ ์œ ์ง€ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

    • ๋Œ€ํ‘œ์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ Word2Vec, GloVe, BERT ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ž‘๋™ ๋ฐฉ์‹:
    1. Word2Vec: ๋‹จ์–ด๋ฅผ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ ๋ฒกํ„ฐ๋กœ ์ž„๋ฒ ๋”ฉํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์–ด์˜ ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
    2. GloVe: ๋‹จ์–ด์˜ ํ†ต๊ณ„์  ์ •๋ณด๋ฅผ ์ด์šฉํ•˜์—ฌ ๋ฒกํ„ฐ๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    3. BERT: ๋ฌธ๋งฅ์„ ๊ณ ๋ คํ•˜์—ฌ ๋‹จ์–ด์˜ ๋ฒกํ„ฐ๋ฅผ ๋™์ ์œผ๋กœ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ์žฅ์ :
    • ๋‹จ์–ด ๊ฐ„์˜ ์˜๋ฏธ์  ๊ด€๊ณ„๋ฅผ ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.
    • ์ฐจ์›์ด ๋น„๊ต์  ๋‚ฎ์•„์ง‘๋‹ˆ๋‹ค.
    • ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ํฌํ•จํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹จ์ :
    • ํ•™์Šต์— ๋งŽ์€ ๋ฐ์ดํ„ฐ์™€ ์‹œ๊ฐ„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ณต์žกํ•œ ๋ชจ๋ธ์ผ์ˆ˜๋ก ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋†’์Šต๋‹ˆ๋‹ค.

์˜ˆ์‹œ:

1
2
3
4
5
6
Word2Vec ์˜ˆ์‹œ:
"I" -> [0.2, 0.1, 0.4, 0.7]
"love" -> [0.3, 0.2, 0.1, 0.6]
"machine" -> [0.6, 0.4, 0.5, 0.3]
"learning" -> [0.7, 0.5, 0.6, 0.2]
"deep" -> [0.5, 0.3, 0.4, 0.8]

๐Ÿค” ์ž ๊น! ๋’ค์—์„œ๋„ Word2Vec๊ณผ ์œ ์‚ฌํ•œ Doc2Vec์ด ๋‚˜์˜ค๋Š”๋ฐ์š”?

=> ํ…์ŠคํŠธ ๋ณ€ํ™˜๊ณผ ํ…์ŠคํŠธ ์ฐจ์› ์ถ•์†Œ๋Š” ๋ญ๊ฐ€ ๋‹ค๋ฅธ๊ฑฐ์ฃ ?

  • ํ…์ŠคํŠธ ๋ณ€ํ™˜(Text Transformation)์€ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆซ์ž ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ๋Š” ๋‹จ์–ด์˜ ๋นˆ๋„, ์ค‘์š”๋„, ๋˜๋Š” ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋ณ€ํ™˜๋œ ๋ฒกํ„ฐ๋Š” ์—ฌ์ „ํžˆ ๊ณ ์ฐจ์›์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฐจ์› ์ถ•์†Œ(Dimensionality Reduction)๋Š” ๋ณ€ํ™˜๋œ ๋ฒกํ„ฐ์˜ ์ฐจ์›์„ ์ค„์—ฌ ๋ฐ์ดํ„ฐ์˜ ๋ณต์žก์„ฑ์„ ๋‚ฎ์ถ”๊ณ , ๋ถ„์„์˜ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ค‘์š”ํ•œ ํŠน์ง•๋งŒ์„ ๋‚จ๊ธฐ๊ฑฐ๋‚˜ ์˜๋ฏธ ์žˆ๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ์ถ”์ถœํ•˜์—ฌ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.

์ถ”๊ฐ€ ์˜ˆ์‹œ

  • Bag-of-words์™€ TF-IDF๋Š” ํ…์ŠคํŠธ ๋ณ€ํ™˜ ๋ฐฉ๋ฒ•์œผ๋กœ, ๊ฐ๊ฐ ๋‹จ์–ด์˜ ๋นˆ๋„์™€ ์ค‘์š”๋„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • Distributed representation์€ ํ…์ŠคํŠธ ๋ณ€ํ™˜์˜ ์ผ์ข…์ด์ง€๋งŒ, ์˜๋ฏธ์  ์œ ์‚ฌ์„ฑ์„ ๋ฐ˜์˜ํ•˜์—ฌ ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์„ ์ถ”๊ฐ€๋กœ ์ ์šฉํ•˜์ง€ ์•Š์•„๋„ ์ฐจ์› ์ถ•์†Œ ํšจ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋’ค์— STEP3์—์„œ ๋‚˜์˜ฌ LSA, LDA, Doc2Vec๋Š” ์ฐจ์› ์ถ•์†Œ ๋ฐฉ๋ฒ•์œผ๋กœ, ๋ณ€ํ™˜๋œ ๋ฒกํ„ฐ์—์„œ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ฑฐ๋‚˜ ์˜๋ฏธ ์žˆ๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๋ฅผ ํ†ตํ•ด ์ฐจ์›์„ ์ค„์ž…๋‹ˆ๋‹ค.

STEP 3: ํŠน์ง• ์„ ํƒ ๋ฐ ์ถ”์ถœ

ํŠน์ง• ์„ ํƒ ๋ฐ ์ฐจ์› ์ถ•์†Œ(ํŠน์ง• ์ถ”์ถœ)๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ธฐ ์œ„ํ•ด ์ค‘์š”ํ•œ ๊ณผ์ •์ž…๋‹ˆ๋‹ค:

  1. ํŠน์ง• ์„ ํƒ (Feature Selection):

    • ๊ฐœ๋…: ๊ฐ€์žฅ ์ค‘์š”ํ•œ ํŠน์ง•์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.
    • ๋ชฉ์ : ๋ถ„์„์— ์œ ์˜๋ฏธํ•œ ํŠน์ง•๋งŒ ์„ ํƒํ•˜์—ฌ ์ฐจ์›์„ ์ค„์ž…๋‹ˆ๋‹ค.
    • ๋ฐฉ๋ฒ•:

      • ์ •๋ณด ์ด๋“(Information gain)
      • ๊ต์ฐจ ์—”ํŠธ๋กœํ”ผ(Cross-entropy)
      • ์ƒํ˜ธ ์ •๋ณด๋Ÿ‰(Mutual information) ๋“ฑ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

  1. ํŠน์ง• ์ถ”์ถœ (Feature Extraction):
    • LSA (Latent Semantic Analysis):
      • ๊ฐœ๋…: ๋‹จ์–ด-๋ฌธ์„œ ํ–‰๋ ฌ์„ SVD๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ์˜๋ฏธ๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.
      • ๋ชฉ์ : ์˜๋ฏธ ์žˆ๋Š” ์ž ์žฌ ๋ณ€์ˆ˜๋“ค์„ ํ†ตํ•ด ์ฐจ์›์„ ์ถ•์†Œํ•ฉ๋‹ˆ๋‹ค.
      • ์„ค๋ช…: LSA๋Š” ๋‹จ์–ด-๋ฌธ์„œ ํ–‰๋ ฌ์„ ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD)๋ฅผ ํ†ตํ•ด ๋ถ„ํ•ดํ•˜์—ฌ ์ž ์žฌ์ ์ธ ์˜๋ฏธ ๊ตฌ์กฐ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
      • ์ž‘๋™ ๋ฐฉ์‹:

        โ‘  ๋ฌธ์„œ-๋‹จ์–ด ํ–‰๋ ฌ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

        โ‘ก SVD๋ฅผ ์ ์šฉํ•˜์—ฌ ์ด ํ–‰๋ ฌ์„ ์„ธ ๊ฐœ์˜ ํ–‰๋ ฌ๋กœ ๋ถ„ํ•ดํ•ฉ๋‹ˆ๋‹ค.

        โ‘ข ์ƒ์œ„ k๊ฐœ์˜ ํŠน์ด๊ฐ’๋งŒ ์„ ํƒํ•˜์—ฌ ์ฐจ์›์„ ์ถ•์†Œํ•ฉ๋‹ˆ๋‹ค.

  • LDA (Latent Dirichlet Allocation):
    • ๊ฐœ๋…: ๋ฌธ์„œ ์ง‘ํ•ฉ์—์„œ ์ž ์žฌ์ ์ธ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•œ ํ™•๋ฅ ์  ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ๋ชฉ์ : ๋Œ€๊ทœ๋ชจ ๋ฌธ์„œ ์ง‘ํ•ฉ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•˜์—ฌ ๋ฌธ์„œ์˜ ์ฐจ์›์„ ์ถ•์†Œํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • ์„ค๋ช…: LDA๋Š” ๋ฌธ์„œ ์ง‘ํ•ฉ์—์„œ ์ถ”์ƒ์ ์ธ โ€œ์ฃผ์ œโ€๋ฅผ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์œ„ํ•œ ํ™•๋ฅ ์  ํ† ํ”ฝ ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
      • (๊ฐ€์ •) ๊ฐ ๋ฌธ์„œ๋Š” ๋‹ค์–‘ํ•œ ์ฃผ์ œ์˜ ํ˜ผํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ , ๊ฐ ์ฃผ์ œ๋Š” ํŠน์ • ๋‹จ์–ด๋“ค์˜ ๋ถ„ํฌ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.
    • ์ž‘๋™ ๋ฐฉ์‹:

      โ‘  ๊ฐ ๋ฌธ์„œ๋Š” ์—ฌ๋Ÿฌ ์ฃผ์ œ์˜ ํ˜ผํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.

      โ‘ก ๊ฐ ์ฃผ์ œ๋Š” ํŠน์ • ๋‹จ์–ด๋“ค์˜ ๋ถ„ํฌ๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

      โ‘ข ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์„œ-์ฃผ์ œ ๋ถ„ํฌ์™€ ์ฃผ์ œ-๋‹จ์–ด ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•ฉ๋‹ˆ๋‹ค.

  • Doc2Vec:
    • ๊ฐœ๋…: ๋ฌธ์„œ๋ฅผ ๋ฒกํ„ฐ ๊ณต๊ฐ„์— ์ž„๋ฒ ๋”ฉํ•ฉ๋‹ˆ๋‹ค.
    • ๋ชฉ์ : ๋ฌธ์„œ ๊ฐ„์˜ ์˜๋ฏธ์  ๊ด€๊ณ„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฐจ์›์„ ์ถ•์†Œํ•ฉ๋‹ˆ๋‹ค.
    • ์„ค๋ช…: Doc2Vec์€ Word2Vec์˜ ํ™•์žฅ์œผ๋กœ, ๋ฌธ์„œ ์ „์ฒด๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์ž‘๋™ ๋ฐฉ์‹:

      โ‘  ๋ฌธ์„œ ID๋ฅผ ์ถ”๊ฐ€์ ์ธ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ Word2Vec ๋ชจ๋ธ์„ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.

      โ‘ก ๋‹จ์–ด์™€ ๋ฌธ์„œ๋ฅผ ๋™์‹œ์— ํ•™์Šตํ•˜์—ฌ ๋ฒกํ„ฐ ๊ณต๊ฐ„์— ์ž„๋ฒ ๋”ฉํ•ฉ๋‹ˆ๋‹ค.

STEP 4: ์•Œ๊ณ ๋ฆฌ์ฆ˜ ํ•™์Šต ๋ฐ ํ‰๊ฐ€

Text Analytics์—์„œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๊ณ  ํ‰๊ฐ€ํ•˜๋Š” ๊ณผ์ •์€ ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์œ ์šฉํ•œ ์ •๋ณด๋ฅผ ๋„์ถœํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ํฌ๊ฒŒ Clustering, Classification, Extraction & Retrieval ์„ธ ๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

1. Clustering

Clustering์€ ๋ฌธ์„œ๋“ค์„ ์œ ์‚ฌํ•œ ํŠน์„ฑ์„ ๊ฐ€์ง„ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฌธ์„œ ๊ตฐ์ง‘ํ™” ๋ฐ ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด ์ฃผ์š” ํ‚ค์›Œ๋“œ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์•Œ๊ณ ๋ฆฌ์ฆ˜: K-means, DBSCAN, Hierarchical Clustering ๋“ฑ ๋‹ค์–‘ํ•œ ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์„œ๋ฅผ ๊ตฐ์ง‘ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ณผ์ •:
    1. ํŠน์„ฑ ์ถ”์ถœ: TF-IDF, Word2Vec, BERT ๋“ฑ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์„œ์˜ ํŠน์„ฑ์„ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
    2. ๊ตฐ์ง‘ํ™”: ์„ ํƒํ•œ ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์„œ๋ฅผ ๊ตฐ์ง‘์œผ๋กœ ๋ฌถ์Šต๋‹ˆ๋‹ค.
    3. ์‹œ๊ฐํ™”: t-SNE, PCA ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ณ ์ฐจ์› ๋ฒกํ„ฐ๋ฅผ 2์ฐจ์› ๋˜๋Š” 3์ฐจ์›์œผ๋กœ ์‹œ๊ฐํ™”ํ•˜์—ฌ ๊ฐ ๊ตฐ์ง‘์˜ ๊ด€๊ณ„๋ฅผ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค.
  • ์‘์šฉ: ๋‰ด์Šค ๊ธฐ์‚ฌ ๊ตฐ์ง‘ํ™”, ๊ณ ๊ฐ ๋ฆฌ๋ทฐ ๋ถ„์„, ์†Œ์…œ ๋ฏธ๋””์–ด ๋ฐ์ดํ„ฐ ๊ตฐ์ง‘ํ™” ๋“ฑ์„ ํ†ตํ•ด ์ฃผ์š” ์ฃผ์ œ๋‚˜ ํŒจํ„ด์„ ๋ฐœ๊ฒฌํ•ฉ๋‹ˆ๋‹ค.

2. Classification

Classification์€ ๋ฌธ์„œ๋ฅผ ์‚ฌ์ „ ์ •์˜๋œ ๋ฒ”์ฃผ๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์ŠคํŒธ ํ•„ํ„ฐ๋ง, ๊ฐ์„ฑ ๋ถ„์„, ์ฃผ์ œ ๋ถ„๋ฅ˜ ๋“ฑ ๋‹ค์–‘ํ•œ ์‘์šฉ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

  • ์•Œ๊ณ ๋ฆฌ์ฆ˜: Naive Bayes, SVM, Random Forest, Deep Learning (CNN, RNN) ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„๋ฅ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์„œ๋ฅผ ๋ถ„๋ฅ˜ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ณผ์ •:
    1. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ: ํ…์ŠคํŠธ ์ •๊ทœํ™”, ๋ถˆ์šฉ์–ด ์ œ๊ฑฐ, ์–ด๊ฐ„ ์ถ”์ถœ ๋“ฑ์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•ฉ๋‹ˆ๋‹ค.
    2. ํŠน์„ฑ ์ถ”์ถœ: Bag-of-Words, TF-IDF, Word Embeddings ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
    3. ๋ชจ๋ธ ํ•™์Šต: ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    4. ๋ชจ๋ธ ํ‰๊ฐ€: ๊ต์ฐจ ๊ฒ€์ฆ, ํ˜ผ๋™ ํ–‰๋ ฌ, ์ •ํ™•๋„, ์ •๋ฐ€๋„, ์žฌํ˜„์œจ, F1 ์ ์ˆ˜ ๋“ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์‘์šฉ: ์ด๋ฉ”์ผ ์ŠคํŒธ ํ•„ํ„ฐ๋ง, ์†Œ์…œ ๋ฏธ๋””์–ด์˜ ๊ฐ์„ฑ ๋ถ„์„, ๊ณ ๊ฐ ๋ฆฌ๋ทฐ์˜ ๊ธ์ •/๋ถ€์ • ๋ถ„๋ฅ˜ ๋“ฑ์„ ํ†ตํ•ด ์ค‘์š”ํ•œ ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋„์ถœํ•ฉ๋‹ˆ๋‹ค.

3. Extraction & Retrieval

Extraction & Retrieval์€ ๋ฌธ์„œ์—์„œ ํ•„์š”ํ•œ ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๊ณ  ๊ฒ€์ƒ‰ํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ค‘์š”ํ•œ ์ •๋ณด๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฐพ๊ณ  ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ •๋ณด ์ถ”์ถœ:
    • Named Entity Recognition (NER): ์ธ๋ช…, ์ง€๋ช…, ์กฐ์ง๋ช… ๋“ฑ ๋ช…๋ช…๋œ ๊ฐœ์ฒด๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.
    • ๊ด€๊ณ„ ์ถ”์ถœ: ๊ฐœ์ฒด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ถ”์ถœํ•˜์—ฌ ์ง€์‹ ๊ทธ๋ž˜ํ”„๋ฅผ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค.
    • ์š”์•ฝ: ๋ฌธ์„œ์˜ ์ฃผ์š” ๋‚ด์šฉ์„ ์ž๋™์œผ๋กœ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค.
  • ์ •๋ณด ๊ฒ€์ƒ‰:
    • ๊ฒ€์ƒ‰ ์—”์ง„: ๋ฌธ์„œ ๋‚ด์—์„œ ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๋Š” ์ •๋ณด๋ฅผ ๊ฒ€์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.
    • ์งˆ๋ฌธ ์‘๋‹ต ์‹œ์Šคํ…œ: ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋ฌธ์„œ์—์„œ ๋‹ต์„ ์ฐพ์•„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๊ณผ์ •:
    1. ๋ฐ์ดํ„ฐ ์ค€๋น„: ๋Œ€์šฉ๋Ÿ‰ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋ฅผ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค.
    2. ํŠน์„ฑ ์ถ”์ถœ: ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ธ๋ฑ์‹ฑํ•˜์—ฌ ๊ฒ€์ƒ‰ ํšจ์œจ์„ ๋†’์ž…๋‹ˆ๋‹ค.
    3. ๋ชจ๋ธ ์ ์šฉ: ๋‹ค์–‘ํ•œ ๊ฒ€์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ NLP ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ์ •๋ณด ์ถ”์ถœ ๋ฐ ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.
  • ์‘์šฉ: ๋ฒ•๋ฅ  ๋ฌธ์„œ์—์„œ์˜ ํŒ๋ก€ ๊ฒ€์ƒ‰, ๊ณ ๊ฐ ๋ฌธ์˜์— ๋Œ€ํ•œ ์ž๋™ ์‘๋‹ต, ๋Œ€๊ทœ๋ชจ ๋ฌธ์„œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์—์„œ์˜ ์ •๋ณด ๊ฒ€์ƒ‰ ๋“ฑ์„ ํ†ตํ•ด ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ์ ˆ๊ฐํ•ฉ๋‹ˆ๋‹ค.

์ด๋ฒˆ ํฌ์ŠคํŒ…์—์„œ๋Š” Steps of Text Analytics, ํ…์ŠคํŠธ ๋ถ„์„์˜ ์ˆœ์„œ์— ๋Œ€ํ•ด์„œ ์‚ดํŽด๋ดค์Šต๋‹ˆ๋‹ค ๐Ÿค—



-->