[NLP] 1. Introduction to Text Analytics
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/NLP-Text-Analytics-Intro
Introduction to Text Analytics
Text Analytics
๋ ๋ฌธ์(text)์ ๊ฐ์ ๋น์ ํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ๊ทธ ์์ ํฌํจ๋ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค.- ์ด๋ ์์ฐ์ด ์ฒ๋ฆฌ(Natural Language Processing, NLP) ๊ธฐ์ ์ ํ์ฉํ์ฌ ๋ค์ํ ํํ์ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ณ ๋ถ์ํจ์ผ๋ก์จ ์ง์๊ณผ ํต์ฐฐ์ ์ป๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
Text Analytics์ ์ฃผ์ ์์ฉ ๋ถ์ผ
- Text Analytics๋ ๋ค์ํ ์์ฉ ๋ถ์ผ์์ ํ์ฉ๋ฉ๋๋ค:
- ์ ๋ณด ์ถ์ถ/์์ฝ/์๊ฐํ: ๋ฌธ์์ ์ฃผ์ ์ ๋ณด๋ฅผ ์ถ์ถํ๊ณ ์ด๋ฅผ ์์ฝํ๊ฑฐ๋ ์๊ฐํํ๋ ์์ ์ ๋๋ค.
- ์ ๋ชฉ ์ถ์ถ: ๋ฌธ์์ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ ํ ์ ๋ชฉ์ ์๋์ผ๋ก ์์ฑํฉ๋๋ค.
- ์คํธ ๋ฉ์ผ ํํฐ๋ง: ์คํธ ๋ฉ์ผ์ ์๋์ผ๋ก ๋ถ๋ฅํ์ฌ ์ฌ์ฉ์์๊ฒ ์ ๋ฌ๋์ง ์๋๋ก ํฉ๋๋ค.
- ๊ฐ์ฑ ๋ถ์: ํ ์คํธ ๋ฐ์ดํฐ์ ๋ด๊ธด ๊ฐ์ ์ ๋ถ์ํ์ฌ ๊ธ์ ์ , ๋ถ์ ์ , ์ค๋ฆฝ์ ๊ฐ์ ์ ํ๋ณํฉ๋๋ค.
- ์ ํ ๋ฐ์ดํฐ์ ๊ฒฐํฉํ ๋ชจ๋ธ ํฅ์: ๋น์ ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ ํ ๋ฐ์ดํฐ์ ๊ฒฐํฉํ์ฌ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
ํ ์คํธ ๋ถ์์ ๋์ ๊ณผ์
Text Analytics๋ ๋ช ๊ฐ์ง ๋์ ๊ณผ์ ์ ์ง๋ฉดํด ์์ต๋๋ค:
- ๋์ ์ฐจ์์ ๋ฌธ์ (High number of Dimensions): ์ธ์ด์ ์ฐจ์ ์๊ฐ ๋งค์ฐ ๋์ ๋ถ์์ด ๋ณต์กํด์ง๋๋ค. ์๋ฅผ ๋ค์ด, ํ๊ตญ์ด๋ ์ฝ 110๋ง ๊ฐ์ ๋จ์ด๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค.
- ๋ณต์กํ๊ณ ๋ฏธ๋ฌํ ๊ด๊ณ(Complex and subtle relationships): ๋จ์ด ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๊ฐ ์กด์ฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ฒ ์๋ ์ํฌ์ ์ธ์ ๋คโ์ โ๊ทธ๋ ๊ทธ๋ ์ ๋ง ๋คํผ์ ํ์๋คโ๋ ํํ์ ์๋ก ๋ค๋ฅธ ๋จ์ด๋ฅผ ์ฌ์ฉํ์ง๋ง ๋์ผํ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค.
- ๋ชจํธ์ฑ ๋ฐ ๋ฌธ๋งฅ ๋ฏผ๊ฐ๋(Ambiguity and Context sensitivity): ๋จ์ด์ ๋ชจํธ์ฑ์ด ์กด์ฌํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ ํ(Apple)์ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๊ณผ์ผ์ด๋ ํ์ฌ ๋ก๊ณ ๋ฅผ ์๋ฏธํ ์ ์์ต๋๋ค.
ํ ์คํธ ๋ฐ์ดํฐ์ ๊ตฌ์กฐ
ํ ์คํธ ๋ฐ์ดํฐ๋ ๊ทธ ๊ตฌ์กฐ์ ๋ฐ๋ผ ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฅ๋ฉ๋๋ค:
1. Unstructured Data (๋น๊ตฌ์กฐ์ ๋ฐ์ดํฐ)
- ๋น๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ ๋ช ํํ ๊ตฌ์กฐ์ ๋จ์๊ฐ ์๋ ๋ฐ์ดํฐ๋ก, ํ ์คํธ์ ํ์์ด๋ ํจํด์ด ์ผ์ ํ์ง ์์ต๋๋ค.
- ์ด๋ฌํ ๋ฐ์ดํฐ๋ ๋ถ์ํ๊ธฐ ์ด๋ ต์ง๋ง, ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ๊ธฐ์ ์ ํตํด ์๋ฏธ๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค.
-
์์๋ก๋ ๋ค์์ด ์์ต๋๋ค:
- ๋ฌธ์ ๋ฉ์์ง
- ์์ค
- ๋ธ๋ก๊ทธ ๊ธ
- ์์ ๋ฏธ๋์ด ๊ฒ์๋ฌผ
2. Weakly Structured Data (์ฝ๊ฐ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ)
- ์ฝ๊ฐ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ ์ผ๋ถ ๊ตฌ์กฐ์ ๋จ์๋ฅผ ํฌํจํ๊ณ ์์ง๋ง, ์ฌ์ ํ ๋น๊ตฌ์กฐ์ ์์๊ฐ ๋ง์ต๋๋ค.
- ์ด๋ฌํ ๋ฐ์ดํฐ๋ ํน์ ํ์์ ๋ฐ๋ฅด์ง๋ง, ๊ทธ ํ์์ด ์์ ํ ์ผ๊ด๋์ง๋ ์์ต๋๋ค.
-
์์๋ก๋ ๋ค์์ด ์์ต๋๋ค:
- ๋ด์ค ๊ธฐ์ฌ
- ๋ฒ๋ฅ ๋ฌธ์
- ์ฐ๊ตฌ ๋ ผ๋ฌธ
- ์ ํ ๋ฆฌ๋ทฐ
3. Semi-Structured Data (๋ฐ๊ตฌ์กฐ์ ๋ฐ์ดํฐ)
- ๋ฐ๊ตฌ์กฐ์ ๋ฐ์ดํฐ๋ ๋ช ํํ ๊ตฌ์กฐ์ ๋จ์๋ฅผ ๋ง์ด ํฌํจํ๊ณ ์์ผ๋ฉฐ, ํน์ ํ์์ ๋ฐ๋ฆ ๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ๋ ๊ตฌ์กฐํ๋ ์ ๋ณด์ ๋น๊ตฌ์กฐํ๋ ์ ๋ณด๋ฅผ ๋ชจ๋ ํฌํจํ ์ ์์ต๋๋ค.
-
์์๋ก๋ ๋ค์์ด ์์ต๋๋ค:
- HTML
- XML
- ์ด๋ฉ์ผ
- JSON ํ์ผ
Text Mining์ ์ ํ
Text Mining์ ์ฌ๋ฌ ๊ฐ์ง ์ ํ์ผ๋ก ๋๋ฉ๋๋ค:
- ๋ฌธ์ ๋ถ๋ฅ(Document Classification): ๋ฌธ์๋ฅผ ๋ฏธ๋ฆฌ ์ ์๋ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํฉ๋๋ค.
- ๋ฌธ์ ๊ตฐ์งํ(Document Clustering): ์ ์ฌํ ๋ฌธ์๋ค์ ๊ทธ๋ฃนํํฉ๋๋ค.
- ์ฃผ์ ์ถ์ถ(Concept Extraction): ๋ฌธ์์์ ์ฃผ์ ์ฃผ์ ๋ฅผ ์ถ์ถํฉ๋๋ค.
- ์ ๋ณด ๊ฒ์(Information Retrieval): ์ฌ์ฉ์ ์ง์์ ๋ง๋ ๋ฌธ์๋ฅผ ๊ฒ์ํฉ๋๋ค.
- ์ ๋ณด ์ถ์ถ(Information Extraction): ๋ฌธ์์์ ํน์ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค.
- ์น ๋ง์ด๋(Web Mining): ์น ๋ก๊ทธ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํฉ๋๋ค.
- ์์ฐ์ด ์ฒ๋ฆฌ(NLP): ์ธ์ด์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ๊ณ ์ดํดํฉ๋๋ค.
ํ์ง๋ง, ํน์ Task๊ฐ ์ด๋ ํ ์์ญ์๋ง ์กด์ฌํ๋ค๊ณ ๋ ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด GPT๋ ์ฑ๋ด์ ์ฃผ๋ก ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ญ์ ์ํ์ง๋ง, ์ ๋ณด ๊ฒ์, ์ ๋ณด ์ถ์ถ, ๋ฌธ์ ๋ถ๋ฅ, ์ฃผ์ ์ถ์ถ, ๋ฌธ์ ๊ตฐ์งํ ๋ฑ ๋ค์ํ Text Analytics ๊ธฐ์ ์ ํ์ฉํ์ฌ ์ฌ์ฉ์์๊ฒ ์ ์ฉํ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ ์ํธ์์ฉํฉ๋๋ค. ์ด๋ฌํ ๊ธฐ์ ๋ค์ ํจ๊ป ์๋ํ์ฌ ์ฑ๋ด์ด ๋ ์ค๋งํธํ๊ณ ํจ์จ์ ์ผ๋ก ์ฌ์ฉ์์ ์ํตํ ์ ์๋๋ก ํฉ๋๋ค.
-
์์ฐ์ด ์ฒ๋ฆฌ(Natural Language Processing, NLP):
- GPT(Generative Pre-trained Transformer)์ ๊ฐ์ ์ธ์ด ๋ชจ๋ธ์ NLP์ ํต์ฌ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ์ธ๊ฐ ์ธ์ด๋ฅผ ์ดํดํ๊ณ ์์ฑํฉ๋๋ค. ์ด๋ ํ ์คํธ์ ๊ตฌ์กฐ๋ฅผ ๋ถ์ํ๊ณ ๋ฌธ๋ฒ ๊ท์น์ ์ดํดํ๋ฉฐ ๋ฌธ๋งฅ์ ํ์ ํ์ฌ ์์ฐ์ค๋ฌ์ด ์ธ์ด ์์ฑ์ด ๊ฐ๋ฅํ๋๋ก ํฉ๋๋ค.
-
์ ๋ณด ๊ฒ์(Information Retrieval):
- GPT ๊ธฐ๋ฐ ์ฑ๋ด์ ์ฌ์ฉ์ ์ง์์ ๋ง๋ ์ ์ ํ ์ ๋ณด๋ฅผ ๊ฒ์ํ์ฌ ์๋ต์ ์์ฑํ ์ ์์ต๋๋ค. ์ด๋ ์ฌ์ฉ์๊ฐ ์ง๋ฌธ์ ํ์ ๋ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ฐพ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ต๋ณ์ ์ ๊ณตํ๋ ๊ธฐ๋ฅ์ ํฌํจํฉ๋๋ค.
-
์ ๋ณด ์ถ์ถ(Information Extraction):
- ์ฑ๋ด์ ๋ฌธ์๋ ๋ํ์์ ํน์ ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ ์ฌ์ฉ์์๊ฒ ์ ๊ณตํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ ํน์ ๋ฐ์ดํฐ๋ ์ ๋ณด๋ฅผ ์์ฒญํ๋ฉด, ์ฑ๋ด์ ํด๋น ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ ๋ต๋ณํฉ๋๋ค.
-
๋ฌธ์ ๋ถ๋ฅ(Document Classification):
- GPT ๋ชจ๋ธ์ ๋ฌธ์๋ฅผ ๋ค์ํ ์นดํ ๊ณ ๋ฆฌ๋ก ๋ถ๋ฅํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณ ๊ฐ ์๋น์ค ์ฑ๋ด์ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ถ์ํ์ฌ ๊ธฐ์ ์ง์, ์ฒญ๊ตฌ ๊ด๋ จ ์ง๋ฌธ ๋ฑ์ผ๋ก ๋ถ๋ฅํ๊ณ ์ด์ ๋ง๋ ๋ต๋ณ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
-
์ฃผ์ ์ถ์ถ(Concept Extraction):
- GPT ๋ชจ๋ธ์ ํ ์คํธ์์ ์ฃผ์ ์ฃผ์ ๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ธด ๋ฌธ์๋ฅผ ์์ฝํ๊ฑฐ๋ ๋ํ์ ์ฃผ์ ์ฃผ์ ๋ฅผ ํ์ ํ์ฌ ๊ทธ์ ๋ง๋ ์๋ต์ ์์ฑํ ์ ์์ต๋๋ค.
-
๋ฌธ์ ๊ตฐ์งํ(Document Clustering):
- ์ฑ๋ด์ ์ ์ฌํ ๋ฌธ์๋ฅผ ๊ทธ๋ฃนํํ์ฌ ์ฌ์ฉ์์๊ฒ ์ถ์ฒํ๊ฑฐ๋ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค. ์ด๋ ์ฌ์ฉ์๊ฐ ํน์ ์ฃผ์ ์ ๋ํด ์ง๋ฌธํ ๋, ๊ด๋ จ ๋ฌธ์๋ฅผ ๊ทธ๋ฃนํํ์ฌ ์ ๊ณตํ๋ ๋ฐ ์ ์ฉํฉ๋๋ค.
ํ ์คํธ ๋ถ์์ ๋จ๊ณ
Text Analytics๋ ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค:
- ์ ์ ๋ฐ ๋ฐ์ดํฐ ์์ง(Define & Collect): ๋ถ์ํ ๋ชฉํ๋ฅผ ์ ์ํ๊ณ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค.
- ์ ์ฒ๋ฆฌ ๋ฐ ๋ณํ(Preprocess & Transform): ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ์ฌ ๋ถ์ ๊ฐ๋ฅํ ํํ๋ก ๋ณํํฉ๋๋ค.
- ํน์ง ์ ํ ๋ฐ ์ถ์ถ(Select & Extract Features): ๋ถ์์ ํ์ํ ์ค์ํ ํน์ง์ ์ ํํ๊ณ ์ถ์ถํฉ๋๋ค.
- ์๊ณ ๋ฆฌ์ฆ ํ์ต ๋ฐ ํ๊ฐ(Algorithm Learning & Evaluation): ์ ์ ํ ์๊ณ ๋ฆฌ์ฆ์ ํ์ต์ํค๊ณ ํ๊ฐํฉ๋๋ค.
๋ค์ ํฌ์คํธ์์๋ ํ
์คํธ ๋ถ์ ๋จ๊ณ
์ ๋ํด์ ์์ธํ๊ฒ ์ดํด๋ณด๊ฒ ์ต๋๋ค.