[Paper Review] NLP ๊ณต๋ถํ๋ ์ฌ๋์ด๋ผ๋ฉด ๊ผญ ์ฝ์ด์ผํ๋ ๋ ผ๋ฌธ ๋์ ์ ๋ฆฌํด๋๋ฆฝ๋๋ค
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/๋ฒ์ญ์ ๋ฆฌ-NLP-๊ณต๋ถํ๋-์ฌ๋์ด๋ผ๋ฉด-๊ผญ-์ฝ์ด์ผํ๋-๋ ผ๋ฌธ-๋์ -์ ๋ฆฌํด๋๋ฆฝ๋๋ค
โ๏ธ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์๋ ๋ถ์ผ๋ก, ์๋ง์ ํ๊ธฐ์ ์ธ ์ฐ๊ตฌ ๋ ผ๋ฌธ๋ค์ด ๋งค๋ ๋ฐํ๋๊ณ ์์ต๋๋ค. ๋ง์ฝ ์ฌ๋ฌ๋ถ์ด NLP์ ์ฒ์ ๋ฐ์ ๋ค์ด๊ฑฐ๋, ์ฐ๊ตฌ๋ฅผ ๋ ๊น์ด ์ดํดํ๊ณ ์ ํ๋ค๋ฉด, ๋ค์์ ์๊ฐํ ๋ ผ๋ฌธ๋ค์ด ํต์ฌ ๊ฐ๋ ๊ณผ ์ต๊ทผ ๋ฐ์ ๋ํฅ์ ํ์ ํ๋ ๋ฐ ํฐ ๋์์ด ๋ ๊ฒ์ ๋๋ค.
๋ค์์ ํด๋น ๋ธ๋ก๊ทธ์์ ์๊ฐํ๋ โMust-Read Research Papers for NLPโ Paper List๋ฅผ ์ฝ๊ณ ์ถ๊ฐ์ ์ผ๋ก ์ค๋ช ๋ฐ ์ ๋ฆฌํด๋์ ๋ด์ฉ์ ๋๋ค.
Paper List ์ถ์ฒ
: https://datajourney24.substack.com/p/must-read-research-papers-for-nlp?r=25b2f4&utm_campaign=post&utm_medium=web&triedRedirect=true-
์๋ฃ/์ด๋ฏธ์ง ์ถ์ฒ
:-
๋ฅ ๋ฌ๋์ ์ด์ฉํ ์์ฐ์ด ์ฒ๋ฆฌ ์ ๋ฌธ
- ๊ณ ๋ ค๋ํ๊ต DSBA ์ฐ๊ตฌ์ค ์๋ฃ
- ๊ฐ ๋ ผ๋ฌธ ์๋ฌธ Figures ๋ฐ์ท
-
- LLaMa2, LLaMa3์ ๊ฐ์ธ์ ์ผ๋ก ๊ถ๊ธํด์ ์ถ๊ฐํ์ต๋๋ค.
-
Word2Vec: Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)
๐ก Word2Vec์ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ํ์ ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ๋ฉฐ, ๋จ์ด๋ค ๊ฐ์ ์๋ฏธ์ ๊ด๊ณ๋ฅผ ๋ฒกํฐ ๊ณต๊ฐ์์ ํฌ์ฐฉํ ์ ์๊ฒ ํด์ฃผ์์ต๋๋ค. ์ด ๊ธฐ๋ฒ์ ์ ์ฌํ ๋จ์ด๋ฅผ ์ฐพ๊ฑฐ๋, ๋ฌธ๋งฅ ์์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ดํดํ๋ ๊ณผ์ ์์ ํฐ ๋ฐ์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ์ฌ์ ํ NLP์ ๊ธฐ์ด์ ์ธ ๊ฐ๋ ์ผ๋ก ์๋ฆฌ ์ก๊ณ ์์ต๋๋ค. ๋น๋ก ์ดํ์ ๋์ฑ ๋ฐ์ ๋ ๋ฐฉ๋ฒ๋ค์ด ๋ฑ์ฅํ์ง๋ง, Word2Vec๋ ๋จ์ด ์๋ฒ ๋ฉ(word embedding) ์ฐ๊ตฌ์ ์ถ๋ฐ์ ์ผ๋ก์ ํฐ ์์๋ฅผ ์ง๋๋๋ค.
- ์ด ๋
ผ๋ฌธ์ ๋จ์ด๋ฅผ ๋ฒกํฐ ๊ณต๊ฐ์์ ํํํ๋ ์๋ก์ด ๋ ๊ฐ์ง ๋ชจ๋ธ ์ํคํ
์ฒ๋ฅผ ์ ์ํ๊ณ ์์ต๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ผ๋ก๋ถํฐ ์ฐ์์ ์ธ ๋จ์ด ๋ฒกํฐ ํํ์ ๊ณ์ฐํ๋ ๋ฐฉ์์
๋๋ค.
- ๋ ผ๋ฌธ์์๋ ์ด ๋ฒกํฐ์ ํ์ง์ ๋จ์ด ์ ์ฌ์ฑ ๊ณผ์ ์์ ์ธก์ ํ์๊ณ , ๊ธฐ์กด์ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๊ธฐ์ ๋ค๊ณผ ๋น๊ตํด ์๋ฑํ ๋์ ์ ํ๋์ ํจ์จ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
- ํ์ ์ ์ธ ๋ชจ๋ธ ์ํคํ ์ฒ: Word2Vec๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ ์ฐ์์ ์ธ ๋ฒกํฐ ํํ์ ๊ณ์ฐํ๋ ๋ ๊ฐ์ง ๋ชจ๋ธ ์ํคํ ์ฒ(CBOW, Skip-gram)๋ฅผ ์ ์ํฉ๋๋ค.
- ํจ์จ์ฑ: 1.6์ต ๋จ์ด๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ์ ์์ ํ๋ฃจ ์ด๋ด์ ๊ณ ํ์ง์ ๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํ ์ ์์์ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ์ต๋๋ค.
- ์ ํ์ฑ: ์ด ๋ฒกํฐ๋ค์ ๊ตฌ๋ฌธ์ (syntactic) ๋ฐ ์๋ฏธ์ (semantic) ์ ์ฌ์ฑ์ ์ธก์ ํ๋ ํ ์คํธ ์ธํธ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋น๊ต ํ๊ฐ: ๊ธฐ์กด์ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋จ์ด ์๋ฒ ๋ฉ ๊ธฐ๋ฒ๋ณด๋ค ํจ์ฌ ๋ ์ ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก๋ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
-
๋จ์ด ๊ฐ ์๋ฏธ ๊ด๊ณ ํฌ์ฐฉ: Word2Vec๋ ๋จ์ด๋ค์ด ๋ฒกํฐ ๊ณต๊ฐ์์ ์์นํจ์ผ๋ก์จ, ๋จ์ด ๊ฐ ์๋ฏธ์ ๊ด๊ณ๋ฅผ ๋ฒกํฐ ์ฐ์ฐ์ผ๋ก ํฌ์ฐฉํ ์ ์์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, โking - man + womanโ ์ฐ์ฐ์ โqueenโ์ ๊ฐ๊น์ด ๋ฒกํฐ๋ฅผ ์ฐ์ถํ ์ ์๊ฒ ๋ฉ๋๋ค.
-
์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์์ ์ํฅ: ์ด ๊ธฐ๋ฒ์ ์ ์ฌํ ๋จ์ด๋ฅผ ์ฐพ๊ฑฐ๋ ๋ฌธ๋งฅ ์์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ดํดํ๋ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ ์์ ํฐ ๋ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค.
- ์ดํ ๋ฑ์ฅํ ๋ค์ํ ๋ฐ์ ๋ ๋ชจ๋ธ์ ์ถ๋ฐ์ ์ด ๋๋ ๊ธฐ์ด์ ์ธ ์ฐ๊ตฌ๋ก์, Word2Vec๋ ์ฌ์ ํ ์ค์ํ ์์๋ฅผ ์ง๋๋๋ค.
-
GloVe: Global Vectors for Word Representation (Pennington et al., 2014)
๐ก GloVe๋ ๋จ์ด ๋ฒกํฐ๋ฅผ ์์ฑํ๋ ๋ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก, ํ ์คํธ ๋ด์์ ๋จ์ด๊ฐ ์ผ๋ง๋ ์์ฃผ ๊ฐ์ด ๋ฑ์ฅํ๋์ง์ ๋ํ ์ ๋ฐ์ ์ธ ํต๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ณด๋ค ํ๋ถํ๊ฒ ํํํ ์ ์์ผ๋ฉฐ, NLP ๋ชจ๋ธ์ด ์ธ์ด๋ฅผ ๋ ์ ์ดํดํ ์ ์๋๋ก ๋์ต๋๋ค. ํนํ GloVe๋ ์ ์ญ์ ์ธ(word-word co-occurrence) ์ ๋ณด์ ๊ธฐ๋ฐํด ๋จ์ด์ ์๋ฏธ๋ฅผ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ๋จ์ด ๋ฒกํฐ๋ฅผ ์์ฑํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ธ GloVe๋ฅผ ์ ์ํฉ๋๋ค. GloVe๋ ๋จ์ด๋ค์ด ํ ์คํธ ๋ด์์ ์ผ๋ง๋ ์์ฃผ ํจ๊ป ๋ฑ์ฅํ๋์ง์ ๋ํ ์ ๋ฐ์ ์ธ ํต๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋จ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํฉ๋๋ค. ์ด๋ฌํ ์ ๊ทผ ๋ฐฉ์์ ํตํด ๊ฐ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋์ฑ ํ๋ถํ๊ณ ์ ํํ๊ฒ ํํํ ์ ์์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
์ ์ญ ํต๊ณ ๊ธฐ๋ฐ ํ์ต: GloVe๋ ๋ง๋ญ์น ์ ์ฒด์ ๋จ์ด-๋จ์ด ๋์ ๋ฐ์(co-occurrence) ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํฉ๋๋ค.
- ์ด๋ ๋จ์ด ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ฒกํฐ ๊ณต๊ฐ์์ ๋ ์ ํํํ ์ ์๊ฒ ํด์ค๋๋ค.
- ๋น๊ต ํ๊ฐ: GloVe ๋ชจ๋ธ์ ๊ธฐ์กด์ ๋ค๋ฅธ ๋จ์ด ์๋ฒ ๋ฉ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ฌ ๋จ์ด ์ ์ฌ๋ ๋ฐ ๋จ์ด ์ ์ถ(word analogy) ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
-
๋ชจ๋ธ ์ํคํ ์ฒ: GloVe๋ ๋ก๊ทธ-์ด์ฐจ ์์ค ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋จ์ด ๋ฒกํฐ ๊ฐ์ ์ ์ฌ๋๋ฅผ ์ต์ ํํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ํนํ ํฐ ๋ฐ์ดํฐ์ ์์ ํจ๊ณผ์ ์ด๋ฉฐ, ๋จ์ด ๋ฒกํฐ์ ์๋ฏธ์ ์์ฑ์ ์ ๋ฐ์ํ ์ ์์ต๋๋ค.
- ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ: GloVe๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์๋ ํจ์จ์ ์ผ๋ก ํ์ตํ ์ ์์ผ๋ฉฐ, ๋ฒกํฐ ๊ณต๊ฐ์์ ๋จ์ด๋ค ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ์ ํํํฉ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
-
๋จ์ด ์๋ฏธ์ ํ๋ถํ ํํ: GloVe๋ ๋จ์ด์ ๊ตญ์ง์ ์ธ(contextual) ์ฌ์ฉ๋ฟ๋ง ์๋๋ผ ์ ์ญ์ ์ธ ์ฌ์ฉ ํจํด์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ, ๋ ํ๋ถํ ์๋ฏธ ํํ์ ์ ๊ณตํฉ๋๋ค.
- ์ด๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ์ด ์ธ์ด๋ฅผ ๋ ์ ์ดํดํ ์ ์๋๋ก ๋์ต๋๋ค.
- ๋ค์ํ NLP ๊ณผ์ ์ ์ ์ฉ: GloVe๋ ๊ธฐ๊ณ ๋ฒ์ญ, ํ ์คํธ ๋ถ๋ฅ, ์ ๋ณด ๊ฒ์ ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ ์์ ๊ธฐ๋ณธ์ ์ธ ๋จ์ด ํํ ๊ธฐ๋ฒ์ผ๋ก ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
- ์ฐ๊ตฌ ๋ฐ ์์ฉ์ ๊ธฐ๋ฐ: ์ด ์ฐ๊ตฌ๋ ๋จ์ด ์๋ฒ ๋ฉ ๊ธฐ๋ฒ์ ์ค์ํ ๋ฐ์ ์ ์ด๋ฃจ์์ผ๋ฉฐ, ์ดํ์ ๋ง์ ์ฐ๊ตฌ์ ์์ฉ์์ ๋จ์ด ํํ์ ๊ธฐ์ด๋ก์ ํ์ฉ๋๊ณ ์์ต๋๋ค.
-
Sequence to Sequence Learning with Neural Networks (Sutskever et al., 2014)
๐ก ์ด ๋ ผ๋ฌธ์์๋ ์ํ์ค-ํฌ-์ํ์ค(Seq2Seq) ๋ชจ๋ธ์ ์๊ฐํ๋ฉฐ, ๋ฐ์ดํฐ์ ์ํ์ค(์: ๋ฌธ์ฅ)๋ฅผ ๋ค๋ฅธ ์ํ์ค๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ์ฌ ์ ๋ ฅ ์ํ์ค๋ฅผ ์ถ๋ ฅ ์ํ์ค๋ก ๋ณํํ ์ ์๊ฒ ๋์์ผ๋ฉฐ, ์ด ๋ชจ๋ธ์ ๊ธฐ๊ณ ๋ฒ์ญ(machine translation)์ด๋ ํ ์คํธ ์์ฝ(text summarization)๊ณผ ๊ฐ์ ๋ค์ํ ์์ ์์ ์ค์ํ ๊ธฐ์ ๋ก ์๋ฆฌ ์ก์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ํ์ค-ํฌ-์ํ์ค(Seq2Seq) ํ์ต ๋ชจ๋ธ์ ์๊ฐํ๋ฉฐ, ์ ๋ ฅ ์ํ์ค๋ฅผ ๋ค๋ฅธ ์ถ๋ ฅ ์ํ์ค๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ, ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ ์์ ํฐ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์ต๋๋ค. ํนํ ๊ธฐ๊ณ ๋ฒ์ญ๊ณผ ๊ฐ์ ๋ฌธ์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ์ดํ ๋ง์ ๋ชจ๋ธ์ ๊ธฐ์ด๊ฐ ๋์์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ: ์ ๋ ฅ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ์ธ์ฝ๋์, ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ถ๋ ฅ ์ํ์ค๋ฅผ ์์ฑํ๋ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋ ๊ตฌ์กฐ์ ๋๋ค.
- ์ด๋ Long Short-Term Memory (LSTM) ๋คํธ์ํฌ๊ฐ ์ฌ์ฉ๋์์ต๋๋ค.
-
BLEU ์ ์: WMT-14 ์์ด-ํ๋์ค์ด ๋ฒ์ญ ๊ณผ์ ์์ BLEU ์ ์ 34.8์ ๋ฌ์ฑํ์ผ๋ฉฐ, ์ด๋ ๊ธฐ์กด ํต๊ณ์ ๊ธฐ๊ณ ๋ฒ์ญ(SMT) ์์คํ ์ 33.3 ์ ์๋ณด๋ค ์ฐ์ํ ๊ฒฐ๊ณผ์ ๋๋ค.
- ๋ํ, LSTM์ ์ฌ์ฉํ์ฌ 1000๊ฐ์ ๊ฐ์ค์ ๋ค์ ํ๊ฐํ์ ๋ BLEU ์ ์๊ฐ 36.5๋ก ์ฆ๊ฐํ์ต๋๋ค.
-
์์ ๋ฐ์ ์ ๋ต: ์ ๋ ฅ ๋ฌธ์ฅ์ ๋จ์ด ์์๋ฅผ ๋ค์ง๋ ๊ฐ๋จํ ๊ธฐ์ ์ ์ฌ์ฉํด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- ์ด๋ ์งง์ ์๊ฐ ์์กด์ฑ์ ์ฆ๊ฐ์์ผ ์ต์ ํ ๋ฌธ์ ๋ฅผ ๋ ์ฝ๊ฒ ํด๊ฒฐํ๊ฒ ํฉ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- ์ํ์ค ํ์ต์ ํ์ : Seq2Seq ๋ชจ๋ธ์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ์ํ์ค์ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ๋๋ ์ฑ๊ณต์ ์ผ๋ก ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ฌ, ๊ธฐ์กด DNN์ด ํด๊ฒฐํ ์ ์์๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ต๋๋ค.
- ๊ธฐ๊ณ ๋ฒ์ญ์์์ ์ฑ๊ณผ: ์ด ๋ชจ๋ธ์ ํนํ ๊ธฐ๊ณ ๋ฒ์ญ ์์ ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, ์ดํ ํ ์คํธ ์์ฝ, ์ง์์๋ต ์์คํ ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์ ์์ฉ๋์์ต๋๋ค.
- ์ฅ๋ฌธ ์ฒ๋ฆฌ ๋ฅ๋ ฅ: Seq2Seq ๋ชจ๋ธ์ ๊ธด ๋ฌธ์ฅ์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ์ ์งํ๋ฉฐ, ๊ธฐ์กด์ LSTM ๋ชจ๋ธ์ด ๊ฐ์ก๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๊ธฐ์ฌํ์ต๋๋ค.
-
Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al., 2015)
๐ก ์ด ๋ ผ๋ฌธ์ ๋ฌธ์ฅ์ ๋ฒ์ญํ๋ ๊ณผ์ ์์ ๋จ์ด ๊ฐ์ ์ ๋ ฌ๊ณผ ๋ฒ์ญ์ ๋์์ ํ์ตํ๋ ์๋ก์ด ์ ๊ทผ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค. ํนํ ์ฃผ๋ชฉํ ๋ถ๋ถ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ(attention mechanism)์ ๋์ ์ผ๋ก, ๋ชจ๋ธ์ด ๋ฒ์ญํ ๋ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ค์ํ ๋ถ๋ถ์ ์ง์คํ ์ ์๊ฒ ํจ์ผ๋ก์จ ๋ฒ์ญ์ ํ์ง์ ํฅ์์์ผฐ์ต๋๋ค. ์ดํ ๋ง์ ๋ฒ์ญ ๋ชจ๋ธ์ ๋ฐ์ ์ ๊ธฐ์ด๊ฐ ๋ ๋ ผ๋ฌธ์ ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ํคํ ์ณ๋ ์ธ์ฝ๋์ ๋์ฝ๋๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ธ์ฝ๋ ๋ถ๋ถ์ Bidirectional RNN์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ธ์ฝ๋ฉํ๋ฉฐ, ๊ฐ ์ ๋ ฅ ๋จ์ด์ ๋ํ Attention ์ ๋ณด๋ฅผ ํฌํจํ ์ฌ๋ฌ ๊ฐ์ ์ด๋ ธํ ์ด์ (annotation)์ ์์ฑํฉ๋๋ค. ๋์ฝ๋๋ LSTM ๋คํธ์ํฌ๋ฅผ ์ฌ์ฉํ๊ณ , ๊ฐ ํ๊ฒ ๋จ์ด๋ฅผ ์์ฑํ ๋๋ง๋ค ์ ๋ ฅ ๋ฌธ์ฅ์์ ์ค์ํ ๋ถ๋ถ์ ์ฐพ์๋ด๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
์ฃผ์ ๋ด์ฉ
- ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ์ ํ๊ณ: ๊ธฐ์กด์ ์ธ์ฝ๋-๋์ฝ๋ ๋ชจ๋ธ์ ์
๋ ฅ ๋ฌธ์ฅ์ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ๋ก ์์ถํ๊ณ , ๊ทธ ๋ฒกํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฒ์ญ์ ์์ฑํฉ๋๋ค.
- ํ์ง๋ง ์ด๋ฌํ ๋ฐฉ์์ ๊ธด ๋ฌธ์ฅ์ด๋ ๋ณต์กํ ๋ฌธ์ฅ์ ์ ๋ณด๋ฅผ ์ถฉ๋ถํ ๋ด์๋ด์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
- ์ดํ
์
๋ฉ์ปค๋์ฆ ๋์
: ๋
ผ๋ฌธ์์ ์ ์๋ RNNSearch ๋ชจ๋ธ์ ๋ฒ์ญํ ๋ ์
๋ ฅ ๋ฌธ์ฅ ๋ด ํน์ ๋ถ๋ถ์ ์ง์คํ ์ ์๋๋ก
์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋์
ํ์ต๋๋ค.- ์ด ๋ฉ์ปค๋์ฆ์ ๋์ฝ๋๊ฐ ๋งค๋ฒ ๋จ์ด๋ฅผ ์์ฑํ ๋ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ค์ํ ๋ถ๋ถ์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํด ์ฐธ์กฐํ ์ ์๊ฒ ํด์ค๋๋ค.
- ์ฆ, ๋ชจ๋ ์ ๋ ฅ ์ ๋ณด๋ฅผ ๊ณ ์ ๋ ๋ฒกํฐ์ ์์ถํ๋ ๋์ , ๋ฌธ์ฅ์ ๊ด๋ จ๋ ๋ถ๋ถ์ ์ง์คํ์ฌ ๋ ๋์ ๋ฒ์ญ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ์ ๋ ฌ ํ์ต: RNNSearch ๋ชจ๋ธ์ ์ ๋ ฌ(alignment) ๊ณผ์ ์ ๋ช
์์ ์ผ๋ก ํ์ตํฉ๋๋ค.
- ๋ฒ์ญ์ ์์ฑํ ๋, ๊ฐ ํ๊ฒ ๋จ์ด๋ฅผ ์์ธกํ๋ ๊ณผ์ ์์ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ด๋ค ๋ถ๋ถ์ด ์ค์ํ์ง ๊ฒฐ์ ํ๊ณ , ์ด ๋ถ๋ถ์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ์๋์ผ๋ก ์ํํธ ์ ๋ ฌ์ ์ํํ๋ฉฐ, ๋ฒ์ญ์ ์ ํ์ฑ์ ๋์ ๋๋ค.
- ์ฑ๋ฅ ๊ฐ์ : ์์ด์์ ํ๋์ค์ด๋ก ๋ฒ์ญํ๋ ์์ ์์, ์ด ์๋ก์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ๊ตฌ๋ฌธ ๊ธฐ๋ฐ ํต๊ณ์ ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, ๊ธด ๋ฌธ์ฅ์ด๋ ๋ณต์กํ ๋ฌธ์ฅ ๊ตฌ์กฐ๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
(์ฐธ๊ณ ) ๊ธฐ์กดRNN vs RNNsearch
- RNNsearch๋ ๊ธฐ์กด์ RNN ๊ธฐ๋ฐ ๊ธฐ๊ณ ๋ฒ์ญ ๋ชจ๋ธ์
๊ณ ์ ๋ ๋ฌธ๋งฅ ๋ฒกํฐ์ ์์กดํ๋ ๋ฐฉ์
(๊ธฐ์กด)์์ ๋ฒ์ด๋, ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋์ ํด ์ ๋ ฅ ๋ฌธ์ฅ์์ค์ํ ๋ถ๋ถ์ ๋์ ์ผ๋ก ์ง์คํ ์ ์๋๋ก ์ค๊ณ
(RNNsearch)๋์์ต๋๋ค.- ๊ธฐ์กด RNN ๋ชจ๋ธ๊ณผ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํ ๋์ ์ฐธ์กฐ์ ์ ๋ ฌ ํ์ต์ ์์ต๋๋ค.
๊ตฌ๋ถ | ๊ธฐ์กด RNN ๊ณ์ด ์ธ์ด ๋ชจ๋ธ | RNNsearch (Bahdanau et al.) |
---|---|---|
์ธ์ฝ๋ ์ถ๋ ฅ | ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ๋ก ์์ค ๋ฌธ์ฅ ์์ถ | ๊ฐ๋ณ ๊ธธ์ด์ ์ฃผ์ ๋ฒกํฐ ์ฌ์ฉ |
๋ฒ์ญ ์์ฑ ๋ฐฉ์ | ๊ณ ์ ๋ ๋ฌธ๋งฅ ๋ฒกํฐ์ ์์กด | ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ๋์ ์ผ๋ก ์ ๋ ฅ ๋ฌธ์ฅ์ ์ฐธ์กฐ |
์ ๋ ฌ ํ์ต | ๋ช ์์ ์ ๋ ฌ ์์ด ์ ์ฒด ๋ฌธ๋งฅ์ ์์กด | ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ์๋์ผ๋ก ์์ค-ํ๊ฒ ์ ๋ ฌ ํ์ต |
๊ธด ๋ฌธ์ฅ ์ฒ๋ฆฌ | ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ ์ ์์ | ๊ธด ๋ฌธ์ฅ์์๋ ์ฑ๋ฅ ์ ์ง, ๋ ๋์ ์ ๋ณด ์ ์ง |
์ธ๋ถ ์ ๋ณด ์ฒ๋ฆฌ | ์ ์ญ ์ ๋ณด์ ์์กด | ์ ๋ ฅ ๋ฌธ์ฅ์ ํน์ ๋ถ๋ถ์ ์ง์คํ์ฌ ์ธ๋ถ ์ ๋ณด ๋ฐ์ |
(์ฐธ๊ณ ) Bahdanau ์ดํ ์ ๊ณผ Transformer ์ดํ ์ ์ ์ฐจ์ด์
๊ตฌ๋ถ | Bahdanau ์ดํ ์ (RNNsearch) | Transformer ์ดํ ์ (Self-Attention) |
---|---|---|
๊ตฌ์กฐ | RNN ๊ธฐ๋ฐ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ | ์์ ์ดํ ์ ๊ธฐ๋ฐ, Recurrent ๊ตฌ์กฐ ์์ |
์ดํ ์ ๋ฐฉ์ | ๋์ฝ๋์์ ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ํ ์ํํธ ์ดํ ์ | ์ ๋ ฅ ๋ฌธ์ฅ ๋ด์์ Self-Attention ์ฌ์ฉ |
์ ๋ ฌ ํ์ต | ํ๊ฒ ๋จ์ด์ ์ ๋ ฅ ๋จ์ด ๊ฐ ์ ๋ ฌ์ ํ์ต | ์ ๋ ฅ ๋ฌธ์ฅ์ ๋ชจ๋ ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ต |
Key-Value Query ๊ตฌ์กฐ | ์์ | Key, Query, Value ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ |
๋ณ๋ ฌ ์ฒ๋ฆฌ | ๋ถ๊ฐ๋ฅ (Recurrent ๊ตฌ์กฐ๋ก ์์ฐจ ์ฒ๋ฆฌ) | ๋ณ๋ ฌ ์ฒ๋ฆฌ ๊ฐ๋ฅ (๋น ๋ฅธ ํ์ต ์๋) |
Multi-Head Attention | ๋จ์ผ ์ดํ ์ ๋ง ์ฌ์ฉ | Multi-Head Attention์ผ๋ก ๋ค์ํ ๊ด๊ณ ํ์ต |
๊ธฐ์ฌ ๋ฐ ์์
-
์ ๋ ฌ๊ณผ ๋ฒ์ญ์ ํตํฉ ํ์ต: ์ด ๋ ผ๋ฌธ์ ๊ธฐ๊ณ ๋ฒ์ญ์์ ์ ๋ ฌ๊ณผ ๋ฒ์ญ์ ๋์์ ํ์ตํ๋ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค.
- ์ด๋ฅผ ํตํด ๊ธฐ์กด์ ๊ณ ์ ๋ฒกํฐ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ๋ ์ ์ฐํ๊ณ ์ ํํ ๋ฒ์ญ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
- ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ๋์ : ์ด ๋ ผ๋ฌธ์์ ์ฒ์ ์ ์๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ์ดํ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ Transformer์ ๊ฐ์ ๋ชจ๋ธ๋ก ๋ฐ์ ๋๋ฉฐ, ๋ง์ ์ธ์ด ๋ชจ๋ธ ๋ฐ ๊ธฐ๊ณ ๋ฒ์ญ ์์คํ ์์ ํต์ฌ์ ์ธ ๊ธฐ์ ๋ก ์๋ฆฌ ์ก์์ต๋๋ค.
-
๊ธฐ๊ณ ๋ฒ์ญ์ ๋ฐ์ : ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๊ธฐ๊ณ ๋ฒ์ญ(NMT)์ ๋ฐ์ ์ ์ด์งํ์ผ๋ฉฐ, ์ดํ ๋ง์ ์ฐ๊ตฌ์๋ค์ด ์ด ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฑ๋ฅ์ ๋์ฑ ๊ฐ์ ํ ๋ชจ๋ธ๋ค์ ๊ฐ๋ฐํ๊ฒ ๋์์ต๋๋ค.
- ํนํ, ๊ธฐ๊ณ ๋ฒ์ญ๋ฟ ์๋๋ผ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๋ฌธ์ ์ ์์ฉ๋์ด ํฐ ์ํฅ์ ๋ฏธ์ณค์ต๋๋ค.
-
Attention is All You Need (Vaswani et al., 2017)
๐ก ์ด ๋ ผ๋ฌธ์์๋ ํธ๋์คํฌ๋จธ(Transformer) ๋ชจ๋ธ์ ์๊ฐํ๋ฉฐ, NLP ๋ชจ๋ธ์ ์๋ ๋ฐฉ์์ ํฌ๊ฒ ๋ณํ์์ผฐ์ต๋๋ค. ์ด์ ์๋ RNN๊ณผ ๊ฐ์ ๋ฐฉ์์ด ์ฌ์ฉ๋์์ผ๋, ํธ๋์คํฌ๋จธ๋ ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์ฌ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ฌ๋ฌ ๋ถ๋ถ์ ๋์์ ์ง์คํ ์ ์์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์๋์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์๊ณ , ์ดํ BERT๋ GPT ๊ฐ์ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๊ธฐ์ด๊ฐ ๋์์ต๋๋ค.
ํด๋น ๋
ผ๋ฌธ์ ํธ๋์คํฌ๋จธ(Transformer) ๋ชจ๋ธ์ ์ ์ํ์ฌ, NLP ๋ชจ๋ธ์ ์๋ ๋ฐฉ์์ ํฐ ๋ณํ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค. ๊ธฐ์กด์๋ RNN์ด๋ CNN์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๊ฐ ๋๋ฆฌ ์ฌ์ฉ๋์์ผ๋, ํธ๋์คํฌ๋จธ๋ ์ด๋ฌํ ์ํ(recurrence)๊ณผ ํฉ์ฑ๊ณฑ(convolution)์ ์์ ํ ๋ฐฐ์ ํ๊ณ ์ค๋ก์ง ์ดํ
์
(attention) ๋ฉ์ปค๋์ฆ
์๋ง ์์กดํ๋ ์๋ก์ด ๋คํธ์ํฌ ์ํคํ
์ฒ๋ฅผ ์ ์ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ฑ๋ฅ๋ฟ๋ง ์๋๋ผ ๋ณ๋ ฌํ ์ฒ๋ฆฌ ์๋์์๋ ํฐ ๊ฐ์ ์ ์ด๋ฃจ์์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
- ํธ๋์คํฌ๋จธ ๋ชจ๋ธ: ํธ๋์คํฌ๋จธ๋ RNN์ด๋ CNN ์์ด ์ค๋ก์ง ์ดํ
์
๋ฉ์ปค๋์ฆ๋ง์ ์ฌ์ฉํ์ฌ ์ํ์ค๋ฅผ ๋ณํํ๋ ๋ชจ๋ธ์
๋๋ค.
- ์ด ๋ชจ๋ธ์ ํนํ ๋ณ๋ ฌํ๊ฐ ๊ฐ๋ฅํ์ฌ ํ๋ จ ์๊ฐ์ ํฌ๊ฒ ๋จ์ถ์ํฌ ์ ์์ต๋๋ค.
- Transformer๋ ์ด๋ฌํ Encoder-Decoder ๊ตฌ์กฐ์ Attention ๋ฉ์ปค๋์ฆ์ ๊ฒฐํฉ์ ํตํด ๊ธฐ์กด์ ์ํ ์ ๊ฒฝ๋ง(RNN)์ด๋ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN) ์์ด๋ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๊ฐ์ ๋ณต์กํ ๊ด๊ณ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
1. Encoder ๊ตฌ์กฐ
-
Transformer์ Encoder
๋ ๋์ผํ ๋ ์ด์ด๋ฅผ N=6๊ฐ ์์ ๊ตฌ์กฐ๋ก ๋์ด ์์ต๋๋ค. -
๊ฐ ๋ ์ด์ด๋ ๋ ๊ฐ์ ์ฃผ์ ์๋ธ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Multi-Head Self-Attention: ์ ๋ ฅ ์ํ์ค์ ๊ฐ ์์น๊ฐ ๋ค๋ฅธ ์์น์์ ๊ด๊ณ๋ฅผ ๊ณ ๋ คํ์ฌ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฉ์ปค๋์ฆ์ ๋๋ค.
- Feed-Forward Network: ๊ฐ ์์น์์ ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ๋ ๊ฐ๋จํ ์์ ์ฐ๊ฒฐ ๋คํธ์ํฌ์ ๋๋ค.
- ๊ฐ ์๋ธ ๋ ์ด์ด๋ ์์ฐจ ์ฐ๊ฒฐ(residual connection)์ ์ฌ์ฉํ์ฌ ์ ๋ ฅ์ ๋ค์ ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ถ๊ฐํ๊ณ , ๊ทธ ๋ค์ ๋ ์ด์ด ์ ๊ทํ(layer normalization)๊ฐ ์ ์ฉ๋ฉ๋๋ค.
- ๋ชจ๋ ์๋ธ ๋ ์ด์ด๋ 512์ฐจ์(d_model = 512)์ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.
2. Decoder ๊ตฌ์กฐ
-
Transformer์ Decoder
๋ํ N=6๊ฐ์ ๋์ผํ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋์ง๋ง, Encoder์๋ ์ฝ๊ฐ์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. -
Decoder์ ๊ฐ ๋ ์ด์ด์๋ ์ธ ๊ฐ์ ์๋ธ ๋ ์ด์ด๊ฐ ์์ต๋๋ค:
- Masked Multi-Head Self-Attention: ๋ค์ ์ค๋ ์์น์ ์ ๋ณด์ ์ ๊ทผํ์ง ๋ชปํ๋๋ก ๋ง์คํน์ ์ ์ฉํ self-attention์ ๋๋ค.
- Multi-Head Attention: Encoder์ ์ถ๋ ฅ๋ ๊ณ ๋ คํ์ฌ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค.
- Feed-Forward Network: Encoder์ ๋์ผํ๊ฒ ์๋ํ๋ ์์ ์ฐ๊ฒฐ ๋คํธ์ํฌ์ ๋๋ค.
-
๋ง์คํน ์ฒ๋ฆฌ ๋๋ถ์ Decoder๋ ํ์ฌ ์์น๊น์ง์ ์ ๋ณด๋ง์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ์ถ๋ ฅ์ ์์ธกํ ์ ์์ต๋๋ค.
3. Attention ๋ฉ์ปค๋์ฆ
-
Transformer์ Attention ๋ฉ์ปค๋์ฆ
์ ์ฟผ๋ฆฌ(query), ํค(key), ๊ฐ(value) ์ธ ์์ ์งํฉ์ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ ฅ์ ์์ฑํ๋ ๊ธฐ๋ฅ์ ๋งํฉ๋๋ค.- ์ฟผ๋ฆฌ, ํค, ๊ฐ์ ๋ชจ๋ ๋ฒกํฐ ํํ๋ก ํํ๋๋ฉฐ, ์ถ๋ ฅ์ ๊ฐ์ค ํฉ๊ณ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
- ์ด ๋ฉ์ปค๋์ฆ์ ์ ๋ ฅ ์ํ์ค์ ๋ชจ๋ ์์น์ ๋ํด ์ ์ญ์ ์ธ ์ข ์ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ๋งํ ์ ์๊ฒ ํด์ฃผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ํ์ค์ ํน์ ๋ถ๋ถ์ ๋ ์ง์คํ ์ ์์ต๋๋ค.
-
์ฑ๋ฅ: ํธ๋์คํฌ๋จธ๋ WMT 2014 ์์ด-๋ ์ผ์ด ๋ฒ์ญ ์์ ์์ BLEU ์ ์ 28.4๋ฅผ ๊ธฐ๋กํ๋ฉฐ ๊ธฐ์กด ์ต์์ ๋ชจ๋ธ์ ๋ฐ์ด๋์์ต๋๋ค.
- ๋ํ, WMT 2014 ์์ด-ํ๋์ค์ด ๋ฒ์ญ ์์ ์์ ๋จ์ผ ๋ชจ๋ธ๋ก 41.8 BLEU ์ ์๋ฅผ ๊ธฐ๋กํ๋ฉฐ ์๋ก์ด ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์ด๋ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ์ ์ ํ๋ จ ์๊ฐ(3.5์ผ)๋ง์ผ๋ก ์ป์ ๊ฒฐ๊ณผ์ ๋๋ค.
-
๋ณ๋ ฌํ์ ํจ์จ์ฑ: ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ๊ธฐ์กด์ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋ณ๋ ฌํ๊ฐ ์ฉ์ดํ์ฌ ํ์ต ์๋๊ฐ ๋น ๋ฅด๋ฉฐ, ์ ์ ๋น์ฉ์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- ์์ ์ดํ ์ ๊ธฐ๋ฐ ๋ชจ๋ธ: ํธ๋์คํฌ๋จธ๋ ๊ธฐ์กด์ ์ธ์ฝ๋-๋์ฝ๋ ๋ฐฉ์์์ ๋ฐ์ํ๋ ์ํ๊ณผ ํฉ์ฑ๊ณฑ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ณ , ์ค๋ก์ง ์ดํ ์ ๋ฉ์ปค๋์ฆ์ ํตํด ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
๋ชจ๋ธ์ ํจ์จ์ฑ: ํธ๋์คํฌ๋จธ๋ ํ๋ จ ์๊ฐ๊ณผ ๋น์ฉ์ ํฌ๊ฒ ์ค์ผ ์ ์์ผ๋ฉด์๋ ๋ฒ์ญ ์ฑ๋ฅ์ ๋ํญ ํฅ์์์ผฐ์ต๋๋ค.
- ์ด ๋ชจ๋ธ์ ๋ณ๋ ฌํ ๋ฅ๋ ฅ์ ์ดํ BERT, GPT ๋ฑ์ ๋ชจ๋ธ์ ๊ธฐ์ด๊ฐ ๋์์ต๋๋ค.
- NLP ๋ชจ๋ธ์ ๋ณํ: ํธ๋์คํฌ๋จธ๋ NLP ๋ชจ๋ธ์ ์๋ก์ด ํ์ค์ผ๋ก ์๋ฆฌ ์ก์์ผ๋ฉฐ, ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ๊ธฐ์ด ๊ธฐ์ ์ด ๋์์ต๋๋ค.
-
ELMo: Deep Contextualized Word Representations (Peters et al., 2018)
๐ก ELMo๋ ๋จ์ด์ ์๋ฏธ๊ฐ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ณํํ ์ ์๋ค๋ ์์ด๋์ด๋ฅผ ์ฒ์์ผ๋ก ๋์ ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด, โ
bank
โ๋ผ๋ ๋จ์ด๋ โriver bank
โ(๊ฐ๋)๊ณผ โmoney bank
โ(์ํ)์์ ๊ฐ๊ฐ ๋ค๋ฅธ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค. ELMo๋ ์ด๋ฌํ ๋ฌธ๋งฅ์ ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ์ฌ ๋ชจ๋ธ์ด ์ธ์ด๋ฅผ ๋ ์ ํํ๊ฒ ์ดํดํ ์ ์๋๋ก ๋์ต๋๋ค. ์ด๋ก ์ธํด NLP ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
ELMo(Embeddings from Language Models)
๋ ๋จ์ด์ ์๋ฏธ๊ฐ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์๋ค๋ ์ (๋จ์ด ์๋ฏธ์ ๋์ ๋ณ๊ฒฝ)์ ์ฒ์์ผ๋ก ๋์
ํ ์ฐ๊ตฌ์
๋๋ค. ๊ธฐ์กด์ ๋จ์ด ์๋ฒ ๋ฉ ๊ธฐ๋ฒ๋ค๊ณผ ๋ฌ๋ฆฌ, ELMo๋ ๋จ์ด๋ฅผ ๊ณ ์ ๋ ๋ฒกํฐ๋ก ํํํ์ง ์๊ณ , ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ณํํ๋ ๋ฒกํฐ๋ก ํํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ๋ฌธ๋งฅ์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ ํํ ํ์
ํ๊ณ , ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์
์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
๋ฌธ๋งฅ์ ๋จ์ด ํํ: ELMo๋ 2์ธต bi-LM์ ์ฌ์ฉํ์ฌ ๊ฐ ๋จ์ด์ ๋ํด (2L + 1)๊ฐ์ ํํ์ ๊ณ์ฐํฉ๋๋ค. ์ฌ๊ธฐ์ L์ LSTM์ ์ธต ์์ ๋๋ค.
- ์ด๋ ๋จ์ด์ ๋ณต์กํ ์ฌ์ฉ(๊ตฌ๋ฌธ ๋ฐ ์๋ฏธ)์ ๋ชจ๋ธ๋งํ๊ณ , ๋ค์์ด(polysemy)์ ๊ฐ์ด ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋ณํํ๋ ๋จ์ด ์๋ฏธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.
-
๊ฐ ๋จ์ด์ ํํ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค:
ELMoktask=E(Rk;ฮtask)=ฮณtaskโj=0Lstask,jhLM,k,jELMo^{task}_{k} = E(R_k; \Theta_{task}) = \gamma_{task} \sum_{j=0}^{L} s_{task,j} h_{LM,k,j}ELMoktaskโ=E(Rkโ;ฮtaskโ)=ฮณtaskโโj=0Lโstask,jโhLM,k,jโ
-
hLM,k,jh_{LM,k,j}hLM,k,jโ: biLM์ ๊ฐ ์ธต์์ ๋์จ ํํ.
-
ฮณtask\gamma_{task}ฮณtaskโ: ์ ์ฒด ELMo ๋ฒกํฐ๋ฅผ ์ค์ผ์ผ๋งํ๋ ์ค์นผ๋ผ ๋งค๊ฐ๋ณ์.
-
stask,js_{task,j}stask,jโ: ํด๋น ์์ ์ softmax๋ก ์ ๊ทํ๋ ๊ฐ์ค์น.
-
- ๋ฌธ๋งฅ ๊ธฐ๋ฐ ๋ฒกํฐ: ELMo๋ ๋จ์ด ๋ฒกํฐ๋ฅผ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ์์ฑํ๋ฉฐ, ๊ณ ์ ๋ ๋ฒกํฐ๊ฐ ์๋ ๋ฌธ์ฅ ๋ด์์์ ์์น๋ ์ฃผ๋ณ ๋จ์ด์ ๋ฐ๋ผ ๋ค๋ฅธ ๋ฒกํฐ ํํ์ ํ์ตํฉ๋๋ค.
-
NLP ์ฑ๋ฅ ํฅ์: ELMo๋ ๊ธฐ์กด ๋ชจ๋ธ์ ์ฝ๊ฒ ํตํฉ๋ ์ ์์ผ๋ฉฐ, ์ง๋ฌธ ์๋ต, ํ ์คํธ ํจ์, ๊ฐ์ ๋ถ์ ๋ฑ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณผ์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- 6๊ฐ์ NLP ๋ฌธ์ ์์ ์ฑ๋ฅ์ ์ ์ฆํ๋ฉฐ, ํนํ ์ง๋ฌธ ์๋ต๊ณผ ํ ์คํธ ํจ์ ๋ฑ์์ ๋๊ฐ์ ๋ํ๋์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- ๋ฌธ๋งฅ์ ๋จ์ด ํํ์ ๋์ : ELMo๋ ๋จ์ด๊ฐ ๋ฌธ๋งฅ์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ๋ณํํ ์ ์๋ค๋ ๊ฐ๋ ์ ํจ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ์์ต๋๋ค.
- ๋ค์ํ NLP ๊ณผ์ ์์์ ์์ฉ: ELMo๋ ๊ธฐ์กด์ ๋ง์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ ์ฉ๋์ด ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ์ดํ ๋ฑ์ฅํ BERT๋ GPT ๋ชจ๋ธ์ ๊ธฐ์ด๊ฐ ๋์์ต๋๋ค.
- ์ธ์ด ๋ชจ๋ธ์ ์ค์์ฑ: ์ด ์ฐ๊ตฌ๋ ๋๊ท๋ชจ ํ ์คํธ ์ฝํผ์ค์์ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ์ค์์ฑ์ ๊ฐ์กฐํ์ต๋๋ค.
-
Universal Language Model Fine-tuning (ULMFiT) (Howard and Ruder, 2018)
๐ก ULMFiT๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ํํ ์ฌ์ฉ๋๋ ์ ์ด ํ์ต(transfer learning)์ NLP์ ์ ์ฉํ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํจ์ผ๋ก์จ, ์๋ก์ด NLP ์์ ์์ ์ ์ ๋ฐ์ดํฐ์ ๋ ธ๋ ฅ์ ๋ค์ฌ๋ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์๊ฒ ํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ค์ํ NLP ๊ณผ์ ์ ์ ์ด ํ์ต์ ์ ์ฉํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ ์ด ํ์ต(transfer learning)์ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ธ ULMFiT๋ฅผ ์๊ฐํฉ๋๋ค. ULMFiT๋ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ์๋ก์ด NLP ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํ์ฌ ์ ์ ๋ฐ์ดํฐ์ ๋ ธ๋ ฅ์ผ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ NLP์์ ์ ์ด ํ์ต์ ํ์ฉ์ ๊ทน๋ํํ๋ฉฐ, ๋ค์ํ NLP ๊ณผ์ ์์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
์ ์ด ํ์ต์ ํตํ ์ฑ๋ฅ ํฅ์: ULMFiT๋ ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ์๋ก์ด ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ํ์ฌ, ์ ์ ์์ ๋ฐ์ดํฐ๋ก๋ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ์ด ๊ธฐ๋ฒ์ ๊ธฐ์กด์ NLP ๋ชจ๋ธ๋ณด๋ค ๋ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์์ผ๋ฉฐ, ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํฉ๋๋ค.
-
๋ณดํธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ: ์ด ๊ธฐ๋ฒ์ ํ ์คํธ ๋ถ๋ฅ์ ๊ฐ์ ์์ ์ ์ ์ฉ๋ ์ ์์ผ๋ฉฐ, ๋ฐ์ดํฐ๊ฐ ์ ํ๋ ์ํฉ์์๋ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
- ๋ํ, 100๊ฐ์ ๋ผ๋ฒจ๋ง์ผ๋ก๋ ์ฑ๋ฅ์ ๊ทน๋ํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
-
์ฑ๋ฅ: ULMFiT๋ 6๊ฐ์ ํ ์คํธ ๋ถ๋ฅ ์์ ์์ ๊ธฐ์กด ์ต์ฒจ๋จ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, ์ค๋ฅ์จ์ 18-24% ๋ฎ์ถ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
- ๋ํ, ULMFiT๋ ์๋ก์ด ์์ ์ ๋ง์ถฐ ๊ธฐ์กด ๋ชจ๋ธ์ ์์ ํ ํ์ ์์ด ๋ฏธ์ธ ์กฐ์ ๋ง์ผ๋ก ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- NLP์์์ ์ ์ด ํ์ต ๋ณดํธํ: ULMFiT๋ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ๋ค์ํ NLP ์์ ์ ํจ๊ณผ์ ์ผ๋ก ์ ์ฉํ ์ ์๋ ๋ณดํธ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค.
- ์ ์ ๋ฐ์ดํฐ๋ก๋ ์ฐ์ํ ์ฑ๊ณผ: ์ด ์ฐ๊ตฌ๋ ์ ํ๋ ๋ฐ์ดํฐ๋ก๋ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ผ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํ์์ต๋๋ค.
- NLP ์์ ์์์ ํจ์จ์ฑ ์ฆ๋: ULMFiT๋ ํ ์คํธ ๋ถ๋ฅ, ๊ฐ์ ๋ถ์ ๋ฑ ๋ค์ํ ์์ ์์ ์ ์ด ํ์ต์ ๊ฐ๋ฅ์ฑ ์ ์ฆ ๋ฐ ๋ชจ๋ธ ํ์ต ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
-
GPT-1: Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)
๐ก ์ด ๋ ผ๋ฌธ์์๋ GPT-1์ ์๊ฐํ๋ฉฐ, ์ธ์ด ์์ ์ ๋ํด ์์ฑ ๊ธฐ๋ฐ ์ฌ์ ํ์ต(generative pre-training)์ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๋๊ท๋ชจ ์ฝํผ์ค๋ฅผ ํ์ฉํ ์ฌ์ ํ์ต๊ณผ ํน์ ์์ ์ ๋ํ ๋ฏธ์ธ ์กฐ์ ์ ํตํด, GPT-1์ ๋ค์ํ NLP ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ์ฆ๋ช ํ์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ GPT-1(Generative Pre-training Transformer)์ ์๊ฐํ๋ฉฐ, ์์ฑ ๊ธฐ๋ฐ ์ฌ์ ํ์ต(generative pre-training)์ด ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. GPT-1์ ๋๊ท๋ชจ์ ๋น๋ผ๋ฒจ ํ ์คํธ ์ฝํผ์ค๋ฅผ ์ด์ฉํด ๋จผ์ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํ๊ณ , ๊ทธ ํ์ ํน์ NLP ์์ ์ ๋ํด ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ์ํํ๋ ๋ฐฉ์์ผ๋ก, NLP ์์ ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
- ์์ฑ ๊ธฐ๋ฐ ์ฌ์ ํ์ต: GPT-1์ ๋๊ท๋ชจ ๋น๋ผ๋ฒจ ํ
์คํธ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ตํฉ๋๋ค.
- ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ๋์ฝ๋๋ง์ ์ฌ์ฉํ์ฌ ์ธ์ด ์์ฑ ๊ธฐ๋ฐ์ ์์ ์ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ์ธ์ด์ ๋ณต์กํ ํจํด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ์ตํ๋ฉฐ, ์ดํ ๋ฏธ์ธ ์กฐ์ ์ ํตํด ๋ค์ํ NLP ์์ ์ ์ ์ฉํ ์ ์์ต๋๋ค.
- ๋ฏธ์ธ ์กฐ์ ์ ํตํ ์ฑ๋ฅ ํฅ์: GPT-1์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ NLP ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ํ์ฌ, ํ ์คํธ ๋ถ๋ฅ, ์ง๋ฌธ ์๋ต, ๋ฌธ์ฅ ๊ฐ ์ ์ฌ์ฑ ํ๊ฐ ๋ฑ ์ฌ๋ฌ NLP ์์ ์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- ์ฑ๋ฅ: GPT-1์ 12๊ฐ์ NLP ์์
์ค 9๊ฐ์์ ์๋ก์ด ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, ์์ ์ถ๋ก ์์ (Stories Cloze Test)์์ 8.9%์ ์ ๋ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์ง๋ฌธ ์๋ต(RACE)์์ 5.7%์ ํฅ์์ ๋ณด์์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
-
์ ์ด ํ์ต์ ํ์ ์ ์ ์ฉ: GPT-1์ ์์ฑ ๊ธฐ๋ฐ ์ฌ์ ํ์ต์ ํตํด NLP ์์ ์์ ์ ์ด ํ์ต์ ๊ฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ์ด๋ NLP ๋ชจ๋ธ์ด ์ ์ ์์ ๋ผ๋ฒจ๋ ๋ฐ์ดํฐ๋ก๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ผ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
- ๋ชจ๋ธ ์ํคํ ์ฒ์ ๋จ์ํ: GPT-1์ ๊ฐ ์์ ์ ๋ง์ถ ๋ณต์กํ ๋ชจ๋ธ ์ํคํ ์ฒ ์์ด, ํ๋์ ์ผ๋ฐ์ ์ธ ๋ชจ๋ธ์ ํตํด ๋ค์ํ NLP ์์ ์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- NLP์ ์๋ก์ด ํจ๋ฌ๋ค์ ์ ์: ์ด ๋ ผ๋ฌธ์ BERT, GPT-2, GPT-3 ๋ฑ ์ดํ ๋ฑ์ฅํ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ์ด๊ฐ ๋์์ผ๋ฉฐ, NLP์์ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ค์์ฑ์ ๋์คํ์์ผฐ์ต๋๋ค.
-
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)
๐ก BERT๋ NLP์์ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ฃผ๋ณ ๋จ์ด๋ฅผ ํตํด ์ดํดํ๋ ๋ฐฉ์์ ์ ์ํ๋ฉฐ, NLP์ ํจ๋ฌ๋ค์์ ํฌ๊ฒ ๋ฐ๊พธ์์ต๋๋ค. BERT๋ ๋จ์ด ์๋ค์ ๋ฌธ๋งฅ์ ๋ชจ๋ ๊ณ ๋ คํ๋ ์๋ฐฉํฅ ์ดํ ์ (bidirectional attention)์ ์ฌ์ฉํ์ฌ, ๋ค์ํ ์์ ์์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. BERT๋ ์ค๋๋ ๋ง์ NLP ์์ฉ ํ๋ก๊ทธ๋จ์ ํต์ฌ ๊ธฐ์ ๋ก ์๋ฆฌ ์ก๊ณ ์์ต๋๋ค.
BERT(Bidirectional Encoder Representations from Transformers)๋ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์์ ์๋ฐฉํฅ(bidirectional) ์ดํ ์ ์ ์ฌ์ฉํ๋ ์๋ก์ด ์ธ์ด ํํ ๋ชจ๋ธ์ ๋๋ค. BERT๋ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ฃผ๋ณ ๋ฌธ๋งฅ์ ํตํด ์๋ฐฉํฅ์ผ๋ก ์ดํดํ๋ ๋ฐฉ์์ ์ ์ํ๋ฉฐ, NLP์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ์ต๋๋ค. ํนํ BERT๋ ์ฌ์ ํ์ต(pre-training)๋ ๋ชจ๋ธ์ ๋ค์ํ NLP ์์ ์ ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํ์ฌ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
์๋ฐฉํฅ ์ดํ ์ : BERT๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ์ ์ธ์ฝ๋ ๋ธ๋ก๋ง ์ฌ์ฉํ์ฌ ์ ๋ ฅ ๋ฌธ์ฅ์ ์๋ค ๋ฌธ๋งฅ์ ๋ชจ๋ ๊ณ ๋ คํ์ฌ ๋จ์ด์ ์๋ฏธ๋ฅผ ํ์ตํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ๊ธฐ์กด์ ๋จ๋ฐฉํฅ ๋ชจ๋ธ๋ณด๋ค ๋ ๊น๊ณ ํ๋ถํ ์ธ์ด ํํ์ ์ป์ ์ ์์ต๋๋ค.
-
๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ(Masked Language Model, MLM): ์ ๋ ฅ๋ ๋ฌธ์ฅ์์ ์ผ๋ถ ๋จ์ด๋ฅผ ๋ฌด์์๋ก ๋ง์คํนํ๊ณ , ๋ง์คํฌ๋ ๋จ์ด๋ฅผ ์ฃผ๋ณ ๋จ์ด์ ๋งฅ๋ฝ์ผ๋ก๋ถํฐ ์์ธกํฉ๋๋ค.
-
MLM
์ ๋ฌธ์ฅ์ ์ผ๋ถ ๋จ์ด๋ฅผ ๋ง์คํนํ๊ณ ์ด๋ฅผ ์์ธกํ๋ ํ์คํฌ์ ๋๋ค.-
์๋ณธ ๋ฌธ์ฅ: โ์ธ๊ณต์ง๋ฅ์ ํ๋ ๊ธฐ์ ์ ํต์ฌ ๋ถ์ผ์ ๋๋ค.โ
๋ง์คํน๋ ๋ฌธ์ฅ: โ์ธ๊ณต์ง๋ฅ์ ํ๋
[MASK]
์ ํต์ฌ ๋ถ์ผ์ ๋๋ค.โ๋ชจ๋ธ์ ๋ชฉํ:
[MASK]
์์น์ โ๊ธฐ์ โ์ ์์ธก -
์๋ณธ ๋ฌธ์ฅ: โ๋ฅ๋ฌ๋์ ๋ณต์กํ ํจํด์ ํ์ตํ ์ ์์ต๋๋ค.โ
๋ง์คํน๋ ๋ฌธ์ฅ: โ๋ฅ๋ฌ๋์
[MASK]
ํ ํจํด์ ํ์ตํ ์ ์์ต๋๋ค.โ๋ชจ๋ธ์ ๋ชฉํ:
[MASK]
์์น์ โ๋ณต์กโ์ ์์ธก
-
-
-
๋ฌธ์ฅ ์ ์์ธก(Next Sentence Prediction, NSP): ๋ ๋ฌธ์ฅ(A, B)์ด ์ฐ๊ฒฐ๋ ๋ฌธ์ฅ์ธ์ง ์๋์ง๋ฅผ ์์ธกํ๋ ์์ ์ ๋๋ค. ์ด๋ฅผ ํตํด ๋ฌธ์ฅ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ดํดํฉ๋๋ค.
-
NSP
๋ ๋ ๋ฌธ์ฅ์ด ์ฐ์์ ์ธ์ง ์๋์ง๋ฅผ ์์ธกํ๋ ํ์คํฌ์ ๋๋ค.-
๋ฌธ์ฅ A: โ์ธ๊ณต์ง๋ฅ ๊ธฐ์ ์ด ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์์ต๋๋ค.โ
๋ฌธ์ฅ B: โ์ด๋ก ์ธํด ๋ง์ ์ฐ์ ๋ถ์ผ์์ ํ์ ์ด ์ผ์ด๋๊ณ ์์ต๋๋ค.โ
์ ๋ต: IsNextSentence (์ฐ์์ ์ธ ๋ฌธ์ฅ)
-
๋ฌธ์ฅ A: โ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๋๋์ ๋ฐ์ดํฐ๋ก ํ์ต๋ฉ๋๋ค.โ
๋ฌธ์ฅ B: โ์ค๋ ๋ ์จ๊ฐ ๋งค์ฐ ์ข์ต๋๋ค.โ
์ ๋ต: NotNextSentence (์ฐ์์ ์ด์ง ์์ ๋ฌธ์ฅ)
-
-
- ์ฌ์ ํ์ต ๋ฐ ๋ฏธ์ธ ์กฐ์ : BERT๋ ๋๊ท๋ชจ ํ
์คํธ์์ ์ฌ์ ํ์ต(MLM, NSP)๋ ํ, ์๋ก์ด NLP ์์
์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ (Fine-tuning)๋ ์ ์์ต๋๋ค.
- ์ด๋ฅผ ํตํด ๋ค์ํ NLP ์์ ์์ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ผ ์ ์์ผ๋ฉฐ, ์ถ๊ฐ์ ์ธ ์์ ๋ณ ๋ชจ๋ธ ์์ ์์ด๋ ์ ์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.
- ์ฑ๋ฅ: BERT๋ 11๊ฐ์ NLP ์์
์์ ์๋ก์ด ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ง๋ฌธ ์๋ต(SQuAD) ์์ ์์ BERT๋ F1 ์ ์ 93.2%๋ฅผ ๊ธฐ๋กํ๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- NLP์ ํจ๋ฌ๋ค์ ์ ํ: BERT๋ ๋จ์ด๋ฅผ ๋ฌธ๋งฅ ๋ด์์ ์๋ฐฉํฅ์ผ๋ก ์ดํดํ๋ ๋ฐฉ์์ ๋์ ํ์ฌ, NLP ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- ๋ค์ํ NLP ์์ ์์์ ์ ์ฉ: BERT๋ ์ง๋ฌธ ์๋ต, ๋ฌธ์ฅ ์ ์ถ, ๊ฐ์ ๋ถ์ ๋ฑ ๋ค์ํ NLP ์์ ์ ์ ์ฉํ ์ ์์ผ๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ๋ณด์์ต๋๋ค.
- ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๋์คํ: BERT๋ ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ๋ค์ํ ์์ ์ ๋ง์ถฐ ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ์์ ๋ณดํธํ์์ผฐ์ผ๋ฉฐ, ์ด๋ NLP ์ฐ๊ตฌ์ ์ฐ์ ์์ฉ์์ ํต์ฌ ๊ธฐ์ ๋ก ์๋ฆฌ ์ก์์ต๋๋ค.
-
GPT-2: Language Models are Unsupervised Multitask Learners (Radford et al., 2019)
๐ก ์ด ๋ ผ๋ฌธ์์ GPT-2๊ฐ ์๊ฐ๋์์ผ๋ฉฐ, ๋ฌธ๋งฅ์ ์ผ๋ก ์ผ๊ด๋ ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ์ ๋ณด์์ต๋๋ค. GPT-2๋ ๋ ํฐ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํฐ์ ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ํน์ ์์ ์ ๋ํ ๋ฏธ์ธ ์กฐ์ ์์ด๋ ์ฌ๋ฌ ์์ ์ ์ํํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด๋ NLP ๋ถ์ผ์์ ์ค์ํ ๋ฒค์น๋งํฌ๋ก ์๋ฆฌ ์ก์์ต๋๋ค.
GPT-2 ๋ ผ๋ฌธ์ ๋๊ท๋ชจ์ ์น ํ ์คํธ ๋ฐ์ดํฐ(WebText)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ด ์ ๋ก์ท ํ์ต(zero-shot learning)์ ํตํด ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์ ์ํํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ๊ธฐ์กด์ ์ธ์ด ๋ชจ๋ธ๋ค์ ํน์ ์์ ์ ๋ํด ๋ฏธ์ธ ์กฐ์ (fine-tuning)์ ๊ฑฐ์ณ์ผ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ง๋ง, GPT-2๋ ๋ณ๋์ ์์ ๋ณ ๋ฏธ์ธ ์กฐ์ ์ด๋ ์ถ๊ฐ ํ์ต ์์ด๋ ์ง๋ฌธ ์๋ต, ์์ฝ, ๋ฒ์ญ๊ณผ ๊ฐ์ ๋ค์ํ ์์ ์์ ๋งค์ฐ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
GPT-2 ๋ชจ๋ธ: GPT-2๋ Transformer ๋์ฝ๋๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, 15์ต ๊ฐ ์ด์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ํตํด ์ธ์ด ํจํด์ ์ต๋ํ๋ฉฐ, ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ฏธ์ธ ์กฐ์ ์์ด ๋ค์ํ ์์ ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ํนํ, ๋ฌธ๋งฅ์ ์ผ๋ก ์ผ๊ด๋ ์์ฐ์ค๋ฌ์ด ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ต๋๋ค.
-
์ฌ์ ํ์ต ๋ฐ ์ ๋ก์ท ํ์ต: WebText๋ผ๋ ๋๊ท๋ชจ ์น ํฌ๋กค๋ง ๋ฐ์ดํฐ์ ์ ๋ฐํ์ผ๋ก ์ฌ์ ํ์ต๋ GPT-2๋
์ง๋ฌธ ์๋ต
,ํ ์คํธ ์์ฝ
,๋ฒ์ญ
๋ฑ ์ฌ๋ฌ NLP ์์ ์์ ๋ณ๋์ ์์ ๋ณ ๋ฏธ์ธ ์กฐ์ ์์ด๋ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.- ์๋ฅผ ๋ค์ด, CoQA(Conversational Question Answering) ๋ฐ์ดํฐ์ ์์ GPT-2๋ ๋ณ๋์ ํ์ต ์์ด๋ 55 F1 ์ ์๋ฅผ ๊ธฐ๋กํ์์ผ๋ฉฐ, ์ด๋ 127,000๊ฐ ์ด์์ ํ๋ จ ์์๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ๋ฌ์ฑํ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด ์์ ๋ณ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ์ํฉ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ์ ์ฆํ์ต๋๋ค.
- ๋ชจ๋ธ ํฌ๊ธฐ์ ์ค์์ฑ: GPT-2๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ํด์๋ก ์ฑ๋ฅ์ด ํฅ์๋๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค. ๋ค์ํ ์์ ์์์ ์ฑ๋ฅ์ด ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ก๊ทธ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ ํจํด์ ํ์ธํ ์ ์์์ผ๋ฉฐ, ์ด๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์ ๋ณด๋ค ๊น์ด ์๊ฒ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์์์ ์์ฌํฉ๋๋ค.
- ์ธ์ด ๋ชจ๋ธ์ ์๊ธฐํ๊ท์ ํน์ฑ: GPT-2๋ ์๊ธฐํ๊ท์ (autoregressive) ํน์ฑ์ ๊ฐ์ง๋ฉฐ, ์ด์ ์ ์์ฑ๋ ํ ํฐ์ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ ์คํธ๋ฅผ ์์ฑํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ฌธ๋งฅ์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์๋ ๊ธด ๋ฌธ์ฅ์ ์์ฐ์ค๋ฝ๊ฒ ์์ฑํ ์ ์์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- ๋ฉํฐํ์คํฌ ํ์ต์ ๊ฐ๋ฅ์ฑ: GPT-2๋ ๋ฏธ์ธ ์กฐ์ ์์ด ๋ค์ํ NLP ์์ ์ ์ํํ ์ ์๋ ๋ฉํฐํ์คํฌ ํ์ต์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋ชจ๋ธ ํฌ๊ธฐ์ ์ฑ๋ฅ: ๋ ผ๋ฌธ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ด ๋ค์ํ ์์ ์์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ์ ์ ๊ฐ์กฐํ๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ๊ฐ ์์ฐ์ด ์ฒ๋ฆฌ ์ฑ๋ฅ์ ๋ฏธ์น๋ ๊ธ์ ์ ์ธ ์ํฅ์ ์ ์ฆํ์ต๋๋ค.
- ์ ๋ก์ท ํ์ต ๋ฅ๋ ฅ: GPT-2๋ ์ ๋ก์ท ํ์ต์ ํตํด ํ๋ จ๋์ง ์์ ์์ ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ ๋ณด์ฌ์ค์ผ๋ก์จ, ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ์ ์ ์ฐ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค.
- ์์ฐ์ด ์ฒ๋ฆฌ ์ฑ๋ฅ์ ํ์ : GPT-2๋ ์ฌ๋ฌ NLP ์์ ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ด ๋๋ฌํ์ง ๋ชปํ๋ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ํ๊ฒฝ์์๋ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
๐ GPT-1๊ณผ GPT-2์ ์ฃผ์ ์ฐจ์ด์
๋ชจ๋ธ ํฌ๊ธฐ
: GPT-2๋ GPT-1๋ณด๋ค ํจ์ฌ ํฐ ๋ชจ๋ธ์ ๋๋ค.ํ์ต ๋ฐ์ดํฐ
: GPT-2๋ ๋ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ๋ก ํ์ต๋์์ต๋๋ค.์ ๋ก์ท ํ์ต
: GPT-2๋ ํน์ ์์ ์ ๋ํ ๋ฏธ์ธ์กฐ์ ์์ด๋ ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ด ํฅ์๋์์ต๋๋ค.๋ชจ๋ธ ๊ตฌ์กฐ
: GPT-2๋ ์๋์ ๊ฐ์ ์ฌํญ๋ค์ด ๋ณ๊ฒฝ๋์์ต๋๋ค.
- Layer Normalization์ ์์น ๋ณ๊ฒฝ:
- ๋ณ๊ฒฝ ์ฌํญ: โLayer normalization was moved to the input of each sub-block, similar to a pre-activation residual network and additional layer normalization was added after the final self-attention block.โ
- ์ด์ : ๋ ์ด์ด ์ ๊ทํ์ ์์น๋ฅผ ๋ณ๊ฒฝํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์์ ์ฑ์ ๋์ด๋ฉฐ, ์์ฐจ ์ฐ๊ฒฐ(residual connection)์ด ํ์ต ๊ณผ์ ์์ ๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ฒ ๋ฉ๋๋ค. ์ฌ์ ํ์ฑํ ์์ฐจ ๋คํธ์ํฌ(pre-activation residual network)์ ์ ์ฌํ ๊ตฌ์กฐ๋ก ๋ณ๊ฒฝํ์ฌ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ค์ด๊ณ , ๋ ๊น์ ๋คํธ์ํฌ๊ฐ ์์ ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ๋์์ค๋๋ค.
- ์์ฐจ ๋ ์ด์ด์ ๊ฐ์ค์น ์ด๊ธฐํ ์ค์ผ์ผ๋ง:
- ๋ณ๊ฒฝ ์ฌํญ: โWe scale the weights of residual layers at initialization by a factor of 1/root N where N is the number of residual layers.โ
- ์ด์ : ์์ฐจ ๋ ์ด์ด์ ์ด๊ธฐํ ์ค ์ค์ผ์ผ๋ง์ ํตํด ๊น์ ๋คํธ์ํฌ์์ ๋ฐ์ํ ์ ์๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ํ์ํค๊ธฐ ์ํจ์ ๋๋ค. ์ด๊ธฐํ ์ ๊ฐ์ค์น๋ฅผ ์ ์ ํ ์กฐ์ ํจ์ผ๋ก์จ ํ์ต ์ด๊ธฐ์ ์์ ์ ์ธ ์ฑ๋ฅ์ ์ ์งํ๋๋ก ๋์ต๋๋ค.
- ์ปจํ ์คํธ ํฌ๊ธฐ ์ฆ๊ฐ:
- ๋ณ๊ฒฝ ์ฌํญ: โWe also increase the context size from 512 to 1024 tokens.โ
- ์ด์ : ์ปจํ ์คํธ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ฉด ๋ชจ๋ธ์ด ๋ ๊ธด ๋ฌธ๋งฅ์ ์ดํดํ๊ณ ์ฒ๋ฆฌํ ์ ์์ด ์ ๋ณด์ ํ๋ฆ์ ๋์ฑ ์ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ์ํํ ์ ์๋ ๋งฅ๋ฝ์ ํ์ฅํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
- ๋ฐฐ์น ์ฌ์ด์ฆ ์ฆ๊ฐ:
- ๋ณ๊ฒฝ ์ฌํญ: โA larger batchsize of 512 is used.โ
- ์ด์ : ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ ๋๋ฆผ์ผ๋ก์จ ๋ชจ๋ธ ํ์ต์ ์์ ์ฑ์ ๋์ด๊ณ , ๋ฐ์ดํฐ์ ์ ๋ค์ํ ํจํด์ ๋ ์ ๋ฐ์ํ ์ ์์ต๋๋ค. ๋ ํฐ ๋ฐฐ์น ์ฌ์ด์ฆ๋ ๊ฒฝ๋ํ ํ์ต์ ๋์์ ์ฃผ์ด, ํฐ ๋ฐ์ดํฐ์ ์์ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋ ๋ชจ๋ธ์ ๋ง๋๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
๐ค GPT-2์ BERT์ ์ฃผ์ ์ฐจ์ด์
์ํคํ ์ฒ์ ํ์ต ๋ชฉ์
: BERT๋ ์๋ฐฉํฅ ์ธ์ฝ๋ ๋ชจ๋ธ๋ก, Masked Language Model(MLM)๊ณผ Next Sentence Prediction(NSP) ํ์คํฌ๋ก ํ์ต๋ฉ๋๋ค. GPT-2๋ ๋จ๋ฐฉํฅ ๋์ฝ๋ ๋ชจ๋ธ๋ก, ์๊ธฐํ๊ท์ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉ์ ์ผ๋ก ํ์ต๋ฉ๋๋ค.์ปจํ ์คํธ ์ฒ๋ฆฌ
: BERT๋ ์๋ฐฉํฅ ์ ํ ์ดํ ์ ์ ์ฌ์ฉํ์ฌ ๋ฌธ์ฅ์ ์ ํ ์ปจํ ์คํธ๋ฅผ ๋ชจ๋ ๊ณ ๋ คํฉ๋๋ค. GPT-2๋ ๋ง์คํฌ๋ ์ ํ ์ดํ ์ ์ ์ฌ์ฉํ์ฌ ์ผ์ชฝ(์ด์ ) ์ปจํ ์คํธ๋ง ๊ณ ๋ คํฉ๋๋ค.ํ ํฐ ์์ธก ์ฑ๋ฅ
: BERT๋ ๋ฌธ์ฅ ์ค๊ฐ์ ํ ํฐ ์์ธก์ ๊ฐ์ ์ ๋ณด์ ๋๋ค. GPT-2๋ ๋ฌธ์ฅ ๋๋ถ๋ถ์ ํ ํฐ ์์ธก์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.์ ๊ทํ ๋ฐฉ์
: BERT๋ post-normalization์ ์ฌ์ฉํฉ๋๋ค. GPT-2๋ pre-normalization์ ์ฌ์ฉํ์ฌ ํ์ต ์์ ์ฑ์ ๊ฐ์ ํ์ต๋๋ค.์ํ์ค ๊ธธ์ด
: BERT๋ 512 ํ ํฐ์ ์ํ์ค ๊ธธ์ด๋ฅผ ์ฌ์ฉํฉ๋๋ค. GPT-2๋ 1024 ํ ํฐ์ ์ํ์ค ๊ธธ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๋ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
-
T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2019)
๐ก T5๋ ๋ชจ๋ NLP ์์ ์ ํ ์คํธ ์์ฑ ์์ ์ผ๋ก ๋ค๋ฃจ๋ ์์ด๋์ด๋ฅผ ์ ์ํ์ต๋๋ค. ๋ฒ์ญ, ์์ฝ, ์ง์์๋ต ๋ฑ ๋ค์ํ ๊ณผ์ ๋ฅผ ํ๋์ ํตํฉ๋ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ ์ ์๋ ๋ชจ๋ธ์ ์ ์ํ ๊ฒ์ ๋๋ค. T5๋ NLP ์์ ์ ์์ด์ ๊ฐ์ฅ ์ ์ฐํ ๋ชจ๋ธ ์ค ํ๋๋ก ์๋ฆฌ ์ก์์ต๋๋ค.
T5(Text-To-Text Transfer Transformer)๋ ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์ ๋ชจ๋ ์์ ์ ํ ์คํธ ์์ฑ ๋ฌธ์ ๋ก ํตํฉํ์ฌ ์ฒ๋ฆฌํ๋ ๋ชจ๋ธ๋ก, ๋ค์ํ NLP ์์ ์ ๋จ์ผํ ๋ฐฉ์์ผ๋ก ํด๊ฒฐํ๋ ํ์ ์ ์ธ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ Transformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ ๋ ฅ์ ํ ์คํธ๋ก ๋ฐ๊ณ ์ถ๋ ฅ๋ ํ ์คํธ๋ก ์์ฑํ๋ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค. ์ด ํต์ผ๋ ์ ๊ทผ์ ๋ฒ์ญ, ์์ฝ, ์ง์์๋ต, ํ ์คํธ ๋ถ๋ฅ์ ๊ฐ์ ๋ค์ํ ์์ ์ ๋์ผํ ํ์์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ด ๋งค์ฐ ์ ์ฐํ๊ณ ๊ฐ๋ ฅํ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ๋ก ์๋ฆฌ ์ก์์ต๋๋ค. T5๋ ์ ์ด ํ์ต(transfer learning)์ ์ ์ฌ๋ ฅ์ ๊ทน๋ํํ๊ธฐ ์ํด ์ค๊ณ๋์์ผ๋ฉฐ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ๊ท๋ชจ์ ์ฆ๊ฐ๋ฅผ ํตํด ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
์ฃผ์ ๋ด์ฉ
-
ํต์ผ๋ ํ ์คํธ-ํฌ-ํ ์คํธ ์ ๊ทผ: T5๋ NLP์ ๋ชจ๋ ์์ ์ ํ ์คํธ ์ ๋ ฅ์ ๋ฐ์ ํ ์คํธ ์ถ๋ ฅ์ ์์ฑํ๋ ๋ฌธ์ ๋ก ๋ณํํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์์ด๋ฅผ ๋ ์ผ์ด๋ก ๋ฒ์ญํ๋ ์์ ์ โtranslate English to Germanโ์ด๋ผ๋ ํ ์คํธ ์ ๋ ฅ์ ํตํด ์ฒ๋ฆฌ๋๋ฉฐ, ์์ฝ ์์ ์ โsummarizeโ๋ผ๋ ํ๋ฆฌํฝ์ค๋ฅผ ๋ถ์ฌ ์ํ๋ฉ๋๋ค. ์ด ํต์ผ๋ ์ ๊ทผ ๋๋ถ์ ๋ชจ๋ ์์ ์ด ๋์ผํ ๊ตฌ์กฐ๋ก ์ฒ๋ฆฌ๋๋ฏ๋ก, ๋ค์ํ ์์ ์ ๋ํด ํ๋์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
-
Transformer ๊ธฐ๋ฐ ์ํคํ ์ฒ: T5๋ Transformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. Transformer๋ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ ธ ์์ผ๋ฉฐ, ์ ๋ ฅ ํ ์คํธ๋ฅผ ์ธ์ฝ๋๊ฐ ์ฒ๋ฆฌํ ํ, ๋์ฝ๋๊ฐ ํด๋น ์ ๋ ฅ์ ๋ฐํ์ผ๋ก ์ถ๋ ฅ ํ ์คํธ๋ฅผ ์์ฑํฉ๋๋ค.
์ธ์ฝ๋
๋ ์ ๋ ฅ ํ ์คํธ์ ๊ฐ ํ ํฐ์ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ ๋ค, self-attention์ ํตํด ๊ฐ ํ ํฐ ๊ฐ์ ์๊ด๊ด๊ณ๋ฅผ ํ์ตํฉ๋๋ค.๋์ฝ๋
๋ ์ธ์ฝ๋์ ์ถ๋ ฅ์ ๋ฐ์, ์ด์ ์ ์์ฑํ ์ถ๋ ฅ๊ณผ์ ๊ด๊ณ๋ฅผ ๊ณ ๋ คํด ์๋ก์ด ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค.- T5๋ ์ด๋ฌํ ๊ธฐ๋ณธ Transformer ๊ตฌ์กฐ์ ๋ํด, ์๋์ ์์น ์๋ฒ ๋ฉ๊ณผ ๊ฐ์ ์ธ๋ถ์ ์ธ ๋ณํ์ ๋์ ํ์ฌ ๋์ฑ ํฅ์๋ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
-
๊ฐ์ํ๋ Transformer ๋์ฝ๋ : T5๋ ๊ธฐ๋ณธ Transformer ์ํคํ ์ฒ์์ ์ธ์ฝ๋-๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ง๋ง, ํน์ ์์ ์์๋ ๊ฐ์ํ๋ ๋์ฝ๋ ๊ตฌ์กฐ๋ฅผ ํ์ฉํฉ๋๋ค.
- ์ด ๊ตฌ์กฐ์์๋ ์ ๋ ฅ ์ํ์ค๊ฐ ์ธ์ฝ๋์ ์ํด ํ ๋ฒ ์ฒ๋ฆฌ๋ ํ, ๋์ฝ๋๊ฐ ์ด์ ์ ์์ฑํ ์ถ๋ ฅ๊ณผ ํด๋น ์ ๋ ฅ์ ๊ธฐ๋ฐ์ผ๋ก ์์ฐจ์ ์ผ๋ก ๋ค์ ์ถ๋ ฅ์ ์์ธกํฉ๋๋ค.
-
๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ ์ด ํ์ต์ ๊ทน๋ํ: T5๋ ๋๊ท๋ชจ ์น ํฌ๋กค๋ง ๋ฐ์ดํฐ์ ์ธ โColossal Clean Crawled Corpus(C4)โ๋ฅผ ์ฌ์ฉํด ์ฌ์ ํ์ต์ ์ํํฉ๋๋ค.
- ์ด ๋ฐ์ดํฐ์ ์ ์๋ฐฑ ๊ธฐ๊ฐ๋ฐ์ดํธ์ ์ด๋ฅด๋ ๋๊ท๋ชจ ์์ด ํ ์คํธ๋ก, ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ๋ฅผ ํ์ตํ๋ ๋ฐ ์ ํฉํ๊ฒ ํํฐ๋ง๋ ๋ฐ์ดํฐ์ ๋๋ค.
- T5๋ ์ด ์ฌ์ ํ์ต์ ํตํด ํ ์คํธ์ ํจํด์ ํ์ตํ๊ณ , ์ดํ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ ์์ (์์ฝ, ๋ฒ์ญ, ํ ์คํธ ๋ถ๋ฅ ๋ฑ)์ ๋ํด ๋ฏธ์ธ ์กฐ์ (fine-tuning)ํจ์ผ๋ก์จ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
์ถ์ฒ: https://www.researchgate.net/figure/Architecture-of-the-T5-model_fig2_371619795
(์ฐธ๊ณ )ํ ์คํธ-ํ ์คํธ ํ๋ ์์ํฌ?
๐ก ํ ์คํธ-ํ ์คํธ ํ๋ ์์ํฌ๋ NLP ์์ ์ ๋จ์ผํ ๋ฌธ์ ๋ก ํต์ผํ์ฌ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ๋๋ค. ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๋ชจ๋ ํ ์คํธ๋ก ์ฒ๋ฆฌ๋๊ธฐ ๋๋ฌธ์,
๋ฒ์ญ
,์์ฝ
,์ง์์๋ต
,ํ ์คํธ ๋ถ๋ฅ
์ ๊ฐ์ ๋ค์ํ ์์ ์ ํ๋์ ๋ชจ๋ธ๋ก ํจ์จ์ ์ผ๋ก ํด๊ฒฐํ ์ ์์ต๋๋ค. ์ด ํ๋ ์์ํฌ๋ ํนํ T5 ๋ชจ๋ธ์์ ํ์ฉ๋๋ฉฐ, ์ ์ด ํ์ต์ ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
- ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๋ชจ๋ ํ ์คํธ:
- ์ด ํ๋ ์์ํฌ์์๋ ์ ๋ ฅ๋ ํ ์คํธ์ด๊ณ ์ถ๋ ฅ๋ ํ ์คํธ์ ๋๋ค.
- ๋ฐ๋ผ์ ์ด๋ค ์ข ๋ฅ์ ์์ ์ด๋ ๋์ผํ ๋ฐฉ์์ผ๋ก ํํํ ์ ์์ต๋๋ค.
- ์: ์์ด ๋ฌธ์ฅ์ ๋ ์ผ์ด๋ก ๋ฒ์ญํ๋ ์์ ์ ๊ฒฝ์ฐ, ์ ๋ ฅ์ ์์ด ๋ฌธ์ฅ์ด๊ณ ์ถ๋ ฅ์ ๋ ์ผ์ด ๋ฌธ์ฅ์ ๋๋ค.
- ๋ชจ๋ ์์ ์ ํ ์คํธ ๋ฌธ์ ๋ก ํต์ผ:
- ๋ฒ์ญ, ์์ฝ, ํ ์คํธ ๋ถ๋ฅ ๋ฑ ๋ค์ํ ์์ ์ ๋ชจ๋ ํ ์คํธ ์์ฑ ๋ฌธ์ ๋ก ํต์ผํ์ฌ ์ฒ๋ฆฌํฉ๋๋ค.
- ์ด๋ ๊ฐ ์์ ์ ์์ ์ ๋ง๋ ํ๋ฆฌํฝ์ค(์์ ์ ์ค๋ช ํ๋ ํ ์คํธ)๋ฅผ ์ ๋ ฅ ํ ์คํธ ์์ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ด ์์ ์ ์ข ๋ฅ๋ฅผ ์ธ์ํ ์ ์๋๋ก ํฉ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- NLP์ ํตํฉ ์ฒ๋ฆฌ ๋ฐฉ์ ์ ์: T5๋ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์ ํ๋์ ํตํฉ๋ ํ์์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ์ ์ฐ์ฑ์ ์ ๊ณตํ์ฌ, ์์ ๊ฐ ์ ์ด ํ์ต์ด ๋ณด๋ค ํจ์จ์ ์ผ๋ก ์ด๋ฃจ์ด์ง ์ ์๋๋ก ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ด ๋ค์ํ ์์ ์ ํ๋์ ๋ชจ๋ธ๋ก ์ฒ๋ฆฌํ๋ ๋ฐ ๋๋ ๋น์ฉ์ ์ค์ด๊ณ , ์ ์ด ํ์ต์ ํจ๊ณผ๋ฅผ ๊ทน๋ํํ ์ ์์์ต๋๋ค.
- ์ ์ด ํ์ต์ ์ ๋์ฃผ์: T5๋ ์ ์ด ํ์ต์ ์ ์ฌ๋ ฅ์ ๊ทน๋ํํ๋ ๋ชจ๋ธ๋ก, NLP ๋ถ์ผ์์ ๊ฐ์ฅ ๊ฐ๋ ฅํ๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ ์ค ํ๋๋ก ์๋ฆฌ ์ก์์ต๋๋ค. ํนํ, ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๋ชจ๋ธ์ ์ค์ผ์ผ์ ํค์ฐ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ์ค์ํ ์์ธ์์ ์ ์ฆํ์ต๋๋ค.
- ๋ฐ์ดํฐ์ ๋ชจ๋ธ ๊ณต๊ฐ: ์ฐ๊ตฌ์ง์ ํ์ต์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ณต๊ฐํ์ฌ, ํ์ ์ฐ๊ตฌ์๋ค์ด ์ด๋ฅผ ํ์ฉํ์ฌ ๋ค์ํ NLP ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋๋ก ํ์ต๋๋ค. ์ด๋ฅผ ํตํด NLP ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ๋ฐ์ ์ ํฌ๊ฒ ๊ธฐ์ฌํ์ต๋๋ค.
-
GPT-3: Language Models are Few-Shot Learners (Brown et al., 2020)
๐ก GPT-3๋ NLP ๋ชจ๋ธ์ ์๋ก์ด ๊ฒฝ์ง๋ฅผ ์ด์์ผ๋ฉฐ, ์์ฃผ ์ ์ ํ์ต ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ์์ ์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. GPT-3๋ ๋ฐฉ๋ํ ํฌ๊ธฐ์ ํ์ต๋์ ํตํด ์ง๋ฌธ ๋ต๋ณ๋ถํฐ ์ฐฝ์์ ์ธ ๊ธ์ฐ๊ธฐ๊น์ง ๋ค์ํ ์์ ์์ ์ธ์์ ์ธ ์ฑ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค.
GPT-3๋ 1750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋๊ท๋ชจ ํธ๋์คํฌ๋จธ(Transformer) ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ๋ก, ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์
์์ ์ ์ ์์ ํ์ต ๋ฐ์ดํฐ(few-shot)๋ก๋ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์ (fine-tuning) ์์ด๋ ์ ๋ก์ท(zero-shot)
, ์์ท(one-shot)
, ๋๋ ๋ช ๊ฐ์ง ์์(few-shot)
๋ง์ผ๋ก ๋ค์ํ ์์
์ ์ํํ ์ ์์ผ๋ฉฐ, ํนํ ์ธ๊ฐ์ ๊ฐ์
์์ด๋ ์ผ๊ด์ฑ ์๋ ํ
์คํธ๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
์ฃผ์ ๋ด์ฉ
- GPT-3 ๋ชจ๋ธ: GPT-3๋ 1750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ํธ๋์คํฌ๋จธ(Transformer) ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ์
๋๋ค.
- GPT-3๋ ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ ์ค ๋์ฝ๋(decoder) ๋ถ๋ถ๋ง์ ์ฌ์ฉํ autoregressive language model๋ก, ์ด์ ์ ์์ฑ๋ ๋จ์ด๋ค์ ๋ฐํ์ผ๋ก ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ๋ง์ ์์ ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋น์ง๋ ํ์ต ๋ฐํ์ผ๋ก ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ ๋ฐํํฉ๋๋ค.
-
Byte Pair Encoding(BPE) ๋ฐฉ์์ ์ฌ์ฉํด ํ ์คํธ๋ฅผ ํ ํฐํํ์ฌ ๋ณด๋ค ํจ์จ์ ์ธ ํ์ต๊ณผ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
โญ Byte Pair Encoding(BPE)?
Byte Pair Encoding(BPE)
๋ ์์ฐ์ด ์ฒ๋ฆฌ์์ ์ฃผ๋ก ์ฌ์ฉํ๋ ํ ํฐํ ๋ฐฉ๋ฒ ์ค ํ๋๋ก, ๋จ์ด๋ฅผ ๋ ์์ ๋จ์๋ก ๋๋์ด ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ ๋๋ค.
- BPE๋ ๊ณ ์ ํ ๋จ์ด์ ์๊ฐ ๋งค์ฐ ๋ง์ ๊ฒฝ์ฐ, ๋ชจ๋ ๋จ์ด๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ํ์ตํ๊ธฐ์๋ ๋นํจ์จ์ ์ผ ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ฉ๋ฉ๋๋ค.
- BPE๋ ๋จ์ด๋ฅผ ์์ฃผ ๋ฑ์ฅํ๋ ํ์ ๋จ์(ํ์ ๋จ์ด, subword)๋ก ๋ถํดํจ์ผ๋ก์จ ์ดํ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ๋ชจ๋ธ์ ํ์ต ํจ์จ์ฑ์ ๋์ ๋๋ค.
- BPE๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ฌธ์ ๋จ์์์ ์์ํ์ฌ, ๊ฐ์ฅ ์์ฃผ ๋ฑ์ฅํ๋ ๋ฌธ์ ์์ ๋ฐ๋ณต์ ์ผ๋ก ๋ณํฉํด ๋๊ฐ๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, โhelloโ๋ผ๋ ๋จ์ด๋ ์ฒ์์๋ ๋ฌธ์ ๋จ์๋ก ๋ถํ ๋ฉ๋๋ค:
h
,e
,l
,l
,o
. ์ดํ์ ๋น๋ฒํ๊ฒ ๋ํ๋๋ ๋ฌธ์ ์๋ค์ ๋ณํฉํฉ๋๋ค.l
๊ณผl
์ด ์์ฃผ ๋ฑ์ฅํ๋ฉดll
๋ก ๋ณํฉ๋๊ณ , ์ดํ ๋ค๋ฅธ ๋น๋ฒํ ์๋ ์์ฐจ์ ์ผ๋ก ๋ณํฉ๋ฉ๋๋ค.
-
Few-Shot ํ์ต: GPT-3๋ ํน์ ์์ ์ ๋ง๊ฒ ๋ฏธ์ธ ์กฐ์ ์์ด, ๋ช ๊ฐ์ง ์์๋ง์ผ๋ก ๋ค์ํ ์์ ์ ์ํํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฒ์ญ, ์ง๋ฌธ ์๋ต, ๋ฌธ์ฅ ์์ฑ ๋ฑ์์ ์ ๋ก์ท์ด๋ ์์ท ์ค์ ๋ง์ผ๋ก๋ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
-
Few-shot, One-shot, Zero-shot ํ์ต ๋ฐฉ์์ ์ง์ํ์ฌ, ์ฌ์ฉ์๋ ๋ช ๊ฐ์ง ์์๋ ์ง๋ฌธ๋ง์ผ๋ก๋ GPT-3์๊ฒ ์๋ก์ด ์์ ์ ์ง์ํ ์ ์์ต๋๋ค.
-
ํนํ, GPT-3๋ ๋ฉํ ํ์ต(meta-learning) ์ ๊ทผ ๋ฐฉ์์ ์ฑํํด ๋ค์ํ ์ธ์ด ์์ ์ ์ ์ํ ์ ์๋ ๋ฅ๋ ฅ์ ์ง๋๊ณ ์์ต๋๋ค.
-
โญ ๋ฉํํ์ต(meta-learning)?
๋ฉํํ์ต(meta-learning)์ โํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ํ์ตโ์ ์๋ฏธํ๋ฉฐ, ๋ชจ๋ธ์ด ์๋ก์ด ์์ ์ ๋ํด ๋น ๋ฅด๊ฒ ์ ์ํ ์ ์๋๋ก ํ๋ ํ์ต ๋ฐฉ๋ฒ์ ๋๋ค.
๋ฉํํ์ต
์ ์ผ๋ฐ์ ์ธ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ด ์๋ก์ด ๋ฐ์ดํฐ๋ ํ๊ฒฝ์ ์ ์ํ๋ ๋ฐ ํ์ํ ๊ณผ์ ์ ๋จ์ถ์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.๋ฉํํ์ต
์์๋ ๋ชจ๋ธ์ด ๋จ์ผ ์์ ์ด ์๋๋ผ ์ฌ๋ฌ ์์ ์ ํ์ตํ๊ณ , ์๋ก์ด ์์ ์ ์ ์ ์์ ๋ฐ์ดํฐ(์์ ๋ช ๊ฐ)๋ง์ผ๋ก๋ ๋น ๋ฅด๊ฒ ์ฑ๋ฅ์ ๋ผ ์ ์๋๋ก ์ค๊ณ๋ฉ๋๋ค.- GPT-3์์์ ๋ฉํํ์ต ์ ๊ทผ ๋ฐฉ์์ ํนํ
Few-shot
,One-shot
,Zero-shot
ํ์ต์์ ๊ทธ ํน์ง์ด ๋๋๋ฌ์ง๋๋ค.
- GPT-3๋ ๋ง์ ์์ ์ฌ์ ํ์ต์ ํตํด ์ฌ๋ฌ ์ธ์ด์ ํจํด์ ํ์ตํ ํ, ํน์ ์์ ์ ๋ํด ์๋ก์ด ์์๋ฅผ ๋ช ๊ฐ ์ ๊ณต๋ฐ์๋ ์ด๋ฅผ ์ผ๋ฐํํ์ฌ ์ ์ํ ์ ์์ต๋๋ค.
- ์ฑ๋ฅ: GPT-3๋ SQuAD, TriviaQA์ ๊ฐ์ ๋ฐ์ดํฐ์ ์์ ์ต์ฒจ๋จ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, CoQA์์ ์ ๋ก์ท์ผ๋ก 81.5 F1 ์ ์, ์์ท์ผ๋ก 84.0 F1 ์ ์, few-shot์์ 85.0 F1 ์ ์๋ฅผ ๊ธฐ๋กํ๋ ๋ฑ ๋ค์ํ NLP ์์ ์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ๋ค์ํ ์์ : GPT-3๋ ๋ฒ์ญ, ์ง๋ฌธ ์๋ต, ์ฐ์ ๊ณ์ฐ, ๋จ์ด ํผ์ฆ ํด๊ฒฐ ๋ฑ ์ฌ๋ฌ ์์ ์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๋ณด์์ผ๋ฉฐ, ํนํ ์ธ๊ฐ์ด ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ํ ์คํธ ์์ฑ ๋ฅ๋ ฅ๋ ์ ์ฆ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ธ์ด ์์ฑ, ๋ฒ์ญ, ์์ฝ, ์ถ๋ก , ๊ทธ๋ฆฌ๊ณ ๊ฐ๋จํ ์ฐ์ ๊ณ์ฐ๊น์ง ๋ค์ํ ์์ ์ ์ํํ ์ ์์ต๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
-
Few-Shot ํ์ต์ ๊ฐ์ : GPT-3๋ ์ ์ ์์ ๋ฐ์ดํฐ๋ก๋ ๋ง์ ์์ ์ ์ํํ ์ ์๋ ๋ฅ๋ ฅ์ ์ ์ฆํ์ฌ, ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ๊ฐ ์์ ๋๋ ์ฑ๋ฅ์ ์ ์งํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
- ์ด๋ ์๋์ ๋ฐ์ดํฐ๋ง ์ ๊ณต๋๋ ํ๊ฒฝ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ๋ชจ๋ธ์ ์ค์์ฑ์ ๋ถ๊ฐํฉ๋๋ค.
-
๋ชจ๋ธ ํฌ๊ธฐ์ ์ฑ๋ฅ์ ๊ด๊ณ: GPT-3๋ 1750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๋ ๋ง์ ์์ ์ธ์ด ํจํด๊ณผ ์ ๋ณด๋ฅผ ํ์ตํ ์ ์์ต๋๋ค.
- ์ด๋ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ฑ๋ฅ ํฅ์์ ์ค์ํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ํนํ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํ ์๋ก ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ฒฝํฅ์ด ์๋ค๋ ์ ์ ๋ ผ๋ฌธ์์ ๊ด์ฐฐํ์์ต๋๋ค.
-
์ธ์ด ๋ชจ๋ธ์ ์ ์งํ: GPT-3๋ ์์ฐ์ค๋ฌ์ด ์ธ์ด ์์ฑ์ ํตํด ๋ค์ํ ์์ ์์ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ, NLP ๋ถ์ผ์์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ ํ๊ณ๋ฅผ ํฌ๊ฒ ๋ํ์ต๋๋ค.
- ํนํ, ์ด์ ์ ํ์ตํ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์ธ๊ฐ์ด ์์ฑํ ๊ฒ๊ณผ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ค์ด ํ ์คํธ๋ฅผ ์์ฑํ ์ ์์ด, ๋งค์ฐ ์ ๊ตํ ์ธ์ด ๋ชจ๋ธ์์ ๋ณด์ฌ์ค๋๋ค.
-
ChatGPT: Applications, Opportunities, and Threats (Bahrini, Aram, et al., 2023)
๐ก ์ด ๋ ผ๋ฌธ์ GPT-3 ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ ChatGPT์ ํ์ฉ์ ์๊ฐํ๋ฉฐ, ๋ํํ ์์ ์ ํนํ๋ ์์ฉ ์ฌ๋ก๋ฅผ ๋ค๋ฃน๋๋ค. ์ด ๋ ผ๋ฌธ์์๋ ๊ณ ๊ฐ ์ง์์ด๋ ๊ต์ก ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์๋ต์ ์์ฑํ๋ ChatGPT์ ์ค์ฉ์ฑ์ ๊ฐ์กฐํ๊ณ , ์์ ์ฑ, ์ค๋ฆฌ์ ๋ฌธ์ , ํธํฅ ๋ฑ๊ณผ ๊ฐ์ ๊ณผ์ ๋ ๋ ผ์ํ๊ณ ์์ต๋๋ค.
OpenAI์ GPT-3 ๊ธฐ๋ฐ ChatGPT ๋ชจ๋ธ์ ๋ํํ ์๋ต์ ์์ฑํ๋ ๋ฐ ํนํ๋ ์ธ๊ณต์ง๋ฅ(AI) ๊ธฐ์ ๋ก, ๋ค์ํ ์์ฉ ๊ฐ๋ฅ์ฑ์ ์ ์ํ๋ ๋์์ ์ฌ๋ฌ ์ค๋ฆฌ์ ๋ฐ ์ฌํ์ ๋ฌธ์ ๋ค์ ์ผ๊ธฐํ ์ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๊ณ ๊ฐ ์ง์, ๊ต์ก, ์ฐ๊ตฌ ๋ณด์กฐ ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋ํํ AI์ ๊ฐ๋ฅ์ฑ์ ๊ทน๋ํํ ํ์ ์ ์ธ ๋๊ตฌ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ด์ ํจ๊ป ์ ๋ขฐ์ฑ, ํธํฅ์ฑ, ์ฌ์ํ ๋ณดํธ ๋ฌธ์ ๋ฑ ๋ค์ํ ์ค๋ฆฌ์ ๊ณ ๋ฏผ๋ ์ ๊ธฐ๋๊ณ ์์ต๋๋ค.
์ฃผ์ ๋ด์ฉ
- ๋ํํ AI ๋ชจ๋ธ: ChatGPT๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ํ, ์ฌ๋๊ณผ ์ ์ฌํ ์์ฐ์ด ๋ํ๋ฅผ ์์ฑํ๋ GPT ๊ธฐ๋ฐ ๋ชจ๋ธ์
๋๋ค.
- ๊ฐํ ํ์ต๊ณผ ์ง๋ ํ์ต์ ํตํด ์ฑ๋ฅ์ด ๊ณ ๋ํ๋์์ผ๋ฉฐ, ๋ค์ํ ๋ํํ ์์ ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
- ์ด ๊ธฐ์ ์ ์ฌ๋ฌ ์ฐ์ ์์ ๋ํํ AI ์๋ฃจ์ ์ผ๋ก ์ฑํ๋๊ณ ์์ผ๋ฉฐ, ํจ์จ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
์ถ์ฒ: https://openai.com/index/chatgpt/
-
์์ฉ ๋ถ์ผ:
- ๋น์ฆ๋์ค ๋ฐ ๊ณ ๊ฐ ์ง์: ChatGPT๋ ๊ณ ๊ฐ ์๋น์ค ์๋ํ, ๋น์ฆ๋์ค ์์ฌ๊ฒฐ์ ์ง์, ์์ธก ๋ถ์ ๋ฐ ๋ง์ผํ ์ ๋ต ๊ฐ์ ๋ฑ์์ ํ์ฉ๋ ์ ์์ต๋๋ค.
- ๊ณ ๊ฐ์ ์ง๋ฌธ์ ์ค์๊ฐ์ผ๋ก ์๋ตํ๊ณ , ์์ ์๋ํ๋ฅผ ํตํด ์ ๋ฌด ํจ์จ์ฑ์ ๊ทน๋ํํ ์ ์์ต๋๋ค.
-
๊ต์ก: ๊ต์ก ์๋ฃ ์์ฑ, ํ์ ๊ณผ์ ์ง์, ์๋ ํ๊ฐ ์์คํ ๋ฑ์ ์ ๊ณตํ์ฌ ํ์ต ๊ณผ์ ์์์ ๋ง์ถคํ ์ง์์ด ๊ฐ๋ฅํด์ง๋๋ค.
- ์ด๋ ํนํ ์จ๋ผ์ธ ๊ต์ก ๋ฐ ์๊ฒฉ ํ์ต ํ๊ฒฝ์์ ํ์ฉ๋๊ฐ ๋์ต๋๋ค.
-
์ฐ๊ตฌ ๋ณด์กฐ: ๋ ผ๋ฌธ ์์ฑ ์ง์, ์ฐ๊ตฌ ๋ฐฉ๋ฒ๋ก ์ ์, ๋ฐ์ดํฐ ๋ถ์ ๋ณด์กฐ ๋ฑ์ ์์ ์์ ์ฐ๊ตฌ์๋ค์ด ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ฐ๊ตฌ๋ฅผ ์งํํ ์ ์๋๋ก ๋์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, ๋ ผ๋ฌธ์ ์ฃผ์ ์์ด๋์ด ์์ฝ์ด๋ ๊ด๋ จ ์ฐ๊ตฌ ์ ์์ ํตํด ์ฐ๊ตฌ์๋ค์ด ์๋ก์ด ์์ด๋์ด๋ฅผ ๋์ถํ ์ ์์ต๋๋ค.
-
๊ณผํ ๋ฐ ๊ธฐ์ : ChatGPT๋ ์ฐ๊ตฌ ๋ฐ์ดํฐ ๋ถ์, ๋ณต์กํ ์์คํ ๋ชจ๋ธ๋ง, ์๋ก์ด ๊ธฐ์ ๊ฐ๋ฐ์ ์ํ ์์ธก ์์ ์๋ ํ์ฉ๋ฉ๋๋ค.
- ๊ณผํ์๋ค์ด ์คํ์ ์ค๊ณํ๊ณ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฐ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
-
GPT-3.5์ GPT-4์ ๋น๊ต: ์ฐ๊ตฌ์ง์ GPT-3.5์ GPT-4์ ์ฑ๋ฅ์ ๋น๊ตํ๋ ์คํ์ ํตํด GPT-4๊ฐ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ์ต๋๋ค.
- ํนํ GPT-4๋ ๊ต์ก์ ์ธ ๋งฅ๋ฝ์์ ๋ ์ ํํ๊ณ ์ ๊ตํ ๋ต๋ณ์ ์ ๊ณตํ๋ ๊ฒ์ผ๋ก ํ์ธ๋์์ต๋๋ค.
- ์ด๋ GPT-4๊ฐ ๋ ๋ง์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ ๋ ํ์ต ๋ฐฉ๋ฒ์ ํตํด ํ์ต๋์๊ธฐ ๋๋ฌธ์ ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
-
๋ํํ AI์ ๋ฐ์ : ChatGPT๋ ๋ํํ AI ๊ธฐ์ ์ ์ค์ํ ์ง๋ณด๋ฅผ ๋ํ๋ด๋ฉฐ, ์ฌ๋ฌ ์ฐ์ ์์ ํจ์จ์ฑ ์ฆ๋์ ๋น์ฉ ์ ๊ฐ์ ๊ธฐ์ฌํ ์ ์์ต๋๋ค.
- ํนํ ์ฌ๋๊ณผ์ ์ํธ์์ฉ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ ๋๋ถ์, ๋น์ฆ๋์ค, ๊ต์ก, ์ฐ๊ตฌ ๋ฑ์์ ์์ฐ์ฑ์ ํฌ๊ฒ ๋์ผ ์ ์์ต๋๋ค.
-
์ฌํ์ ์ํฅ: ํ์ง๋ง, ์ด ๊ธฐ์ ์ด ์ผ๊ธฐํ ์ ์๋ ์ฌํ์ , ์ค๋ฆฌ์ ๋ฌธ์ ๋ ๋ฌด์ํ ์ ์์ต๋๋ค.
- ChatGPT๋ ๋๋๋ก ํธํฅ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ถ์ ํํ๊ฑฐ๋ ์ค๋ฆฌ์ ๋ ผ๋์ด ๋ ์ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
- ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๋ฐ์ดํฐ ๋ณด์ ์ธก๋ฉด์์๋ ์ทจ์ฝํ ๋ถ๋ถ์ด ์์ต๋๋ค.
- ๋ํ, AI์ ๋ฐ์ ์ด ํน์ ์ง์ ์ ๋์ฒดํ ๊ฐ๋ฅ์ฑ์ ๋ํ ์ฐ๋ ค๋ ์ ๊ธฐ๋๊ณ ์์ต๋๋ค.
-
์ฑ ์ ์๋ ์ฌ์ฉ: ChatGPT์ ๋ฐ์ ์ ๋ถ๋ช ํ ๋ง์ ๊ฐ๋ฅ์ฑ์ ์ด์ด์ฃผ์ง๋ง, ์ด ๊ธฐ์ ์ด ๋จ์ฉ๋์ง ์๋๋ก ์ฑ ์ ์๋ ์ฌ์ฉ์ด ํ์ํฉ๋๋ค.
- ์ด๋ฅผ ์ํด์๋ AI์ ํธํฅ์ฑ์ ์ค์ด๊ณ , ๊ฐ์ธ ์ ๋ณด ๋ณดํธ ๋ฐ ๋ณด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ๋ช ํํ ์ ์ฑ ๊ณผ ์ ์ฐจ๊ฐ ๋ง๋ จ๋์ด์ผ ํฉ๋๋ค.
- ์ค๋ฆฌ์ ๊ธฐ์ค์ ์ค์ํ๋ฉด์๋ ๊ธฐ์ ์ด ์ฌํ์ ๊ธ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋๋ก ๊ด๋ฆฌํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
-
LLaMA: Open and Efficient Foundation Language Models (Touvron et al., 2023)
๐ก LLaMA๋ ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ์ ๊ทผ ๊ฐ๋ฅํ ํจ์จ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ํจ์จ์ฑ ๋ฐ ์์ ์ต์ ํ์ ์ค์ ์ ๋๊ณ ์์ผ๋ฉฐ, ๊ณ ๊ธ NLP ๋๊ตฌ์ ๋ํ ์ ๊ทผ์ฑ์ ํ๋ํ์ฌ ์ฐ๊ตฌ์๋ค ๊ฐ์ ํ์ ์ ์ด์งํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ LLaMA(Large Language Model Meta AI)์ ์ค๊ณ์ ํ๋ จ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช ํ๋ฉฐ, ๋ค์ํ ํฌ๊ธฐ์ ์ธ์ด ๋ชจ๋ธ(7B์์ 65B ํ๋ผ๋ฏธํฐ)์ ์๊ฐํฉ๋๋ค. LLaMA ๋ชจ๋ธ์ ์ ๊ทผ ๋ฐฉ์์ ๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ๋ฉด์ด ์์ง๋ง, ๋ช ๊ฐ์ง ํต์ฌ ์ฐจ์ด์ ๊ณผ ๊ฐ์ ๋ ๋ถ๋ถ์ด ์์ต๋๋ค. LLaMA์ ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ธ์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ์ต์ ํํ๋ฉด์๋ ์ค์ฉ์ ์ด๊ณ ์คํ ์์ค ๊ธฐ๋ฐ์ ๋ฐ์ดํฐ๋ง์ ํ์ฉํ๋ ๋ฐ ์ด์ ์ ๋ง์ถ๊ณ ์์ต๋๋ค. ์ด ๋ชจ๋ธ์ GPT-3๋ณด๋ค ์์ ๋ชจ๋ธ ํฌ๊ธฐ๋ก๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, PaLM, Chinchilla์ ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๊ณผ๋ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ฃผ์ ๋ด์ฉ
๋ฐ์ดํฐ ๊ตฌ์ฑ ๋ฐ ์ฌ์ฉ
-
๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ์ ์ฐจ์ด์ : GPT-3์ ๊ฐ์ ๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ค์ ๋น๊ณต๊ฐ ๋ฐ์ดํฐ์ ์ ํฌํจํ์ฌ ํ์ต๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด, GPT-3๋ โBooks-2TBโ์ ๊ฐ์ ๋ช ์๋์ง ์์ ๋ฐ์ดํฐ๋ ์์ ๋ฏธ๋์ด ๋ํ ๋ฑ์ ๋น๊ณต๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์์ต๋๋ค. ์ด๋ก ์ธํด ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฌํ์ฑ์ด๋ ์ฐ๊ตฌ์๋ค ๊ฐ์ ์ ๊ทผ์ฑ์ ํ๊ณ๊ฐ ์์์ผ๋ฉฐ, ๋ฐ์ดํฐ์ ๋ํ ํฌ๋ช ์ฑ์ด ๋ถ์กฑํ์ต๋๋ค.
๋ฐ์ดํฐ์ ๊ณต๊ฐ์ฑ
: LLaMA๋ ์ค์ง ๊ณต๊ฐ๋ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ์ฌ ํ์ต๋์๋ค๋ ์ ์์ ๊ธฐ์กด ๋ชจ๋ธ๋ค๊ณผ ์ฐจ๋ณํ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ด ๋ฐ์ดํฐ๋ฅผ ๊ณต์ ํ๊ณ ์ฌํ์ฑ ์๋ ์ฐ๊ตฌ๋ฅผ ํ ์ ์๋๋ก ํ์์ต๋๋ค. ์ด๋ ์คํ ์์ค ์ํ๊ณ์์ ์ค์ํ ์์๋ก, ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ๊ฐ ํด๋น ๋ชจ๋ธ์ ์ฝ๊ฒ ์ด์ฉํ๊ณ ํ์ฅํ ์ ์๋๋ก ๋์ต๋๋ค.๋ฐ์ดํฐ์ ๋ค์์ฑ
: LLaMA๋ ๋ค์ํ ์ถ์ฒ์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ํ์ต์ ํ์ฉํ์ต๋๋ค. CommonCrawl, C4, GitHub, Wikipedia, ArXiv, StackExchange ๋ฑ ์ฌ๋ฌ ์ถ์ฒ์์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ ๋ณํจ์ผ๋ก์จ ๋ค์ํ ๋๋ฉ์ธ์ ์ง์์ ํ์ตํ ์ ์๊ฒ ํ์์ต๋๋ค. ์ด๋ ํน์ ๋ถ์ผ์ ์น์ฐ์น์ง ์๊ณ , ์ ๋ฐ์ ์ธ ์ง์ ๊ธฐ๋ฐ์ ๊ฐํํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
: LLaMA๋ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ์ค๋ณต ์ ๊ฑฐ(deduplication), ์ธ์ด ์๋ณ, ์ ํ์ง ๋ฐ์ดํฐ ํํฐ๋ง ๋ฑ ์ฌ๋ฌ ์ ์ ๊ณผ์ ์ ๊ฑฐ์ณค์ต๋๋ค. ํนํ, CommonCrawl์์ ์์ด ์ธ ๋น์์ด ํ์ด์ง๋ฅผ ์ ๊ฑฐํ๊ณ , ์น ํ์ด์ง ํ์ง์ ํ๊ฐํ์ฌ ํ์ต์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋์ฑ ์ ๊ตํ๊ฒ ๊ตฌ์ฑํ์์ต๋๋ค.
-
๋ชจ๋ธ ์ํคํ ์ฒ : LLaMA๋ ๊ธฐ๋ณธ์ ์ผ๋ก ํธ๋์คํฌ๋จธ(Transformer) ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ ๋ช ๊ฐ์ง ์ค์ํ ๊ฐ์ ์ฌํญ์ด ์ถ๊ฐ๋์ด ๊ธฐ์กด ์ธ์ด ๋ชจ๋ธ๋ณด๋ค ๋ ํจ์จ์ ์ธ ํ์ต ๋ฐ ์ถ๋ก ์ด ๊ฐ๋ฅํฉ๋๋ค.
Pre-normalization
: ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ(GPT-3 ๋ฑ)์ ํธ๋์คํฌ๋จธ ๊ณ์ธต์ ์ถ๋ ฅ์ ์ ๊ทํํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง ์ด๋ ํ์ต์ ๋ถ์์ ์ฑ์ ์ด๋ํ ์ ์์ต๋๋ค.- LLaMA๋ ์ ๋ ฅ์ ์ ๊ทํํ๋ Pre-normalization ๋ฐฉ์์ ์ฑํํ์ฌ ํ์ต์ ์์ ์ฑ์ ๋์์ต๋๋ค. ์ด๋ RMSNorm์ด๋ผ๋ ์ ๊ทํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ด ๋ ์์ ์ ์ผ๋ก ์๋ ดํ ์ ์๋๋ก ๋์ต๋๋ค.
SwiGLU ํ์ฑํ ํจ์
: ๊ธฐ์กด ๋ชจ๋ธ์์๋ ReLU์ ๊ฐ์ ์ผ๋ฐ์ ์ธ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ํ์ง๋ง LLaMA๋ SwiGLU๋ผ๋ ์๋ก์ด ํ์ฑํ ํจ์๋ฅผ ๋์ ํ์ฌ ์ฑ๋ฅ์ ๋ ํฅ์์์ผฐ์ต๋๋ค.- SwiGLU๋ ReLU๋ณด๋ค ๋ ๋ณต์กํ ํจ์๋ก, ๋ชจ๋ธ์ด ๋ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
- ์ด ํจ์๋ PaLM ๋ชจ๋ธ์์ ์ฌ์ฉ๋ ๋ฐ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํ์ต ํจ์จ์ฑ์ด ๊ฐ์ ๋๋ค๋ ๊ฒ์ด ์ฆ๋ช ๋์์ต๋๋ค.
- SwiGLU๋ ReLU๋ณด๋ค ๋ ๋ณต์กํ ํจ์๋ก, ๋ชจ๋ธ์ด ๋ ํจ๊ณผ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
Rotary Embeddings (RoPE)
: ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ ๋ชจ๋ธ๋ค์ ์ ๋์ ์์น ์ ๋ณด๋ฅผ ์ธ์ฝ๋ฉํ๋ ์ ๋ ์์น ์๋ฒ ๋ฉ์ ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๋ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ๋ด ์์น ์ ๋ณด๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๋ ๋ฐ ์ ์ฝ์ ์ค ์ ์์ต๋๋ค.- LLaMA์์๋ ๊ธฐ์กด Transformer์์ ์ฌ์ฉ๋๋ Absolute Positional Embedding ๋์ Rotary Positional Embeddings (RoPE)๋ฅผ ์ ์ฉํ์ต๋๋ค.
- LLaMA์์๋ ๋คํธ์ํฌ์ ๊ฐ layer๋ง๋ค RoPE๋ฅผ ์ถ๊ฐํ์ฌ ์ฌ์ฉํ์ต๋๋ค์ ๋์ ํ์ฌ ์ ๋์ ์์น ์๋ฒ ๋ฉ ๋์ ์๋์ ์์น ์ ๋ณด๋ฅผ ํ์ตํ ์ ์๋๋ก ํ์์ต๋๋ค.
Rotary Positional Embeddings (RoPE)
๋ Transformer ๋ชจ๋ธ์์ ์์น ์ ๋ณด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. โRoFormer: Enhanced Transformer with Rotary Position Embeddingโ์์ ๋ ผ๋ฌธ์์ Rotary Position Embedding (RoPE)์ด๋ผ๋ ์ธ์ฝ๋ฉ ๊ธฐ๋ฒ์ด ์๊ฐ๋์์ต๋๋ค.
๐ Rotary Positional Embeddings (RoPE) ์๋์๋ฆฌ
RoPE
๋ํ์ ํ๋ ฌ(rotation matrix)
์ ์ฌ์ฉํ์ฌ ํ ํฐ์ ์ ๋์ ์์น๋ฅผ ์ธ์ฝ๋ฉํฉ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก ์๋์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ์ํ๋ฉ๋๋ค:
Query
์Key
๋ฒกํฐ์ํ์ ๋ณํ
์ ์ ์ฉํฉ๋๋ค.ํ์ ๊ฐ๋
๋ํ ํฐ์ ์์น
์ ๋ฐ๋ผ ๊ฒฐ์ ๋ฉ๋๋ค.๊ฐ ์ฐจ์๋ง๋ค ๋ค๋ฅธ ํ์ ๋ฅ
์ ์ ์ฉํฉ๋๋ค
- ํ์ต ๋ฐ์ดํฐ ๋ฐ ํ ํฐํ: LLaMA๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
(์ฝ 1.4์กฐ ๊ฐ์ ํ ํฐ)์ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ์์ผ๋ฉฐ, BPE(Byte-Pair Encoding) ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ํ ํฐํํ์ต๋๋ค.
- ์ค์ํ ์ ์ ๋ชจ๋ ์ซ์๋ฅผ ๊ฐ๋ณ ์ซ์๋ก ๋ถ๋ฆฌํ๊ณ , ์๋ ค์ง์ง ์์ UTF-8 ๋ฌธ์๋ฅผ ๋ฐ์ดํธ ๋จ์๋ก ๋ถํดํ์ฌ ์ฒ๋ฆฌํ ์ ์ ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ ๋ค์ํ ์ ๋ ฅ์ ์ฒ๋ฆฌํ๊ณ ํ์ตํ ์ ์๊ฒ ํฉ๋๋ค.
- LLaMA๋ ํ์ต ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๋ ํ ํฐ์ ์๋ฅผ ๋๋ฆฌ๋ ๋ฐฉ์์ ์ฑํํ์ฌ ์์ ๋ชจ๋ธ์ด๋๋ผ๋ ๋ ์ค๋ ํ์ต์ ํตํด ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, Hoffmann ๋ฑ์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์์ ์ ์ ํ ์กฐ์ ํ๋ฉด ์ฑ๋ฅ์ด ํฅ์๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
- ๋ฐ๋ผ์ LLaMA๋ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ์ ๊ท ํ์ ์ต์ ํํ์ฌ ๋ ์์ ๋ชจ๋ธ์ด๋๋ผ๋ ์ฑ๋ฅ์ ๊ทน๋ํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ถ์ฒ: Umar Jamil - LLaMA explained
๊ธฐ์ฌ ๋ฐ ์์
- ์คํ ์์ค ๋ฐ์ดํฐ์ ์ฐ๊ตฌ ๋ฏผ์ฃผํ: ์ ์๋ค์ LLaMA์ ๋ชจ๋ ๋ฐ์ดํฐ๊ฐ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ๋ผ๋ ์ ์ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค. ์ด๋ ๊ธฐ์กด์ ์์ ์ ๋ชจ๋ธ๋ค์ด ๋น๊ณต๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฐ๊ตฌ์๋ค์ด ์ ๊ทผํ๊ธฐ ์ด๋ ค์ ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ , ๋๊ตฌ๋ ์ฐ๊ตฌ๋ฅผ ์ฌํํ๊ณ ๋ชจ๋ธ์ ๊ฐ์ ํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ํจ์จ์ ์ธ ํ์ต๊ณผ ์ถ๋ก : ๋ชจ๋ธ์ ์ถ๋ก ์๋๋ ์ค์ง์ ์ธ ์์ฉ์์ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ ์๋ค์ ์ฑ๋ฅ๋ฟ๋ง ์๋๋ผ ์ถ๋ก ํจ์จ์ฑ์ ๋์ด๋ ๋ฐ ์ด์ ์ ๋ง์ท์ต๋๋ค. ์ด๋ฅผ ์ํด ์์ ๋ชจ๋ธ์ด๋๋ผ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ ์ค๋ ์๊ฐ ํ์ต์ํด์ผ๋ก์จ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ณ , ์ถ๋ก ์ ๋ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์๋๋ก ํ์์ต๋๋ค.
- ์ฑ๋ฅ๊ณผ ๋น์ฉ์ ๊ท ํ: LLaMA๋ ๋ ์ ์ ํ์ต ๋น์ฉ์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ง์คํ์์ต๋๋ค. ๋๊ท๋ชจ ๋ชจ๋ธ์ ํ์ตํ๋ ๋ฐ ๋๋ ๋น์ฉ์ ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ ์ ์งํ๊ฑฐ๋ ๊ฐ์ ํ๋ ๊ฒ์ด ์ ์๋ค์ด ์ค์ ์ ์ผ๋ก ๋ค๋ฃฌ ๋ถ๋ถ์ ๋๋ค.
(๊ฐ์ธ ์ถ๊ฐ)
-
Llama 2: Open Foundation and Fine-Tuned Chat Models (2023, Meta AI)
๐ก LLaMA 2๋ Meta์์ ๊ฐ๋ฐํ ๊ณ ์ฑ๋ฅ ์ธ์ด ๋ชจ๋ธ๋ก, 7์ต์์ 700์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ค์ ํฌํจํ๊ณ ์์ต๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ์ ์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ จ๋์์ผ๋ฉฐ, ํนํ LLaMA 2-Chat์ด๋ผ๋ ๋ํ์ฉ ๋ฒ์ ๋ ์กด์ฌํฉ๋๋ค. LLaMA 2๋ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์์ ๊ธฐ์กด์ ์คํ ์์ค ๋ฐ ์์ฉ ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ํจ์จ์ฑ์๋ ์ค์ ์ ๋์ด ์ค๊ณ๋์์ต๋๋ค. ์ฐ๊ตฌ์๋ค์ ๋ชจ๋ธ์ ์์ ํ๊ฒ ์ฌ์ฉํ๊ณ , ๊ณต๋์ฒด๊ฐ ์ง์์ ์ผ๋ก ๋ฐ์ ์ํฌ ์ ์๋๋ก ๋ค์ํ ์ธ๋ถ ์ ๋ณด๋ฅผ ๊ณต๊ฐํ์ต๋๋ค.
LLaMA 2๋ LLaMA 1 ๋ค์์ผ๋ก Meta๊ฐ ๊ฐ๋ฐํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ก, 7B, 13B, 70B ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ํนํ LLaMA 2-Chat์ ๋ํ ์์ฉ์ ์ต์ ํ๋ ๋ชจ๋ธ๋ก, ์์ ์ ๋ฐ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๊ณต๊ฐ๋ ๊ฒ์ด ํฐ ํน์ง์ ๋๋ค. LLaMA 2๋ LLaMA 1 ๋ณด๋ค ๋์ฑ ๋ง์ ๋ฐ์ดํฐ์ ํฅ์๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํด ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค. ์ฐ๊ตฌ์๋ค์ด ์์ ๋กญ๊ฒ ํ์ฉํ ์ ์๋๋ก ๊ณต๊ฐ๋์์ผ๋ฉฐ, ๊ฐํ ํ์ต ๋ฐ ์ธ๊ฐ ํผ๋๋ฐฑ(RLHF)์ ํ์ฉํด ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ์๋ต ํ์ง์ ๊ฐ์ ํ๋ ๋ฐ ์ค์ ์ ๋์์ต๋๋ค. ์ด ๋ชจ๋ธ์ AI ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ์ค์ฉ์ ์์ฉ์์ ์ค์ํ ๋์ฝ์ ์ด๋ฃจ๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค.
์๋ ์ฌ์ง ์๋ฃ๋ค์ ๊ณ ๋ ค๋ํ๊ต DSBA์ฐ๊ตฌ์ค ์๋ฐํตํฉ๊ณผ์ ๊น์ฌํฌ ์ธ๋ฏธ๋ ์๋ฃ๋ฅผ ํ์ฉํด์ ์์ฑํ์์ต๋๋ค!
์ฃผ์ ๋ด์ฉ
-
LLaMA 2 ๋ชจ๋ธ:
7B
,13B
,70B
ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ๋ฉฐ, ์ฌ์ ํ์ต(pretraining) ๋จ๊ณ์์ 2์กฐ ๊ฐ์ ํ ํฐ์ ์ฌ์ฉํด ํ์ต๋์์ต๋๋ค. ์ด๋ ์ด์ LLaMA 1๋ณด๋ค 40% ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ๊ฒ์ ๋๋ค.- ์ฌ์ ํ์ต ๋ฐ์ดํฐ๋ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ์ ์์๋ง ์์ง๋์์ผ๋ฉฐ, ์ ๋ขฐ์ฑ ์๋ ์ ๋ณด์ ์ค์ ์ ๋๊ณ ๋ฐ์ดํฐ ์ ์ ๊ณผ์ ์ ๊ฑฐ์ณ ํ์ต๋์์ต๋๋ค.
- LLaMA 2 ๋ชจ๋ธ์ Grouped Query Attention(GQA)์ ๊ฐ์ ์๋ก์ด ๊ธฐ์ ์ ๋์ ํ์ฌ ์ถ๋ก ํ์ฅ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ํนํ ๋ ๊ธด ์ ๋ ฅ์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ปจํ ์คํธ ๊ธธ์ด๋ฅผ 4,096 ํ ํฐ์ผ๋ก ๋๋ ธ์ต๋๋ค.
-
LLaMA 2-Chat: ๋ํํ ์์ฉ ํ๋ก๊ทธ๋จ์ ์ต์ ํ๋ ๋ฒ์ ์ผ๋ก, ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
- RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํ ํ์ต)๋ฅผ ํตํด ๋์์ฑ(helpfulness)๊ณผ ์์ ์ฑ(safety)์ ๊ฐ์ ํ์ผ๋ฉฐ, ์ฌ์ฉ์์ ์์ฒญ์ ๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ , ์์ ํ ๋ต๋ณ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
- ์ฌ๋ฌ ๋ฒค์น๋งํฌ์์ ์คํ ์์ค ์ฑ๋ด ๋ชจ๋ธ์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๊ธฐ๋กํ์ผ๋ฉฐ, ์์ฉ ๋ชจ๋ธ๊ณผ ๋น๊ตํด๋ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
Ghost Attention
-
Ghost Attention(GAtt)์ LLaMA 2์์ ๋์ ๋ ์๋ก์ด ๊ธฐ์ ๋ก, ๋ชจ๋ธ์ด ๋ ๊ธด ์ ๋ ฅ(๋ฌธ๋งฅ)์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ๋๋ ์ฃผ๋ ๋ฉ์ปค๋์ฆ์ ๋๋ค. ์ด ๊ธฐ์ ์ ์ถ๋ก ํ์ฅ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํ๋ฉฐ, ๊ธฐ์กด๋ณด๋ค ๋ ๋ง์ ํ ํฐ์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ๊ฐ๋
์ค๋ช
:
Ghost Attention
์ ๋ชจ๋ธ์ด ๊ธด ์ปจํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์์ ๋ฐ์ํ๋ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์ฌ์ฃผ๋ ๋ฉ์ปค๋์ฆ์ ๋๋ค.- ํนํ, ๊ธฐ์กด์ Self-Attention ๋ฉ์ปค๋์ฆ์์๋ ๊ธด ์ ๋ ฅ์ด ๋ค์ด์ฌ์๋ก ์ฐ์ฐ ๋น์ฉ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ฌธ์ ์ ์ด ์์๋๋ฐ, Ghost Attention์ ์ด๋ฌํ ์ฐ์ฐ ๊ณผ๋ถํ๋ฅผ ์ค์ด๋ ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
- ํ ํฐ ์ ํ์ฅ: Ghost Attention์ Grouped Query Attention(GQA)๋ผ๋ ์๋ก์ด ๋ฐฉ๋ฒ๋ก ์ ํ์ฉํ์ฌ, ๋ ๊ธด ์
๋ ฅ ๋ฌธ๋งฅ์ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๊ฒ ํฉ๋๋ค.
- ์ด ๋ฐฉ๋ฒ์ ๊ธด ๋ฌธ์ฅ์ ํ๋์ ํฐ ๋ธ๋ก์ผ๋ก ์ฒ๋ฆฌํ๋ ๋์ , ๋ฌธ์ฅ์ ์ฌ๋ฌ ์์ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด ์ฒ๋ฆฌํจ์ผ๋ก์จ ์ฐ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํฉ๋๋ค.
- ์ด ๋๋ถ์ LLaMA 2๋ ์ด์ ๋ณด๋ค ๋ ๊ธด ์ ๋ ฅ(์ต๋ 4,096 ํ ํฐ)์ ์ฒ๋ฆฌํ ์ ์๊ฒ ๋์์ผ๋ฉฐ, ์ด๋ ๋ ๋ณต์กํ ๋ํ๋ ๋ฌธ๋งฅ์ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ฉ๋๋ค.
- ๊ฐ๋
์ค๋ช
:
- Ghost Attention์ ์ด๋ ๊ฒ ๊ธด ์ ๋ ฅ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ํ์ฅํ๋ฉด์๋, ๊ณ์ฐ ํจ์จ์ฑ์ ๊ทน๋ํํ ํ์ ์ ์ธ ๋ฉ์ปค๋์ฆ์ ๋๋ค.
-
์์ ์ฑ: LLaMA 2 ๋ชจ๋ธ์ ์์ ์ฑ์ ์ฐ์ ์ํ์ฌ ์ค๊ณ๋์์ต๋๋ค. ์ฌ์ ํ์ต ๋จ๊ณ๋ถํฐ ๋ฏผ๊ฐํ ์ ๋ณด์ ๊ฐ์ธ์ ๋ณด๊ฐ ํฌํจ๋ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ณ , ์์ ํ๊ฒ ์ฌ์ฉํ ์ ์๋ ๋ฐฉ์์ผ๋ก ํ์ต๋์์ต๋๋ค.
- ์์ ์ฑ์ ๊ฐํํ๊ธฐ ์ํด ๋ ๋ํ ํ๊ฐ(red-teaming)๋ฅผ ํตํด ๋ชจ๋ธ์ ์ทจ์ฝ์ฑ์ ๋ถ์ํ๊ณ , ์์ ์ฑ ๋ฏธ์ธ ์กฐ์ ์ ๊ฑฐ์ณ ๋ฌธ์ ๊ฐ ๋ ์ ์๋ ์ํฉ์์ ๋ชจ๋ธ์ด ์ ํดํ ์ถ๋ ฅ์ ๋ฐฉ์งํ๋๋ก ๊ฐ์ ํ์ต๋๋ค.
-
๋ฏธ์ธ ์กฐ์ (Fine-tuning): Llama 2์ ํ์ธํ๋์ ์ฃผ์ ๋ ๊ฐ์ง ๊ณผ์ ์ ํฌํจํฉ๋๋ค:
Supervised Fine-Tuning (SFT)
์Reinforcement Learning with Human Feedback (RLHF)
.-
์ง๋ ํ์ต(Supervised Fine-Tuning, SFT)
: SFT๋ ์ฌ์ฉ์์ ์ ๋ ฅ์ ๋ง์ถฐ ๋ชจ๋ธ์ด ์ ์ ํ๊ฒ ๋ฐ์ํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ์๋ต์ ์์ฑํ๊ณ , ํด๋น ์๋ต์ด ์ ์ ํ์ง ํ๊ฐํ์ฌ ํ์ต์ ์งํํฉ๋๋ค.- ๋ค์ํ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ๋ชจ๋ธ์ ํ์ต์ํค๋ฉฐ, ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ์ ์ ํตํด ๋ชจ๋ธ์ด ์ฌ๋ฐ๋ฅธ ์๋ต ์์ฑ์ ๋ฐฐ์๋๋ค.
- ํ์ธํ๋ ๊ณผ์ ์์ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ์ ์ ํจํด์ ์ดํดํ๊ณ , ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ ์ ์ ํ๊ฒ ์๋ตํ๋๋ก ๊ฐํ๋ฉ๋๋ค.
- SFT ๋ฐ์ดํฐ์ : ์ฌ์ฉ์์ ๋ค์ํ ์์ฒญ๊ณผ ๊ทธ์ ์ ํฉํ ์๋ต์ ํฌํจํ๋๋ฐ, ์ด๋ ์ฌ์ฉ์๊ฐ ์ค์ ๋ก ์ ๋ ฅํ๋ ์ง๋ฌธ์ ๋ํด ๋ชจ๋ธ์ด ์ฌ๋ฐ๋ฅด๊ฒ ๋ต๋ณํ ์ ์๋๋ก ํ์ตํ๋ ๋ฐ ํ์์ ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ด์ค๋ ํธ์ํฐ์์ ์ป์ ์ผ๋ฐ์ ์ธ ๋ฌธ์ฅ์ ๋ฐํ์ผ๋ก ํ์ต์ ์์ผ์ผ ์ฑ๋ด์์ ์ ๋๋ก ๋์ํ ์ ์์ต๋๋ค.
-
RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํ ํ์ต)
: RLHF๋ ๋ชจ๋ธ์ด ์์ฑํ ๋ฌธ์ฅ์ ๋ํด ์ธ๊ฐ์ด ์ ํธํ๋ ๋ฐฉ์์ผ๋ก ์๋ตํ๋๋ก ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ฆฌ์๋ ๋ชจ๋ธ์ด ์๋ต์ ์ง์ ํ๊ฐํ๊ณ , ๊ทธ ํ๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ฐํํ์ต์ ํตํด ๋ชจ๋ธ์ ๊ฐ์ ํฉ๋๋ค.- Proximal Policy Optimization (PPO): ๋ชจ๋ธ์ ์ ์ฑ ์ ์ง์์ ์ผ๋ก ์ ๋ฐ์ดํธํ์ฌ ์ฌ์ฉ์ ํผ๋๋ฐฑ์ ๋ง์ถฐ ๋ณด์์ ๊ทน๋ํํ๋ ๋ฐฉ์์ ๋๋ค.
- Rejection Sampling: ์ฌ๋ฌ ๊ฐ์ ์๋ต์ ๋ชจ๋ธ์ด ์์ฑํ๊ณ , ๊ทธ ์ค ๊ฐ์ฅ ๋์ ๋ณด์์ ๋ฐ๋ ์๋ต์ ์ ํํ์ฌ ๋ค์ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์งํ๋์ด ๊ฐ ์๋ต์ ์ง์ ๋์ ๋๋ค.
- RLHF ๋ฐ์ดํฐ์ : RLHF ๊ณผ์ ์์๋ ๋ฆฌ์๋ ๋ชจ๋ธ์ด ๊ฐ ์๋ต์ ์ ์ ์ฑ์ ํ๊ฐํ์ฌ ํ์ต์ ๋์ต๋๋ค. ์ด ๊ณผ์ ์์ ์ฌ์ฉ์์ ์ ๋ ฅ๊ณผ ๋ชจ๋ธ์ ์๋ต์ ๋น๊ตํ์ฌ ๋ ์ ์ ํ ๋ต๋ณ์ ์ ํํ๊ณ , ์ด๋ฅผ ๊ฐํ ํ์ต์ ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค.
-
ํนํ, ๋ฆฌ๋ง ๋ ผ๋ฌธ์์๋ SFT ๋ฐ์ดํฐ์ ์ ์๋ณด๋ค๋ ์ง์ด ์ค์ํ๋ค๋ ์ ์ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค. ์ฆ, ์ ์ ํ ์๋ต์ ํฌํจํ ๊ณ ํ์ง์ ๋ฐ์ดํฐ๋ฅผ ์ค์ฌ์ผ๋ก ํ์ต์ ์งํํ๋ ๊ฒ์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ์ ์ฆํ์์ต๋๋ค.
-
Dataset ์์ง ์ ์ฐจ โ Supervised Fine-Tuning (SFT)
-
Supervised Fine-Tuning(SFT)๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ํ ์ค์ ์์ฉ ํ๊ฒฝ์์ ๋์ฑ ์ ๊ตํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ๋ง๋๋ ์ค์ํ ๋จ๊ณ์ ๋๋ค. LLaMA 2์์๋ ์ด ๊ณผ์ ์์ ๋ผ๋ฒจ์ด ๋ถ์ฌ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ , ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ํน์ ์๋ต์ ์ ์ ํ๊ฒ ํ์ตํ ์ ์๋๋ก ํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง ๊ณผ์
: SFT์์๋ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ ์์ค(์: ๋ด์ค ๊ธฐ์ฌ, ์นํ์ด์ง, ๋ธ๋ก๊ทธ ํฌ์คํธ, ์์ ๋ฏธ๋์ด ๋ฑ)์์ ์ฌ์ฉ์์ ์ง๋ฌธ๊ณผ ๊ทธ์ ๋์ํ๋ ์ ์ ํ ์๋ต์ ํฌํจํ ๋ฐ์ดํฐ๋ฅผ ์์งํฉ๋๋ค. ์ด ๋ฐ์ดํฐ๋ ์ฌ๋์ ํ๋จ์ ๋ฐ๋ผ ๋ ์ด๋ธ๋ง์ด ๋์ด ์์ผ๋ฉฐ, ๋ชจ๋ธ์ด ์ ๊ตํ๊ฒ ์ง๋ฌธ์ ๋ง๋ ๋ต๋ณ์ ํ๋๋ก ํ๋ จ๋ฉ๋๋ค.๋ฐ์ดํฐ ์ง ๊ด๋ฆฌ
: LLaMA 2๋ ํ์ต์ ์ฌ์ฉํ ๋ฐ์ดํฐ์ ์ ์๋ณด๋ค ์ง์ ์ง์คํฉ๋๋ค. ๋ฐ์ดํฐ์ ์ ์ฒ ์ ํ ์ ์ ๊ณผ์ ์ ๊ฑฐ์น๋ฉฐ, ๋ถ์ ํํ๊ฑฐ๋ ๋ถํ์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฑธ๋ฌ๋ ๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ํ์ต๋ ๋ฐ์ดํฐ๋ ์ค์ ์์ฉ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์ต๋๋ค.
-
SFT๋ ๋ชจ๋ธ์ด ๋ค์ํ ์ฌ์ฉ์์ ์๊ตฌ์ ์ ํฉํ๊ฒ ๋ฐ์ํ ์ ์๋๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ง๋ ํ์ต(Supervised Learning)์ ์งํํ๋ ์ค์ํ ๋จ๊ณ์ ๋๋ค.
Dataset ์์ง ์ ์ฐจ โ Human Preference
-
Human Preference ๋ฐ์ดํฐ์ ์ RLHF(Reinforcement Learning with Human Feedback) ๊ณผ์ ์ ํต์ฌ์ ์ด๋ฃจ๋ ์์๋ก, ์ฌ๋์ ํผ๋๋ฐฑ์ ํตํด ๋ชจ๋ธ์ด ๋ ์์ฐ์ค๋ฌ์ด ๋ฐฉ์์ผ๋ก ์๋ตํ ์ ์๋๋ก ํ์ตํ๋ ๋ฐฉ์์ ๋๋ค. ์ธ๊ฐ ํ๊ฐ์๊ฐ ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ ์๋ต ์ค ๊ฐ์ฅ ์ ํฉํ ๊ฒ์ ์ ํํ๋ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์์ง๋๋ฉฐ, ์ด๋ฅผ ํตํด ์ธ๊ฐ์ด ์ ํธํ๋ ์๋ต ๋ฐฉ์์ ๋ชจ๋ธ์ ๋ฐ์ํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง ๊ณผ์
: LLaMA 2๋ ๋ชจ๋ธ์ด ํน์ ์ง๋ฌธ์ ๋ํด ๋ค์ํ ์๋ต์ ์์ฑํ๊ณ , ์ธ๊ฐ ํ๊ฐ์๋ ์ด ์ค ๊ฐ์ฅ ์ ํฉํ ์๋ต์ ์ ํํฉ๋๋ค. ์ด ์ ํ ๊ณผ์ ์์ ํ๊ฐ์์ ์ง๊ด๊ณผ ๊ฒฝํ์ด ์ค์ํ ์ญํ ์ ํ๋ฉฐ, ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ ์ธ๊ฐ์ ์๋๋ฅผ ๋ณด๋ค ์ ๋ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋ฉ๋๋ค.๋ฆฌ์๋ ๋ชจ๋ธ์ ์ญํ
: ๋ฆฌ์๋ ๋ชจ๋ธ์ ์ธ๊ฐ์ ํ๊ฐ๋ฅผ ๋ฐํ์ผ๋ก ์๋ต์ ์ ์๋ฅผ ๋งค๊ธฐ๊ณ , ๊ทธ ์ ์์ ๋ฐ๋ผ ๋ชจ๋ธ์ด ๋ ๋์ ์๋ต์ ์์ฑํ ์ ์๋๋ก ๊ฐํํ์ต์ ์งํํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ธ๊ฐ์ ์ ํธ๋์ ๋ง์ถ ๋ ์ ๊ตํ ๋ต๋ณ์ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
-
์ด ๊ณผ์ ์ ๋ชจ๋ธ์ด ์ฌ์ฉ์์๊ฒ ๋ ์ ์ฉํ๊ณ ์์ฐ์ค๋ฌ์ด ์๋ต์ ์ ๊ณตํ๋๋ก ์กฐ์ ํ๋ ๋ฐ ๋งค์ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค.
Reward Model ํ๋ จ
-
Reward Model์ ๋ชจ๋ธ์ด ์์ฑํ ์๋ต์ ํ๊ฐํ๊ณ ๋ณด์์ ํ ๋นํ๋ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํ ํ์ต) ๊ณผ์ ์์, ์ธ๊ฐ ํ๊ฐ์์ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ต์ ์ง์ ํ๊ฐํฉ๋๋ค.
- ํ๋ จ ๊ณผ์ : ๋ฆฌ์๋ ๋ชจ๋ธ์ ์ธ๊ฐ ํ๊ฐ์๊ฐ ์ ํํ ์ ํธ ์๋ต์ ๋์ ๋ณด์ ์ ์๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ด ๋ณด์ ์ ์๋ ๋ชจ๋ธ์ ์ถ๋ ฅ์ด ์ผ๋ง๋ ์ ์ ํ์ง ํ๋จํ๋ ๊ธฐ์ค์ด ๋๋ฉฐ, ์ด ์ ๋ณด๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ด ์๋ต ์์ฑ ๋ฐฉ์์ ์กฐ์ ํ ์ ์์ต๋๋ค.
- Rejection Sampling: ์ฌ๋ฌ ๊ฐ์ ์๋ต์ ์์ฑํ ํ, ๋ฆฌ์๋ ๋ชจ๋ธ์ ๊ฐ์ฅ ๋์ ์ ์๋ฅผ ๋ฐ์ ์๋ต์ ์ ํํ์ฌ ๋ค์ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ์ฌ, ์ ์ ๋ ๋์ ํ์ง์ ์๋ต์ ์์ฑํ ์ ์๋๋ก ๋ชจ๋ธ์ ์ต์ ํํฉ๋๋ค.
-
๋ฆฌ์๋ ๋ชจ๋ธ์ ์ด๋ฌํ ํ๊ฐ ๊ณผ์ ์ ํตํด ์๋ต์ ์ ํ์ฑ๊ณผ ์ ํฉ์ฑ์ ์ง์์ ์ผ๋ก ๊ฐ์ ํ๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
Iterative Fine-tuning
-
Iterative Fine-Tuning์ RLHF ๊ณผ์ ์์ ๋ฐ๋ณต์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ ๋ฏธ์ธ ์กฐ์ ๋จ๊ณ์ ๋๋ค. ์ด ๋จ๊ณ์์ ๋ชจ๋ธ์ ํผ๋๋ฐฑ๊ณผ ๋ณด์ ๋ฐ์ดํฐ๋ฅผ ์ง์์ ์ผ๋ก ์ ์ฉ๋ฐ์, ์ ์ง์ ์ผ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํด ๋๊ฐ๋๋ค.
- ์ฃผ๊ธฐ์ ํ์ต: ๋ชจ๋ธ์ RLHF ๊ณผ์ ์์ ์ป์ ํผ๋๋ฐฑ์ ์ฃผ๊ธฐ์ ์ผ๋ก ํ์ตํ๋ฉด์, ๊ฐ ๋ฐ๋ณต ํ์ต ์ฃผ๊ธฐ๋ง๋ค ์ ์ง์ ์ผ๋ก ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค. ์ด ๊ณผ์ ์ ๋ชจ๋ธ์ด ๋ ์ ํํ๊ณ ์์ฐ์ค๋ฌ์ด ์๋ต์ ์์ฑํ ์ ์๋๋ก ๋์ต๋๋ค.
- ํผ๋๋ฐฑ ๋ฐ์: ๋งค ํ์ต ์ฃผ๊ธฐ๋ง๋ค ์ธ๊ฐ์ ํผ๋๋ฐฑ๊ณผ ๋ฆฌ์๋ ๋ชจ๋ธ์ ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ๋ฐ์๋๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ธ๋ถ์ ์ผ๋ก ์กฐ์ ํ๊ณ ๋์ฑ ์ ๋ฐํ๊ฒ ๋ต๋ณ์ ์์ฑํ ์ ์์ต๋๋ค.
-
์ด ๊ณผ์ ์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํน์ ์ฃผ๊ธฐ์ ๋จธ๋ฌผ์ง ์๊ณ , ๊ณ์ํด์ ๊ฐ์ ๋ ์ ์๋๋ก ๋ฐ๋ณต์ ์ผ๋ก ํ์ต์ ์ ์ฉํ๋ ๋ฐฉ์์ ๋๋ค.
์ต์ข ํ๋ จ
-
์ต์ข ํ๋ จ์ ๋ชจ๋ธ์ ๊ณต๊ฐํ๊ณ ์ฌ์ฉํ๊ธฐ ์ ์, Proximal Policy Optimization (PPO)๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ต์ ํํ๋ ๋ง์ง๋ง ๋จ๊ณ์ ๋๋ค.
-
์ด ๋จ๊ณ๋ ๋ชจ๋ธ์ด ์ค์ ํ๊ฒฝ์์ ์ฌ์ฉ์์๊ฒ ์ ์ ํ ์๋ต์ ์ ๊ณตํ ์ ์๋๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ณผ์ ์ผ๋ก, ์ฌ์ฉ์์๊ฒ ๋ ๋์ ์๋ต์ ์ ๊ณตํ๊ณ , ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ๋์์ฑ์ ๊ฐํํ๋ ๋ฐ ์ค์ ์ ๋ก๋๋ค.
- Prompt ์ ๋ ฅ: ์ฌ์ฉ์๊ฐ ์ ๋ ฅํ ๋ฌธ์ฅ์ด Prompt๋ก ์ ๊ณต๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ์ฉ์๊ฐ โ์ ๋ฌด์ฌ๋ฆผ๋ค์ ํ ๋ฌ๋ฆฌ์คํธ๊ฐ ๋๋๊ฑฐ์ผ?โ๋ผ๋ ์ง๋ฌธ์ ์ ๋ ฅํ๋ค๊ณ ๊ฐ์ ํ ์ ์์ต๋๋ค.
- ๋ชจ๋ธ์ ์ด๊ธฐ ์๋ต ์์ฑ: Aligned Model์ Prompt์ ๋ง์ถฐ ์๋ต์ ์์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด, โ์ฟ ๋์ ํ ๋ฌ๋ฅผ ์ ์ง๋ฅด๋ผ๊ณ ์ฐ์ฌ์๊ธฐ ๋๋ฌธ์ ๋๋ค.โ๋ผ๋ ๋ถ์ ์ ํ ์๋ต์ ์์ฑํ ์ ์์ต๋๋ค.
-
๋ฆฌ์๋ ๋ชจ๋ธ์ ํ๊ฐ: Reward Model์ ๋ชจ๋ธ์ด ์์ฑํ ์๋ต์ ๋ํด ์์ ์ฑ(Safety)๊ณผ ๋์์ฑ(Helpfulness)์ ํ๊ฐํฉ๋๋ค. (๋ง์ฝ ์๋ต์ด ์์ ํ์ง ์๊ฑฐ๋, ์ ํดํ ์ ๋ณด๋ฅผ ํฌํจํ ๊ฒฝ์ฐ ์์ ์ฑ ๊ธฐ์ค์ ์ ์ฉํด ์์ ํ ์๋ต์ด ์ ํ๋ ์ ์๋๋ก ๋ณด์์ ์กฐ์ ํฉ๋๋ค.)
-
Reward Function: ๋ฆฌ์๋ ๋ชจ๋ธ์ ๋ณด์ ํจ์๋ฅผ ์ฌ์ฉํด ์๋ต์ ์ ์ ์ฑ์ ํ๋จํฉ๋๋ค.
- ๋ฆฌ์๋ ์ ์๋ ์๋์ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.R(gโฃp)=R^c(gโฃp)โฮฒDKL(ฯฮธ(gโฃp)โฅฯ0(gโฃp))R(g \mid p) = \hat{R}_c(g \mid p) - \beta D_{KL}(\pi_{\theta}(g \mid p) \parallel \pi_0(g \mid p))R(gโฃp)=R^cโ(gโฃp)โฮฒDKLโ(ฯฮธโ(gโฃp)โฅฯ0โ(gโฃp))์ฌ๊ธฐ์ R^c(gโฃp)\hat{R}_c(g \mid p)R^cโ(gโฃp)๋ ๋ฆฌ์๋ ์ ์, ฮฒDKL\beta D_{KL}ฮฒDKLโ๋ ๋ณด์ ์กฐ์ ์ ๋ฐ๋ฅธ ์ ์ฑ ์ ์์ ์ฑ์ ์๋ฏธํฉ๋๋ค.
-
Reward ์ ์ ์ฐ์ถ ๋ฐฉ์: ์์ฑ๋ ์๋ต์ด ์์ ํ์ง ์๋ค๋ฉด, ์์ ์ฑ ๋ชจ๋ธ์์ ๋ฎ์ ์ ์๋ฅผ ๋ถ์ฌํ๊ณ , ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ์๋ ๋์์ฑ ๋ชจ๋ธ์ ํตํด ์๋ต์ ์ง์ ํ๊ฐํด ์ ์๋ฅผ ๋ถ์ฌํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, Safety Model์ด ์๋ต์ด ์์ ํ์ง ์๋ค๊ณ ํ๊ฐํ๋ฉด ์์ ์ ์๋ฅผ ํ ๋นํ๊ณ , ๊ทธ๋ ์ง ์๋ค๋ฉด Helpfulness Model์์ ์ ์ ํ ์๋ต์ผ๋ก ํ๊ฐํฉ๋๋ค.
-
- ์ฌ์ฉ์ ํผ๋๋ฐฑ: ์ฌ์ฉ์๋ ์์ฑ๋ ์๋ต์ ๋ณด๊ณ ์ ํธํ๋ ์๋ต์ ๋ํด ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค. ์ด ํผ๋๋ฐฑ์ ๋ชจ๋ธ์ด ํ์ตํ๋ ๋ฐ ์ค์ํ ์์๋ก, PPO ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉ๋ฉ๋๋ค.
-
๐ค Proximal Policy Optimization (PPO)
PPO(Proximal Policy Optimization)
๋ RLHF์์ ๋ฆฌ์๋ ๋ชจ๋ธ์ ๋ณด์ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ์ ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
PPO
๋ ์ ์ฑ ์ ์ ๋ฐ์ดํธํ๋ ๊ณผ์ ์์์์ ์ฑ์ ๋ณด์ฅ
ํ๋ฉด์๋ํจ์จ์ฑ์ ๊ทน๋ํํ๋ ๋ฐฉ์
์ผ๋ก ์ค๊ณ๋์์ต๋๋ค.
- ์ ์ฑ ๊ธฐ๋ฐ ๊ฐํ ํ์ต: PPO๋ ๋ชจ๋ธ์ด ์์ฑํ ์๋ต์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฑ (policy)์ ํ์ตํฉ๋๋ค. ์ฌ๊ธฐ์ ์ ์ฑ ์ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ์ต์ ์ ์๋ต์ ์์ฑํ๊ธฐ ์ํ ํ๋ ์ ํ ๋ฉ์ปค๋์ฆ์ ๋งํฉ๋๋ค.
- ๋ฆฌ์๋ ๊ธฐ๋ฐ ์ ๋ฐ์ดํธ: ๋ฆฌ์๋ ๋ชจ๋ธ์ด ๊ฐ ์๋ต์ ๋ถ์ฌํ ๋ณด์ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, PPO๋ ๋ชจ๋ธ์ ์ ์ฑ ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ฆ, ๋ ๋์ ๋ณด์์ ๋ฐ์ ์๋ต์ด ๋ชจ๋ธ์ ์ ์ฑ ์ ๋ฐ์ดํธ์ ๋ ํฐ ์ํฅ์ ๋ฏธ์น๋ฉฐ, ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ๋ ๋์ ์๋ต์ ์์ฑํ๋๋ก ํ์ต์ด ์งํ๋ฉ๋๋ค.
- ์ ์ฑ ์ ์์ ์ ์ ๋ฐ์ดํธ: PPO์ ํน์ง์ ํด๋ฆฌํ(clipping) ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ ์ฑ ์ด ๊ธ๊ฒฉํ๊ฒ ๋ณํํ์ง ์๋๋ก ์ ํํ๋ ๊ฒ์ ๋๋ค. ์ด๋ ๊ฐํ ํ์ต ๊ณผ์ ์์ ๊ณผ๋ํ ์ ์ฑ ๋ณ๊ฒฝ์ผ๋ก ์ฑ๋ฅ์ด ๋ถ์์ ํด์ง๋ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํฉ๋๋ค. PPO๋ ์ ์ฑ ์ ์ ์ง์ ์ผ๋ก ์ ๋ฐ์ดํธํ์ฌ ์์ ์ฑ์ ์ ์งํ๋ฉด์๋ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
- ๋ฐ๋ณต ํ์ต: PPO๋ ์ฌ๋ฌ ํ์ต ์ฃผ๊ธฐ ๋์ ๋ฆฌ์๋ ๋ชจ๋ธ์ ๋ณด์์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฑ ์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด์, ๋ชจ๋ธ์ ์๋ต ํ์ง์ ์ ์ฐจ ํฅ์๋ฉ๋๋ค.
๐ค RLHF(์ธ๊ฐ ํผ๋๋ฐฑ์ ํตํ ๊ฐํ ํ์ต)
Reinforcement Learning with Human Feedback (RLHF)
๋ LLaMA 2์ ๊ฐ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์์ ์ฌ์ฉ์์ ์๊ตฌ์ ๋์ฑ ์ ์ ํ๊ณ ์ ์ฉํ ์๋ต์ ์์ฑํ ์ ์๋๋ก ๋ชจ๋ธ์ ๊ฐํ ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค.
- ์ด ๊ณผ์ ์์๋ ์ธ๊ฐ ํ๊ฐ์๊ฐ ๋ชจ๋ธ์ ์ถ๋ ฅ๋ฌผ์ ์ง์ ํ๊ฐํ๊ณ , ๊ทธ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก ๋ชจ๋ธ์ด ํ์ตํ๋๋ฐ, ์ด๋ ์ค์ํ ์ญํ ์ ํ๋ ๊ฒ์ด ๋ฆฌ์๋ ๋ชจ๋ธ๊ณผ PPO์ ๋๋ค.
- ๋ชจ๋ธ ์๋ต ์์ฑ: ์ฐ์ ๋ชจ๋ธ์ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ์๋ต์ ์์ฑํฉ๋๋ค. ์ด๋ ์๋ต์ ๋ค์์ฑ์ ํ๋ณดํ๊ธฐ ์ํด ๊ฐ๋ฅํ ์ฌ๋ฌ ๊ฐ์ง ์ ํ์ง๋ค์ด ๋ง๋ค์ด์ง๋๋ค.
- ์ธ๊ฐ ํผ๋๋ฐฑ ์์ง: ์์ฑ๋ ์ฌ๋ฌ ์๋ต์ ๋ํด ์ธ๊ฐ ํ๊ฐ์๊ฐ ์ง์ ํ๊ฐ๋ฅผ ์งํํฉ๋๋ค. ์ธ๊ฐ ํ๊ฐ์๋ ์๋ต ์ค์์ ๊ฐ์ฅ ์ ํฉํ๊ณ ์ ์ฉํ ๋ต๋ณ์ ์ ํํ๋ฉฐ, ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ณด์ ์ ์๋ฅผ ๋ถ์ฌํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์ ํธ ์๋ต์ ๋ ๋์ ๋ณด์์ด ์ฃผ์ด์ง๋๋ค.
- ๋ฆฌ์๋ ๋ชจ๋ธ์ ํ๋ จ: ์ธ๊ฐ ํ๊ฐ์์ ํผ๋๋ฐฑ์ ๋ฆฌ์๋ ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ฆฌ์๋ ๋ชจ๋ธ์ ๋ชจ๋ธ์ด ์์ฑํ ์๋ต์ ํ์ง์ ํ๊ฐํ๊ณ , ์ธ๊ฐ ํ๊ฐ์๊ฐ ๋ถ์ฌํ ๋ณด์์ ๊ธฐ์ค์ผ๋ก ์ ์๋ฅผ ๋งค๊น๋๋ค. ์ดํ, ๋ฆฌ์๋ ๋ชจ๋ธ์ ๊ฐ ์๋ต์ ๋ํด ์ผ๋ง๋ ์ ์ ํ์ง๋ฅผ ํ๋จํ์ฌ ์ ์(๋ณด์)๋ฅผ ๋ถ์ฌํ๋ ์๋ํ๋ ํ๊ฐ์๊ฐ ๋ฉ๋๋ค.
- PPO๋ฅผ ํตํ ์ ์ฑ ์ ๋ฐ์ดํธ: ๋ฆฌ์๋ ๋ชจ๋ธ์ด ํ๊ฐํ ๋ณด์ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, Proximal Policy Optimization(PPO) ์๊ณ ๋ฆฌ์ฆ์ด ์ฌ์ฉ๋์ด ๋ชจ๋ธ์ ์ ์ฑ (policy)์ ์ ๋ฐ์ดํธํฉ๋๋ค. ์ด ๊ณผ์ ์ ์๋ต์ ์ง์ ์ง์์ ์ผ๋ก ํฅ์์ํค๊ธฐ ์ํ ํต์ฌ ๋จ๊ณ๋ก, PPO๋ ๋ชจ๋ธ์ด ์ต์ ์ ์๋ต์ ์์ฑํ ์ ์๋๋ก ํ์ต์ ์กฐ์ ํฉ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
-
์คํ ์์ค ์ฐ๊ตฌ ์ด์ง:
- LLaMA 2๋ ์ฐ๊ตฌ์๋ค์ด ์์ ๋กญ๊ฒ ์ฌ์ฉํ๊ณ ๊ฐ์ ํ ์ ์๋๋ก ์คํ ์์ค๋ก ์ ๊ณต๋๋ฉฐ, ์ด๋ AI ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์ ํ๋ ฅ๊ณผ ํ์ ์ ์ด์งํ๋ ์ค์ํ ๊ธฐ์ฌ๋ก ํ๊ฐ๋ฉ๋๋ค.
- ์์ ์ ์ฉ๋๋ก๋ ์ฌ์ฉ ๊ฐ๋ฅํ๊ฒ ๊ณต๊ฐ๋์์ผ๋ฉฐ, ์ด๋ LLaMA 1๊ณผ๋ ๋ค๋ฅธ ์ค์ํ ์ฐจ์ด์ ์ ๋๋ค. ์ฐ๊ตฌ์๋ฟ๋ง ์๋๋ผ ์ฐ์ ๊ณ์์๋ ๊ด๋ฒ์ํ๊ฒ ํ์ฉ๋ ์ ์์ต๋๋ค.
-
๊ฐ๋ ฅํ ์ฑ๋ฅ:
- LLaMA 2๋ ๊ณต๊ฐ๋ ๋ฐ์ดํฐ๋ง์ ์ฌ์ฉํ์์๋ ๋ถ๊ตฌํ๊ณ , ChatGPT, BARD์ ๊ฐ์ ์์ฉ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด๋ ์ ์ฌํ ์์ค์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- ํนํ 70B ๋ชจ๋ธ์ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ์๊ณ , ๋ํํ ์์ฉ์ ์ต์ ํ๋ LLaMA 2-Chat์ ์์ฉ ์ฑ๋ด๊ณผ ๊ฒฝ์ํ ์ ์๋ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
-
์ฑ ์ ์๋ AI ๊ฐ๋ฐ:
- LLaMA 2๋ AI ๋ชจ๋ธ์ ์์ ์ฑ๊ณผ ์ค๋ฆฌ์ ๋ฌธ์ ์ ๋ํ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ๊ฐ๋ฐ์๋ค์ด ๋ชจ๋ธ์ ์ฌ์ฉํ ๋ ์์ ์ฑ์ ๊ฐํํ๊ธฐ ์ํ ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํฉ๋๋ค.
- ๊ฐํ๋ ์์ ์ฑ ํ๊ฐ ๋ฐ ๋ฏธ์ธ ์กฐ์ ์ ์ฐจ๋ LLaMA 2 ๋ชจ๋ธ์ด ์ค์ง์ ์ธ ์์ฉ ํ๊ฒฝ์์ ์์ ํ๊ฒ ์ฌ์ฉ๋ ์ ์๋๋ก ๋ณด์ฅํฉ๋๋ค.
๐ก LLaMA 1 vs LLaMA 2
- ๋ชจ๋ธ ํฌ๊ธฐ:
LLaMA 2
๋ 7B, 13B, 70B ๋ชจ๋ธ๋ก ์ ๊ณต๋๋ฉฐ,LLaMA 1
๊ณผ ๋ฌ๋ฆฌ 34B ๋ฐ 65B ๋ชจ๋ธ์ด ์ ๊ณต๋์ง ์๊ฑฐ๋ ์ถ์๊ฐ ์ง์ฐ๋์์ต๋๋ค. ๋์ 70B ๋ชจ๋ธ์ ๋ ํฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ฌ์ฃผ๊ณ ์์ต๋๋ค.- ํ์ต ๋ฐ์ดํฐ ๊ท๋ชจ:
LLaMA 2
๋LLaMA 1
์ ๋นํด 40% ๋ ๋ง์ 2์กฐ ๊ฐ์ ํ ํฐ์ผ๋ก ํ์ต๋์์ต๋๋ค. ์ด๋ LLaMA 2์ ์ง์ ๊ธฐ๋ฐ๊ณผ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์ํค๋ ์์์ ๋๋ค.- ์ปจํ ์คํธ ๊ธธ์ด ํ์ฅ:
LLaMA 1
์ ์ปจํ ์คํธ ์ฐฝ์ด2,048 ํ ํฐ
์ด์๋ ๋ฐ๋ฉด,LLaMA 2
๋4,096 ํ ํฐ*
์ผ๋ก ํ์ฅ๋์์ต๋๋ค. ์ด๋ LLaMA 2๊ฐ ๋ ๊ธด ๋ฌธ๋งฅ์ ์ฒ๋ฆฌํ ์ ์๊ฒ ํ์ฌ, ๋ณต์กํ ๋ฌธ์ฅ ๊ตฌ์กฐ๋ ๊ธด ๋ํ์์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.- ๋ฏธ์ธ ์กฐ์ ๋ฐ ๊ฐํ ํ์ต:
LLaMA 2
๋ ๋ฐฑ๋ง ๊ฐ ์ด์์ ์ธ๊ฐ ์ฃผ์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด RLHF๋ฅผ ํตํด ๋ฏธ์ธ ์กฐ์ ๋์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์ถ๋ ฅ ํ์ง๊ณผ ์๋ต์ ์ ํ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์ผ๋ฉฐ, ๋ํํ AI๋ก์ ๋์ฑ ์์ฐ์ค๋ฝ๊ณ ํจ์จ์ ์ธ ์ํธ์์ฉ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.- ๋ชจ๋ธ ์ํคํ ์ณ:
LLaMA2
๋ KV ์บ์์ Grouped Query Attention์ ๊ฒฐํฉํ์ฌ ์ถ๋ก ์๋๋ฅผ ๋ํญ ๊ฐ์ ํฉ๋๋ค.
- KV ์บ์(KV Cache): ์ถ๋ก ๊ณผ์ ์์ ์ด์ ์ ๊ณ์ฐ๋ ํค(key)์ ๊ฐ(value)์ ์บ์ฑํ์ฌ ์ฌ๊ณ์ฐํ์ง ์๋๋ก ์ต์ ํํ ์ ์๋๋ก ํ์ต๋๋ค.
- Grouped-Query Attention (GQA):
GQA
๋ ํนํ ๋๊ท๋ชจ ๋ชจ๋ธ(34B, 70B)์์์ถ๋ก ํ์ฅ์ฑ์ ํฅ์
์ํค๊ธฐ ์ํด ๋์ ๋์์ต๋๋ค. ์ด๋ ๋ ํฐ ๋ชจ๋ธ๋ค์ด ๋ ํจ์จ์ ์ผ๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก ๋์์ค๋๋ค.
-
Mistral: A Next Generation Open Weight Language Model (Mistral Team, 2023)
๐ก Mistral์ ๊ณ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๊ฒธ๋นํ 7B ํ๋ผ๋ฏธํฐ ์ธ์ด ๋ชจ๋ธ๋ก, GPT๋ LLaMA์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ์์ ๊ท๋ชจ๋ก๋ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ํนํ ๊ทธ๋ฃนํ๋ ์ฟผ๋ฆฌ ์ดํ ์ (grouped-query attention, GQA)๊ณผ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ (sliding window attention, SWA)์ ์ฌ์ฉํ์ฌ ๋ ๋น ๋ฅด๊ณ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ธ ์ถ๋ก ์ ์ง์ํฉ๋๋ค. Mistral์ ๊ธฐ์กด์ 13B LLaMA 2 ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, ์ํ, ์ถ๋ก , ์ฝ๋ ์์ฑ ์์ ์์ 34B ๋ชจ๋ธ๊ณผ๋ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ํ Mistral์ Apache 2.0 ๋ผ์ด์ ์ค ํ์ ๊ณต๊ฐ๋์ด ์ฐ๊ตฌ์์ ๊ฐ๋ฐ์๋ค์ด ์ฝ๊ฒ ์ ๊ทผํ ์ ์์ผ๋ฉฐ, ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ฌ์ฉ๋ ์ ์๋๋ก ์ต์ ํ๋์์ต๋๋ค.
Mistral 7B๋ 70์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ์ธ์ด ๋ชจ๋ธ๋ก, ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ๋ชจ๋ ๊ฐ์ถ ์ฐจ์ธ๋ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ GPT๋ LLaMA์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ๋ณด๋ค ๋ ์์ ๊ท๋ชจ์์๋ ๋ถ๊ตฌํ๊ณ , ์ถ๋ก ์๋์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ ํจ์จ์ ํฌ๊ฒ ํฅ์์ํค๋ฉฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. Mistral์ ๊ทธ๋ฃนํ๋ ์ฟผ๋ฆฌ ์ดํ ์ (Grouped-Query Attention, GQA)๊ณผ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ (Sliding Window Attention, SWA)์ ์ฌ์ฉํ์ฌ ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ธ ์ถ๋ก ์ ์ง์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ LLaMA 2์ 13B ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, ์ํ, ์ถ๋ก , ์ฝ๋ ์์ฑ ์์ ์์ 34B ๋ชจ๋ธ๊ณผ๋ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
์ฃผ์ ๋ด์ฉ
๊ณ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ
: Mistral 7B๋ ๊ธฐ์กด์ LLaMA 2 13B ๋ชจ๋ธ๋ณด๋ค ๋ ์์ ๊ท๋ชจ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ํนํ ์ฝ๋ ์์ฑ, ์ํ ๋ฌธ์ ํด๊ฒฐ, ์ถ๋ก ๊ณผ ๊ฐ์ ์์ ์์ 34B ๋ชจ๋ธ๊ณผ ๊ฒฝ์ํ ์ ์์ต๋๋ค.-
ํ์ ์ ์ธ ์ดํ ์ ๋ฉ์ปค๋์ฆ
: ๊ทธ๋ฃน ์ฟผ๋ฆฌ ์ดํ ์ (Grouped-Query Attention, GQA)๊ณผ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ (Sliding Window Attention, SWA)์ ์ฌ์ฉํ์ฌ ์ถ๋ก ์๋๋ฅผ ํฅ์์ํค๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ์ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๊ตฌํํ ์ ์์ผ๋ฉฐ, ํนํ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ํ์ํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.-
๊ทธ๋ฃน ์ฟผ๋ฆฌ ์ดํ ์ (GQA)
- GQA๋ ๊ธฐ์กด์ ๋ค์ค ์ฟผ๋ฆฌ ์ดํ
์
๋ฐฉ์์ ๋นํด ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํ๋ฉด์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ฌ์ค๋๋ค.
- ์ด๋ก ์ธํด ๋ ํฐ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ํนํ ์ค์๊ฐ ์์ฉ ํ๋ก๊ทธ๋จ์์ ๋ ๋์ ์ฒ๋ฆฌ๋์ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
- GQA๋ ๋ง์ ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ฉด์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น์ง ์์ผ๋ฏ๋ก ๊ณ ํจ์จ ์ถ๋ก ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
- GQA๋ ๊ธฐ์กด์ ๋ค์ค ์ฟผ๋ฆฌ ์ดํ
์
๋ฐฉ์์ ๋นํด ๋ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ์ ๊ณตํ๋ฉด์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ฌ์ค๋๋ค.
-
์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ (SWA)
- SWA๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ฐ์ํ๋ ๊ณ์ฐ ๋น์ฉ์ ํฌ๊ฒ ์ค์ฌ์ฃผ๋ ๋ฐฉ๋ฒ์
๋๋ค. ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ธฐ ์ํด, SWA๋ ๊ฐ ํ ํฐ์ด ํน์ ๋ฒ์(W)์ ํ ํฐ๋ค๋ง ์ฐธ์กฐํ๋๋ก ์ ํํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, SWA๋ 16K ๊ธธ์ด์ ์ํ์ค์์ ์ด ๋ฐฉ๋ฒ์ ํตํด ๋ ๋ฐฐ์ ์๋ ํฅ์์ ์ป์ ์ ์์ต๋๋ค.
- ์ด๋ฌํ ๋ฐฉ๋ฒ์ ๊ธด ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ ๋ ๋์ฑ ํจ์จ์ ์ด๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์บ์ ์ฌ์ฉ๋์ ํฌ๊ฒ ์ค์ฌ ๋ ๊ธด ๋ฌธ์ฅ์ ์ฒ๋ฆฌํ ๋์๋ ์ฑ๋ฅ์ ์ ํ์ํค์ง ์์ต๋๋ค.
- SWA๋ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ฐ์ํ๋ ๊ณ์ฐ ๋น์ฉ์ ํฌ๊ฒ ์ค์ฌ์ฃผ๋ ๋ฐฉ๋ฒ์
๋๋ค. ์ํ์ค ๊ธธ์ด์ ๋ฐ๋ผ ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ธฐ ์ํด, SWA๋ ๊ฐ ํ ํฐ์ด ํน์ ๋ฒ์(W)์ ํ ํฐ๋ค๋ง ์ฐธ์กฐํ๋๋ก ์ ํํฉ๋๋ค.
-
Rolling Buffer Cache
- Rolling Buffer Cache๋ ์ํ์ค ์ฒ๋ฆฌ ์ ์บ์ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ(W)๋ก ์ ์งํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ค์ด๋ ๋ฉ์ปค๋์ฆ์
๋๋ค. ํนํ ๊ธด ์ํ์ค์ ๊ฒฝ์ฐ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์
๋์์ต๋๋ค.
- ์๋ ๋ฐฉ์: ์บ์๊ฐ ๊ณ ์ ๋ ํฌ๊ธฐ(W)๋ฅผ ์ด๊ณผํ ๊ฒฝ์ฐ, ์๋ก์ด ๋ฐ์ดํฐ๊ฐ ์ ๋ ฅ๋ ๋๋ง๋ค ๊ฐ์ฅ ์ค๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ฎ์ด์๋๋ค. ์ฆ, ์๋ก์ด ํค์ ๊ฐ์ ์ ์ฅํ ๋, (i mod W) ์์น์ ํด๋นํ๋ ์บ์ ์ฌ๋กฏ์ ๋ฎ์ด์์๋๋ค. ์ด ๋ฐฉ์์ผ๋ก, ์ํ์ค ๊ธธ์ด๊ฐ ๋งค์ฐ ๊ธธ์ด์ง๋๋ผ๋ ์บ์ ํฌ๊ธฐ๋ ์ผ์ ํ๊ฒ ์ ์ง๋ฉ๋๋ค.
- ํจ๊ณผ: ์ด ๋ฐฉ์์ ๊ธด ์ํ์ค์์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ ์ ์๊ฒ ํด์ฃผ๋ฉฐ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ 8๋ฐฐ๊น์ง ์ ๊ฐํ ์ ์์ต๋๋ค. ํนํ, Mistral 7B๋ ์ด ๋ฐฉ์์ ํตํด ๊ธด ์ํ์ค์์๋ ์ฑ๋ฅ ์ ํ ์์ด ์ผ๊ด๋ ์ฒ๋ฆฌ ์๋๋ฅผ ์ ์งํ ์ ์์ต๋๋ค.
- Rolling Buffer Cache๋ ์ํ์ค ์ฒ๋ฆฌ ์ ์บ์ ํฌ๊ธฐ๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ(W)๋ก ์ ์งํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ค์ด๋ ๋ฉ์ปค๋์ฆ์
๋๋ค. ํนํ ๊ธด ์ํ์ค์ ๊ฒฝ์ฐ, ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ ํ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์
๋์์ต๋๋ค.
-
Pre-fill and Chunking
+ Pre-fill and Chunking ๊ธฐ๋ฒ์ ์ฃผ์ด์ง ํ๋กฌํํธ๋ฅผ ๋ฏธ๋ฆฌ ์ฒ๋ฆฌํ๊ณ , ๊ธด ์ํ์ค๋ฅผ ์์ ๋ฉ์ด๋ฆฌ(chunk)๋ก ๋๋์ด ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ํ๋กฌํํธ๊ฐ ๋ฏธ๋ฆฌ ์ ๊ณต๋ ์ํฉ์์๋ ํ๋กฌํํธ ๋ฐ์ดํฐ๋ฅผ ๋ฏธ๋ฆฌ ์บ์์ ์ฑ์ ๋ฃ์ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ๊ธด ์ํ์ค๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. - ์๋ ๋ฐฉ์: ํ๋กฌํํธ๋ฅผ ์์ chunk๋ก ๋๋์ด ์ฒ๋ฆฌํ๊ณ , ๊ฐ chunk๊ฐ ์ฌ๋ผ์ด๋ฉ ์๋์ฐ ์ดํ ์ ์์ ์ฌ์ฉ๋๋ window size์ ๋์ผํ ํฌ๊ธฐ๋ก ์ค์ ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ chunk๋ ์๋์ฐ ํฌ๊ธฐ ๋ด์์ ํจ์จ์ ์ผ๋ก ์ดํ ์ ์ ๊ณ์ฐํฉ๋๋ค. ์ด ๊ณผ์ ์์ ์บ์์ chunk ๊ฐ์ ์ดํ ์ ์ด ํจ์จ์ ์ผ๋ก ์๋ํ๋ฉฐ, ํ๋กฌํํธ์ ๊ธธ์ด์ ์๊ด์์ด ๋น ๋ฅด๊ฒ ์ถ๋ก ํ ์ ์๊ฒ ๋ฉ๋๋ค. - ํจ๊ณผ: Pre-fill and Chunking ๊ธฐ๋ฒ์ ํตํด ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ๊ณ์ฐ ์ฑ๋ฅ์ ๋์์ ๊ฐ์ ํ ์ ์์ต๋๋ค. ๋ํ, ์ด ๋ฐฉ๋ฒ์ Mistral 7B๊ฐ ๊ธด ํ๋กฌํํธ์์๋ ํจ์จ์ ์ผ๋ก ์ฑ๋ฅ์ ์ ์งํ ์ ์๊ฒ ๋์์ค๋๋ค.
-
๊ธฐ์ฌ ๋ฐ ์์
- ์๊ณ ํจ์จ์ ์ธ ๋ชจ๋ธ: Mistral 7B๋ ์๋์ ์ผ๋ก ์์ ํ๋ผ๋ฏธํฐ ์์๋ ๋ถ๊ตฌํ๊ณ , ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์์ ์ฌ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์ฐ๊ตฌ์๋ค์ด ํจ์จ์ ์ผ๋ก ์ ๊ทผํ ์ ์์ต๋๋ค.
- ์คํ ์์ค ๊ธฐ์ฌ: Mistral 7B๋ Apache 2.0 ๋ผ์ด์ ์ค ํ์ ๊ณต๊ฐ๋์ด ์ฐ๊ตฌ์์ ๊ฐ๋ฐ์๋ค์ด ์ฝ๊ฒ ์ ๊ทผํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ์ค์๊ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ๋ค์ํ ๋ฒค์น๋งํฌ์์์ ์ฑ๋ฅ: ์ํ, ์ฝ๋ ์์ฑ, ์ถ๋ก ์์ ์์ ๊ธฐ์กด์ LLaMA ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ฉฐ, ์ฌ๋ฌ ๋ถ์ผ์์ ํ์ฉ๋ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค.
(๊ฐ์ธ ์ถ๊ฐ)
-
Llama 3 : Herd of Models (2024, Meta AI)
๐ก LLaMA 3๋ Meta์์ LLaMA 2๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ฅ๋ ๋ฒ์ ์ผ๋ก, ์ฌ๋ฌ ๋ชจ๋ธ์ ํ๋ ฅ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ โHerd of Modelsโ ๊ฐ๋ ์ ๋์ ํ์ต๋๋ค. LLaMA 3๋ ํจ์จ์ ์ธ ์์ ํ์ฉ๊ณผ ๋ชจ๋ธ์ ์ํธ ๋ณด์์ ์ธ ๋ฅ๋ ฅ์ ๊ทน๋ํํ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ์ถ๊ตฌํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ค์ํ ์์ ์์ ๋ ๋์ ์ฑ๋ฅ๊ณผ ์์ ์ฑ์ ํ๋ณดํ ์ ์์ผ๋ฉฐ, ์ฐ๊ตฌ์์ ๊ฐ๋ฐ์๋ค์ด ๋ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ฉ ํ๋ก๊ทธ๋จ์ ์ ์ฉํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
LLaMA 3๋ Meta์์ ๊ฐ๋ฐํ ์ต์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ก, ์ฌ๋ฌ ์ธ์ด ๋ชจ๋ธ๋ค์ โHerd of Models
โ์ด๋ผ๋ ๊ฐ๋
ํ์ ํ๋ ฅ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๋ ํจ์จ์ ์ด๊ณ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ตฌ์กฐ๋ฅผ ๋์
ํ์ต๋๋ค. LLaMA 3๋ 8B
, 70B
, 405B
ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ๋ชจ๋ธ๋ก ์ ๊ณต๋๋ฉฐ, ๋ค๊ตญ์ด ์ง์, ์ฝ๋ ์์ฑ, ์ถ๋ก , ๋๊ตฌ ์ฌ์ฉ ๋ฑ ๋ค์ํ ์์
์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ํนํ LLaMA 3๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ๋ ํจ์จ์ ์ธ ํ์ต ๊ธฐ๋ฒ์ ํตํด ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์
์์ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
์ฃผ์ ๋ด์ฉ
-
Herd of Models ๊ฐ๋ : LLaMA 3๋ ์ฌ๋ฌ ๊ฐ์ ๋ชจ๋ธ์ ํ๋ ฅ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ๊ฐ๊ฐ์ ๋ชจ๋ธ์ด ํน์ ์์ ์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
- ์ด๋ฅผ ํตํด ์์ ์ ๋ณต์ก์ฑ์ ๋ฐ๋ผ ์ฌ๋ฌ ๋ชจ๋ธ์ด ํจ์จ์ ์ผ๋ก ํ๋ ฅํ์ฌ ์ฑ๋ฅ์ ๊ทน๋ํํฉ๋๋ค.
-
๋ชจ๋ธ์ ํฌ๊ธฐ ๋ฐ ์ฑ๋ฅ: LLaMA 3๋ 8B, 70B, 405B ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํ๋ฉฐ, ํนํ 405B ๋ชจ๋ธ์ GPT-4์ ๊ฒฝ์ํ ์ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค.
- ๊ฐ ๋ชจ๋ธ์ ๋ค๊ตญ์ด ์ง์, ์ฝ๋ ์์ฑ, ๋ณต์กํ ์ถ๋ก ๋ฌธ์ ํด๊ฒฐ ๋ฑ์์ ์ต์์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
-
Llama 3 ๋ชจ๋ธ์ ํ์ค Transformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ๋ค์๊ณผ ๊ฐ์ ์ํคํ ์ฒ์ ๋ณ๊ฒฝ ์ฌํญ์ด ํฌํจ๋ฉ๋๋ค.
-
๊ธฐ๋ณธ ์ํคํ ์ฒ
- Llama 3๋ ์ด์ ๋ฒ์ ์ธ Llama 2์ ์ ์ฌํ Dense Transformer ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฑ๋ฅ ๊ฐ์ ์ ์ฃผ๋ก ๋ฐ์ดํฐ ํ์ง๊ณผ ๋ค์์ฑ์ ํฅ์, ๊ทธ๋ฆฌ๊ณ ํ์ต ๊ท๋ชจ์ ์ฆ๊ฐ์ ์ํด ์ด๋ฃจ์ด์ก์ต๋๋ค.
-
Grouped Query Attention (GQA)
- Grouped Query Attention (GQA): 8๊ฐ์ ํค-๊ฐ ํค๋๋ฅผ ์ฌ์ฉํ๋ ์ด ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์ถ๋ก ์๋๋ฅผ ๊ฐ์ ํ๊ณ , ๋์ฝ๋ฉ ๊ณผ์ ์์ ํ์ํ ํค-๊ฐ ์บ์์ ํฌ๊ธฐ๋ฅผ ์ค์์ต๋๋ค.
-
Attention Mask
- ๋ฌธ์ ๋ด์์๋ง self-attention์ ํ์ฉํ๊ณ , ๋ค๋ฅธ ๋ฌธ์ ๊ฐ์ self-attention์ ๋ฐฉ์งํ๋ attention mask๋ฅผ ์ฌ์ฉํ์ฌ ๊ธด ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ ๋ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
-
์ดํ ํฌ๊ธฐ์ RoPE ๊ธฐ๋ฐ ์์น ์ธ์ฝ๋ฉ
- 128,000๊ฐ์ ํ ํฐ์ ํฌํจํ๋ ์ดํ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ์ด ์ค 28,000๊ฐ์ ์ถ๊ฐ ํ ํฐ์ ํตํด ๋น์์ด๊ถ ์ธ์ด๋ฅผ ๋์ฑ ์ ์ง์ํฉ๋๋ค.
- RoPE (Rotary Position Embeddings) ๊ธฐ๋ฐ์ ์์น ์ธ์ฝ๋ฉ์ ์ฌ์ฉํด ๊ธด ์ปจํ ์คํธ๋ฅผ ๋ ์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ง์ํฉ๋๋ค.
-
๋ชจ๋ธ ๊ท๋ชจ
- Llama 3 ๋ชจ๋ธ์ 8B, 70B, 405B ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ค์ํ ํฌ๊ธฐ๋ก ์ ๊ณต๋๋ฉฐ, ๊ทธ ์ค์์ 405B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ด ํ๋๊ทธ์ญ ๋ชจ๋ธ์ ๋๋ค.
-
์ด ๋ชจ๋ธ์ 16,384์ ๋ชจ๋ธ ์ฐจ์์ ๊ฐ์ง๊ณ , 128๊ฐ์ attention ํค๋๋ฅผ ์ฌ์ฉํฉ๋๋ค. ํ์ต ์ ์ฌ์ฉ๋๋ ์ต๋ ํ์ต๋ฅ ์ 8 ร 10โปโต์ ๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ ๋ ์ด์ด ์ ๋ชจ๋ธ ์ฐจ์ FFN ์ฐจ์ Attention ํค๋ ์ ํค/๊ฐ ํค๋ ์ 8B 32 4,096 14,336 32 8 70B 80 8,192 28,672 64 8 405B 126 16,384 53,248 128 8
-
-
์์ ์ฑ ๋ฐ ํจ์จ์ฑ: LLaMA 3๋ ์ฌ์ฉ์์ ํผ๋๋ฐฑ์ ๋ฐ์ํ ๋ฏธ์ธ ์กฐ์ ์ ํตํด ์์ ์ฑ์ ๊ฐํํ์์ผ๋ฉฐ, ํนํ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ์์ ์ฑ์ ๊ด๋ฆฌํ๋ Llama Guard 3 ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค.
- ๋ํ, ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ์ด๋ฉฐ ์ถ๋ก ์๋๊ฐ ๋น ๋ฆ ๋๋ค.
๊ธฐ์ฌ ๋ฐ ์์
- ๊ณ ์ฑ๋ฅ ๋ค๊ธฐ๋ฅ ๋ชจ๋ธ: LLaMA 3๋ ๋ค์ํ ์์ ์์ ๋งค์ฐ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ํนํ ์ฌ๋ฌ ์ธ์ด๋ฅผ ์ง์ํ๋ ๋ฅ๋ ฅ๊ณผ ๋ณต์กํ ์ถ๋ก ๋ฐ ์ฝ๋ ์์ฑ์์์ ์ฑ๊ณผ๊ฐ ๋๋๋ฌ์ง๋๋ค.
- ์ฐ๊ตฌ์ ๋ฐ ๊ฐ๋ฐ์ ์ง์: LLaMA 3๋ ์ฐ๊ตฌ์๋ค์ด ์ฝ๊ฒ ์ ๊ทผํ ์ ์๋๋ก ๊ณต๊ฐ๋์์ผ๋ฉฐ, ๋ค์ํ ์์ฉ ํ๋ก๊ทธ๋จ์์ ์ฌ์ฉ๋ ์ ์๋๋ก ์ต์ ํ๋์์ต๋๋ค. ์ด๋ฅผ ํตํด AI ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์์์ ํ๋ ฅ์ ์ด์งํ๊ณ ๋ฐ์ ์ ๊ฐ์ํํ ์ ์์ต๋๋ค.
- ๋ฉํฐ๋ชจ๋ฌ ๊ธฐ๋ฅ ํตํฉ: LLaMA 3๋ ํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง, ๋น๋์ค, ์์ฑ ์ธ์ ๊ธฐ๋ฅ์ ํตํฉํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ์์ ์์๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์๋๋ก ๊ฐ๋ฐ๋์์ต๋๋ค.
์ถ์ฒ : https://devopedia.org/llama-llm
๐ LLaMA2 vs LLaMA3
- ๋ฐ์ดํฐ์ ์๊ณผ ์ง ๊ฐ์ : LLaMA 3๋ ์ฝ 15์กฐ ๊ฐ์ ๋ค๊ตญ์ด ํ ํฐ์ผ๋ก ์ฌ์ ํ์ต์ ์งํํ์ผ๋ฉฐ, ์ด๋ LLaMA 2์ 1.8์กฐ ๊ฐ ํ ํฐ๊ณผ ๋น๊ตํ ๋ ๊ฑฐ์ 8๋ฐฐ์ ๋ฌํ๋ ์์ ๋๋ค. ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ, LLaMA 3๋ ๋ ๋ง์ ์ธ์ด์ ๋ค์ํ ๋ฌธ๋งฅ์์ ํ์ตํ ์ ์๊ฒ ๋์์ต๋๋ค.
- ๋ํ, ๋ฐ์ดํฐ์ ์ง์ ๋ํ ๊ฐ์ ๋ ์์์ต๋๋ค. LLaMA 3๋ ํ์ต ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌ ๋ฐ ํํฐ๋ง ์ ์ฐจ๊ฐ ๋ ์๊ฒฉํ๊ฒ ์ด๋ฃจ์ด์ก์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ค๋ณต ์ ๊ฑฐ, ์ ํ์ง ๋ฐ์ดํฐ ์ ๊ฑฐ, ๊ฐ์ธ ์๋ณ ์ ๋ณด(PII) ์ ๊ฑฐ ๋ฑ์ ๊ณผ์ ์ด ๊ฐํ๋์ด ๋ ์ฒญ๊ฒฐํ๊ณ ์ ๋ขฐ์ฑ ์๋ ๋ฐ์ดํฐ๋ก ํ์ต์ด ์ด๋ฃจ์ด์ก์ต๋๋ค. ์ด๋ฌํ ๊ฐ์ ์ LLaMA 2์ ๋นํด ๋ ์์ ์ ์ด๊ณ ์ ํํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ์ต๋๋ค.
- ๊ท๋ชจ์ ํ์ฅ: LLaMA 3์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์ ์ค ํ๋๋ ๋ชจ๋ธ์ ๊ท๋ชจ์ ๋๋ค. LLaMA 2์ ์ต๋ ๋ชจ๋ธ์ 70์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์์์ผ๋, LLaMA 3๋ 4050์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ํ๋๊ทธ์ญ ๋ชจ๋ธ์ ํฌํจํ๊ณ ์์ต๋๋ค. ์ด๋ LLaMA 2์ ๋น๊ตํ์ ๋ ์ฝ 50๋ฐฐ ๋ ๋ง์ ์ฐ์ฐ์ ์ฌ์ฉํ์ฌ ํ์ต๋ ๊ฒ์ ๋๋ค.
- LLaMA 3๋ ์ฝ 15.6์กฐ ๊ฐ์ ํ ์คํธ ํ ํฐ์ ์ฒ๋ฆฌํ๋ ๋์, 3.8ร10ยฒโต FLOPs์ ํด๋นํ๋ ์์ฒญ๋ ์ฐ์ฐ ์์์ ์ฌ์ฉํ์ฌ ํ์ต๋์์ต๋๋ค. ์ด๋ ๊ธฐ์กด LLaMA 2๋ณด๋ค ํจ์ฌ ๋ง์ ์ฐ์ฐ ์์์ ํ์ฉํ ๊ฒ์ผ๋ก, ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ๊ณ ๋ ๋ณต์กํ ํจํด์ ํ์ตํ ์ ์๊ฒ ํ์ต๋๋ค.
- ๋ณต์ก์ฑ ๊ด๋ฆฌ: Dense Transformer ์ํคํ ์ฒ๋ LLaMA 2์ LLaMA 3 ๋ชจ๋์์ ์ฌ์ฉ๋๊ณ ์์ง๋ง, LLaMA 3๋ ์์ ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ์ฌ๋ฌ ๊ฐ์ง ๊ฐ์ ์ ๋์ ํ์ต๋๋ค.
- Grouped Query Attention (GQA): LLaMA 2์์๋ GQA๋ฅผ ์ฌ์ฉํด ์์ง๋ง, LLaMA 3์์๋ 8๊ฐ์ ํค-๊ฐ ํค๋๋ฅผ ์ฌ์ฉํ์ฌ ๋ ํจ์จ์ ์ธ ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ์ถ๋ก ์๋ ํฅ์์ ๋๋ชจํ์ต๋๋ค. ์ด๋ก ์ธํด, ๋ ๋ง์ ํ๋ผ๋ฏธํฐ์ ๊ธด ์ปจํ ์คํธ ์ฐฝ์ ์ฌ์ฉํ๋๋ผ๋, ๋ชจ๋ธ์ ํจ์จ์ฑ์ด ํฌ๊ฒ ํฅ์๋์์ต๋๋ค.
- Attention Mask: LLaMA 3๋ ๊ฐ์ ์ํ์ค ๋ด์์ ๋ฌธ์ ๊ฐ์ self-attention์ ์ฐจ๋จํ๋ attention mask๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด ๊ธฐ๋ฒ์ ๊ธด ๋ฌธ์์์ ๋ถํ์ํ ์ํธ ์ฐธ์กฐ๋ฅผ ๋ฐฉ์งํด ๋ชจ๋ธ์ ํ์ต ํจ์จ์ฑ์ ๋์ด๊ณ , ๊ธด ์ํ์ค๋ฅผ ๋ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ๋์์ค๋๋ค.
- ์ดํ ํฌ๊ธฐ์ RoPE ๊ธฐ๋ฐ ์์น ์ธ์ฝ๋ฉ์ ๊ฐ์ : LLaMA 3๋ 128,000๊ฐ์ ํ ํฐ์ ์ง์ํ๋ ๋ ํฐ ์ดํ๋ฅผ ๋์ ํ์ต๋๋ค. ์ด ์ค 28,000๊ฐ์ ์ถ๊ฐ ํ ํฐ์ ๋น์์ด๊ถ ์ธ์ด๋ฅผ ๋ ์ ์ง์ํ๊ธฐ ์ํ ๊ฒ์ ๋๋ค. ์ด๋ ๋ค์ํ ์ธ์ด์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ๋์์ค๋๋ค.
- RoPE (Rotary Position Embeddings)๋ ์์น ์ธ์ฝ๋ฉ ๋ฐฉ์ ์ค ํ๋๋ก, LLaMA 3์์๋ 500,000์ด๋ผ๋ ๋ ํฐ ๊ธฐ๋ณธ ์ฃผํ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ค์ ํ์ฌ ๊ธด ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ ์ ์๊ฒ ํ์ต๋๋ค. ์ด๋ก ์ธํด LLaMA 3๋ ์ต๋ 128K ํ ํฐ์ ๊ธด ์ปจํ ์คํธ๋ฅผ ์ง์ํ๋ฉฐ, ๋ ๊ธด ๋ํ๋ ๋ฌธ๋งฅ์ ์ ์งํ๋ฉด์๋ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
์ถ์ฒ : https://devopedia.org/llama-llm
์ ๋ ผ๋ฌธ๋ค์ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์ ๋ฐ์ ์ ์ด๋ ์ฃผ์ ์ฐ๊ตฌ๋ค์ด๋ฉฐ, ๊ฐ ๋ ผ๋ฌธ์ NLP์ ๋ค์ํ ์ธก๋ฉด์ ํ์ ์ ์ผ๋ก ๊ฐ์ ํ์ต๋๋ค. ์ด๋ฌํ ๋ ผ๋ฌธ๋ค์ ํตํด NLP ์ฐ๊ตฌ์ ํ๋ฆ์ ๋ ๊น์ด ์ดํดํ๊ณ , ์ต์ ๊ธฐ์ ์ ์์ฉํ ์ ์์ต๋๋ค.
์๊ฐ์ ๋ค์ฌ์ ์ ๋ฆฌํ๋งํผ ๋ง์ ๋ถ๋ค๊ป ๋์์ด ๋์์ผ๋ฉด ์ข๊ฒ ์ต๋๋ค ๐