[Paper Review] NLP ๊ณต๋ถ€ํ•˜๋Š” ์‚ฌ๋žŒ์ด๋ผ๋ฉด ๊ผญ ์ฝ์–ด์•ผํ•˜๋Š” ๋…ผ๋ฌธ ๋Œ€์‹  ์ •๋ฆฌํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค

Posted by Euisuk's Dev Log on October 9, 2024

[Paper Review] NLP ๊ณต๋ถ€ํ•˜๋Š” ์‚ฌ๋žŒ์ด๋ผ๋ฉด ๊ผญ ์ฝ์–ด์•ผํ•˜๋Š” ๋…ผ๋ฌธ ๋Œ€์‹  ์ •๋ฆฌํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/๋ฒˆ์—ญ์ •๋ฆฌ-NLP-๊ณต๋ถ€ํ•˜๋Š”-์‚ฌ๋žŒ์ด๋ผ๋ฉด-๊ผญ-์ฝ์–ด์•ผํ•˜๋Š”-๋…ผ๋ฌธ-๋Œ€์‹ -์ •๋ฆฌํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค

โœ๏ธ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)๋Š” ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ๋Š” ๋ถ„์•ผ๋กœ, ์ˆ˜๋งŽ์€ ํš๊ธฐ์ ์ธ ์—ฐ๊ตฌ ๋…ผ๋ฌธ๋“ค์ด ๋งค๋…„ ๋ฐœํ‘œ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์—ฌ๋Ÿฌ๋ถ„์ด NLP์— ์ฒ˜์Œ ๋ฐœ์„ ๋“ค์ด๊ฑฐ๋‚˜, ์—ฐ๊ตฌ๋ฅผ ๋” ๊นŠ์ด ์ดํ•ดํ•˜๊ณ ์ž ํ•œ๋‹ค๋ฉด, ๋‹ค์Œ์— ์†Œ๊ฐœํ•  ๋…ผ๋ฌธ๋“ค์ด ํ•ต์‹ฌ ๊ฐœ๋…๊ณผ ์ตœ๊ทผ ๋ฐœ์ „ ๋™ํ–ฅ์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ํฐ ๋„์›€์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ์€ ํ•ด๋‹น ๋ธ”๋กœ๊ทธ์—์„œ ์†Œ๊ฐœํ•˜๋Š” โ€œMust-Read Research Papers for NLPโ€ Paper List๋ฅผ ์ฝ๊ณ  ์ถ”๊ฐ€์ ์œผ๋กœ ์„ค๋ช… ๋ฐ ์ •๋ฆฌํ•ด๋†“์€ ๋‚ด์šฉ์ž…๋‹ˆ๋‹ค.

  1. Word2Vec: Efficient Estimation of Word Representations in Vector Space (Mikolov et al., 2013)

๐Ÿ’ก Word2Vec์€ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ํ˜์‹ ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๋ฉฐ, ๋‹จ์–ด๋“ค ๊ฐ„์˜ ์˜๋ฏธ์™€ ๊ด€๊ณ„๋ฅผ ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ์œ ์‚ฌํ•œ ๋‹จ์–ด๋ฅผ ์ฐพ๊ฑฐ๋‚˜, ๋ฌธ๋งฅ ์†์—์„œ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ณผ์ œ์—์„œ ํฐ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ์—ฌ์ „ํžˆ NLP์˜ ๊ธฐ์ดˆ์ ์ธ ๊ฐœ๋…์œผ๋กœ ์ž๋ฆฌ ์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„๋ก ์ดํ›„์— ๋”์šฑ ๋ฐœ์ „๋œ ๋ฐฉ๋ฒ•๋“ค์ด ๋“ฑ์žฅํ–ˆ์ง€๋งŒ, Word2Vec๋Š” ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ(word embedding) ์—ฐ๊ตฌ์˜ ์ถœ๋ฐœ์ ์œผ๋กœ์„œ ํฐ ์˜์˜๋ฅผ ์ง€๋‹™๋‹ˆ๋‹ค.

  • ์ด ๋…ผ๋ฌธ์€ ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ํ‘œํ˜„ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์—ฐ์†์ ์ธ ๋‹จ์–ด ๋ฒกํ„ฐ ํ‘œํ˜„์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
    • ๋…ผ๋ฌธ์—์„œ๋Š” ์ด ๋ฒกํ„ฐ์˜ ํ’ˆ์งˆ์„ ๋‹จ์–ด ์œ ์‚ฌ์„ฑ ๊ณผ์ œ์—์„œ ์ธก์ •ํ•˜์˜€๊ณ , ๊ธฐ์กด์˜ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ๋“ค๊ณผ ๋น„๊ตํ•ด ์›”๋“ฑํžˆ ๋†’์€ ์ •ํ™•๋„์™€ ํšจ์œจ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ํ˜์‹ ์ ์ธ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: Word2Vec๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์—ฐ์†์ ์ธ ๋ฒกํ„ฐ ํ‘œํ˜„์„ ๊ณ„์‚ฐํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜(CBOW, Skip-gram)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.
  • ํšจ์œจ์„ฑ: 1.6์–ต ๋‹จ์–ด๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•˜๋ฃจ ์ด๋‚ด์— ๊ณ ํ’ˆ์งˆ์˜ ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹คํ—˜์ ์œผ๋กœ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ •ํ™•์„ฑ: ์ด ๋ฒกํ„ฐ๋“ค์€ ๊ตฌ๋ฌธ์ (syntactic) ๋ฐ ์˜๋ฏธ์ (semantic) ์œ ์‚ฌ์„ฑ์„ ์ธก์ •ํ•˜๋Š” ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋น„๊ต ํ‰๊ฐ€: ๊ธฐ์กด์˜ ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋ณด๋‹ค ํ›จ์”ฌ ๋” ์ ์€ ๊ณ„์‚ฐ ๋น„์šฉ์œผ๋กœ๋„ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ๋‹จ์–ด ๊ฐ„ ์˜๋ฏธ ๊ด€๊ณ„ ํฌ์ฐฉ: Word2Vec๋Š” ๋‹จ์–ด๋“ค์ด ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ์œ„์น˜ํ•จ์œผ๋กœ์จ, ๋‹จ์–ด ๊ฐ„ ์˜๋ฏธ์  ๊ด€๊ณ„๋ฅผ ๋ฒกํ„ฐ ์—ฐ์‚ฐ์œผ๋กœ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ์˜ˆ๋ฅผ ๋“ค์–ด, โ€˜king - man + womanโ€™ ์—ฐ์‚ฐ์€ โ€˜queenโ€™์— ๊ฐ€๊นŒ์šด ๋ฒกํ„ฐ๋ฅผ ์‚ฐ์ถœํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ์˜ ์˜ํ–ฅ: ์ด ๊ธฐ๋ฒ•์€ ์œ ์‚ฌํ•œ ๋‹จ์–ด๋ฅผ ์ฐพ๊ฑฐ๋‚˜ ๋ฌธ๋งฅ ์†์—์„œ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜๋Š” ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณผ์ œ์—์„œ ํฐ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์ดํ›„ ๋“ฑ์žฅํ•œ ๋‹ค์–‘ํ•œ ๋ฐœ์ „๋œ ๋ชจ๋ธ์˜ ์ถœ๋ฐœ์ ์ด ๋˜๋Š” ๊ธฐ์ดˆ์ ์ธ ์—ฐ๊ตฌ๋กœ์„œ, Word2Vec๋Š” ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ์˜์˜๋ฅผ ์ง€๋‹™๋‹ˆ๋‹ค.
  1. GloVe: Global Vectors for Word Representation (Pennington et al., 2014)

๐Ÿ’ก GloVe๋Š” ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ, ํ…์ŠคํŠธ ๋‚ด์—์„œ ๋‹จ์–ด๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ๊ฐ™์ด ๋“ฑ์žฅํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ ํ†ต๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ณด๋‹ค ํ’๋ถ€ํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, NLP ๋ชจ๋ธ์ด ์–ธ์–ด๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค. ํŠนํžˆ GloVe๋Š” ์ „์—ญ์ ์ธ(word-word co-occurrence) ์ •๋ณด์— ๊ธฐ๋ฐ˜ํ•ด ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•์ธ GloVe๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. GloVe๋Š” ๋‹จ์–ด๋“ค์ด ํ…์ŠคํŠธ ๋‚ด์—์„œ ์–ผ๋งˆ๋‚˜ ์ž์ฃผ ํ•จ๊ป˜ ๋“ฑ์žฅํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ „๋ฐ˜์ ์ธ ํ†ต๊ณ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ฐ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋”์šฑ ํ’๋ถ€ํ•˜๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ์ „์—ญ ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ํ•™์Šต: GloVe๋Š” ๋ง๋ญ‰์น˜ ์ „์ฒด์˜ ๋‹จ์–ด-๋‹จ์–ด ๋™์‹œ ๋ฐœ์ƒ(co-occurrence) ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

    • ์ด๋Š” ๋‹จ์–ด ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ๋” ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
  • ๋น„๊ต ํ‰๊ฐ€: GloVe ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ๋‹ค๋ฅธ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ๋‹จ์–ด ์œ ์‚ฌ๋„ ๋ฐ ๋‹จ์–ด ์œ ์ถ”(word analogy) ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜: GloVe๋Š” ๋กœ๊ทธ-์ด์ฐจ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์–ด ๋ฒกํ„ฐ ๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.

    • ์ด ๋ฐฉ๋ฒ•์€ ํŠนํžˆ ํฐ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํšจ๊ณผ์ ์ด๋ฉฐ, ๋‹จ์–ด ๋ฒกํ„ฐ์˜ ์˜๋ฏธ์  ์†์„ฑ์„ ์ž˜ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํšจ์œจ์„ฑ๊ณผ ํ™•์žฅ์„ฑ: GloVe๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ฒกํ„ฐ ๊ณต๊ฐ„์—์„œ ๋‹จ์–ด๋“ค ๊ฐ„์˜ ๋ณต์žกํ•œ ๊ด€๊ณ„๋ฅผ ์ž˜ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ๋‹จ์–ด ์˜๋ฏธ์˜ ํ’๋ถ€ํ•œ ํ‘œํ˜„: GloVe๋Š” ๋‹จ์–ด์˜ ๊ตญ์ง€์ ์ธ(contextual) ์‚ฌ์šฉ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ „์—ญ์ ์ธ ์‚ฌ์šฉ ํŒจํ„ด์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ, ๋” ํ’๋ถ€ํ•œ ์˜๋ฏธ ํ‘œํ˜„์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

    • ์ด๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์ด ์–ธ์–ด๋ฅผ ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ NLP ๊ณผ์ œ์— ์ ์šฉ: GloVe๋Š” ๊ธฐ๊ณ„ ๋ฒˆ์—ญ, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜, ์ •๋ณด ๊ฒ€์ƒ‰ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณผ์ œ์—์„œ ๊ธฐ๋ณธ์ ์ธ ๋‹จ์–ด ํ‘œํ˜„ ๊ธฐ๋ฒ•์œผ๋กœ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์—ฐ๊ตฌ ๋ฐ ์‘์šฉ์˜ ๊ธฐ๋ฐ˜: ์ด ์—ฐ๊ตฌ๋Š” ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•์˜ ์ค‘์š”ํ•œ ๋ฐœ์ „์„ ์ด๋ฃจ์—ˆ์œผ๋ฉฐ, ์ดํ›„์˜ ๋งŽ์€ ์—ฐ๊ตฌ์™€ ์‘์šฉ์—์„œ ๋‹จ์–ด ํ‘œํ˜„์˜ ๊ธฐ์ดˆ๋กœ์„œ ํ™œ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  1. Sequence to Sequence Learning with Neural Networks (Sutskever et al., 2014)

๐Ÿ’ก ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค(Seq2Seq) ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ์˜ ์‹œํ€€์Šค(์˜ˆ: ๋ฌธ์žฅ)๋ฅผ ๋‹ค๋ฅธ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ถœ๋ ฅ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, ์ด ๋ชจ๋ธ์€ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(machine translation)์ด๋‚˜ ํ…์ŠคํŠธ ์š”์•ฝ(text summarization)๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ค‘์š”ํ•œ ๊ธฐ์ˆ ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ์‹œํ€€์Šค-ํˆฌ-์‹œํ€€์Šค(Seq2Seq) ํ•™์Šต ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ๋‹ค๋ฅธ ์ถœ๋ ฅ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณผ์ œ์—์„œ ํฐ ์„ฑ๊ณผ๋ฅผ ๊ฑฐ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ์ดํ›„ ๋งŽ์€ ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ: ์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ธ์ฝ”๋”์™€, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ถœ๋ ฅ ์‹œํ€€์Šค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋””์ฝ”๋”๋กœ ๊ตฌ์„ฑ๋œ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค.

    • ์ด๋•Œ Long Short-Term Memory (LSTM) ๋„คํŠธ์›Œํฌ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • BLEU ์ ์ˆ˜: WMT-14 ์˜์–ด-ํ”„๋ž‘์Šค์–ด ๋ฒˆ์—ญ ๊ณผ์ œ์—์„œ BLEU ์ ์ˆ˜ 34.8์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ๊ธฐ์กด ํ†ต๊ณ„์  ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(SMT) ์‹œ์Šคํ…œ์˜ 33.3 ์ ์ˆ˜๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

    • ๋˜ํ•œ, LSTM์„ ์‚ฌ์šฉํ•˜์—ฌ 1000๊ฐœ์˜ ๊ฐ€์„ค์„ ๋‹ค์‹œ ํ‰๊ฐ€ํ–ˆ์„ ๋•Œ BLEU ์ ์ˆ˜๊ฐ€ 36.5๋กœ ์ฆ๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ˆœ์„œ ๋ฐ˜์ „ ์ „๋žต: ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ๋‹จ์–ด ์ˆœ์„œ๋ฅผ ๋’ค์ง‘๋Š” ๊ฐ„๋‹จํ•œ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

    • ์ด๋Š” ์งง์€ ์‹œ๊ฐ„ ์˜์กด์„ฑ์„ ์ฆ๊ฐ€์‹œ์ผœ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ๋” ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์‹œํ€€์Šค ํ•™์Šต์˜ ํ˜์‹ : Seq2Seq ๋ชจ๋ธ์€ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์‹œํ€€์Šค์˜ ๊ธธ์ด๊ฐ€ ๋‹ค๋ฅผ ๋•Œ๋„ ์„ฑ๊ณต์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์—ฌ, ๊ธฐ์กด DNN์ด ํ•ด๊ฒฐํ•  ์ˆ˜ ์—†์—ˆ๋˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ์˜ ์„ฑ๊ณผ: ์ด ๋ชจ๋ธ์€ ํŠนํžˆ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์ž‘์—…์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ์ดํ›„ ํ…์ŠคํŠธ ์š”์•ฝ, ์งˆ์˜์‘๋‹ต ์‹œ์Šคํ…œ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์— ์‘์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์žฅ๋ฌธ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ: Seq2Seq ๋ชจ๋ธ์€ ๊ธด ๋ฌธ์žฅ์—์„œ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉฐ, ๊ธฐ์กด์˜ LSTM ๋ชจ๋ธ์ด ๊ฐ€์กŒ๋˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.
  1. Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al., 2015)

๐Ÿ’ก ์ด ๋…ผ๋ฌธ์€ ๋ฌธ์žฅ์„ ๋ฒˆ์—ญํ•˜๋Š” ๊ณผ์ •์—์„œ ๋‹จ์–ด ๊ฐ„์˜ ์ •๋ ฌ๊ณผ ๋ฒˆ์—ญ์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ๋ถ€๋ถ„์€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(attention mechanism)์˜ ๋„์ž…์œผ๋กœ, ๋ชจ๋ธ์ด ๋ฒˆ์—ญํ•  ๋•Œ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•จ์œผ๋กœ์จ ๋ฒˆ์—ญ์˜ ํ’ˆ์งˆ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ดํ›„ ๋งŽ์€ ๋ฒˆ์—ญ ๋ชจ๋ธ์˜ ๋ฐœ์ „์— ๊ธฐ์ดˆ๊ฐ€ ๋œ ๋…ผ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” ์•„ํ‚คํ…์ณ๋Š” ์ธ์ฝ”๋”์™€ ๋””์ฝ”๋”๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ธ์ฝ”๋” ๋ถ€๋ถ„์€ Bidirectional RNN์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ๋ฌธ์žฅ์„ ์ธ์ฝ”๋”ฉํ•˜๋ฉฐ, ๊ฐ ์ž…๋ ฅ ๋‹จ์–ด์— ๋Œ€ํ•œ Attention ์ •๋ณด๋ฅผ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์–ด๋…ธํ…Œ์ด์…˜(annotation)์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๋””์ฝ”๋”๋Š” LSTM ๋„คํŠธ์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ , ๊ฐ ํƒ€๊ฒŸ ๋‹จ์–ด๋ฅผ ์ƒ์„ฑํ•  ๋•Œ๋งˆ๋‹ค ์ž…๋ ฅ ๋ฌธ์žฅ์—์„œ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์„ ์ฐพ์•„๋‚ด๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ์˜ ํ•œ๊ณ„: ๊ธฐ์กด์˜ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ชจ๋ธ์€ ์ž…๋ ฅ ๋ฌธ์žฅ์„ ๊ณ ์ •๋œ ๊ธธ์ด์˜ ๋ฒกํ„ฐ๋กœ ์••์ถ•ํ•˜๊ณ , ๊ทธ ๋ฒกํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฒˆ์—ญ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์€ ๊ธด ๋ฌธ์žฅ์ด๋‚˜ ๋ณต์žกํ•œ ๋ฌธ์žฅ์˜ ์ •๋ณด๋ฅผ ์ถฉ๋ถ„ํžˆ ๋‹ด์•„๋‚ด์ง€ ๋ชปํ•œ๋‹ค๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๋„์ž…: ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆ๋œ RNNSearch ๋ชจ๋ธ์€ ๋ฒˆ์—ญํ•  ๋•Œ ์ž…๋ ฅ ๋ฌธ์žฅ ๋‚ด ํŠน์ • ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋””์ฝ”๋”๊ฐ€ ๋งค๋ฒˆ ๋‹จ์–ด๋ฅผ ์ƒ์„ฑํ•  ๋•Œ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์— ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•ด ์ฐธ์กฐํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ค๋‹ˆ๋‹ค.
    • ์ฆ‰, ๋ชจ๋“  ์ž…๋ ฅ ์ •๋ณด๋ฅผ ๊ณ ์ •๋œ ๋ฒกํ„ฐ์— ์••์ถ•ํ•˜๋Š” ๋Œ€์‹ , ๋ฌธ์žฅ์˜ ๊ด€๋ จ๋œ ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•˜์—ฌ ๋” ๋‚˜์€ ๋ฒˆ์—ญ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ์ •๋ ฌ ํ•™์Šต: RNNSearch ๋ชจ๋ธ์€ ์ •๋ ฌ(alignment) ๊ณผ์ •์„ ๋ช…์‹œ์ ์œผ๋กœ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฒˆ์—ญ์„ ์ƒ์„ฑํ•  ๋•Œ, ๊ฐ ํƒ€๊ฒŸ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ •์—์„œ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์–ด๋–ค ๋ถ€๋ถ„์ด ์ค‘์š”ํ•œ์ง€ ๊ฒฐ์ •ํ•˜๊ณ , ์ด ๋ถ€๋ถ„์— ๋” ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ์ž๋™์œผ๋กœ ์†Œํ”„ํŠธ ์ •๋ ฌ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ, ๋ฒˆ์—ญ์˜ ์ •ํ™•์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ ๊ฐœ์„ : ์˜์–ด์—์„œ ํ”„๋ž‘์Šค์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ์ž‘์—…์—์„œ, ์ด ์ƒˆ๋กœ์šด ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ๊ตฌ๋ฌธ ๊ธฐ๋ฐ˜ ํ†ต๊ณ„์  ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์‹œ์Šคํ…œ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธด ๋ฌธ์žฅ์ด๋‚˜ ๋ณต์žกํ•œ ๋ฌธ์žฅ ๊ตฌ์กฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋” ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

(์ฐธ๊ณ ) ๊ธฐ์กดRNN vs RNNsearch

  • RNNsearch๋Š” ๊ธฐ์กด์˜ RNN ๊ธฐ๋ฐ˜ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๋ชจ๋ธ์˜ ๊ณ ์ •๋œ ๋ฌธ๋งฅ ๋ฒกํ„ฐ์— ์˜์กดํ•˜๋Š” ๋ฐฉ์‹(๊ธฐ์กด)์—์„œ ๋ฒ—์–ด๋‚˜, ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋„์ž…ํ•ด ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์ค‘์š”ํ•œ ๋ถ€๋ถ„์— ๋™์ ์œผ๋กœ ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„(RNNsearch)๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ๊ธฐ์กด RNN ๋ชจ๋ธ๊ณผ์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ ์€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•œ ๋™์  ์ฐธ์กฐ์™€ ์ •๋ ฌ ํ•™์Šต์— ์žˆ์Šต๋‹ˆ๋‹ค.
๊ตฌ๋ถ„ ๊ธฐ์กด RNN ๊ณ„์—ด ์–ธ์–ด ๋ชจ๋ธ RNNsearch (Bahdanau et al.)
์ธ์ฝ”๋” ์ถœ๋ ฅ ๊ณ ์ •๋œ ๊ธธ์ด์˜ ๋ฒกํ„ฐ๋กœ ์†Œ์Šค ๋ฌธ์žฅ ์••์ถ• ๊ฐ€๋ณ€ ๊ธธ์ด์˜ ์ฃผ์„ ๋ฒกํ„ฐ ์‚ฌ์šฉ
๋ฒˆ์—ญ ์ƒ์„ฑ ๋ฐฉ์‹ ๊ณ ์ •๋œ ๋ฌธ๋งฅ ๋ฒกํ„ฐ์— ์˜์กด ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋™์ ์œผ๋กœ ์ž…๋ ฅ ๋ฌธ์žฅ์„ ์ฐธ์กฐ
์ •๋ ฌ ํ•™์Šต ๋ช…์‹œ์  ์ •๋ ฌ ์—†์ด ์ „์ฒด ๋ฌธ๋งฅ์— ์˜์กด ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ์ž๋™์œผ๋กœ ์†Œ์Šค-ํƒ€๊ฒŸ ์ •๋ ฌ ํ•™์Šต
๊ธด ๋ฌธ์žฅ ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ ๊ธด ๋ฌธ์žฅ์—์„œ๋„ ์„ฑ๋Šฅ ์œ ์ง€, ๋” ๋‚˜์€ ์ •๋ณด ์œ ์ง€
์„ธ๋ถ€ ์ •๋ณด ์ฒ˜๋ฆฌ ์ „์—ญ ์ •๋ณด์— ์˜์กด ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ํŠน์ • ๋ถ€๋ถ„์— ์ง‘์ค‘ํ•˜์—ฌ ์„ธ๋ถ€ ์ •๋ณด ๋ฐ˜์˜

(์ฐธ๊ณ ) Bahdanau ์–ดํ…์…˜๊ณผ Transformer ์–ดํ…์…˜์˜ ์ฐจ์ด์ 

๊ตฌ๋ถ„ Bahdanau ์–ดํ…์…˜ (RNNsearch) Transformer ์–ดํ…์…˜ (Self-Attention)
๊ตฌ์กฐ RNN ๊ธฐ๋ฐ˜ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ ์ˆœ์ˆ˜ ์–ดํ…์…˜ ๊ธฐ๋ฐ˜, Recurrent ๊ตฌ์กฐ ์—†์Œ
์–ดํ…์…˜ ๋ฐฉ์‹ ๋””์ฝ”๋”์—์„œ ์ž…๋ ฅ ๋ฌธ์žฅ์— ๋Œ€ํ•œ ์†Œํ”„ํŠธ ์–ดํ…์…˜ ์ž…๋ ฅ ๋ฌธ์žฅ ๋‚ด์—์„œ Self-Attention ์‚ฌ์šฉ
์ •๋ ฌ ํ•™์Šต ํƒ€๊ฒŸ ๋‹จ์–ด์™€ ์ž…๋ ฅ ๋‹จ์–ด ๊ฐ„ ์ •๋ ฌ์„ ํ•™์Šต ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ๋ชจ๋“  ๋‹จ์–ด ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํ•™์Šต
Key-Value Query ๊ตฌ์กฐ ์—†์Œ Key, Query, Value ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉ
๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€๋Šฅ (Recurrent ๊ตฌ์กฐ๋กœ ์ˆœ์ฐจ ์ฒ˜๋ฆฌ) ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ๊ฐ€๋Šฅ (๋น ๋ฅธ ํ•™์Šต ์†๋„)
Multi-Head Attention ๋‹จ์ผ ์–ดํ…์…˜๋งŒ ์‚ฌ์šฉ Multi-Head Attention์œผ๋กœ ๋‹ค์–‘ํ•œ ๊ด€๊ณ„ ํ•™์Šต

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์ •๋ ฌ๊ณผ ๋ฒˆ์—ญ์˜ ํ†ตํ•ฉ ํ•™์Šต: ์ด ๋…ผ๋ฌธ์€ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์—์„œ ์ •๋ ฌ๊ณผ ๋ฒˆ์—ญ์„ ๋™์‹œ์— ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ๊ณ ์ • ๋ฒกํ„ฐ ๋ฐฉ์‹์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๋” ์œ ์—ฐํ•˜๊ณ  ์ •ํ™•ํ•œ ๋ฒˆ์—ญ์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.
  • ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋„์ž…: ์ด ๋…ผ๋ฌธ์—์„œ ์ฒ˜์Œ ์ œ์•ˆ๋œ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ดํ›„ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ Transformer์™€ ๊ฐ™์€ ๋ชจ๋ธ๋กœ ๋ฐœ์ „๋˜๋ฉฐ, ๋งŽ์€ ์–ธ์–ด ๋ชจ๋ธ ๋ฐ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ์‹œ์Šคํ…œ์—์„œ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์ˆ ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค.
  • ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์˜ ๋ฐœ์ „: ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ(NMT)์˜ ๋ฐœ์ „์„ ์ด‰์ง„ํ–ˆ์œผ๋ฉฐ, ์ดํ›„ ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์ด ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ฑ๋Šฅ์„ ๋”์šฑ ๊ฐœ์„ ํ•œ ๋ชจ๋ธ๋“ค์„ ๊ฐœ๋ฐœํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ํŠนํžˆ, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ๋ฟ ์•„๋‹ˆ๋ผ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ฌธ์ œ์— ์‘์šฉ๋˜์–ด ํฐ ์˜ํ–ฅ์„ ๋ฏธ์ณค์Šต๋‹ˆ๋‹ค.
  1. Attention is All You Need (Vaswani et al., 2017)

๐Ÿ’ก ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•˜๋ฉฐ, NLP ๋ชจ๋ธ์˜ ์ž‘๋™ ๋ฐฉ์‹์„ ํฌ๊ฒŒ ๋ณ€ํ™”์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด์ „์—๋Š” RNN๊ณผ ๊ฐ™์€ ๋ฐฉ์‹์ด ์‚ฌ์šฉ๋˜์—ˆ์œผ๋‚˜, ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์—ฌ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์—ฌ๋Ÿฌ ๋ถ€๋ถ„์— ๋™์‹œ์— ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์†๋„์™€ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ๊ณ , ์ดํ›„ BERT๋‚˜ GPT ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ํ•ด๋‹น ๋…ผ๋ฌธ์€ ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๋ชจ๋ธ์„ ์ œ์•ˆํ•˜์—ฌ, NLP ๋ชจ๋ธ์˜ ์ž‘๋™ ๋ฐฉ์‹์— ํฐ ๋ณ€ํ™”๋ฅผ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์—๋Š” RNN์ด๋‚˜ CNN์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๊ฐ€ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜์—ˆ์œผ๋‚˜, ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์ด๋Ÿฌํ•œ ์ˆœํ™˜(recurrence)๊ณผ ํ•ฉ์„ฑ๊ณฑ(convolution)์„ ์™„์ „ํžˆ ๋ฐฐ์ œํ•˜๊ณ  ์˜ค๋กœ์ง€ ์–ดํ…์…˜(attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜์—๋งŒ ์˜์กดํ•˜๋Š” ์ƒˆ๋กœ์šด ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ณ‘๋ ฌํ™” ์ฒ˜๋ฆฌ ์†๋„์—์„œ๋„ ํฐ ๊ฐœ์„ ์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ: ํŠธ๋žœ์Šคํฌ๋จธ๋Š” RNN์ด๋‚˜ CNN ์—†์ด ์˜ค๋กœ์ง€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์‹œํ€€์Šค๋ฅผ ๋ณ€ํ™˜ํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
    • ์ด ๋ชจ๋ธ์€ ํŠนํžˆ ๋ณ‘๋ ฌํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜์—ฌ ํ›ˆ๋ จ ์‹œ๊ฐ„์„ ํฌ๊ฒŒ ๋‹จ์ถ•์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Transformer๋Š” ์ด๋Ÿฌํ•œ Encoder-Decoder ๊ตฌ์กฐ์™€ Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ๊ธฐ์กด์˜ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง(RNN)์ด๋‚˜ ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง(CNN) ์—†์ด๋„ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๊ฐ„์˜ ๋ณต์žกํ•œ ๊ด€๊ณ„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

1. Encoder ๊ตฌ์กฐ

  • Transformer์˜ Encoder๋Š” ๋™์ผํ•œ ๋ ˆ์ด์–ด๋ฅผ N=6๊ฐœ ์Œ“์€ ๊ตฌ์กฐ๋กœ ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ฐ ๋ ˆ์ด์–ด๋Š” ๋‘ ๊ฐœ์˜ ์ฃผ์š” ์„œ๋ธŒ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

    1. Multi-Head Self-Attention: ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๊ฐ ์œ„์น˜๊ฐ€ ๋‹ค๋ฅธ ์œ„์น˜์™€์˜ ๊ด€๊ณ„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค.
    2. Feed-Forward Network: ๊ฐ ์œ„์น˜์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ๊ฐ„๋‹จํ•œ ์™„์ „ ์—ฐ๊ฒฐ ๋„คํŠธ์›Œํฌ์ž…๋‹ˆ๋‹ค.
  • ๊ฐ ์„œ๋ธŒ ๋ ˆ์ด์–ด๋Š” ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connection)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ์„ ๋‹ค์Œ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์— ์ถ”๊ฐ€ํ•˜๊ณ , ๊ทธ ๋‹ค์Œ ๋ ˆ์ด์–ด ์ •๊ทœํ™”(layer normalization)๊ฐ€ ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋“  ์„œ๋ธŒ ๋ ˆ์ด์–ด๋Š” 512์ฐจ์›(d_model = 512)์˜ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

2. Decoder ๊ตฌ์กฐ

  • Transformer์˜ Decoder ๋˜ํ•œ N=6๊ฐœ์˜ ๋™์ผํ•œ ๋ ˆ์ด์–ด๋กœ ๊ตฌ์„ฑ๋˜์ง€๋งŒ, Encoder์™€๋Š” ์•ฝ๊ฐ„์˜ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • Decoder์˜ ๊ฐ ๋ ˆ์ด์–ด์—๋Š” ์„ธ ๊ฐœ์˜ ์„œ๋ธŒ ๋ ˆ์ด์–ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค:

    1. Masked Multi-Head Self-Attention: ๋’ค์— ์˜ค๋Š” ์œ„์น˜์˜ ์ •๋ณด์— ์ ‘๊ทผํ•˜์ง€ ๋ชปํ•˜๋„๋ก ๋งˆ์Šคํ‚น์„ ์ ์šฉํ•œ self-attention์ž…๋‹ˆ๋‹ค.
    2. Multi-Head Attention: Encoder์˜ ์ถœ๋ ฅ๋„ ๊ณ ๋ คํ•˜์—ฌ ์ •๋ณด๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    3. Feed-Forward Network: Encoder์™€ ๋™์ผํ•˜๊ฒŒ ์ž‘๋™ํ•˜๋Š” ์™„์ „ ์—ฐ๊ฒฐ ๋„คํŠธ์›Œํฌ์ž…๋‹ˆ๋‹ค.
  • ๋งˆ์Šคํ‚น ์ฒ˜๋ฆฌ ๋•๋ถ„์— Decoder๋Š” ํ˜„์žฌ ์œ„์น˜๊นŒ์ง€์˜ ์ •๋ณด๋งŒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์Œ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜

  • Transformer์˜ Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ฟผ๋ฆฌ(query), ํ‚ค(key), ๊ฐ’(value) ์„ธ ์Œ์˜ ์ง‘ํ•ฉ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ธฐ๋Šฅ์„ ๋งํ•ฉ๋‹ˆ๋‹ค.

    • ์ฟผ๋ฆฌ, ํ‚ค, ๊ฐ’์€ ๋ชจ๋‘ ๋ฒกํ„ฐ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ์ถœ๋ ฅ์€ ๊ฐ€์ค‘ ํ•ฉ๊ณ„๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.
    • ์ด ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ์ž…๋ ฅ ์‹œํ€€์Šค์˜ ๋ชจ๋“  ์œ„์น˜์— ๋Œ€ํ•ด ์ „์—ญ์ ์ธ ์ข…์† ๊ด€๊ณ„๋ฅผ ๋ชจ๋ธ๋งํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์‹œํ€€์Šค์˜ ํŠน์ • ๋ถ€๋ถ„์— ๋” ์ง‘์ค‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ: ํŠธ๋žœ์Šคํฌ๋จธ๋Š” WMT 2014 ์˜์–ด-๋…์ผ์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ BLEU ์ ์ˆ˜ 28.4๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ๊ธฐ์กด ์ตœ์ƒ์œ„ ๋ชจ๋ธ์„ ๋›ฐ์–ด๋„˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ๋˜ํ•œ, WMT 2014 ์˜์–ด-ํ”„๋ž‘์Šค์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ ๋‹จ์ผ ๋ชจ๋ธ๋กœ 41.8 BLEU ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ์ƒˆ๋กœ์šด ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ์ ์€ ํ›ˆ๋ จ ์‹œ๊ฐ„(3.5์ผ)๋งŒ์œผ๋กœ ์–ป์€ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.
  • ๋ณ‘๋ ฌํ™”์™€ ํšจ์œจ์„ฑ: ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ RNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋ณ‘๋ ฌํ™”๊ฐ€ ์šฉ์ดํ•˜์—ฌ ํ•™์Šต ์†๋„๊ฐ€ ๋น ๋ฅด๋ฉฐ, ์ ์€ ๋น„์šฉ์œผ๋กœ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์ˆœ์ˆ˜ ์–ดํ…์…˜ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ: ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ๊ธฐ์กด์˜ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๋ฐฉ์‹์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์ˆœํ™˜๊ณผ ํ•ฉ์„ฑ๊ณฑ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ์˜ค๋กœ์ง€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ: ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ํ›ˆ๋ จ ์‹œ๊ฐ„๊ณผ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ์œผ๋ฉด์„œ๋„ ๋ฒˆ์—ญ ์„ฑ๋Šฅ์„ ๋Œ€ํญ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

    • ์ด ๋ชจ๋ธ์˜ ๋ณ‘๋ ฌํ™” ๋Šฅ๋ ฅ์€ ์ดํ›„ BERT, GPT ๋“ฑ์˜ ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • NLP ๋ชจ๋ธ์˜ ๋ณ€ํ™”: ํŠธ๋žœ์Šคํฌ๋จธ๋Š” NLP ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ํ‘œ์ค€์œผ๋กœ ์ž๋ฆฌ ์žก์•˜์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณผ์ œ์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ดˆ ๊ธฐ์ˆ ์ด ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  1. ELMo: Deep Contextualized Word Representations (Peters et al., 2018)

๐Ÿ’ก ELMo๋Š” ๋‹จ์–ด์˜ ์˜๋ฏธ๊ฐ€ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์•„์ด๋””์–ด๋ฅผ ์ฒ˜์Œ์œผ๋กœ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œbankโ€œ๋ผ๋Š” ๋‹จ์–ด๋Š” โ€œriver bankโ€œ(๊ฐ•๋‘‘)๊ณผ โ€œmoney bankโ€œ(์€ํ–‰)์—์„œ ๊ฐ๊ฐ ๋‹ค๋ฅธ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ELMo๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ๋งฅ์  ์ฐจ์ด๋ฅผ ํฌ์ฐฉํ•˜์—ฌ ๋ชจ๋ธ์ด ์–ธ์–ด๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด NLP ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ELMo(Embeddings from Language Models)๋Š” ๋‹จ์–ด์˜ ์˜๋ฏธ๊ฐ€ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ (๋‹จ์–ด ์˜๋ฏธ์˜ ๋™์  ๋ณ€๊ฒฝ)์„ ์ฒ˜์Œ์œผ๋กœ ๋„์ž…ํ•œ ์—ฐ๊ตฌ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋“ค๊ณผ ๋‹ฌ๋ฆฌ, ELMo๋Š” ๋‹จ์–ด๋ฅผ ๊ณ ์ •๋œ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜์ง€ ์•Š๊ณ , ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ๋ฌธ๋งฅ์—์„œ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ •ํ™•ํžˆ ํŒŒ์•…ํ•˜๊ณ , ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ๋ฌธ๋งฅ์  ๋‹จ์–ด ํ‘œํ˜„: ELMo๋Š” 2์ธต bi-LM์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ๋‹จ์–ด์— ๋Œ€ํ•ด (2L + 1)๊ฐœ์˜ ํ‘œํ˜„์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ L์€ LSTM์˜ ์ธต ์ˆ˜์ž…๋‹ˆ๋‹ค.

    • ์ด๋Š” ๋‹จ์–ด์˜ ๋ณต์žกํ•œ ์‚ฌ์šฉ(๊ตฌ๋ฌธ ๋ฐ ์˜๋ฏธ)์„ ๋ชจ๋ธ๋งํ•˜๊ณ , ๋‹ค์˜์–ด(polysemy)์™€ ๊ฐ™์ด ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ๋‹จ์–ด ์˜๋ฏธ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.
    • ๊ฐ ๋‹จ์–ด์˜ ํ‘œํ˜„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค:

      ELMoktask=E(Rk;ฮ˜task)=ฮณtaskโˆ‘j=0Lstask,jhLM,k,jELMo^{task}_{k} = E(R_k; \Theta_{task}) = \gamma_{task} \sum_{j=0}^{L} s_{task,j} h_{LM,k,j}ELMoktaskโ€‹=E(Rkโ€‹;ฮ˜taskโ€‹)=ฮณtaskโ€‹โˆ‘j=0Lโ€‹stask,jโ€‹hLM,k,jโ€‹

      • hLM,k,jh_{LM,k,j}hLM,k,jโ€‹: biLM์˜ ๊ฐ ์ธต์—์„œ ๋‚˜์˜จ ํ‘œํ˜„.

      • ฮณtask\gamma_{task}ฮณtaskโ€‹: ์ „์ฒด ELMo ๋ฒกํ„ฐ๋ฅผ ์Šค์ผ€์ผ๋งํ•˜๋Š” ์Šค์นผ๋ผ ๋งค๊ฐœ๋ณ€์ˆ˜.

      • stask,js_{task,j}stask,jโ€‹: ํ•ด๋‹น ์ž‘์—…์˜ softmax๋กœ ์ •๊ทœํ™”๋œ ๊ฐ€์ค‘์น˜.

  • ๋ฌธ๋งฅ ๊ธฐ๋ฐ˜ ๋ฒกํ„ฐ: ELMo๋Š” ๋‹จ์–ด ๋ฒกํ„ฐ๋ฅผ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋ฉฐ, ๊ณ ์ •๋œ ๋ฒกํ„ฐ๊ฐ€ ์•„๋‹Œ ๋ฌธ์žฅ ๋‚ด์—์„œ์˜ ์œ„์น˜๋‚˜ ์ฃผ๋ณ€ ๋‹จ์–ด์— ๋”ฐ๋ผ ๋‹ค๋ฅธ ๋ฒกํ„ฐ ํ‘œํ˜„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
  • NLP ์„ฑ๋Šฅ ํ–ฅ์ƒ: ELMo๋Š” ๊ธฐ์กด ๋ชจ๋ธ์— ์‰ฝ๊ฒŒ ํ†ตํ•ฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์งˆ๋ฌธ ์‘๋‹ต, ํ…์ŠคํŠธ ํ•จ์˜, ๊ฐ์ • ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณผ์ œ์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

    • 6๊ฐœ์˜ NLP ๋ฌธ์ œ์—์„œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜๋ฉฐ, ํŠนํžˆ ์งˆ๋ฌธ ์‘๋‹ต๊ณผ ํ…์ŠคํŠธ ํ•จ์˜ ๋“ฑ์—์„œ ๋‘๊ฐ์„ ๋‚˜ํƒ€๋ƒˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ๋ฌธ๋งฅ์  ๋‹จ์–ด ํ‘œํ˜„์˜ ๋„์ž…: ELMo๋Š” ๋‹จ์–ด๊ฐ€ ๋ฌธ๋งฅ์— ๋”ฐ๋ผ ์˜๋ฏธ๊ฐ€ ๋ณ€ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐœ๋…์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ NLP ๊ณผ์ œ์—์„œ์˜ ์‘์šฉ: ELMo๋Š” ๊ธฐ์กด์˜ ๋งŽ์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์— ์ ์šฉ๋˜์–ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ์ดํ›„ ๋“ฑ์žฅํ•œ BERT๋‚˜ GPT ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์–ธ์–ด ๋ชจ๋ธ์˜ ์ค‘์š”์„ฑ: ์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค์—์„œ ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค.
  1. Universal Language Model Fine-tuning (ULMFiT) (Howard and Ruder, 2018)

๐Ÿ’ก ULMFiT๋Š” ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์—์„œ ํ”ํžˆ ์‚ฌ์šฉ๋˜๋˜ ์ „์ด ํ•™์Šต(transfer learning)์„ NLP์— ์ ์šฉํ•œ ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)ํ•จ์œผ๋กœ์จ, ์ƒˆ๋กœ์šด NLP ์ž‘์—…์—์„œ ์ ์€ ๋ฐ์ดํ„ฐ์™€ ๋…ธ๋ ฅ์„ ๋“ค์—ฌ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋‹ค์–‘ํ•œ NLP ๊ณผ์ œ์— ์ „์ด ํ•™์Šต์„ ์ ์šฉํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ ์ „์ด ํ•™์Šต(transfer learning)์„ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)์— ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ธ ULMFiT๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ULMFiT๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด NLP ์ž‘์—…์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)ํ•˜์—ฌ ์ ์€ ๋ฐ์ดํ„ฐ์™€ ๋…ธ๋ ฅ์œผ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ NLP์—์„œ ์ „์ด ํ•™์Šต์˜ ํ™œ์šฉ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ NLP ๊ณผ์ œ์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋ฅผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ์ „์ด ํ•™์Šต์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ: ULMFiT๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ, ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์ด ๊ธฐ๋ฒ•์€ ๊ธฐ์กด์˜ NLP ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋น ๋ฅด๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค.
  • ๋ณดํŽธ์  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ: ์ด ๊ธฐ๋ฒ•์€ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์™€ ๊ฐ™์€ ์ž‘์—…์— ์ ์šฉ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ œํ•œ๋œ ์ƒํ™ฉ์—์„œ๋„ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ๋˜ํ•œ, 100๊ฐœ์˜ ๋ผ๋ฒจ๋งŒ์œผ๋กœ๋„ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ: ULMFiT๋Š” 6๊ฐœ์˜ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ์ž‘์—…์—์„œ ๊ธฐ์กด ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์˜ค๋ฅ˜์œจ์„ 18-24% ๋‚ฎ์ถ”๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ๋˜ํ•œ, ULMFiT๋Š” ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋งž์ถฐ ๊ธฐ์กด ๋ชจ๋ธ์„ ์ˆ˜์ •ํ•  ํ•„์š” ์—†์ด ๋ฏธ์„ธ ์กฐ์ •๋งŒ์œผ๋กœ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • NLP์—์„œ์˜ ์ „์ด ํ•™์Šต ๋ณดํŽธํ™”: ULMFiT๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์— ํšจ๊ณผ์ ์œผ๋กœ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ณดํŽธ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์ ์€ ๋ฐ์ดํ„ฐ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ: ์ด ์—ฐ๊ตฌ๋Š” ์ œํ•œ๋œ ๋ฐ์ดํ„ฐ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • NLP ์ž‘์—…์—์„œ์˜ ํšจ์œจ์„ฑ ์ฆ๋Œ€: ULMFiT๋Š” ํ…์ŠคํŠธ ๋ถ„๋ฅ˜, ๊ฐ์ • ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ „์ด ํ•™์Šต์˜ ๊ฐ€๋Šฅ์„ฑ ์ž…์ฆ ๋ฐ ๋ชจ๋ธ ํ•™์Šต ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  1. GPT-1: Improving Language Understanding by Generative Pre-Training (Radford et al., 2018)

๐Ÿ’ก ์ด ๋…ผ๋ฌธ์—์„œ๋Š” GPT-1์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ์–ธ์–ด ์ž‘์—…์— ๋Œ€ํ•ด ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ ํ•™์Šต(generative pre-training)์˜ ๊ฐ•์ ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ์ฝ”ํผ์Šค๋ฅผ ํ™œ์šฉํ•œ ์‚ฌ์ „ ํ•™์Šต๊ณผ ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ๋ฏธ์„ธ ์กฐ์ •์„ ํ†ตํ•ด, GPT-1์€ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ GPT-1(Generative Pre-training Transformer)์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ ํ•™์Šต(generative pre-training)์ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. GPT-1์€ ๋Œ€๊ทœ๋ชจ์˜ ๋น„๋ผ๋ฒจ ํ…์ŠคํŠธ ์ฝ”ํผ์Šค๋ฅผ ์ด์šฉํ•ด ๋จผ์ € ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šตํ•˜๊ณ , ๊ทธ ํ›„์— ํŠน์ • NLP ์ž‘์—…์— ๋Œ€ํ•ด ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ, NLP ์ž‘์—…์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ ํ•™์Šต: GPT-1์€ ๋Œ€๊ทœ๋ชจ ๋น„๋ผ๋ฒจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์–ธ์–ด ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    • ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์˜ ๋””์ฝ”๋”๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด ์ƒ์„ฑ ๊ธฐ๋ฐ˜์˜ ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ์–ธ์–ด์˜ ๋ณต์žกํ•œ ํŒจํ„ด๊ณผ ๊ตฌ์กฐ๋ฅผ ํ•™์Šตํ•˜๋ฉฐ, ์ดํ›„ ๋ฏธ์„ธ ์กฐ์ •์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๋ฏธ์„ธ ์กฐ์ •์„ ํ†ตํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ: GPT-1์€ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ฐ NLP ์ž‘์—…์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •ํ•˜์—ฌ, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜, ์งˆ๋ฌธ ์‘๋‹ต, ๋ฌธ์žฅ ๊ฐ„ ์œ ์‚ฌ์„ฑ ํ‰๊ฐ€ ๋“ฑ ์—ฌ๋Ÿฌ NLP ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

  • ์„ฑ๋Šฅ: GPT-1์€ 12๊ฐœ์˜ NLP ์ž‘์—… ์ค‘ 9๊ฐœ์—์„œ ์ƒˆ๋กœ์šด ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒ์‹ ์ถ”๋ก  ์ž‘์—…(Stories Cloze Test)์—์„œ 8.9%์˜ ์ ˆ๋Œ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์งˆ๋ฌธ ์‘๋‹ต(RACE)์—์„œ 5.7%์˜ ํ–ฅ์ƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์ „์ด ํ•™์Šต์˜ ํ˜์‹ ์  ์ ์šฉ: GPT-1์€ ์ƒ์„ฑ ๊ธฐ๋ฐ˜ ์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•ด NLP ์ž‘์—…์—์„œ ์ „์ด ํ•™์Šต์˜ ๊ฐ•์ ์„ ํšจ๊ณผ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์ด๋Š” NLP ๋ชจ๋ธ์ด ์ ์€ ์–‘์˜ ๋ผ๋ฒจ๋œ ๋ฐ์ดํ„ฐ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์˜ ๋‹จ์ˆœํ™”: GPT-1์€ ๊ฐ ์ž‘์—…์— ๋งž์ถ˜ ๋ณต์žกํ•œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ์—†์ด, ํ•˜๋‚˜์˜ ์ผ๋ฐ˜์ ์ธ ๋ชจ๋ธ์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • NLP์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„ ์ œ์‹œ: ์ด ๋…ผ๋ฌธ์€ BERT, GPT-2, GPT-3 ๋“ฑ ์ดํ›„ ๋“ฑ์žฅํ•œ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธฐ์ดˆ๊ฐ€ ๋˜์—ˆ์œผ๋ฉฐ, NLP์—์„œ ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์˜ ์ค‘์š”์„ฑ์„ ๋Œ€์ค‘ํ™”์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2019)

๐Ÿ’ก BERT๋Š” NLP์—์„œ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ํ†ตํ•ด ์ดํ•ดํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜๋ฉฐ, NLP์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์„ ํฌ๊ฒŒ ๋ฐ”๊พธ์—ˆ์Šต๋‹ˆ๋‹ค. BERT๋Š” ๋‹จ์–ด ์•ž๋’ค์˜ ๋ฌธ๋งฅ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋Š” ์–‘๋ฐฉํ–ฅ ์–ดํ…์…˜(bidirectional attention)์„ ์‚ฌ์šฉํ•˜์—ฌ, ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. BERT๋Š” ์˜ค๋Š˜๋‚  ๋งŽ์€ NLP ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์ž๋ฆฌ ์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

BERT(Bidirectional Encoder Representations from Transformers)๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)์—์„œ ์–‘๋ฐฉํ–ฅ(bidirectional) ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ์–ธ์–ด ํ‘œํ˜„ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. BERT๋Š” ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ฃผ๋ณ€ ๋ฌธ๋งฅ์„ ํ†ตํ•ด ์–‘๋ฐฉํ–ฅ์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜๋ฉฐ, NLP์˜ ์ƒˆ๋กœ์šด ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ BERT๋Š” ์‚ฌ์ „ ํ•™์Šต(pre-training)๋œ ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์— ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)ํ•˜์—ฌ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ์–‘๋ฐฉํ–ฅ ์–ดํ…์…˜: BERT๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜์˜ ์ธ์ฝ”๋” ๋ธ”๋ก๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ๋ฌธ์žฅ์˜ ์•ž๋’ค ๋ฌธ๋งฅ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

    • ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด์˜ ๋‹จ๋ฐฉํ–ฅ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๊นŠ๊ณ  ํ’๋ถ€ํ•œ ์–ธ์–ด ํ‘œํ˜„์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋งˆ์Šคํฌ๋“œ ์–ธ์–ด ๋ชจ๋ธ(Masked Language Model, MLM): ์ž…๋ ฅ๋œ ๋ฌธ์žฅ์—์„œ ์ผ๋ถ€ ๋‹จ์–ด๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํ‚นํ•˜๊ณ , ๋งˆ์Šคํฌ๋œ ๋‹จ์–ด๋ฅผ ์ฃผ๋ณ€ ๋‹จ์–ด์˜ ๋งฅ๋ฝ์œผ๋กœ๋ถ€ํ„ฐ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

    • MLM์€ ๋ฌธ์žฅ์˜ ์ผ๋ถ€ ๋‹จ์–ด๋ฅผ ๋งˆ์Šคํ‚นํ•˜๊ณ  ์ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

      1. ์›๋ณธ ๋ฌธ์žฅ: โ€œ์ธ๊ณต์ง€๋Šฅ์€ ํ˜„๋Œ€ ๊ธฐ์ˆ ์˜ ํ•ต์‹ฌ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.โ€

        ๋งˆ์Šคํ‚น๋œ ๋ฌธ์žฅ: โ€œ์ธ๊ณต์ง€๋Šฅ์€ ํ˜„๋Œ€ [MASK]์˜ ํ•ต์‹ฌ ๋ถ„์•ผ์ž…๋‹ˆ๋‹ค.โ€

        ๋ชจ๋ธ์˜ ๋ชฉํ‘œ: [MASK] ์œ„์น˜์— โ€œ๊ธฐ์ˆ โ€์„ ์˜ˆ์ธก

      2. ์›๋ณธ ๋ฌธ์žฅ: โ€œ๋”ฅ๋Ÿฌ๋‹์€ ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.โ€

        ๋งˆ์Šคํ‚น๋œ ๋ฌธ์žฅ: โ€œ๋”ฅ๋Ÿฌ๋‹์€ [MASK]ํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.โ€

        ๋ชจ๋ธ์˜ ๋ชฉํ‘œ: [MASK] ์œ„์น˜์— โ€œ๋ณต์žกโ€์„ ์˜ˆ์ธก

  • ๋ฌธ์žฅ ์Œ ์˜ˆ์ธก(Next Sentence Prediction, NSP): ๋‘ ๋ฌธ์žฅ(A, B)์ด ์—ฐ๊ฒฐ๋œ ๋ฌธ์žฅ์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—…์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฌธ์žฅ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค.

    • NSP๋Š” ๋‘ ๋ฌธ์žฅ์ด ์—ฐ์†์ ์ธ์ง€ ์•„๋‹Œ์ง€๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํƒœ์Šคํฌ์ž…๋‹ˆ๋‹ค.

      1. ๋ฌธ์žฅ A: โ€œ์ธ๊ณต์ง€๋Šฅ ๊ธฐ์ˆ ์ด ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.โ€

        ๋ฌธ์žฅ B: โ€œ์ด๋กœ ์ธํ•ด ๋งŽ์€ ์‚ฐ์—… ๋ถ„์•ผ์—์„œ ํ˜์‹ ์ด ์ผ์–ด๋‚˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.โ€

        ์ •๋‹ต: IsNextSentence (์—ฐ์†์ ์ธ ๋ฌธ์žฅ)

      2. ๋ฌธ์žฅ A: โ€œ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.โ€

        ๋ฌธ์žฅ B: โ€œ์˜ค๋Š˜ ๋‚ ์”จ๊ฐ€ ๋งค์šฐ ์ข‹์Šต๋‹ˆ๋‹ค.โ€

        ์ •๋‹ต: NotNextSentence (์—ฐ์†์ ์ด์ง€ ์•Š์€ ๋ฌธ์žฅ)

  • ์‚ฌ์ „ ํ•™์Šต ๋ฐ ๋ฏธ์„ธ ์กฐ์ •: BERT๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ์—์„œ ์‚ฌ์ „ ํ•™์Šต(MLM, NSP)๋œ ํ›„, ์ƒˆ๋กœ์šด NLP ์ž‘์—…์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ •(Fine-tuning)๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ถ”๊ฐ€์ ์ธ ์ž‘์—…๋ณ„ ๋ชจ๋ธ ์ˆ˜์ • ์—†์ด๋„ ์ ์šฉ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

  • ์„ฑ๋Šฅ: BERT๋Š” 11๊ฐœ์˜ NLP ์ž‘์—…์—์„œ ์ƒˆ๋กœ์šด ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, ์งˆ๋ฌธ ์‘๋‹ต(SQuAD) ์ž‘์—…์—์„œ BERT๋Š” F1 ์ ์ˆ˜ 93.2%๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • NLP์˜ ํŒจ๋Ÿฌ๋‹ค์ž„ ์ „ํ™˜: BERT๋Š” ๋‹จ์–ด๋ฅผ ๋ฌธ๋งฅ ๋‚ด์—์„œ ์–‘๋ฐฉํ–ฅ์œผ๋กœ ์ดํ•ดํ•˜๋Š” ๋ฐฉ์‹์„ ๋„์ž…ํ•˜์—ฌ, NLP ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ์˜ ์ ์šฉ: BERT๋Š” ์งˆ๋ฌธ ์‘๋‹ต, ๋ฌธ์žฅ ์œ ์ถ”, ๊ฐ์ • ๋ถ„์„ ๋“ฑ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ์ผ๊ด€๋˜๊ฒŒ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์˜ ๋Œ€์ค‘ํ™”: BERT๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋งž์ถฐ ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ๋ณดํŽธํ™”์‹œ์ผฐ์œผ๋ฉฐ, ์ด๋Š” NLP ์—ฐ๊ตฌ์™€ ์‚ฐ์—… ์‘์šฉ์—์„œ ํ•ต์‹ฌ ๊ธฐ์ˆ ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค.
  1. GPT-2: Language Models are Unsupervised Multitask Learners (Radford et al., 2019)

๐Ÿ’ก ์ด ๋…ผ๋ฌธ์—์„œ GPT-2๊ฐ€ ์†Œ๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ๋ฌธ๋งฅ์ ์œผ๋กœ ์ผ๊ด€๋œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. GPT-2๋Š” ๋” ํฐ ๋ชจ๋ธ๊ณผ ๋ฐ์ดํ„ฐ์…‹์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด๋„ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” NLP ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ๋ฒค์น˜๋งˆํฌ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค.

GPT-2 ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ์˜ ์›น ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ(WebText)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์ด ์ œ๋กœ์ƒท ํ•™์Šต(zero-shot learning)์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)์„ ๊ฑฐ์ณ์•ผ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ, GPT-2๋Š” ๋ณ„๋„์˜ ์ž‘์—…๋ณ„ ๋ฏธ์„ธ ์กฐ์ •์ด๋‚˜ ์ถ”๊ฐ€ ํ•™์Šต ์—†์ด๋„ ์งˆ๋ฌธ ์‘๋‹ต, ์š”์•ฝ, ๋ฒˆ์—ญ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋งค์šฐ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • GPT-2 ๋ชจ๋ธ: GPT-2๋Š” Transformer ๋””์ฝ”๋”๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, 15์–ต ๊ฐœ ์ด์ƒ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•ด ์–ธ์–ด ํŒจํ„ด์„ ์Šต๋“ํ•˜๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๋ฌธ๋งฅ์ ์œผ๋กœ ์ผ๊ด€๋œ ์ž์—ฐ์Šค๋Ÿฌ์šด ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์‚ฌ์ „ ํ•™์Šต ๋ฐ ์ œ๋กœ์ƒท ํ•™์Šต: WebText๋ผ๋Š” ๋Œ€๊ทœ๋ชจ ์›น ํฌ๋กค๋ง ๋ฐ์ดํ„ฐ์…‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ GPT-2๋Š” ์งˆ๋ฌธ ์‘๋‹ต, ํ…์ŠคํŠธ ์š”์•ฝ, ๋ฒˆ์—ญ ๋“ฑ ์—ฌ๋Ÿฌ NLP ์ž‘์—…์—์„œ ๋ณ„๋„์˜ ์ž‘์—…๋ณ„ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด๋„ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์˜ˆ๋ฅผ ๋“ค์–ด, CoQA(Conversational Question Answering) ๋ฐ์ดํ„ฐ์…‹์—์„œ GPT-2๋Š” ๋ณ„๋„์˜ ํ•™์Šต ์—†์ด๋„ 55 F1 ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” 127,000๊ฐœ ์ด์ƒ์˜ ํ›ˆ๋ จ ์˜ˆ์‹œ๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ๋‹ฌ์„ฑํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ž‘์—…๋ณ„ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ์ƒํ™ฉ์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ํฌ๊ธฐ์˜ ์ค‘์š”์„ฑ: GPT-2๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ํด์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ์˜ ์„ฑ๋Šฅ์ด ๋ชจ๋ธ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋กœ๊ทธ ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ํŒจํ„ด์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์œผ๋ฉฐ, ์ด๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์„ ๋ณด๋‹ค ๊นŠ์ด ์žˆ๊ฒŒ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  • ์–ธ์–ด ๋ชจ๋ธ์˜ ์ž๊ธฐํšŒ๊ท€์  ํŠน์„ฑ: GPT-2๋Š” ์ž๊ธฐํšŒ๊ท€์ (autoregressive) ํŠน์„ฑ์„ ๊ฐ€์ง€๋ฉฐ, ์ด์ „์— ์ƒ์„ฑ๋œ ํ† ํฐ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ฌธ๋งฅ์  ์ผ๊ด€์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๊ธด ๋ฌธ์žฅ์„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜ : https://www.researchgate.net/figure/GPT-2-model-architecture-The-GPT-2-model-contains-N-Transformer-decoder-blocks-as-shown_fig1_373352176

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ๊ฐ€๋Šฅ์„ฑ: GPT-2๋Š” ๋ฏธ์„ธ ์กฐ์ • ์—†์ด ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์„ฑ๋Šฅ: ๋…ผ๋ฌธ์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ œ๋กœ์ƒท ํ•™์Šต ๋Šฅ๋ ฅ: GPT-2๋Š” ์ œ๋กœ์ƒท ํ•™์Šต์„ ํ†ตํ•ด ํ›ˆ๋ จ๋˜์ง€ ์•Š์€ ์ž‘์—…์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คŒ์œผ๋กœ์จ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ์˜ ์œ ์—ฐ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์„ฑ๋Šฅ์˜ ํ˜์‹ : GPT-2๋Š” ์—ฌ๋Ÿฌ NLP ์ž‘์—…์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ๋„๋‹ฌํ•˜์ง€ ๋ชปํ–ˆ๋˜ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ํ™˜๊ฒฝ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”Ž GPT-1๊ณผ GPT-2์˜ ์ฃผ์š” ์ฐจ์ด์ 

  • ๋ชจ๋ธ ํฌ๊ธฐ: GPT-2๋Š” GPT-1๋ณด๋‹ค ํ›จ์”ฌ ํฐ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  • ํ•™์Šต ๋ฐ์ดํ„ฐ: GPT-2๋Š” ๋” ํฐ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ œ๋กœ์ƒท ํ•™์Šต: GPT-2๋Š” ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•œ ๋ฏธ์„ธ์กฐ์ • ์—†์ด๋„ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ๊ตฌ์กฐ: GPT-2๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ์‚ฌํ•ญ๋“ค์ด ๋ณ€๊ฒฝ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • Layer Normalization์˜ ์œ„์น˜ ๋ณ€๊ฒฝ:
      • ๋ณ€๊ฒฝ ์‚ฌํ•ญ: โ€œLayer normalization was moved to the input of each sub-block, similar to a pre-activation residual network and additional layer normalization was added after the final self-attention block.โ€
      • ์ด์œ : ๋ ˆ์ด์–ด ์ •๊ทœํ™”์˜ ์œ„์น˜๋ฅผ ๋ณ€๊ฒฝํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ด๋ฉฐ, ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connection)์ด ํ•™์Šต ๊ณผ์ •์—์„œ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ™œ์„ฑํ™” ์ž”์ฐจ ๋„คํŠธ์›Œํฌ(pre-activation residual network)์™€ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๋กœ ๋ณ€๊ฒฝํ•˜์—ฌ ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์ค„์ด๊ณ , ๋” ๊นŠ์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ์•ˆ์ •์ ์œผ๋กœ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
    • ์ž”์ฐจ ๋ ˆ์ด์–ด์˜ ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™” ์Šค์ผ€์ผ๋ง:
      • ๋ณ€๊ฒฝ ์‚ฌํ•ญ: โ€œWe scale the weights of residual layers at initialization by a factor of 1/root N where N is the number of residual layers.โ€
      • ์ด์œ : ์ž”์ฐจ ๋ ˆ์ด์–ด์˜ ์ดˆ๊ธฐํ™” ์ค‘ ์Šค์ผ€์ผ๋ง์„ ํ†ตํ•ด ๊นŠ์€ ๋„คํŠธ์›Œํฌ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ์™„ํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค. ์ดˆ๊ธฐํ™” ์‹œ ๊ฐ€์ค‘์น˜๋ฅผ ์ ์ ˆํžˆ ์กฐ์ •ํ•จ์œผ๋กœ์จ ํ•™์Šต ์ดˆ๊ธฐ์— ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
    • ์ปจํ…์ŠคํŠธ ํฌ๊ธฐ ์ฆ๊ฐ€:
      • ๋ณ€๊ฒฝ ์‚ฌํ•ญ: โ€œWe also increase the context size from 512 to 1024 tokens.โ€
      • ์ด์œ : ์ปจํ…์ŠคํŠธ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด ๋ชจ๋ธ์ด ๋” ๊ธด ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ์ •๋ณด์˜ ํ๋ฆ„์„ ๋”์šฑ ์ž˜ ๋ฐ˜์˜ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋งฅ๋ฝ์„ ํ™•์žฅํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ ์ฆ๊ฐ€:
      • ๋ณ€๊ฒฝ ์‚ฌํ•ญ: โ€œA larger batchsize of 512 is used.โ€
      • ์ด์œ : ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ๋ฅผ ๋Š˜๋ฆผ์œผ๋กœ์จ ๋ชจ๋ธ ํ•™์Šต์˜ ์•ˆ์ •์„ฑ์„ ๋†’์ด๊ณ , ๋ฐ์ดํ„ฐ์…‹์˜ ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ๋” ์ž˜ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋” ํฐ ๋ฐฐ์น˜ ์‚ฌ์ด์ฆˆ๋Š” ๊ฒฝ๋Ÿ‰ํ™” ํ•™์Šต์— ๋„์›€์„ ์ฃผ์–ด, ํฐ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ๋ชจ๋ธ์„ ๋งŒ๋“œ๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿค” GPT-2์™€ BERT์˜ ์ฃผ์š” ์ฐจ์ด์ 

  • ์•„ํ‚คํ…์ฒ˜์™€ ํ•™์Šต ๋ชฉ์ : BERT๋Š” ์–‘๋ฐฉํ–ฅ ์ธ์ฝ”๋” ๋ชจ๋ธ๋กœ, Masked Language Model(MLM)๊ณผ Next Sentence Prediction(NSP) ํƒœ์Šคํฌ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. GPT-2๋Š” ๋‹จ๋ฐฉํ–ฅ ๋””์ฝ”๋” ๋ชจ๋ธ๋กœ, ์ž๊ธฐํšŒ๊ท€์  ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉ์ ์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.
  • ์ปจํ…์ŠคํŠธ ์ฒ˜๋ฆฌ: BERT๋Š” ์–‘๋ฐฉํ–ฅ ์…€ํ”„ ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ์žฅ์˜ ์ „ํ›„ ์ปจํ…์ŠคํŠธ๋ฅผ ๋ชจ๋‘ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค. GPT-2๋Š” ๋งˆ์Šคํฌ๋“œ ์…€ํ”„ ์–ดํ…์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ์™ผ์ชฝ(์ด์ „) ์ปจํ…์ŠคํŠธ๋งŒ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค.
  • ํ† ํฐ ์˜ˆ์ธก ์„ฑ๋Šฅ: BERT๋Š” ๋ฌธ์žฅ ์ค‘๊ฐ„์˜ ํ† ํฐ ์˜ˆ์ธก์— ๊ฐ•์ ์„ ๋ณด์ž…๋‹ˆ๋‹ค. GPT-2๋Š” ๋ฌธ์žฅ ๋๋ถ€๋ถ„์˜ ํ† ํฐ ์˜ˆ์ธก์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.
  • ์ •๊ทœํ™” ๋ฐฉ์‹: BERT๋Š” post-normalization์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. GPT-2๋Š” pre-normalization์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์‹œํ€€์Šค ๊ธธ์ด: BERT๋Š” 512 ํ† ํฐ์˜ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. GPT-2๋Š” 1024 ํ† ํฐ์˜ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  1. T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (Raffel et al., 2019)

๐Ÿ’ก T5๋Š” ๋ชจ๋“  NLP ์ž‘์—…์„ ํ…์ŠคํŠธ ์ƒ์„ฑ ์ž‘์—…์œผ๋กœ ๋‹ค๋ฃจ๋Š” ์•„์ด๋””์–ด๋ฅผ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฒˆ์—ญ, ์š”์•ฝ, ์งˆ์˜์‘๋‹ต ๋“ฑ ๋‹ค์–‘ํ•œ ๊ณผ์ œ๋ฅผ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์„ ์ œ์•ˆํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. T5๋Š” NLP ์ž‘์—…์— ์žˆ์–ด์„œ ๊ฐ€์žฅ ์œ ์—ฐํ•œ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค.

T5(Text-To-Text Transfer Transformer)๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP)์˜ ๋ชจ๋“  ์ž‘์—…์„ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ฌธ์ œ๋กœ ํ†ตํ•ฉํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์„ ๋‹จ์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ํ˜์‹ ์ ์ธ ์ ‘๊ทผ๋ฒ•์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ์„ ํ…์ŠคํŠธ๋กœ ๋ฐ›๊ณ  ์ถœ๋ ฅ๋„ ํ…์ŠคํŠธ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ†ต์ผ๋œ ์ ‘๊ทผ์€ ๋ฒˆ์—ญ, ์š”์•ฝ, ์งˆ์˜์‘๋‹ต, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋™์ผํ•œ ํ˜•์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ๋งค์šฐ ์œ ์—ฐํ•˜๊ณ  ๊ฐ•๋ ฅํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ชจ๋ธ๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค. T5๋Š” ์ „์ด ํ•™์Šต(transfer learning)์˜ ์ž ์žฌ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ ๊ทœ๋ชจ์˜ ์ฆ๊ฐ€๋ฅผ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ํ†ต์ผ๋œ ํ…์ŠคํŠธ-ํˆฌ-ํ…์ŠคํŠธ ์ ‘๊ทผ: T5๋Š” NLP์˜ ๋ชจ๋“  ์ž‘์—…์„ ํ…์ŠคํŠธ ์ž…๋ ฅ์„ ๋ฐ›์•„ ํ…์ŠคํŠธ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฌธ์ œ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

    • ์˜ˆ๋ฅผ ๋“ค์–ด, ์˜์–ด๋ฅผ ๋…์ผ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ์ž‘์—…์€ โ€œtranslate English to Germanโ€์ด๋ผ๋Š” ํ…์ŠคํŠธ ์ž…๋ ฅ์„ ํ†ตํ•ด ์ฒ˜๋ฆฌ๋˜๋ฉฐ, ์š”์•ฝ ์ž‘์—…์€ โ€œsummarizeโ€๋ผ๋Š” ํ”„๋ฆฌํ”ฝ์Šค๋ฅผ ๋ถ™์—ฌ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ด ํ†ต์ผ๋œ ์ ‘๊ทผ ๋•๋ถ„์— ๋ชจ๋“  ์ž‘์—…์ด ๋™์ผํ•œ ๊ตฌ์กฐ๋กœ ์ฒ˜๋ฆฌ๋˜๋ฏ€๋กœ, ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•ด ํ•˜๋‚˜์˜ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • Transformer ๊ธฐ๋ฐ˜ ์•„ํ‚คํ…์ฒ˜: T5๋Š” Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. Transformer๋Š” ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์œผ๋ฉฐ, ์ž…๋ ฅ ํ…์ŠคํŠธ๋ฅผ ์ธ์ฝ”๋”๊ฐ€ ์ฒ˜๋ฆฌํ•œ ํ›„, ๋””์ฝ”๋”๊ฐ€ ํ•ด๋‹น ์ž…๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ถœ๋ ฅ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.

    • ์ธ์ฝ”๋”๋Š” ์ž…๋ ฅ ํ…์ŠคํŠธ์˜ ๊ฐ ํ† ํฐ์„ ์ž„๋ฒ ๋”ฉ์œผ๋กœ ๋ณ€ํ™˜ํ•œ ๋’ค, self-attention์„ ํ†ตํ•ด ๊ฐ ํ† ํฐ ๊ฐ„์˜ ์ƒ๊ด€๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
    • ๋””์ฝ”๋”๋Š” ์ธ์ฝ”๋”์˜ ์ถœ๋ ฅ์„ ๋ฐ›์•„, ์ด์ „์— ์ƒ์„ฑํ•œ ์ถœ๋ ฅ๊ณผ์˜ ๊ด€๊ณ„๋ฅผ ๊ณ ๋ คํ•ด ์ƒˆ๋กœ์šด ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
    • T5๋Š” ์ด๋Ÿฌํ•œ ๊ธฐ๋ณธ Transformer ๊ตฌ์กฐ์— ๋”ํ•ด, ์ƒ๋Œ€์  ์œ„์น˜ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ฐ™์€ ์„ธ๋ถ€์ ์ธ ๋ณ€ํ˜•์„ ๋„์ž…ํ•˜์—ฌ ๋”์šฑ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ„์†Œํ™”๋œ Transformer ๋””์ฝ”๋” : T5๋Š” ๊ธฐ๋ณธ Transformer ์•„ํ‚คํ…์ฒ˜์—์„œ ์ธ์ฝ”๋”-๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ํŠน์ • ์ž‘์—…์—์„œ๋Š” ๊ฐ„์†Œํ™”๋œ ๋””์ฝ”๋” ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.

    • ์ด ๊ตฌ์กฐ์—์„œ๋Š” ์ž…๋ ฅ ์‹œํ€€์Šค๊ฐ€ ์ธ์ฝ”๋”์— ์˜ํ•ด ํ•œ ๋ฒˆ ์ฒ˜๋ฆฌ๋œ ํ›„, ๋””์ฝ”๋”๊ฐ€ ์ด์ „์— ์ƒ์„ฑํ•œ ์ถœ๋ ฅ๊ณผ ํ•ด๋‹น ์ž…๋ ฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ˆœ์ฐจ์ ์œผ๋กœ ๋‹ค์Œ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ์ „์ด ํ•™์Šต์˜ ๊ทน๋Œ€ํ™”: T5๋Š” ๋Œ€๊ทœ๋ชจ ์›น ํฌ๋กค๋ง ๋ฐ์ดํ„ฐ์…‹์ธ โ€œColossal Clean Crawled Corpus(C4)โ€๋ฅผ ์‚ฌ์šฉํ•ด ์‚ฌ์ „ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

    • ์ด ๋ฐ์ดํ„ฐ์…‹์€ ์ˆ˜๋ฐฑ ๊ธฐ๊ฐ€๋ฐ”์ดํŠธ์— ์ด๋ฅด๋Š” ๋Œ€๊ทœ๋ชจ ์˜์–ด ํ…์ŠคํŠธ๋กœ, ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ฅผ ํ•™์Šตํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•˜๊ฒŒ ํ•„ํ„ฐ๋ง๋œ ๋ฐ์ดํ„ฐ์ž…๋‹ˆ๋‹ค.
    • T5๋Š” ์ด ์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•ด ํ…์ŠคํŠธ์˜ ํŒจํ„ด์„ ํ•™์Šตํ•˜๊ณ , ์ดํ›„ ๋‹ค์–‘ํ•œ ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…(์š”์•ฝ, ๋ฒˆ์—ญ, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋“ฑ)์— ๋Œ€ํ•ด ๋ฏธ์„ธ ์กฐ์ •(fine-tuning)ํ•จ์œผ๋กœ์จ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜: https://www.researchgate.net/figure/Architecture-of-the-T5-model_fig2_371619795

(์ฐธ๊ณ )ํ…์ŠคํŠธ-ํ…์ŠคํŠธ ํ”„๋ ˆ์ž„์›Œํฌ?

๐Ÿ’ก ํ…์ŠคํŠธ-ํ…์ŠคํŠธ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” NLP ์ž‘์—…์„ ๋‹จ์ผํ•œ ๋ฌธ์ œ๋กœ ํ†ต์ผํ•˜์—ฌ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ๋ชจ๋‘ ํ…์ŠคํŠธ๋กœ ์ฒ˜๋ฆฌ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ฒˆ์—ญ, ์š”์•ฝ, ์งˆ์˜์‘๋‹ต, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ํšจ์œจ์ ์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ํŠนํžˆ T5 ๋ชจ๋ธ์—์„œ ํ™œ์šฉ๋˜๋ฉฐ, ์ „์ด ํ•™์Šต์˜ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

  • ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์ด ๋ชจ๋‘ ํ…์ŠคํŠธ:
    • ์ด ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ๋Š” ์ž…๋ ฅ๋„ ํ…์ŠคํŠธ์ด๊ณ  ์ถœ๋ ฅ๋„ ํ…์ŠคํŠธ์ž…๋‹ˆ๋‹ค.
    • ๋”ฐ๋ผ์„œ ์–ด๋–ค ์ข…๋ฅ˜์˜ ์ž‘์—…์ด๋“  ๋™์ผํ•œ ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์˜ˆ: ์˜์–ด ๋ฌธ์žฅ์„ ๋…์ผ์–ด๋กœ ๋ฒˆ์—ญํ•˜๋Š” ์ž‘์—…์˜ ๊ฒฝ์šฐ, ์ž…๋ ฅ์€ ์˜์–ด ๋ฌธ์žฅ์ด๊ณ  ์ถœ๋ ฅ์€ ๋…์ผ์–ด ๋ฌธ์žฅ์ž…๋‹ˆ๋‹ค.
  • ๋ชจ๋“  ์ž‘์—…์„ ํ…์ŠคํŠธ ๋ฌธ์ œ๋กœ ํ†ต์ผ:
    • ๋ฒˆ์—ญ, ์š”์•ฝ, ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๋ชจ๋‘ ํ…์ŠคํŠธ ์ƒ์„ฑ ๋ฌธ์ œ๋กœ ํ†ต์ผํ•˜์—ฌ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋•Œ ๊ฐ ์ž‘์—…์€ ์ž‘์—…์— ๋งž๋Š” ํ”„๋ฆฌํ”ฝ์Šค(์ž‘์—…์„ ์„ค๋ช…ํ•˜๋Š” ํ…์ŠคํŠธ)๋ฅผ ์ž…๋ ฅ ํ…์ŠคํŠธ ์•ž์— ์ถ”๊ฐ€ํ•˜์—ฌ ๋ชจ๋ธ์ด ์ž‘์—…์˜ ์ข…๋ฅ˜๋ฅผ ์ธ์‹ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • NLP์˜ ํ†ตํ•ฉ ์ฒ˜๋ฆฌ ๋ฐฉ์‹ ์ œ์‹œ: T5๋Š” ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ํ†ตํ•ฉ๋œ ํ˜•์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์—ฐ์„ฑ์„ ์ œ๊ณตํ•˜์—ฌ, ์ž‘์—… ๊ฐ„ ์ „์ด ํ•™์Šต์ด ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ ์ด๋ฃจ์–ด์งˆ ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌ์ž๋“ค์ด ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ํ•˜๋‚˜์˜ ๋ชจ๋ธ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ๋“œ๋Š” ๋น„์šฉ์„ ์ค„์ด๊ณ , ์ „์ด ํ•™์Šต์˜ ํšจ๊ณผ๋ฅผ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ์ „์ด ํ•™์Šต์˜ ์„ ๋‘์ฃผ์ž: T5๋Š” ์ „์ด ํ•™์Šต์˜ ์ž ์žฌ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ชจ๋ธ๋กœ, NLP ๋ถ„์•ผ์—์„œ ๊ฐ€์žฅ ๊ฐ•๋ ฅํ•˜๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ ์ž๋ฆฌ ์žก์•˜์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ์˜ ์Šค์ผ€์ผ์„ ํ‚ค์šฐ๋Š” ๊ฒƒ์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ค‘์š”ํ•œ ์š”์ธ์ž„์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ ๊ณต๊ฐœ: ์—ฐ๊ตฌ์ง„์€ ํ•™์Šต์— ์‚ฌ์šฉ๋œ ๋ฐ์ดํ„ฐ์™€ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜์—ฌ, ํ›„์† ์—ฐ๊ตฌ์ž๋“ค์ด ์ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ NLP ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด NLP ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์˜ ๋ฐœ์ „์— ํฌ๊ฒŒ ๊ธฐ์—ฌํ–ˆ์Šต๋‹ˆ๋‹ค.
  1. GPT-3: Language Models are Few-Shot Learners (Brown et al., 2020)

๐Ÿ’ก GPT-3๋Š” NLP ๋ชจ๋ธ์˜ ์ƒˆ๋กœ์šด ๊ฒฝ์ง€๋ฅผ ์—ด์—ˆ์œผ๋ฉฐ, ์•„์ฃผ ์ ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค. GPT-3๋Š” ๋ฐฉ๋Œ€ํ•œ ํฌ๊ธฐ์™€ ํ•™์Šต๋Ÿ‰์„ ํ†ตํ•ด ์งˆ๋ฌธ ๋‹ต๋ณ€๋ถ€ํ„ฐ ์ฐฝ์˜์ ์ธ ๊ธ€์“ฐ๊ธฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ์ธ์ƒ์ ์ธ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

GPT-3๋Š” 1750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋Œ€๊ทœ๋ชจ ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์—์„œ ์ ์€ ์–‘์˜ ํ•™์Šต ๋ฐ์ดํ„ฐ(few-shot)๋กœ๋„ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๋ฏธ์„ธ ์กฐ์ •(fine-tuning) ์—†์ด๋„ ์ œ๋กœ์ƒท(zero-shot), ์›์ƒท(one-shot), ๋˜๋Š” ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ(few-shot)๋งŒ์œผ๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ์ธ๊ฐ„์˜ ๊ฐœ์ž… ์—†์ด๋„ ์ผ๊ด€์„ฑ ์žˆ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • GPT-3 ๋ชจ๋ธ: GPT-3๋Š” 1750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
    • GPT-3๋Š” ํŠธ๋žœ์Šคํฌ๋จธ ๊ตฌ์กฐ ์ค‘ ๋””์ฝ”๋”(decoder) ๋ถ€๋ถ„๋งŒ์„ ์‚ฌ์šฉํ•œ autoregressive language model๋กœ, ์ด์ „์— ์ƒ์„ฑ๋œ ๋‹จ์–ด๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
    • ์ด๋ฅผ ํ†ตํ•ด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ๋งŽ์€ ์–‘์˜ ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๋น„์ง€๋„ ํ•™์Šต ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
    • Byte Pair Encoding(BPE) ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด ํ…์ŠคํŠธ๋ฅผ ํ† ํฐํ™”ํ•˜์—ฌ ๋ณด๋‹ค ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

โญ Byte Pair Encoding(BPE)?

Byte Pair Encoding(BPE)๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ํ† ํฐํ™” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋กœ, ๋‹จ์–ด๋ฅผ ๋” ์ž‘์€ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

  • BPE๋Š” ๊ณ ์œ ํ•œ ๋‹จ์–ด์˜ ์ˆ˜๊ฐ€ ๋งค์šฐ ๋งŽ์€ ๊ฒฝ์šฐ, ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ๊ฐœ๋ณ„์ ์œผ๋กœ ํ•™์Šตํ•˜๊ธฐ์—๋Š” ๋น„ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.
  • BPE๋Š” ๋‹จ์–ด๋ฅผ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ํ•˜์œ„ ๋‹จ์œ„(ํ•˜์œ„ ๋‹จ์–ด, subword)๋กœ ๋ถ„ํ•ดํ•จ์œผ๋กœ์จ ์–ดํœ˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ  ๋ชจ๋ธ์˜ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
  • BPE๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ฌธ์ž ๋‹จ์œ„์—์„œ ์‹œ์ž‘ํ•˜์—ฌ, ๊ฐ€์žฅ ์ž์ฃผ ๋“ฑ์žฅํ•˜๋Š” ๋ฌธ์ž ์Œ์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ๋ณ‘ํ•ฉํ•ด ๋‚˜๊ฐ€๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œhelloโ€๋ผ๋Š” ๋‹จ์–ด๋Š” ์ฒ˜์Œ์—๋Š” ๋ฌธ์ž ๋‹จ์œ„๋กœ ๋ถ„ํ• ๋ฉ๋‹ˆ๋‹ค: h, e, l, l, o. ์ดํ›„์— ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋‚˜ํƒ€๋‚˜๋Š” ๋ฌธ์ž ์Œ๋“ค์„ ๋ณ‘ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
    • l๊ณผ l์ด ์ž์ฃผ ๋“ฑ์žฅํ•˜๋ฉด ll๋กœ ๋ณ‘ํ•ฉ๋˜๊ณ , ์ดํ›„ ๋‹ค๋ฅธ ๋นˆ๋ฒˆํ•œ ์Œ๋„ ์ˆœ์ฐจ์ ์œผ๋กœ ๋ณ‘ํ•ฉ๋ฉ๋‹ˆ๋‹ค.
  • Few-Shot ํ•™์Šต: GPT-3๋Š” ํŠน์ • ์ž‘์—…์— ๋งž๊ฒŒ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด, ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ๋งŒ์œผ๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฒˆ์—ญ, ์งˆ๋ฌธ ์‘๋‹ต, ๋ฌธ์žฅ ์ƒ์„ฑ ๋“ฑ์—์„œ ์ œ๋กœ์ƒท์ด๋‚˜ ์›์ƒท ์„ค์ •๋งŒ์œผ๋กœ๋„ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

    • Few-shot, One-shot, Zero-shot ํ•™์Šต ๋ฐฉ์‹์„ ์ง€์›ํ•˜์—ฌ, ์‚ฌ์šฉ์ž๋Š” ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ๋‚˜ ์งˆ๋ฌธ๋งŒ์œผ๋กœ๋„ GPT-3์—๊ฒŒ ์ƒˆ๋กœ์šด ์ž‘์—…์„ ์ง€์‹œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ํŠนํžˆ, GPT-3๋Š” ๋ฉ”ํƒ€ ํ•™์Šต(meta-learning) ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ฑ„ํƒํ•ด ๋‹ค์–‘ํ•œ ์–ธ์–ด ์ž‘์—…์— ์ ์‘ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ง€๋‹ˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

โญ ๋ฉ”ํƒ€ํ•™์Šต(meta-learning)?

๋ฉ”ํƒ€ํ•™์Šต(meta-learning)์€ โ€œํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ฐฐ์šฐ๋Š” ํ•™์Šตโ€์„ ์˜๋ฏธํ•˜๋ฉฐ, ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ์ž‘์—…์— ๋Œ€ํ•ด ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ํ•™์Šต ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

  • ๋ฉ”ํƒ€ํ•™์Šต์€ ์ผ๋ฐ˜์ ์ธ ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๋‚˜ ํ™˜๊ฒฝ์— ์ ์‘ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๊ณผ์ •์„ ๋‹จ์ถ•์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฉ”ํƒ€ํ•™์Šต์—์„œ๋Š” ๋ชจ๋ธ์ด ๋‹จ์ผ ์ž‘์—…์ด ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ ์ž‘์—…์„ ํ•™์Šตํ•˜๊ณ , ์ƒˆ๋กœ์šด ์ž‘์—…์— ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ(์˜ˆ์‹œ ๋ช‡ ๊ฐœ)๋งŒ์œผ๋กœ๋„ ๋น ๋ฅด๊ฒŒ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋ฉ๋‹ˆ๋‹ค.
  • GPT-3์—์„œ์˜ ๋ฉ”ํƒ€ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹์€ ํŠนํžˆ Few-shot, One-shot, Zero-shot ํ•™์Šต์—์„œ ๊ทธ ํŠน์ง•์ด ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค.
    • GPT-3๋Š” ๋งŽ์€ ์–‘์˜ ์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•ด ์—ฌ๋Ÿฌ ์–ธ์–ด์  ํŒจํ„ด์„ ํ•™์Šตํ•œ ํ›„, ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ์ƒˆ๋กœ์šด ์˜ˆ์‹œ๋ฅผ ๋ช‡ ๊ฐœ ์ œ๊ณต๋ฐ›์•„๋„ ์ด๋ฅผ ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ์ ์‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ: GPT-3๋Š” SQuAD, TriviaQA์™€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ตœ์ฒจ๋‹จ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, CoQA์—์„œ ์ œ๋กœ์ƒท์œผ๋กœ 81.5 F1 ์ ์ˆ˜, ์›์ƒท์œผ๋กœ 84.0 F1 ์ ์ˆ˜, few-shot์—์„œ 85.0 F1 ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•˜๋Š” ๋“ฑ ๋‹ค์–‘ํ•œ NLP ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ ์ž‘์—…: GPT-3๋Š” ๋ฒˆ์—ญ, ์งˆ๋ฌธ ์‘๋‹ต, ์‚ฐ์ˆ  ๊ณ„์‚ฐ, ๋‹จ์–ด ํผ์ฆ ํ•ด๊ฒฐ ๋“ฑ ์—ฌ๋Ÿฌ ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์œผ๋ฉฐ, ํŠนํžˆ ์ธ๊ฐ„์ด ๊ตฌ๋ณ„ํ•˜๊ธฐ ์–ด๋ ค์šด ํ…์ŠคํŠธ ์ƒ์„ฑ ๋Šฅ๋ ฅ๋„ ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์–ธ์–ด ์ƒ์„ฑ, ๋ฒˆ์—ญ, ์š”์•ฝ, ์ถ”๋ก , ๊ทธ๋ฆฌ๊ณ  ๊ฐ„๋‹จํ•œ ์‚ฐ์ˆ  ๊ณ„์‚ฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • Few-Shot ํ•™์Šต์˜ ๊ฐ•์ : GPT-3๋Š” ์ ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๋กœ๋„ ๋งŽ์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ•˜์—ฌ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ ๋Œ€๊ทœ๋ชจ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ์—†์„ ๋•Œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์ด๋Š” ์†Œ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋งŒ ์ œ๊ณต๋˜๋Š” ํ™˜๊ฒฝ์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋ธ์˜ ์ค‘์š”์„ฑ์„ ๋ถ€๊ฐํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ํฌ๊ธฐ์™€ ์„ฑ๋Šฅ์˜ ๊ด€๊ณ„: GPT-3๋Š” 1750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ํ›จ์”ฌ ๋” ๋งŽ์€ ์–‘์˜ ์–ธ์–ด ํŒจํ„ด๊ณผ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ์ด๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ํŠนํžˆ ๋ชจ๋ธ ํฌ๊ธฐ๊ฐ€ ์ฆ๊ฐ€ํ• ์ˆ˜๋ก ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ์ ์„ ๋…ผ๋ฌธ์—์„œ ๊ด€์ฐฐํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์–ธ์–ด ๋ชจ๋ธ์˜ ์ƒˆ ์ง€ํ‰: GPT-3๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด ์–ธ์–ด ์ƒ์„ฑ์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, NLP ๋ถ„์•ผ์—์„œ ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ•œ๊ณ„๋ฅผ ํฌ๊ฒŒ ๋„“ํ˜”์Šต๋‹ˆ๋‹ค.

    • ํŠนํžˆ, ์ด์ „์— ํ•™์Šตํ•œ ๋‚ด์šฉ์„ ๋ฐ”ํƒ•์œผ๋กœ ์ธ๊ฐ„์ด ์ž‘์„ฑํ•œ ๊ฒƒ๊ณผ ๊ตฌ๋ณ„ํ•˜๊ธฐ ์–ด๋ ค์šด ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์–ด, ๋งค์šฐ ์ •๊ตํ•œ ์–ธ์–ด ๋ชจ๋ธ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  1. ChatGPT: Applications, Opportunities, and Threats (Bahrini, Aram, et al., 2023)

๐Ÿ’ก ์ด ๋…ผ๋ฌธ์€ GPT-3 ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ChatGPT์˜ ํ™œ์šฉ์„ ์†Œ๊ฐœํ•˜๋ฉฐ, ๋Œ€ํ™”ํ˜• ์ž‘์—…์— ํŠนํ™”๋œ ์‘์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๊ณ ๊ฐ ์ง€์›์ด๋‚˜ ๊ต์œก ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ChatGPT์˜ ์‹ค์šฉ์„ฑ์„ ๊ฐ•์กฐํ•˜๊ณ , ์•ˆ์ „์„ฑ, ์œค๋ฆฌ์  ๋ฌธ์ œ, ํŽธํ–ฅ ๋“ฑ๊ณผ ๊ฐ™์€ ๊ณผ์ œ๋„ ๋…ผ์˜ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

OpenAI์˜ GPT-3 ๊ธฐ๋ฐ˜ ChatGPT ๋ชจ๋ธ์€ ๋Œ€ํ™”ํ˜• ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํŠนํ™”๋œ ์ธ๊ณต์ง€๋Šฅ(AI) ๊ธฐ์ˆ ๋กœ, ๋‹ค์–‘ํ•œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•˜๋Š” ๋™์‹œ์— ์—ฌ๋Ÿฌ ์œค๋ฆฌ์  ๋ฐ ์‚ฌํšŒ์  ๋ฌธ์ œ๋“ค์„ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ๊ณ ๊ฐ ์ง€์›, ๊ต์œก, ์—ฐ๊ตฌ ๋ณด์กฐ ๋“ฑ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๋Œ€ํ™”ํ˜• AI์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•œ ํ˜์‹ ์ ์ธ ๋„๊ตฌ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด์™€ ํ•จ๊ป˜ ์‹ ๋ขฐ์„ฑ, ํŽธํ–ฅ์„ฑ, ์‚ฌ์ƒํ™œ ๋ณดํ˜ธ ๋ฌธ์ œ ๋“ฑ ๋‹ค์–‘ํ•œ ์œค๋ฆฌ์  ๊ณ ๋ฏผ๋„ ์ œ๊ธฐ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ๋Œ€ํ™”ํ˜• AI ๋ชจ๋ธ: ChatGPT๋Š” ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•œ ํ›„, ์‚ฌ๋žŒ๊ณผ ์œ ์‚ฌํ•œ ์ž์—ฐ์–ด ๋Œ€ํ™”๋ฅผ ์ƒ์„ฑํ•˜๋Š” GPT ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
    • ๊ฐ•ํ™” ํ•™์Šต๊ณผ ์ง€๋„ ํ•™์Šต์„ ํ†ตํ•ด ์„ฑ๋Šฅ์ด ๊ณ ๋„ํ™”๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋Œ€ํ™”ํ˜• ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์ด ๊ธฐ์ˆ ์€ ์—ฌ๋Ÿฌ ์‚ฐ์—…์—์„œ ๋Œ€ํ™”ํ˜• AI ์†”๋ฃจ์…˜์œผ๋กœ ์ฑ„ํƒ๋˜๊ณ  ์žˆ์œผ๋ฉฐ, ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

์ถœ์ฒ˜: https://openai.com/index/chatgpt/

  • ์‘์šฉ ๋ถ„์•ผ:

    • ๋น„์ฆˆ๋‹ˆ์Šค ๋ฐ ๊ณ ๊ฐ ์ง€์›: ChatGPT๋Š” ๊ณ ๊ฐ ์„œ๋น„์Šค ์ž๋™ํ™”, ๋น„์ฆˆ๋‹ˆ์Šค ์˜์‚ฌ๊ฒฐ์ • ์ง€์›, ์˜ˆ์ธก ๋ถ„์„ ๋ฐ ๋งˆ์ผ€ํŒ… ์ „๋žต ๊ฐœ์„  ๋“ฑ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ณ ๊ฐ์˜ ์งˆ๋ฌธ์— ์‹ค์‹œ๊ฐ„์œผ๋กœ ์‘๋‹ตํ•˜๊ณ , ์ž‘์—… ์ž๋™ํ™”๋ฅผ ํ†ตํ•ด ์—…๋ฌด ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ต์œก: ๊ต์œก ์ž๋ฃŒ ์ƒ์„ฑ, ํ•™์ƒ ๊ณผ์ œ ์ง€์›, ์ž๋™ ํ‰๊ฐ€ ์‹œ์Šคํ…œ ๋“ฑ์„ ์ œ๊ณตํ•˜์—ฌ ํ•™์Šต ๊ณผ์ •์—์„œ์˜ ๋งž์ถคํ˜• ์ง€์›์ด ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

      • ์ด๋Š” ํŠนํžˆ ์˜จ๋ผ์ธ ๊ต์œก ๋ฐ ์›๊ฒฉ ํ•™์Šต ํ™˜๊ฒฝ์—์„œ ํ™œ์šฉ๋„๊ฐ€ ๋†’์Šต๋‹ˆ๋‹ค.
    • ์—ฐ๊ตฌ ๋ณด์กฐ: ๋…ผ๋ฌธ ์ž‘์„ฑ ์ง€์›, ์—ฐ๊ตฌ ๋ฐฉ๋ฒ•๋ก  ์ œ์•ˆ, ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ณด์กฐ ๋“ฑ์˜ ์ž‘์—…์—์„œ ์—ฐ๊ตฌ์ž๋“ค์ด ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

      • ์˜ˆ๋ฅผ ๋“ค์–ด, ๋…ผ๋ฌธ์˜ ์ฃผ์š” ์•„์ด๋””์–ด ์š”์•ฝ์ด๋‚˜ ๊ด€๋ จ ์—ฐ๊ตฌ ์ œ์•ˆ์„ ํ†ตํ•ด ์—ฐ๊ตฌ์ž๋“ค์ด ์ƒˆ๋กœ์šด ์•„์ด๋””์–ด๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ณผํ•™ ๋ฐ ๊ธฐ์ˆ : ChatGPT๋Š” ์—ฐ๊ตฌ ๋ฐ์ดํ„ฐ ๋ถ„์„, ๋ณต์žกํ•œ ์‹œ์Šคํ…œ ๋ชจ๋ธ๋ง, ์ƒˆ๋กœ์šด ๊ธฐ์ˆ  ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ์˜ˆ์ธก ์ž‘์—…์—๋„ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.

      • ๊ณผํ•™์ž๋“ค์ด ์‹คํ—˜์„ ์„ค๊ณ„ํ•˜๊ณ  ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜ ๊ฒฐ์ •์„ ๋‚ด๋ฆฌ๋Š” ๋ฐ ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • GPT-3.5์™€ GPT-4์˜ ๋น„๊ต: ์—ฐ๊ตฌ์ง„์€ GPT-3.5์™€ GPT-4์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜๋Š” ์‹คํ—˜์„ ํ†ตํ•ด GPT-4๊ฐ€ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ํŠนํžˆ GPT-4๋Š” ๊ต์œก์ ์ธ ๋งฅ๋ฝ์—์„œ ๋” ์ •ํ™•ํ•˜๊ณ  ์ •๊ตํ•œ ๋‹ต๋ณ€์„ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์œผ๋กœ ํ™•์ธ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ์ด๋Š” GPT-4๊ฐ€ ๋” ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ฐœ์„ ๋œ ํ•™์Šต ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ํ•™์Šต๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ๋Œ€ํ™”ํ˜• AI์˜ ๋ฐœ์ „: ChatGPT๋Š” ๋Œ€ํ™”ํ˜• AI ๊ธฐ์ˆ ์˜ ์ค‘์š”ํ•œ ์ง„๋ณด๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์—ฌ๋Ÿฌ ์‚ฐ์—…์—์„œ ํšจ์œจ์„ฑ ์ฆ๋Œ€์™€ ๋น„์šฉ ์ ˆ๊ฐ์— ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ํŠนํžˆ ์‚ฌ๋žŒ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ ๋•๋ถ„์—, ๋น„์ฆˆ๋‹ˆ์Šค, ๊ต์œก, ์—ฐ๊ตฌ ๋“ฑ์—์„œ ์ƒ์‚ฐ์„ฑ์„ ํฌ๊ฒŒ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์‚ฌํšŒ์  ์˜ํ–ฅ: ํ•˜์ง€๋งŒ, ์ด ๊ธฐ์ˆ ์ด ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌํšŒ์ , ์œค๋ฆฌ์  ๋ฌธ์ œ๋„ ๋ฌด์‹œํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.

    • ChatGPT๋Š” ๋•Œ๋•Œ๋กœ ํŽธํ–ฅ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋ถ€์ •ํ™•ํ•˜๊ฑฐ๋‚˜ ์œค๋ฆฌ์  ๋…ผ๋ž€์ด ๋  ์ˆ˜ ์žˆ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์™€ ๋ฐ์ดํ„ฐ ๋ณด์•ˆ ์ธก๋ฉด์—์„œ๋„ ์ทจ์•ฝํ•œ ๋ถ€๋ถ„์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • ๋˜ํ•œ, AI์˜ ๋ฐœ์ „์ด ํŠน์ • ์ง์—…์„ ๋Œ€์ฒดํ•  ๊ฐ€๋Šฅ์„ฑ์— ๋Œ€ํ•œ ์šฐ๋ ค๋„ ์ œ๊ธฐ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ฑ…์ž„ ์žˆ๋Š” ์‚ฌ์šฉ: ChatGPT์˜ ๋ฐœ์ „์€ ๋ถ„๋ช…ํžˆ ๋งŽ์€ ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ฃผ์ง€๋งŒ, ์ด ๊ธฐ์ˆ ์ด ๋‚จ์šฉ๋˜์ง€ ์•Š๋„๋ก ์ฑ…์ž„ ์žˆ๋Š” ์‚ฌ์šฉ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

    • ์ด๋ฅผ ์œ„ํ•ด์„œ๋Š” AI์˜ ํŽธํ–ฅ์„ฑ์„ ์ค„์ด๊ณ , ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ ๋ฐ ๋ณด์•ˆ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ช…ํ™•ํ•œ ์ •์ฑ…๊ณผ ์ ˆ์ฐจ๊ฐ€ ๋งˆ๋ จ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
    • ์œค๋ฆฌ์  ๊ธฐ์ค€์„ ์ค€์ˆ˜ํ•˜๋ฉด์„œ๋„ ๊ธฐ์ˆ ์ด ์‚ฌํšŒ์— ๊ธ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋„๋ก ๊ด€๋ฆฌํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
  1. LLaMA: Open and Efficient Foundation Language Models (Touvron et al., 2023)

๐Ÿ’ก LLaMA๋Š” ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์—ฐ๊ตฌ ๋ชฉ์ ์œผ๋กœ ์ ‘๊ทผ ๊ฐ€๋Šฅํ•œ ํšจ์œจ์ ์ธ ์–ธ์–ด ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ ๋ฐ ์ž์› ์ตœ์ ํ™”์— ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์œผ๋ฉฐ, ๊ณ ๊ธ‰ NLP ๋„๊ตฌ์— ๋Œ€ํ•œ ์ ‘๊ทผ์„ฑ์„ ํ™•๋Œ€ํ•˜์—ฌ ์—ฐ๊ตฌ์ž๋“ค ๊ฐ„์˜ ํ˜‘์—…์„ ์ด‰์ง„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์€ LLaMA(Large Language Model Meta AI)์˜ ์„ค๊ณ„์™€ ํ›ˆ๋ จ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ์–ธ์–ด ๋ชจ๋ธ(7B์—์„œ 65B ํŒŒ๋ผ๋ฏธํ„ฐ)์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. LLaMA ๋ชจ๋ธ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ๋ฉด์ด ์žˆ์ง€๋งŒ, ๋ช‡ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ฐจ์ด์ ๊ณผ ๊ฐœ์„ ๋œ ๋ถ€๋ถ„์ด ์žˆ์Šต๋‹ˆ๋‹ค. LLaMA์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๋ฉด์„œ๋„ ์‹ค์šฉ์ ์ด๊ณ  ์˜คํ”ˆ ์†Œ์Šค ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ๋งŒ์„ ํ™œ์šฉํ•˜๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ GPT-3๋ณด๋‹ค ์ž‘์€ ๋ชจ๋ธ ํฌ๊ธฐ๋กœ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, PaLM, Chinchilla์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๊ณผ๋„ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ ๋ฐ ์‚ฌ์šฉ

  • ๊ธฐ์กด ๋ชจ๋ธ๋“ค๊ณผ์˜ ์ฐจ์ด์ : GPT-3์™€ ๊ฐ™์€ ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ๋น„๊ณต๊ฐœ ๋ฐ์ดํ„ฐ์…‹์„ ํฌํ•จํ•˜์—ฌ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, GPT-3๋Š” โ€˜Books-2TBโ€™์™€ ๊ฐ™์€ ๋ช…์‹œ๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ๋‚˜ ์†Œ์…œ ๋ฏธ๋””์–ด ๋Œ€ํ™” ๋“ฑ์˜ ๋น„๊ณต๊ฐœ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ์žฌํ˜„์„ฑ์ด๋‚˜ ์—ฐ๊ตฌ์ž๋“ค ๊ฐ„์˜ ์ ‘๊ทผ์„ฑ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์—ˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํˆฌ๋ช…์„ฑ์ด ๋ถ€์กฑํ–ˆ์Šต๋‹ˆ๋‹ค.

    • ๋ฐ์ดํ„ฐ์˜ ๊ณต๊ฐœ์„ฑ : LLaMA๋Š” ์˜ค์ง ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋˜์—ˆ๋‹ค๋Š” ์ ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ๋“ค๊ณผ ์ฐจ๋ณ„ํ™”๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—ฐ๊ตฌ์ž๋“ค์ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ณต์œ ํ•˜๊ณ  ์žฌํ˜„์„ฑ ์žˆ๋Š” ์—ฐ๊ตฌ๋ฅผ ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์˜คํ”ˆ ์†Œ์Šค ์ƒํƒœ๊ณ„์—์„œ ์ค‘์š”ํ•œ ์š”์†Œ๋กœ, ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ๊ฐ€ ํ•ด๋‹น ๋ชจ๋ธ์„ ์‰ฝ๊ฒŒ ์ด์šฉํ•˜๊ณ  ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ : LLaMA๋Š” ๋‹ค์–‘ํ•œ ์ถœ์ฒ˜์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ํ•™์Šต์— ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. CommonCrawl, C4, GitHub, Wikipedia, ArXiv, StackExchange ๋“ฑ ์—ฌ๋Ÿฌ ์ถœ์ฒ˜์—์„œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์„ ๋ณ„ํ•จ์œผ๋กœ์จ ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์˜ ์ง€์‹์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ํŠน์ • ๋ถ„์•ผ์— ์น˜์šฐ์น˜์ง€ ์•Š๊ณ , ์ „๋ฐ˜์ ์ธ ์ง€์‹ ๊ธฐ๋ฐ˜์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ: LLaMA๋Š” ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ ์ค‘๋ณต ์ œ๊ฑฐ(deduplication), ์–ธ์–ด ์‹๋ณ„, ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง ๋“ฑ ์—ฌ๋Ÿฌ ์ •์ œ ๊ณผ์ •์„ ๊ฑฐ์ณค์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, CommonCrawl์—์„œ ์˜์–ด ์™ธ ๋น„์˜์–ด ํŽ˜์ด์ง€๋ฅผ ์ œ๊ฑฐํ•˜๊ณ , ์›น ํŽ˜์ด์ง€ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜์—ฌ ํ•™์Šต์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋”์šฑ ์ •๊ตํ•˜๊ฒŒ ๊ตฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  • ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ : LLaMA๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ํŠธ๋žœ์Šคํฌ๋จธ(Transformer) ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ๊ฐœ์„  ์‚ฌํ•ญ์ด ์ถ”๊ฐ€๋˜์–ด ๊ธฐ์กด ์–ธ์–ด ๋ชจ๋ธ๋ณด๋‹ค ๋” ํšจ์œจ์ ์ธ ํ•™์Šต ๋ฐ ์ถ”๋ก ์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

    • Pre-normalization: ๊ธฐ์กด์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ(GPT-3 ๋“ฑ)์€ ํŠธ๋žœ์Šคํฌ๋จธ ๊ณ„์ธต์˜ ์ถœ๋ ฅ์„ ์ •๊ทœํ™”ํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Š” ํ•™์Šต์˜ ๋ถˆ์•ˆ์ •์„ฑ์„ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • LLaMA๋Š” ์ž…๋ ฅ์„ ์ •๊ทœํ™”ํ•˜๋Š” Pre-normalization ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์—ฌ ํ•™์Šต์˜ ์•ˆ์ •์„ฑ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” RMSNorm์ด๋ผ๋Š” ์ •๊ทœํ™” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์ด ๋” ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
    • SwiGLU ํ™œ์„ฑํ™” ํ•จ์ˆ˜: ๊ธฐ์กด ๋ชจ๋ธ์—์„œ๋Š” ReLU์™€ ๊ฐ™์€ ์ผ๋ฐ˜์ ์ธ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ LLaMA๋Š” SwiGLU๋ผ๋Š” ์ƒˆ๋กœ์šด ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ๋„์ž…ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋” ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
      • SwiGLU๋Š” ReLU๋ณด๋‹ค ๋” ๋ณต์žกํ•œ ํ•จ์ˆ˜๋กœ, ๋ชจ๋ธ์ด ๋” ํšจ๊ณผ์ ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
        • ์ด ํ•จ์ˆ˜๋Š” PaLM ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ๋œ ๋ฐ” ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ํ•™์Šต ํšจ์œจ์„ฑ์ด ๊ฐœ์„ ๋œ๋‹ค๋Š” ๊ฒƒ์ด ์ฆ๋ช…๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • Rotary Embeddings (RoPE): ๊ธฐ์กด์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ๋“ค์€ ์ ˆ๋Œ€์  ์œ„์น˜ ์ •๋ณด๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ์ ˆ๋Œ€ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ๋‚ด ์œ„์น˜ ์ •๋ณด๋ฅผ ๋” ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐ ์ œ์•ฝ์„ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      • LLaMA์—์„œ๋Š” ๊ธฐ์กด Transformer์—์„œ ์‚ฌ์šฉ๋˜๋˜ Absolute Positional Embedding ๋Œ€์‹  Rotary Positional Embeddings (RoPE)๋ฅผ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
      • LLaMA์—์„œ๋Š” ๋„คํŠธ์›Œํฌ์˜ ๊ฐ layer๋งˆ๋‹ค RoPE๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค์„ ๋„์ž…ํ•˜์—ฌ ์ ˆ๋Œ€์  ์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋Œ€์‹  ์ƒ๋Œ€์  ์œ„์น˜ ์ •๋ณด๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
      • Rotary Positional Embeddings (RoPE)๋Š” Transformer ๋ชจ๋ธ์—์„œ ์œ„์น˜ ์ •๋ณด๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. โ€œRoFormer: Enhanced Transformer with Rotary Position Embeddingโ€์—์„œ ๋…ผ๋ฌธ์—์„œ Rotary Position Embedding (RoPE)์ด๋ผ๋Š” ์ธ์ฝ”๋”ฉ ๊ธฐ๋ฒ•์ด ์†Œ๊ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ“‹ Rotary Positional Embeddings (RoPE) ์ž‘๋™์›๋ฆฌ

  • RoPE๋Š” ํšŒ์ „ ํ–‰๋ ฌ(rotation matrix)์„ ์‚ฌ์šฉํ•˜์—ฌ ํ† ํฐ์˜ ์ ˆ๋Œ€์  ์œ„์น˜๋ฅผ ์ธ์ฝ”๋”ฉํ•ฉ๋‹ˆ๋‹ค.

  • ๊ตฌ์ฒด์ ์œผ๋กœ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค:

    1. Query์™€ Key ๋ฒกํ„ฐ์— ํšŒ์ „ ๋ณ€ํ™˜์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค.
    2. ํšŒ์ „ ๊ฐ๋„๋Š” ํ† ํฐ์˜ ์œ„์น˜์— ๋”ฐ๋ผ ๊ฒฐ์ •๋ฉ๋‹ˆ๋‹ค.
    3. ๊ฐ ์ฐจ์›๋งˆ๋‹ค ๋‹ค๋ฅธ ํšŒ์ „๋ฅ ์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค
  • ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ฐ ํ† ํฐํ™”: LLaMA๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹(์•ฝ 1.4์กฐ ๊ฐœ์˜ ํ† ํฐ)์„ ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฉฐ, BPE(Byte-Pair Encoding) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ํ† ํฐํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • ์ค‘์š”ํ•œ ์ ์€ ๋ชจ๋“  ์ˆซ์ž๋ฅผ ๊ฐœ๋ณ„ ์ˆซ์ž๋กœ ๋ถ„๋ฆฌํ•˜๊ณ , ์•Œ๋ ค์ง€์ง€ ์•Š์€ UTF-8 ๋ฌธ์ž๋ฅผ ๋ฐ”์ดํŠธ ๋‹จ์œ„๋กœ ๋ถ„ํ•ดํ•˜์—ฌ ์ฒ˜๋ฆฌํ•œ ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋” ๋‹ค์–‘ํ•œ ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•˜๊ณ  ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    • LLaMA๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์šฉํ•˜๋Š” ํ† ํฐ์˜ ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜์—ฌ ์ž‘์€ ๋ชจ๋ธ์ด๋”๋ผ๋„ ๋” ์˜ค๋žœ ํ•™์Šต์„ ํ†ตํ•ด ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
      • ์˜ˆ๋ฅผ ๋“ค์–ด, Hoffmann ๋“ฑ์˜ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ์–‘์„ ์ ์ ˆํžˆ ์กฐ์ ˆํ•˜๋ฉด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.
      • ๋”ฐ๋ผ์„œ LLaMA๋Š” ๋ชจ๋ธ์˜ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ๊ท ํ˜•์„ ์ตœ์ ํ™”ํ•˜์—ฌ ๋” ์ž‘์€ ๋ชจ๋ธ์ด๋”๋ผ๋„ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜: Umar Jamil - LLaMA explained

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์˜คํ”ˆ ์†Œ์Šค ๋ฐ์ดํ„ฐ์™€ ์—ฐ๊ตฌ ๋ฏผ์ฃผํ™”: ์ €์ž๋“ค์€ LLaMA์˜ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ๋ผ๋Š” ์ ์„ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ ์ƒ์—…์  ๋ชจ๋ธ๋“ค์ด ๋น„๊ณต๊ฐœ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์—ฐ๊ตฌ์ž๋“ค์ด ์ ‘๊ทผํ•˜๊ธฐ ์–ด๋ ค์› ๋˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ , ๋ˆ„๊ตฌ๋‚˜ ์—ฐ๊ตฌ๋ฅผ ์žฌํ˜„ํ•˜๊ณ  ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ํšจ์œจ์ ์ธ ํ•™์Šต๊ณผ ์ถ”๋ก : ๋ชจ๋ธ์˜ ์ถ”๋ก  ์†๋„๋Š” ์‹ค์งˆ์ ์ธ ์‘์šฉ์—์„œ ๋งค์šฐ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ €์ž๋“ค์€ ์„ฑ๋Šฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ถ”๋ก  ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ์ดˆ์ ์„ ๋งž์ท„์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์ž‘์€ ๋ชจ๋ธ์ด๋”๋ผ๋„ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋” ์˜ค๋žœ ์‹œ๊ฐ„ ํ•™์Šต์‹œํ‚ด์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ณ , ์ถ”๋ก  ์‹œ ๋” ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
  • ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์˜ ๊ท ํ˜•: LLaMA๋Š” ๋” ์ ์€ ํ•™์Šต ๋น„์šฉ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์— ์ง‘์ค‘ํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๋ฐ ๋“œ๋Š” ๋น„์šฉ์„ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์ด ์ €์ž๋“ค์ด ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃฌ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.

(๊ฐœ์ธ ์ถ”๊ฐ€)

  1. Llama 2: Open Foundation and Fine-Tuned Chat Models (2023, Meta AI)

๐Ÿ’ก LLaMA 2๋Š” Meta์—์„œ ๊ฐœ๋ฐœํ•œ ๊ณ ์„ฑ๋Šฅ ์–ธ์–ด ๋ชจ๋ธ๋กœ, 7์–ต์—์„œ 700์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋“ค์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, ํŠนํžˆ LLaMA 2-Chat์ด๋ผ๋Š” ๋Œ€ํ™”์šฉ ๋ฒ„์ „๋„ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. LLaMA 2๋Š” ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์—์„œ ๊ธฐ์กด์˜ ์˜คํ”ˆ ์†Œ์Šค ๋ฐ ์ƒ์šฉ ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ํšจ์œจ์„ฑ์—๋„ ์ค‘์ ์„ ๋‘์–ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์€ ๋ชจ๋ธ์„ ์•ˆ์ „ํ•˜๊ฒŒ ์‚ฌ์šฉํ•˜๊ณ , ๊ณต๋™์ฒด๊ฐ€ ์ง€์†์ ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ฌ ์ˆ˜ ์žˆ๋„๋ก ๋‹ค์–‘ํ•œ ์„ธ๋ถ€ ์ •๋ณด๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค.

LLaMA 2๋Š” LLaMA 1 ๋‹ค์Œ์œผ๋กœ Meta๊ฐ€ ๊ฐœ๋ฐœํ•œ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋กœ, 7B, 13B, 70B ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ์˜ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ LLaMA 2-Chat์€ ๋Œ€ํ™” ์‘์šฉ์— ์ตœ์ ํ™”๋œ ๋ชจ๋ธ๋กœ, ์ƒ์—…์  ๋ฐ ์—ฐ๊ตฌ ๋ชฉ์ ์œผ๋กœ ๊ณต๊ฐœ๋œ ๊ฒƒ์ด ํฐ ํŠน์ง•์ž…๋‹ˆ๋‹ค. LLaMA 2๋Š” LLaMA 1 ๋ณด๋‹ค ๋”์šฑ ๋งŽ์€ ๋ฐ์ดํ„ฐ์™€ ํ–ฅ์ƒ๋œ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ด ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์ด ์ž์œ ๋กญ๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ•ํ™” ํ•™์Šต ๋ฐ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ(RLHF)์„ ํ™œ์šฉํ•ด ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ์‘๋‹ต ํ’ˆ์งˆ์„ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ AI ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์™€ ์‹ค์šฉ์  ์‘์šฉ์—์„œ ์ค‘์š”ํ•œ ๋„์•ฝ์„ ์ด๋ฃจ๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์•„๋ž˜ ์‚ฌ์ง„ ์ž๋ฃŒ๋“ค์€ ๊ณ ๋ ค๋Œ€ํ•™๊ต DSBA์—ฐ๊ตฌ์‹ค ์„๋ฐ•ํ†ตํ•ฉ๊ณผ์ • ๊น€์žฌํฌ ์„ธ๋ฏธ๋‚˜ ์ž๋ฃŒ๋ฅผ ํ™œ์šฉํ•ด์„œ ์ž‘์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค!

์ฃผ์š” ๋‚ด์šฉ

  • LLaMA 2 ๋ชจ๋ธ: 7B, 13B, 70B ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์‚ฌ์ „ ํ•™์Šต(pretraining) ๋‹จ๊ณ„์—์„œ 2์กฐ ๊ฐœ์˜ ํ† ํฐ์„ ์‚ฌ์šฉํ•ด ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „ LLaMA 1๋ณด๋‹ค 40% ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

    • ์‚ฌ์ „ ํ•™์Šต ๋ฐ์ดํ„ฐ๋Š” ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋งŒ ์ˆ˜์ง‘๋˜์—ˆ์œผ๋ฉฐ, ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ์ •๋ณด์— ์ค‘์ ์„ ๋‘๊ณ  ๋ฐ์ดํ„ฐ ์ •์ œ ๊ณผ์ •์„ ๊ฑฐ์ณ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • LLaMA 2 ๋ชจ๋ธ์€ Grouped Query Attention(GQA)์™€ ๊ฐ™์€ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ๋„์ž…ํ•˜์—ฌ ์ถ”๋ก  ํ™•์žฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋” ๊ธด ์ž…๋ ฅ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ปจํ…์ŠคํŠธ ๊ธธ์ด๋ฅผ 4,096 ํ† ํฐ์œผ๋กœ ๋Š˜๋ ธ์Šต๋‹ˆ๋‹ค.
  • LLaMA 2-Chat: ๋Œ€ํ™”ํ˜• ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์— ์ตœ์ ํ™”๋œ ๋ฒ„์ „์œผ๋กœ, ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

    • RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™” ํ•™์Šต)๋ฅผ ํ†ตํ•ด ๋„์›€์„ฑ(helpfulness)๊ณผ ์•ˆ์ „์„ฑ(safety)์„ ๊ฐœ์„ ํ–ˆ์œผ๋ฉฐ, ์‚ฌ์šฉ์ž์˜ ์š”์ฒญ์„ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ , ์•ˆ์ „ํ•œ ๋‹ต๋ณ€์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • ์—ฌ๋Ÿฌ ๋ฒค์น˜๋งˆํฌ์—์„œ ์˜คํ”ˆ ์†Œ์Šค ์ฑ—๋ด‡ ๋ชจ๋ธ์„ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, ์ƒ์šฉ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•ด๋„ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Ghost Attention

  • Ghost Attention(GAtt)์€ LLaMA 2์—์„œ ๋„์ž…๋œ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ๋กœ, ๋ชจ๋ธ์ด ๋” ๊ธด ์ž…๋ ฅ(๋ฌธ๋งฅ)์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ์ฃผ๋œ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค. ์ด ๊ธฐ์ˆ ์€ ์ถ”๋ก  ํ™•์žฅ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•˜๋ฉฐ, ๊ธฐ์กด๋ณด๋‹ค ๋” ๋งŽ์€ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ๊ฐœ๋… ์„ค๋ช…: Ghost Attention์€ ๋ชจ๋ธ์ด ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ์ค„์—ฌ์ฃผ๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค.
      • ํŠนํžˆ, ๊ธฐ์กด์˜ Self-Attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์—์„œ๋Š” ๊ธด ์ž…๋ ฅ์ด ๋“ค์–ด์˜ฌ์ˆ˜๋ก ์—ฐ์‚ฐ ๋น„์šฉ์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฌธ์ œ์ ์ด ์žˆ์—ˆ๋Š”๋ฐ, Ghost Attention์€ ์ด๋Ÿฌํ•œ ์—ฐ์‚ฐ ๊ณผ๋ถ€ํ•˜๋ฅผ ์ค„์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
    • ํ† ํฐ ์ˆ˜ ํ™•์žฅ: Ghost Attention์€ Grouped Query Attention(GQA)๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฐฉ๋ฒ•๋ก ์„ ํ™œ์šฉํ•˜์—ฌ, ๋” ๊ธด ์ž…๋ ฅ ๋ฌธ๋งฅ์„ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๋ฐฉ๋ฒ•์€ ๊ธด ๋ฌธ์žฅ์„ ํ•˜๋‚˜์˜ ํฐ ๋ธ”๋ก์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๋Œ€์‹ , ๋ฌธ์žฅ์„ ์—ฌ๋Ÿฌ ์ž‘์€ ๊ทธ๋ฃน์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•จ์œผ๋กœ์จ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.
      • ์ด ๋•๋ถ„์— LLaMA 2๋Š” ์ด์ „๋ณด๋‹ค ๋” ๊ธด ์ž…๋ ฅ(์ตœ๋Œ€ 4,096 ํ† ํฐ)์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” ๋” ๋ณต์žกํ•œ ๋Œ€ํ™”๋‚˜ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
  • Ghost Attention์€ ์ด๋ ‡๊ฒŒ ๊ธด ์ž…๋ ฅ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜๋ฉด์„œ๋„, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•œ ํ˜์‹ ์ ์ธ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค.
  • ์•ˆ์ „์„ฑ: LLaMA 2 ๋ชจ๋ธ์€ ์•ˆ์ „์„ฑ์„ ์šฐ์„ ์‹œํ•˜์—ฌ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์ „ ํ•™์Šต ๋‹จ๊ณ„๋ถ€ํ„ฐ ๋ฏผ๊ฐํ•œ ์ •๋ณด์™€ ๊ฐœ์ธ์ •๋ณด๊ฐ€ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ , ์•ˆ์ „ํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์•ˆ์ „์„ฑ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๋ ˆ๋“œํŒ€ ํ‰๊ฐ€(red-teaming)๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์ทจ์•ฝ์„ฑ์„ ๋ถ„์„ํ•˜๊ณ , ์•ˆ์ „์„ฑ ๋ฏธ์„ธ ์กฐ์ •์„ ๊ฑฐ์ณ ๋ฌธ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋Š” ์ƒํ™ฉ์—์„œ ๋ชจ๋ธ์ด ์œ ํ•ดํ•œ ์ถœ๋ ฅ์„ ๋ฐฉ์ง€ํ•˜๋„๋ก ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฏธ์„ธ ์กฐ์ •(Fine-tuning): Llama 2์˜ ํŒŒ์ธํŠœ๋‹์€ ์ฃผ์š” ๋‘ ๊ฐ€์ง€ ๊ณผ์ •์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค: Supervised Fine-Tuning (SFT)์™€ Reinforcement Learning with Human Feedback (RLHF).

    • ์ง€๋„ ํ•™์Šต(Supervised Fine-Tuning, SFT): SFT๋Š” ์‚ฌ์šฉ์ž์˜ ์ž…๋ ฅ์— ๋งž์ถฐ ๋ชจ๋ธ์ด ์ ์ ˆํ•˜๊ฒŒ ๋ฐ˜์‘ํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๊ธฐ๋ณธ์ ์œผ๋กœ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ํ•ด๋‹น ์‘๋‹ต์ด ์ ์ ˆํ•œ์ง€ ํ‰๊ฐ€ํ•˜์—ฌ ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

      • ๋‹ค์–‘ํ•œ ๋Œ€ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋ฉฐ, ๋ผ๋ฒจ์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ์˜ฌ๋ฐ”๋ฅธ ์‘๋‹ต ์ƒ์„ฑ์„ ๋ฐฐ์›๋‹ˆ๋‹ค.
      • ํŒŒ์ธํŠœ๋‹ ๊ณผ์ •์—์„œ ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ํŒจํ„ด์„ ์ดํ•ดํ•˜๊ณ , ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ์— ๋” ์ ์ ˆํ•˜๊ฒŒ ์‘๋‹ตํ•˜๋„๋ก ๊ฐ•ํ™”๋ฉ๋‹ˆ๋‹ค.
      • SFT ๋ฐ์ดํ„ฐ์…‹: ์‚ฌ์šฉ์ž์˜ ๋‹ค์–‘ํ•œ ์š”์ฒญ๊ณผ ๊ทธ์— ์ ํ•ฉํ•œ ์‘๋‹ต์„ ํฌํ•จํ•˜๋Š”๋ฐ, ์ด๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ์‹ค์ œ๋กœ ์ž…๋ ฅํ•˜๋Š” ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋ชจ๋ธ์ด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋‹ต๋ณ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‰ด์Šค๋‚˜ ํŠธ์œ„ํ„ฐ์—์„œ ์–ป์€ ์ผ๋ฐ˜์ ์ธ ๋ฌธ์žฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•™์Šต์„ ์‹œ์ผœ์•ผ ์ฑ—๋ด‡์—์„œ ์ œ๋Œ€๋กœ ๋™์ž‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™” ํ•™์Šต): RLHF๋Š” ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ๋ฌธ์žฅ์— ๋Œ€ํ•ด ์ธ๊ฐ„์ด ์„ ํ˜ธํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์‘๋‹ตํ•˜๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์ด ์‘๋‹ต์˜ ์งˆ์„ ํ‰๊ฐ€ํ•˜๊ณ , ๊ทธ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ•ํ™”ํ•™์Šต์„ ํ†ตํ•ด ๋ชจ๋ธ์„ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.

      • Proximal Policy Optimization (PPO): ๋ชจ๋ธ์˜ ์ •์ฑ…์„ ์ง€์†์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ์— ๋งž์ถฐ ๋ณด์ƒ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.
      • Rejection Sampling: ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‘๋‹ต์„ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•˜๊ณ , ๊ทธ ์ค‘ ๊ฐ€์žฅ ๋†’์€ ๋ณด์ƒ์„ ๋ฐ›๋Š” ์‘๋‹ต์„ ์„ ํƒํ•˜์—ฌ ๋‹ค์‹œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ง„ํ–‰๋˜์–ด ๊ฐ ์‘๋‹ต์˜ ์งˆ์„ ๋†’์ž…๋‹ˆ๋‹ค.
      • RLHF ๋ฐ์ดํ„ฐ์…‹: RLHF ๊ณผ์ •์—์„œ๋Š” ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์ด ๊ฐ ์‘๋‹ต์˜ ์ ์ ˆ์„ฑ์„ ํ‰๊ฐ€ํ•˜์—ฌ ํ•™์Šต์„ ๋•์Šต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์‚ฌ์šฉ์ž์˜ ์ž…๋ ฅ๊ณผ ๋ชจ๋ธ์˜ ์‘๋‹ต์„ ๋น„๊ตํ•˜์—ฌ ๋” ์ ์ ˆํ•œ ๋‹ต๋ณ€์„ ์„ ํƒํ•˜๊ณ , ์ด๋ฅผ ๊ฐ•ํ™” ํ•™์Šต์— ๋ฐ˜์˜ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
    • ํŠนํžˆ, ๋ฆฌ๋งˆ ๋…ผ๋ฌธ์—์„œ๋Š” SFT ๋ฐ์ดํ„ฐ์…‹์˜ ์–‘๋ณด๋‹ค๋Š” ์งˆ์ด ์ค‘์š”ํ•˜๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ ์ ˆํ•œ ์‘๋‹ต์„ ํฌํ•จํ•œ ๊ณ ํ’ˆ์งˆ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•™์Šต์„ ์ง„ํ–‰ํ•˜๋Š” ๊ฒƒ์ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค.

Dataset ์ˆ˜์ง‘ ์ ˆ์ฐจ โ€“ Supervised Fine-Tuning (SFT)

  • Supervised Fine-Tuning(SFT)๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ๋ชจ๋ธ์ด ์‚ฌ์ „ ํ•™์Šต ํ›„ ์‹ค์ œ ์‘์šฉ ํ™˜๊ฒฝ์—์„œ ๋”์šฑ ์ •๊ตํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“œ๋Š” ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. LLaMA 2์—์„œ๋Š” ์ด ๊ณผ์ •์—์„œ ๋ผ๋ฒจ์ด ๋ถ€์—ฌ๋œ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ํŠน์ • ์‘๋‹ต์„ ์ ์ ˆํ•˜๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

    • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ณผ์ •: SFT์—์„œ๋Š” ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ ์†Œ์Šค(์˜ˆ: ๋‰ด์Šค ๊ธฐ์‚ฌ, ์›นํŽ˜์ด์ง€, ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ, ์†Œ์…œ ๋ฏธ๋””์–ด ๋“ฑ)์—์„œ ์‚ฌ์šฉ์ž์˜ ์งˆ๋ฌธ๊ณผ ๊ทธ์— ๋Œ€์‘ํ•˜๋Š” ์ ์ ˆํ•œ ์‘๋‹ต์„ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋Š” ์‚ฌ๋žŒ์˜ ํŒ๋‹จ์— ๋”ฐ๋ผ ๋ ˆ์ด๋ธ”๋ง์ด ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ์ด ์ •๊ตํ•˜๊ฒŒ ์งˆ๋ฌธ์— ๋งž๋Š” ๋‹ต๋ณ€์„ ํ•˜๋„๋ก ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค.
    • ๋ฐ์ดํ„ฐ ์งˆ ๊ด€๋ฆฌ: LLaMA 2๋Š” ํ•™์Šต์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ์…‹์˜ ์–‘๋ณด๋‹ค ์งˆ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์€ ์ฒ ์ €ํ•œ ์ •์ œ ๊ณผ์ •์„ ๊ฑฐ์น˜๋ฉฐ, ๋ถ€์ •ํ™•ํ•˜๊ฑฐ๋‚˜ ๋ถˆํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฑธ๋Ÿฌ๋ƒ…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ ํ•™์Šต๋œ ๋ฐ์ดํ„ฐ๋Š” ์‹ค์ œ ์‘์šฉ์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • SFT๋Š” ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ์— ์ ํ•ฉํ•˜๊ฒŒ ๋ฐ˜์‘ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ง€๋„ ํ•™์Šต(Supervised Learning)์„ ์ง„ํ–‰ํ•˜๋Š” ์ค‘์š”ํ•œ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

Dataset ์ˆ˜์ง‘ ์ ˆ์ฐจ โ€“ Human Preference

  • Human Preference ๋ฐ์ดํ„ฐ์…‹์€ RLHF(Reinforcement Learning with Human Feedback) ๊ณผ์ •์˜ ํ•ต์‹ฌ์„ ์ด๋ฃจ๋Š” ์š”์†Œ๋กœ, ์‚ฌ๋žŒ์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฐฉ์‹์œผ๋กœ ์‘๋‹ตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ธ๊ฐ„ ํ‰๊ฐ€์ž๊ฐ€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ ์‘๋‹ต ์ค‘ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ฒƒ์„ ์„ ํƒํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์ˆ˜์ง‘๋˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ์ธ๊ฐ„์ด ์„ ํ˜ธํ•˜๋Š” ์‘๋‹ต ๋ฐฉ์‹์„ ๋ชจ๋ธ์— ๋ฐ˜์˜ํ•ฉ๋‹ˆ๋‹ค.

    • ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๊ณผ์ •: LLaMA 2๋Š” ๋ชจ๋ธ์ด ํŠน์ • ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋‹ค์–‘ํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋Š” ์ด ์ค‘ ๊ฐ€์žฅ ์ ํ•ฉํ•œ ์‘๋‹ต์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด ์„ ํƒ ๊ณผ์ •์—์„œ ํ‰๊ฐ€์ž์˜ ์ง๊ด€๊ณผ ๊ฒฝํ—˜์ด ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์€ ์ธ๊ฐ„์˜ ์˜๋„๋ฅผ ๋ณด๋‹ค ์ž˜ ๋ฐ˜์˜ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋ฉ๋‹ˆ๋‹ค.
    • ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ์—ญํ• : ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ์ธ๊ฐ„์˜ ํ‰๊ฐ€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‘๋‹ต์— ์ ์ˆ˜๋ฅผ ๋งค๊ธฐ๊ณ , ๊ทธ ์ ์ˆ˜์— ๋”ฐ๋ผ ๋ชจ๋ธ์ด ๋” ๋‚˜์€ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ฐ•ํ™”ํ•™์Šต์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ์ธ๊ฐ„์˜ ์„ ํ˜ธ๋„์— ๋งž์ถ˜ ๋” ์ •๊ตํ•œ ๋‹ต๋ณ€์„ ํ•™์Šตํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ์ด ๊ณผ์ •์€ ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž์—๊ฒŒ ๋” ์œ ์šฉํ•˜๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ์‘๋‹ต์„ ์ œ๊ณตํ•˜๋„๋ก ์กฐ์ •ํ•˜๋Š” ๋ฐ ๋งค์šฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค.

Reward Model ํ›ˆ๋ จ

  • Reward Model์€ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์‘๋‹ต์„ ํ‰๊ฐ€ํ•˜๊ณ  ๋ณด์ƒ์„ ํ• ๋‹นํ•˜๋Š” ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™” ํ•™์Šต) ๊ณผ์ •์—์„œ, ์ธ๊ฐ„ ํ‰๊ฐ€์ž์˜ ํ”ผ๋“œ๋ฐฑ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‘๋‹ต์˜ ์งˆ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

    • ํ›ˆ๋ จ ๊ณผ์ •: ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ์ธ๊ฐ„ ํ‰๊ฐ€์ž๊ฐ€ ์„ ํƒํ•œ ์„ ํ˜ธ ์‘๋‹ต์— ๋†’์€ ๋ณด์ƒ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ณด์ƒ ์ ์ˆ˜๋Š” ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์ด ์–ผ๋งˆ๋‚˜ ์ ์ ˆํ•œ์ง€ ํŒ๋‹จํ•˜๋Š” ๊ธฐ์ค€์ด ๋˜๋ฉฐ, ์ด ์ •๋ณด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ์‘๋‹ต ์ƒ์„ฑ ๋ฐฉ์‹์„ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    • Rejection Sampling: ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•œ ํ›„, ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ๊ฐ€์žฅ ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์€ ์‘๋‹ต์„ ์„ ํƒํ•˜์—ฌ ๋‹ค์‹œ ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ ์šฉํ•˜์—ฌ, ์ ์  ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ์ด๋Ÿฌํ•œ ํ‰๊ฐ€ ๊ณผ์ •์„ ํ†ตํ•ด ์‘๋‹ต์˜ ์ •ํ™•์„ฑ๊ณผ ์ ํ•ฉ์„ฑ์„ ์ง€์†์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

Iterative Fine-tuning

  • Iterative Fine-Tuning์€ RLHF ๊ณผ์ •์—์„œ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋Š” ๋ฏธ์„ธ ์กฐ์ • ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์€ ํ”ผ๋“œ๋ฐฑ๊ณผ ๋ณด์ƒ ๋ฐ์ดํ„ฐ๋ฅผ ์ง€์†์ ์œผ๋กœ ์ ์šฉ๋ฐ›์•„, ์ ์ง„์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ๊ฐœ์„ ํ•ด ๋‚˜๊ฐ‘๋‹ˆ๋‹ค.

    • ์ฃผ๊ธฐ์  ํ•™์Šต: ๋ชจ๋ธ์€ RLHF ๊ณผ์ •์—์„œ ์–ป์€ ํ”ผ๋“œ๋ฐฑ์„ ์ฃผ๊ธฐ์ ์œผ๋กœ ํ•™์Šตํ•˜๋ฉด์„œ, ๊ฐ ๋ฐ˜๋ณต ํ•™์Šต ์ฃผ๊ธฐ๋งˆ๋‹ค ์ ์ง„์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ๋ชจ๋ธ์ด ๋” ์ •ํ™•ํ•˜๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.
    • ํ”ผ๋“œ๋ฐฑ ๋ฐ˜์˜: ๋งค ํ•™์Šต ์ฃผ๊ธฐ๋งˆ๋‹ค ์ธ๊ฐ„์˜ ํ”ผ๋“œ๋ฐฑ๊ณผ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ ๋ฐ˜์˜๋˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์„ธ๋ถ€์ ์œผ๋กœ ์กฐ์ •ํ•˜๊ณ  ๋”์šฑ ์ •๋ฐ€ํ•˜๊ฒŒ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด ๊ณผ์ •์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ํŠน์ • ์ฃผ๊ธฐ์— ๋จธ๋ฌผ์ง€ ์•Š๊ณ , ๊ณ„์†ํ•ด์„œ ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ๋„๋ก ๋ฐ˜๋ณต์ ์œผ๋กœ ํ•™์Šต์„ ์ ์šฉํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

์ตœ์ข… ํ›ˆ๋ จ

  • ์ตœ์ข… ํ›ˆ๋ จ์€ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•˜๊ณ  ์‚ฌ์šฉํ•˜๊ธฐ ์ „์—, Proximal Policy Optimization (PPO)๋ฅผ ํ™œ์šฉํ•ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค.

    • ์ด ๋‹จ๊ณ„๋Š” ๋ชจ๋ธ์ด ์‹ค์ œ ํ™˜๊ฒฝ์—์„œ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ ์ ˆํ•œ ์‘๋‹ต์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ฏธ์„ธ ์กฐ์ •ํ•˜๋Š” ๊ณผ์ •์œผ๋กœ, ์‚ฌ์šฉ์ž์—๊ฒŒ ๋” ๋‚˜์€ ์‘๋‹ต์„ ์ œ๊ณตํ•˜๊ณ , ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ๋„์›€์„ฑ์„ ๊ฐ•ํ™”ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘ก๋‹ˆ๋‹ค.

      1. Prompt ์ž…๋ ฅ: ์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ ๋ฌธ์žฅ์ด Prompt๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ โ€œ์™œ ๋ฌด์Šฌ๋ฆผ๋“ค์€ ํ…Œ๋Ÿฌ๋ฆฌ์ŠคํŠธ๊ฐ€ ๋˜๋Š”๊ฑฐ์•ผ?โ€๋ผ๋Š” ์งˆ๋ฌธ์„ ์ž…๋ ฅํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      2. ๋ชจ๋ธ์˜ ์ดˆ๊ธฐ ์‘๋‹ต ์ƒ์„ฑ: Aligned Model์€ Prompt์— ๋งž์ถฐ ์‘๋‹ต์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, โ€œ์ฟ ๋ž€์— ํ…Œ๋Ÿฌ๋ฅผ ์ €์ง€๋ฅด๋ผ๊ณ  ์“ฐ์—ฌ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.โ€๋ผ๋Š” ๋ถ€์ ์ ˆํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
      3. ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ํ‰๊ฐ€: Reward Model์€ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์‘๋‹ต์— ๋Œ€ํ•ด ์•ˆ์ „์„ฑ(Safety)๊ณผ ๋„์›€์„ฑ(Helpfulness)์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. (๋งŒ์•ฝ ์‘๋‹ต์ด ์•ˆ์ „ํ•˜์ง€ ์•Š๊ฑฐ๋‚˜, ์œ ํ•ดํ•œ ์ •๋ณด๋ฅผ ํฌํ•จํ•  ๊ฒฝ์šฐ ์•ˆ์ „์„ฑ ๊ธฐ์ค€์„ ์ ์šฉํ•ด ์•ˆ์ „ํ•œ ์‘๋‹ต์ด ์„ ํƒ๋  ์ˆ˜ ์žˆ๋„๋ก ๋ณด์ƒ์„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.)

        • Reward Function: ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ๋ณด์ƒ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ์‘๋‹ต์˜ ์ ์ ˆ์„ฑ์„ ํŒ๋‹จํ•ฉ๋‹ˆ๋‹ค.

          • ๋ฆฌ์›Œ๋“œ ์ ์ˆ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.R(gโˆฃp)=R^c(gโˆฃp)โˆ’ฮฒDKL(ฯ€ฮธ(gโˆฃp)โˆฅฯ€0(gโˆฃp))R(g \mid p) = \hat{R}_c(g \mid p) - \beta D_{KL}(\pi_{\theta}(g \mid p) \parallel \pi_0(g \mid p))R(gโˆฃp)=R^cโ€‹(gโˆฃp)โˆ’ฮฒDKLโ€‹(ฯ€ฮธโ€‹(gโˆฃp)โˆฅฯ€0โ€‹(gโˆฃp))์—ฌ๊ธฐ์„œ R^c(gโˆฃp)\hat{R}_c(g \mid p)R^cโ€‹(gโˆฃp)๋Š” ๋ฆฌ์›Œ๋“œ ์ ์ˆ˜, ฮฒDKL\beta D_{KL}ฮฒDKLโ€‹๋Š” ๋ณด์ƒ ์กฐ์ •์— ๋”ฐ๋ฅธ ์ •์ฑ…์˜ ์•ˆ์ •์„ฑ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
        • Reward ์ ์ˆ˜ ์‚ฐ์ถœ ๋ฐฉ์‹: ์ƒ์„ฑ๋œ ์‘๋‹ต์ด ์•ˆ์ „ํ•˜์ง€ ์•Š๋‹ค๋ฉด, ์•ˆ์ „์„ฑ ๋ชจ๋ธ์—์„œ ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋Š” ๋„์›€์„ฑ ๋ชจ๋ธ์„ ํ†ตํ•ด ์‘๋‹ต์˜ ์งˆ์„ ํ‰๊ฐ€ํ•ด ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.

          • ์˜ˆ๋ฅผ ๋“ค์–ด, Safety Model์ด ์‘๋‹ต์ด ์•ˆ์ „ํ•˜์ง€ ์•Š๋‹ค๊ณ  ํ‰๊ฐ€ํ•˜๋ฉด ์•ˆ์ „ ์ ์ˆ˜๋ฅผ ํ• ๋‹นํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š๋‹ค๋ฉด Helpfulness Model์—์„œ ์ ์ ˆํ•œ ์‘๋‹ต์œผ๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.
      4. ์‚ฌ์šฉ์ž ํ”ผ๋“œ๋ฐฑ: ์‚ฌ์šฉ์ž๋Š” ์ƒ์„ฑ๋œ ์‘๋‹ต์„ ๋ณด๊ณ  ์„ ํ˜ธํ•˜๋Š” ์‘๋‹ต์— ๋Œ€ํ•ด ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”ผ๋“œ๋ฐฑ์€ ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์š”์†Œ๋กœ, PPO ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

๐Ÿค– Proximal Policy Optimization (PPO)

PPO(Proximal Policy Optimization)๋Š” RLHF์—์„œ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ๋ณด์ƒ ์ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ชจ๋ธ์˜ ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ฐ•ํ™” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค.

  • PPO๋Š” ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•˜๋Š” ๊ณผ์ •์—์„œ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•˜๋ฉด์„œ๋„ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    1. ์ •์ฑ… ๊ธฐ๋ฐ˜ ๊ฐ•ํ™” ํ•™์Šต: PPO๋Š” ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์‘๋‹ต์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •์ฑ…(policy)์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ •์ฑ…์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์ตœ์ ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ํ–‰๋™ ์„ ํƒ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๋งํ•ฉ๋‹ˆ๋‹ค.
    2. ๋ฆฌ์›Œ๋“œ ๊ธฐ๋ฐ˜ ์—…๋ฐ์ดํŠธ: ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์ด ๊ฐ ์‘๋‹ต์— ๋ถ€์—ฌํ•œ ๋ณด์ƒ ์ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, PPO๋Š” ๋ชจ๋ธ์˜ ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋” ๋†’์€ ๋ณด์ƒ์„ ๋ฐ›์€ ์‘๋‹ต์ด ๋ชจ๋ธ์˜ ์ •์ฑ… ์—…๋ฐ์ดํŠธ์— ๋” ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์ด ๋” ๋‚˜์€ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋„๋ก ํ•™์Šต์ด ์ง„ํ–‰๋ฉ๋‹ˆ๋‹ค.
    3. ์ •์ฑ…์˜ ์•ˆ์ •์  ์—…๋ฐ์ดํŠธ: PPO์˜ ํŠน์ง•์€ ํด๋ฆฌํ•‘(clipping) ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ •์ฑ…์ด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ๋ณ€ํ™”ํ•˜์ง€ ์•Š๋„๋ก ์ œํ•œํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฐ•ํ™” ํ•™์Šต ๊ณผ์ •์—์„œ ๊ณผ๋„ํ•œ ์ •์ฑ… ๋ณ€๊ฒฝ์œผ๋กœ ์„ฑ๋Šฅ์ด ๋ถˆ์•ˆ์ •ํ•ด์ง€๋Š” ๋ฌธ์ œ๋ฅผ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค. PPO๋Š” ์ •์ฑ…์„ ์ ์ง„์ ์œผ๋กœ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ์•ˆ์ •์„ฑ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    4. ๋ฐ˜๋ณต ํ•™์Šต: PPO๋Š” ์—ฌ๋Ÿฌ ํ•™์Šต ์ฃผ๊ธฐ ๋™์•ˆ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ๋ณด์ƒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ •์ฑ…์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉด์„œ, ๋ชจ๋ธ์˜ ์‘๋‹ต ํ’ˆ์งˆ์€ ์ ์ฐจ ํ–ฅ์ƒ๋ฉ๋‹ˆ๋‹ค.

๐Ÿค– RLHF(์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ํ†ตํ•œ ๊ฐ•ํ™” ํ•™์Šต)

Reinforcement Learning with Human Feedback (RLHF)๋Š” LLaMA 2์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉ์ž์˜ ์š”๊ตฌ์— ๋”์šฑ ์ ์ ˆํ•˜๊ณ  ์œ ์šฉํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ๋ชจ๋ธ์„ ๊ฐ•ํ™” ํ•™์Šต์‹œํ‚ค๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

  • ์ด ๊ณผ์ •์—์„œ๋Š” ์ธ๊ฐ„ ํ‰๊ฐ€์ž๊ฐ€ ๋ชจ๋ธ์˜ ์ถœ๋ ฅ๋ฌผ์„ ์ง์ ‘ ํ‰๊ฐ€ํ•˜๊ณ , ๊ทธ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ชจ๋ธ์ด ํ•™์Šตํ•˜๋Š”๋ฐ, ์ด๋•Œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๋Š” ๊ฒƒ์ด ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ๊ณผ PPO์ž…๋‹ˆ๋‹ค.
    1. ๋ชจ๋ธ ์‘๋‹ต ์ƒ์„ฑ: ์šฐ์„  ๋ชจ๋ธ์€ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์‘๋‹ต์˜ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€๋Šฅํ•œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์„ ํƒ์ง€๋“ค์ด ๋งŒ๋“ค์–ด์ง‘๋‹ˆ๋‹ค.
    2. ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ ์ˆ˜์ง‘: ์ƒ์„ฑ๋œ ์—ฌ๋Ÿฌ ์‘๋‹ต์— ๋Œ€ํ•ด ์ธ๊ฐ„ ํ‰๊ฐ€์ž๊ฐ€ ์ง์ ‘ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ฐ„ ํ‰๊ฐ€์ž๋Š” ์‘๋‹ต ์ค‘์—์„œ ๊ฐ€์žฅ ์ ํ•ฉํ•˜๊ณ  ์œ ์šฉํ•œ ๋‹ต๋ณ€์„ ์„ ํƒํ•˜๋ฉฐ, ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ณด์ƒ ์ ์ˆ˜๋ฅผ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์„ ํ˜ธ ์‘๋‹ต์— ๋” ๋†’์€ ๋ณด์ƒ์ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค.
    3. ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์˜ ํ›ˆ๋ จ: ์ธ๊ฐ„ ํ‰๊ฐ€์ž์˜ ํ”ผ๋“œ๋ฐฑ์€ ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋ฐ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์‘๋‹ต์˜ ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๊ณ , ์ธ๊ฐ„ ํ‰๊ฐ€์ž๊ฐ€ ๋ถ€์—ฌํ•œ ๋ณด์ƒ์„ ๊ธฐ์ค€์œผ๋กœ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ์ดํ›„, ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์€ ๊ฐ ์‘๋‹ต์— ๋Œ€ํ•ด ์–ผ๋งˆ๋‚˜ ์ ์ ˆํ•œ์ง€๋ฅผ ํŒ๋‹จํ•˜์—ฌ ์ ์ˆ˜(๋ณด์ƒ)๋ฅผ ๋ถ€์—ฌํ•˜๋Š” ์ž๋™ํ™”๋œ ํ‰๊ฐ€์ž๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
    4. PPO๋ฅผ ํ†ตํ•œ ์ •์ฑ… ์—…๋ฐ์ดํŠธ: ๋ฆฌ์›Œ๋“œ ๋ชจ๋ธ์ด ํ‰๊ฐ€ํ•œ ๋ณด์ƒ ์ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, Proximal Policy Optimization(PPO) ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์‚ฌ์šฉ๋˜์–ด ๋ชจ๋ธ์˜ ์ •์ฑ…(policy)์„ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์€ ์‘๋‹ต์˜ ์งˆ์„ ์ง€์†์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ํ•ต์‹ฌ ๋‹จ๊ณ„๋กœ, PPO๋Š” ๋ชจ๋ธ์ด ์ตœ์ ์˜ ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•™์Šต์„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์˜คํ”ˆ ์†Œ์Šค ์—ฐ๊ตฌ ์ด‰์ง„:

    • LLaMA 2๋Š” ์—ฐ๊ตฌ์ž๋“ค์ด ์ž์œ ๋กญ๊ฒŒ ์‚ฌ์šฉํ•˜๊ณ  ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์˜คํ”ˆ ์†Œ์Šค๋กœ ์ œ๊ณต๋˜๋ฉฐ, ์ด๋Š” AI ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ํ˜‘๋ ฅ๊ณผ ํ˜์‹ ์„ ์ด‰์ง„ํ•˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ์—ฌ๋กœ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค.
    • ์ƒ์—…์  ์šฉ๋„๋กœ๋„ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๊ฒŒ ๊ณต๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” LLaMA 1๊ณผ๋Š” ๋‹ค๋ฅธ ์ค‘์š”ํ•œ ์ฐจ์ด์ ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‚ฐ์—…๊ณ„์—์„œ๋„ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ:

    • LLaMA 2๋Š” ๊ณต๊ฐœ๋œ ๋ฐ์ดํ„ฐ๋งŒ์„ ์‚ฌ์šฉํ–ˆ์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ChatGPT, BARD์™€ ๊ฐ™์€ ์ƒ์šฉ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ•ด๋„ ์œ ์‚ฌํ•œ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
    • ํŠนํžˆ 70B ๋ชจ๋ธ์€ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ•˜์˜€๊ณ , ๋Œ€ํ™”ํ˜• ์‘์šฉ์— ์ตœ์ ํ™”๋œ LLaMA 2-Chat์€ ์ƒ์šฉ ์ฑ—๋ด‡๊ณผ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • ์ฑ…์ž„ ์žˆ๋Š” AI ๊ฐœ๋ฐœ:

    • LLaMA 2๋Š” AI ๋ชจ๋ธ์˜ ์•ˆ์ „์„ฑ๊ณผ ์œค๋ฆฌ์  ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ๊ฐœ๋ฐœ์ž๋“ค์ด ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๋•Œ ์•ˆ์ „์„ฑ์„ ๊ฐ•ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
    • ๊ฐ•ํ™”๋œ ์•ˆ์ „์„ฑ ํ‰๊ฐ€ ๋ฐ ๋ฏธ์„ธ ์กฐ์ • ์ ˆ์ฐจ๋Š” LLaMA 2 ๋ชจ๋ธ์ด ์‹ค์งˆ์ ์ธ ์‘์šฉ ํ™˜๊ฒฝ์—์„œ ์•ˆ์ „ํ•˜๊ฒŒ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋„๋ก ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ’ก LLaMA 1 vs LLaMA 2

  • ๋ชจ๋ธ ํฌ๊ธฐ: LLaMA 2๋Š” 7B, 13B, 70B ๋ชจ๋ธ๋กœ ์ œ๊ณต๋˜๋ฉฐ, LLaMA 1๊ณผ ๋‹ฌ๋ฆฌ 34B ๋ฐ 65B ๋ชจ๋ธ์ด ์ œ๊ณต๋˜์ง€ ์•Š๊ฑฐ๋‚˜ ์ถœ์‹œ๊ฐ€ ์ง€์—ฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€์‹  70B ๋ชจ๋ธ์€ ๋” ํฐ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ: LLaMA 2๋Š” LLaMA 1์— ๋น„ํ•ด 40% ๋” ๋งŽ์€ 2์กฐ ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLaMA 2์˜ ์ง€์‹ ๊ธฐ๋ฐ˜๊ณผ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์š”์†Œ์ž…๋‹ˆ๋‹ค.
  • ์ปจํ…์ŠคํŠธ ๊ธธ์ด ํ™•์žฅ: LLaMA 1์˜ ์ปจํ…์ŠคํŠธ ์ฐฝ์ด 2,048 ํ† ํฐ์ด์—ˆ๋˜ ๋ฐ˜๋ฉด, LLaMA 2๋Š” 4,096 ํ† ํฐ*์œผ๋กœ ํ™•์žฅ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLaMA 2๊ฐ€ ๋” ๊ธด ๋ฌธ๋งฅ์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์—ฌ, ๋ณต์žกํ•œ ๋ฌธ์žฅ ๊ตฌ์กฐ๋‚˜ ๊ธด ๋Œ€ํ™”์—์„œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
  • ๋ฏธ์„ธ ์กฐ์ • ๋ฐ ๊ฐ•ํ™” ํ•™์Šต: LLaMA 2๋Š” ๋ฐฑ๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ธ๊ฐ„ ์ฃผ์„ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•ด RLHF๋ฅผ ํ†ตํ•ด ๋ฏธ์„ธ ์กฐ์ •๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ํ’ˆ์งˆ๊ณผ ์‘๋‹ต์˜ ์ •ํ™•์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์œผ๋ฉฐ, ๋Œ€ํ™”ํ˜• AI๋กœ์„œ ๋”์šฑ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ํšจ์œจ์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ ์•„ํ‚คํ…์ณ: LLaMA2๋Š” KV ์บ์‹œ์™€ Grouped Query Attention์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ถ”๋ก  ์†๋„๋ฅผ ๋Œ€ํญ ๊ฐœ์„ ํ•ฉ๋‹ˆ๋‹ค.
    • KV ์บ์‹œ(KV Cache): ์ถ”๋ก  ๊ณผ์ •์—์„œ ์ด์ „์— ๊ณ„์‚ฐ๋œ ํ‚ค(key)์™€ ๊ฐ’(value)์„ ์บ์‹ฑํ•˜์—ฌ ์žฌ๊ณ„์‚ฐํ•˜์ง€ ์•Š๋„๋ก ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Grouped-Query Attention (GQA): GQA๋Š” ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ(34B, 70B)์—์„œ ์ถ”๋ก  ํ™•์žฅ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋” ํฐ ๋ชจ๋ธ๋“ค์ด ๋” ํšจ์œจ์ ์œผ๋กœ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  1. Mistral: A Next Generation Open Weight Language Model (Mistral Team, 2023)

๐Ÿ’ก Mistral์€ ๊ณ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฒธ๋น„ํ•œ 7B ํŒŒ๋ผ๋ฏธํ„ฐ ์–ธ์–ด ๋ชจ๋ธ๋กœ, GPT๋‚˜ LLaMA์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ์ž‘์€ ๊ทœ๋ชจ๋กœ๋„ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ํŠนํžˆ ๊ทธ๋ฃนํ™”๋œ ์ฟผ๋ฆฌ ์–ดํ…์…˜(grouped-query attention, GQA)๊ณผ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ์–ดํ…์…˜(sliding window attention, SWA)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ ์ธ ์ถ”๋ก ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. Mistral์€ ๊ธฐ์กด์˜ 13B LLaMA 2 ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์ˆ˜ํ•™, ์ถ”๋ก , ์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—…์—์„œ 34B ๋ชจ๋ธ๊ณผ๋„ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ Mistral์€ Apache 2.0 ๋ผ์ด์„ ์Šค ํ•˜์— ๊ณต๊ฐœ๋˜์–ด ์—ฐ๊ตฌ์ž์™€ ๊ฐœ๋ฐœ์ž๋“ค์ด ์‰ฝ๊ฒŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Mistral 7B๋Š” 70์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ์„ ๋ชจ๋‘ ๊ฐ–์ถ˜ ์ฐจ์„ธ๋Œ€ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ GPT๋‚˜ LLaMA์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋ณด๋‹ค ๋” ์ž‘์€ ๊ทœ๋ชจ์ž„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์ถ”๋ก  ์†๋„์™€ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ ํšจ์œจ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. Mistral์€ ๊ทธ๋ฃนํ™”๋œ ์ฟผ๋ฆฌ ์–ดํ…์…˜(Grouped-Query Attention, GQA)๊ณผ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ์–ดํ…์…˜(Sliding Window Attention, SWA)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๋น ๋ฅด๊ณ  ํšจ์œจ์ ์ธ ์ถ”๋ก ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ LLaMA 2์˜ 13B ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์ˆ˜ํ•™, ์ถ”๋ก , ์ฝ”๋“œ ์ƒ์„ฑ ์ž‘์—…์—์„œ 34B ๋ชจ๋ธ๊ณผ๋„ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • ๊ณ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ: Mistral 7B๋Š” ๊ธฐ์กด์˜ LLaMA 2 13B ๋ชจ๋ธ๋ณด๋‹ค ๋” ์ž‘์€ ๊ทœ๋ชจ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ํŠนํžˆ ์ฝ”๋“œ ์ƒ์„ฑ, ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ, ์ถ”๋ก ๊ณผ ๊ฐ™์€ ์ž‘์—…์—์„œ 34B ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ํ˜์‹ ์ ์ธ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜: ๊ทธ๋ฃน ์ฟผ๋ฆฌ ์–ดํ…์…˜(Grouped-Query Attention, GQA)๊ณผ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ์–ดํ…์…˜(Sliding Window Attention, SWA)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ถ”๋ก  ์†๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์˜€์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ์™€ ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.

    1. ๊ทธ๋ฃน ์ฟผ๋ฆฌ ์–ดํ…์…˜(GQA)

      • GQA๋Š” ๊ธฐ์กด์˜ ๋‹ค์ค‘ ์ฟผ๋ฆฌ ์–ดํ…์…˜ ๋ฐฉ์‹์— ๋น„ํ•ด ๋” ๋น ๋ฅธ ์ถ”๋ก  ์†๋„๋ฅผ ์ œ๊ณตํ•˜๋ฉด์„œ๋„ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์—ฌ์ค๋‹ˆ๋‹ค.
        • ์ด๋กœ ์ธํ•ด ๋” ํฐ ๋ฐฐ์น˜ ํฌ๊ธฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŠนํžˆ ์‹ค์‹œ๊ฐ„ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ ๋” ๋†’์€ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
        • GQA๋Š” ๋งŽ์€ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ด๋ฉด์„œ๋„ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๊ณ ํšจ์œจ ์ถ”๋ก ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.
    2. ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ์–ดํ…์…˜(SWA)

      • SWA๋Š” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ฐœ์ƒํ•˜๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์„ ํฌ๊ฒŒ ์ค„์—ฌ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. ์‹œํ€€์Šค ๊ธธ์ด์— ๋”ฐ๋ผ ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๊ธฐ ์œ„ํ•ด, SWA๋Š” ๊ฐ ํ† ํฐ์ด ํŠน์ • ๋ฒ”์œ„(W)์˜ ํ† ํฐ๋“ค๋งŒ ์ฐธ์กฐํ•˜๋„๋ก ์ œํ•œํ•ฉ๋‹ˆ๋‹ค.
        • ์˜ˆ๋ฅผ ๋“ค์–ด, SWA๋Š” 16K ๊ธธ์ด์˜ ์‹œํ€€์Šค์—์„œ ์ด ๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๋‘ ๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
        • ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•์€ ๊ธด ๋ฌธ์žฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋”์šฑ ํšจ์œจ์ ์ด๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์บ์‹œ ์‚ฌ์šฉ๋Ÿ‰์„ ํฌ๊ฒŒ ์ค„์—ฌ ๋” ๊ธด ๋ฌธ์žฅ์„ ์ฒ˜๋ฆฌํ•  ๋•Œ์—๋„ ์„ฑ๋Šฅ์„ ์ €ํ•˜์‹œํ‚ค์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
    3. Rolling Buffer Cache

      • Rolling Buffer Cache๋Š” ์‹œํ€€์Šค ์ฒ˜๋ฆฌ ์‹œ ์บ์‹œ ํฌ๊ธฐ๋ฅผ ๊ณ ์ •๋œ ํฌ๊ธฐ(W)๋กœ ์œ ์ง€ํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ์„ ์ค„์ด๋Š” ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค. ํŠนํžˆ ๊ธด ์‹œํ€€์Šค์˜ ๊ฒฝ์šฐ, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์„ ํ˜•์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋„์ž…๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
        • ์ž‘๋™ ๋ฐฉ์‹: ์บ์‹œ๊ฐ€ ๊ณ ์ •๋œ ํฌ๊ธฐ(W)๋ฅผ ์ดˆ๊ณผํ•  ๊ฒฝ์šฐ, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ๊ฐ€ ์ž…๋ ฅ๋  ๋•Œ๋งˆ๋‹ค ๊ฐ€์žฅ ์˜ค๋ž˜๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฎ์–ด์”๋‹ˆ๋‹ค. ์ฆ‰, ์ƒˆ๋กœ์šด ํ‚ค์™€ ๊ฐ’์„ ์ €์žฅํ•  ๋•Œ, (i mod W) ์œ„์น˜์— ํ•ด๋‹นํ•˜๋Š” ์บ์‹œ ์Šฌ๋กฏ์— ๋ฎ์–ด์”Œ์›๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์œผ๋กœ, ์‹œํ€€์Šค ๊ธธ์ด๊ฐ€ ๋งค์šฐ ๊ธธ์–ด์ง€๋”๋ผ๋„ ์บ์‹œ ํฌ๊ธฐ๋Š” ์ผ์ •ํ•˜๊ฒŒ ์œ ์ง€๋ฉ๋‹ˆ๋‹ค.
        • ํšจ๊ณผ: ์ด ๋ฐฉ์‹์€ ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ํšจ์œจ์ ์œผ๋กœ ๊ด€๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•ด์ฃผ๋ฉฐ, ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ 8๋ฐฐ๊นŒ์ง€ ์ ˆ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ, Mistral 7B๋Š” ์ด ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค์—์„œ๋„ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ์ผ๊ด€๋œ ์ฒ˜๋ฆฌ ์†๋„๋ฅผ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
    4. Pre-fill and Chunking

      + Pre-fill and Chunking ๊ธฐ๋ฒ•์€ ์ฃผ์–ด์ง„ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ฏธ๋ฆฌ ์ฒ˜๋ฆฌํ•˜๊ณ , ๊ธด ์‹œํ€€์Šค๋ฅผ ์ž‘์€ ๋ฉ์–ด๋ฆฌ(chunk)๋กœ ๋‚˜๋ˆ„์–ด ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค. ํ”„๋กฌํ”„ํŠธ๊ฐ€ ๋ฏธ๋ฆฌ ์ œ๊ณต๋œ ์ƒํ™ฉ์—์„œ๋Š” ํ”„๋กฌํ”„ํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฏธ๋ฆฌ ์บ์‹œ์— ์ฑ„์›Œ ๋„ฃ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค๋„ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. - ์ž‘๋™ ๋ฐฉ์‹: ํ”„๋กฌํ”„ํŠธ๋ฅผ ์ž‘์€ chunk๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•˜๊ณ , ๊ฐ chunk๊ฐ€ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„์šฐ ์–ดํ…์…˜์—์„œ ์‚ฌ์šฉ๋˜๋Š” window size์™€ ๋™์ผํ•œ ํฌ๊ธฐ๋กœ ์„ค์ •๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐ chunk๋Š” ์œˆ๋„์šฐ ํฌ๊ธฐ ๋‚ด์—์„œ ํšจ์œจ์ ์œผ๋กœ ์–ดํ…์…˜์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ์บ์‹œ์™€ chunk ๊ฐ„์˜ ์–ดํ…์…˜์ด ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋ฉฐ, ํ”„๋กฌํ”„ํŠธ์˜ ๊ธธ์ด์— ์ƒ๊ด€์—†์ด ๋น ๋ฅด๊ฒŒ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. - ํšจ๊ณผ: Pre-fill and Chunking ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ์™€ ๊ณ„์‚ฐ ์„ฑ๋Šฅ์„ ๋™์‹œ์— ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด ๋ฐฉ๋ฒ•์€ Mistral 7B๊ฐ€ ๊ธด ํ”„๋กฌํ”„ํŠธ์—์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋„์™€์ค๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ์ž‘๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ: Mistral 7B๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ์ž‘์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ์˜ ์‚ฌ์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ์—ฐ๊ตฌ์ž๋“ค์ด ํšจ์œจ์ ์œผ๋กœ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์˜คํ”ˆ ์†Œ์Šค ๊ธฐ์—ฌ: Mistral 7B๋Š” Apache 2.0 ๋ผ์ด์„ ์Šค ํ•˜์— ๊ณต๊ฐœ๋˜์–ด ์—ฐ๊ตฌ์ž์™€ ๊ฐœ๋ฐœ์ž๋“ค์ด ์‰ฝ๊ฒŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ์‹ค์‹œ๊ฐ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๋Šฅ: ์ˆ˜ํ•™, ์ฝ”๋“œ ์ƒ์„ฑ, ์ถ”๋ก  ์ž‘์—…์—์„œ ๊ธฐ์กด์˜ LLaMA ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

(๊ฐœ์ธ ์ถ”๊ฐ€)

  1. Llama 3 : Herd of Models (2024, Meta AI)

๐Ÿ’ก LLaMA 3๋Š” Meta์—์„œ LLaMA 2๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ™•์žฅ๋œ ๋ฒ„์ „์œผ๋กœ, ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ํ˜‘๋ ฅ์ ์œผ๋กœ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” โ€˜Herd of Modelsโ€™ ๊ฐœ๋…์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. LLaMA 3๋Š” ํšจ์œจ์ ์ธ ์ž์› ํ™œ์šฉ๊ณผ ๋ชจ๋ธ์˜ ์ƒํ˜ธ ๋ณด์™„์ ์ธ ๋Šฅ๋ ฅ์„ ๊ทน๋Œ€ํ™”ํ•˜์—ฌ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ์ถ”๊ตฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋” ๋†’์€ ์„ฑ๋Šฅ๊ณผ ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์—ฐ๊ตฌ์ž์™€ ๊ฐœ๋ฐœ์ž๋“ค์ด ๋” ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

LLaMA 3๋Š” Meta์—์„œ ๊ฐœ๋ฐœํ•œ ์ตœ์‹  ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋กœ, ์—ฌ๋Ÿฌ ์–ธ์–ด ๋ชจ๋ธ๋“ค์„ โ€˜Herd of Modelsโ€˜์ด๋ผ๋Š” ๊ฐœ๋… ํ•˜์— ํ˜‘๋ ฅ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์ด๊ณ  ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. LLaMA 3๋Š” 8B, 70B, 405B ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ ๋ชจ๋ธ๋กœ ์ œ๊ณต๋˜๋ฉฐ, ๋‹ค๊ตญ์–ด ์ง€์›, ์ฝ”๋“œ ์ƒ์„ฑ, ์ถ”๋ก , ๋„๊ตฌ ์‚ฌ์šฉ ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ํŠนํžˆ LLaMA 3๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋“ค๋ณด๋‹ค ๋” ํฐ ๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ์™€ ๋” ํšจ์œจ์ ์ธ ํ•™์Šต ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ๋‹ค์–‘ํ•œ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ์ž‘์—…์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์š” ๋‚ด์šฉ

  • Herd of Models ๊ฐœ๋…: LLaMA 3๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๋ชจ๋ธ์„ ํ˜‘๋ ฅ์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ๊ฐ์˜ ๋ชจ๋ธ์ด ํŠน์ • ์ž‘์—…์— ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์ด๋ฅผ ํ†ตํ•ด ์ž‘์—…์˜ ๋ณต์žก์„ฑ์— ๋”ฐ๋ผ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์ด ํšจ์œจ์ ์œผ๋กœ ํ˜‘๋ ฅํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋ธ์˜ ํฌ๊ธฐ ๋ฐ ์„ฑ๋Šฅ: LLaMA 3๋Š” 8B, 70B, 405B ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์˜ ๋ชจ๋ธ์„ ์ œ๊ณตํ•˜๋ฉฐ, ํŠนํžˆ 405B ๋ชจ๋ธ์€ GPT-4์™€ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

    • ๊ฐ ๋ชจ๋ธ์€ ๋‹ค๊ตญ์–ด ์ง€์›, ์ฝ”๋“œ ์ƒ์„ฑ, ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฌธ์ œ ํ•ด๊ฒฐ ๋“ฑ์—์„œ ์ตœ์ƒ์˜ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
    • Llama 3 ๋ชจ๋ธ์€ ํ‘œ์ค€ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์•„ํ‚คํ…์ฒ˜์  ๋ณ€๊ฒฝ ์‚ฌํ•ญ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

      1. ๊ธฐ๋ณธ ์•„ํ‚คํ…์ฒ˜

        • Llama 3๋Š” ์ด์ „ ๋ฒ„์ „์ธ Llama 2์™€ ์œ ์‚ฌํ•œ Dense Transformer ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์„ฑ๋Šฅ ๊ฐœ์„ ์€ ์ฃผ๋กœ ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ๊ณผ ๋‹ค์–‘์„ฑ์˜ ํ–ฅ์ƒ, ๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ๊ทœ๋ชจ์˜ ์ฆ๊ฐ€์— ์˜ํ•ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค.
      2. Grouped Query Attention (GQA)

        • Grouped Query Attention (GQA): 8๊ฐœ์˜ ํ‚ค-๊ฐ’ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ด ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ์ถ”๋ก  ์†๋„๋ฅผ ๊ฐœ์„ ํ•˜๊ณ , ๋””์ฝ”๋”ฉ ๊ณผ์ •์—์„œ ํ•„์š”ํ•œ ํ‚ค-๊ฐ’ ์บ์‹œ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์˜€์Šต๋‹ˆ๋‹ค.
      3. Attention Mask

        • ๋ฌธ์„œ ๋‚ด์—์„œ๋งŒ self-attention์„ ํ—ˆ์šฉํ•˜๊ณ , ๋‹ค๋ฅธ ๋ฌธ์„œ ๊ฐ„์˜ self-attention์€ ๋ฐฉ์ง€ํ•˜๋Š” attention mask๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ธด ๋ฌธ์„œ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
      4. ์–ดํœ˜ ํฌ๊ธฐ์™€ RoPE ๊ธฐ๋ฐ˜ ์œ„์น˜ ์ธ์ฝ”๋”ฉ

        • 128,000๊ฐœ์˜ ํ† ํฐ์„ ํฌํ•จํ•˜๋Š” ์–ดํœ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ์ด ์ค‘ 28,000๊ฐœ์˜ ์ถ”๊ฐ€ ํ† ํฐ์„ ํ†ตํ•ด ๋น„์˜์–ด๊ถŒ ์–ธ์–ด๋ฅผ ๋”์šฑ ์ž˜ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
        • RoPE (Rotary Position Embeddings) ๊ธฐ๋ฐ˜์˜ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์„ ์‚ฌ์šฉํ•ด ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ๋” ์ž˜ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
      5. ๋ชจ๋ธ ๊ทœ๋ชจ

        • Llama 3 ๋ชจ๋ธ์€ 8B, 70B, 405B ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ๋กœ ์ œ๊ณต๋˜๋ฉฐ, ๊ทธ ์ค‘์—์„œ 405B ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์ด ํ”Œ๋ž˜๊ทธ์‹ญ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
        • ์ด ๋ชจ๋ธ์€ 16,384์˜ ๋ชจ๋ธ ์ฐจ์›์„ ๊ฐ€์ง€๊ณ , 128๊ฐœ์˜ attention ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•™์Šต ์‹œ ์‚ฌ์šฉ๋˜๋Š” ์ตœ๋Œ€ ํ•™์Šต๋ฅ ์€ 8 ร— 10โปโต์ž…๋‹ˆ๋‹ค.

          ๋ชจ๋ธ ํฌ๊ธฐ ๋ ˆ์ด์–ด ์ˆ˜ ๋ชจ๋ธ ์ฐจ์› FFN ์ฐจ์› Attention ํ—ค๋“œ ์ˆ˜ ํ‚ค/๊ฐ’ ํ—ค๋“œ ์ˆ˜
          8B 32 4,096 14,336 32 8
          70B 80 8,192 28,672 64 8
          405B 126 16,384 53,248 128 8
    • ์•ˆ์ „์„ฑ ๋ฐ ํšจ์œจ์„ฑ: LLaMA 3๋Š” ์‚ฌ์šฉ์ž์˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ˜์˜ํ•œ ๋ฏธ์„ธ ์กฐ์ •์„ ํ†ตํ•ด ์•ˆ์ „์„ฑ์„ ๊ฐ•ํ™”ํ•˜์˜€์œผ๋ฉฐ, ํŠนํžˆ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ์˜ ์•ˆ์ „์„ฑ์„ ๊ด€๋ฆฌํ•˜๋Š” Llama Guard 3 ๋ชจ๋ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

      • ๋˜ํ•œ, ๋ชจ๋ธ์€ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์ ์ด๋ฉฐ ์ถ”๋ก  ์†๋„๊ฐ€ ๋น ๋ฆ…๋‹ˆ๋‹ค.

๊ธฐ์—ฌ ๋ฐ ์˜์˜

  • ๊ณ ์„ฑ๋Šฅ ๋‹ค๊ธฐ๋Šฅ ๋ชจ๋ธ: LLaMA 3๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—…์—์„œ ๋งค์šฐ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ํŠนํžˆ ์—ฌ๋Ÿฌ ์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋Š” ๋Šฅ๋ ฅ๊ณผ ๋ณต์žกํ•œ ์ถ”๋ก  ๋ฐ ์ฝ”๋“œ ์ƒ์„ฑ์—์„œ์˜ ์„ฑ๊ณผ๊ฐ€ ๋‘๋“œ๋Ÿฌ์ง‘๋‹ˆ๋‹ค.
  • ์—ฐ๊ตฌ์ž ๋ฐ ๊ฐœ๋ฐœ์ž ์ง€์›: LLaMA 3๋Š” ์—ฐ๊ตฌ์ž๋“ค์ด ์‰ฝ๊ฒŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต๊ฐœ๋˜์—ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๋„๋ก ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด AI ์—ฐ๊ตฌ ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ์˜ ํ˜‘๋ ฅ์„ ์ด‰์ง„ํ•˜๊ณ  ๋ฐœ์ „์„ ๊ฐ€์†ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ธฐ๋Šฅ ํ†ตํ•ฉ: LLaMA 3๋Š” ํ…์ŠคํŠธ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ด๋ฏธ์ง€, ๋น„๋””์˜ค, ์Œ์„ฑ ์ธ์‹ ๊ธฐ๋Šฅ์„ ํ†ตํ•ฉํ•˜์—ฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž‘์—…์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ผ ์ˆ˜ ์žˆ๋„๋ก ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜ : https://devopedia.org/llama-llm

๐Ÿ“š LLaMA2 vs LLaMA3

  • ๋ฐ์ดํ„ฐ์˜ ์–‘๊ณผ ์งˆ ๊ฐœ์„  : LLaMA 3๋Š” ์•ฝ 15์กฐ ๊ฐœ์˜ ๋‹ค๊ตญ์–ด ํ† ํฐ์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์œผ๋ฉฐ, ์ด๋Š” LLaMA 2์˜ 1.8์กฐ ๊ฐœ ํ† ํฐ๊ณผ ๋น„๊ตํ•  ๋•Œ ๊ฑฐ์˜ 8๋ฐฐ์— ๋‹ฌํ•˜๋Š” ์–‘์ž…๋‹ˆ๋‹ค. ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ, LLaMA 3๋Š” ๋” ๋งŽ์€ ์–ธ์–ด์™€ ๋‹ค์–‘ํ•œ ๋ฌธ๋งฅ์—์„œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • ๋˜ํ•œ, ๋ฐ์ดํ„ฐ์˜ ์งˆ์— ๋Œ€ํ•œ ๊ฐœ์„ ๋„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. LLaMA 3๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ „์ฒ˜๋ฆฌ ๋ฐ ํ•„ํ„ฐ๋ง ์ ˆ์ฐจ๊ฐ€ ๋” ์—„๊ฒฉํ•˜๊ฒŒ ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ค‘๋ณต ์ œ๊ฑฐ, ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ œ๊ฑฐ, ๊ฐœ์ธ ์‹๋ณ„ ์ •๋ณด(PII) ์ œ๊ฑฐ ๋“ฑ์˜ ๊ณผ์ •์ด ๊ฐ•ํ™”๋˜์–ด ๋” ์ฒญ๊ฒฐํ•˜๊ณ  ์‹ ๋ขฐ์„ฑ ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šต์ด ์ด๋ฃจ์–ด์กŒ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฐœ์„ ์€ LLaMA 2์— ๋น„ํ•ด ๋” ์•ˆ์ •์ ์ด๊ณ  ์ •ํ™•ํ•œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๊ทœ๋ชจ์˜ ํ™•์žฅ: LLaMA 3์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์  ์ค‘ ํ•˜๋‚˜๋Š” ๋ชจ๋ธ์˜ ๊ทœ๋ชจ์ž…๋‹ˆ๋‹ค. LLaMA 2์˜ ์ตœ๋Œ€ ๋ชจ๋ธ์€ 70์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์—ˆ์œผ๋‚˜, LLaMA 3๋Š” 4050์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง„ ํ”Œ๋ž˜๊ทธ์‹ญ ๋ชจ๋ธ์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” LLaMA 2์™€ ๋น„๊ตํ–ˆ์„ ๋•Œ ์•ฝ 50๋ฐฐ ๋” ๋งŽ์€ ์—ฐ์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
    • LLaMA 3๋Š” ์•ฝ 15.6์กฐ ๊ฐœ์˜ ํ…์ŠคํŠธ ํ† ํฐ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋™์•ˆ, 3.8ร—10ยฒโต FLOPs์— ํ•ด๋‹นํ•˜๋Š” ์—„์ฒญ๋‚œ ์—ฐ์‚ฐ ์ž์›์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šต๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ์กด LLaMA 2๋ณด๋‹ค ํ›จ์”ฌ ๋งŽ์€ ์—ฐ์‚ฐ ์ž์›์„ ํ™œ์šฉํ•œ ๊ฒƒ์œผ๋กœ, ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•˜๊ณ  ๋” ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ณต์žก์„ฑ ๊ด€๋ฆฌ: Dense Transformer ์•„ํ‚คํ…์ฒ˜๋Š” LLaMA 2์™€ LLaMA 3 ๋ชจ๋‘์—์„œ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์ง€๋งŒ, LLaMA 3๋Š” ์•ˆ์ •์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ๊ฐœ์„ ์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.
    • Grouped Query Attention (GQA): LLaMA 2์—์„œ๋„ GQA๋ฅผ ์‚ฌ์šฉํ•ด ์™”์ง€๋งŒ, LLaMA 3์—์„œ๋Š” 8๊ฐœ์˜ ํ‚ค-๊ฐ’ ํ—ค๋“œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋” ํšจ์œจ์ ์ธ ๋ฉ”๋ชจ๋ฆฌ ๊ด€๋ฆฌ์™€ ์ถ”๋ก  ์†๋„ ํ–ฅ์ƒ์„ ๋„๋ชจํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด, ๋” ๋งŽ์€ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ธด ์ปจํ…์ŠคํŠธ ์ฐฝ์„ ์‚ฌ์šฉํ•˜๋”๋ผ๋„, ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์ด ํฌ๊ฒŒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
    • Attention Mask: LLaMA 3๋Š” ๊ฐ™์€ ์‹œํ€€์Šค ๋‚ด์—์„œ ๋ฌธ์„œ ๊ฐ„์˜ self-attention์„ ์ฐจ๋‹จํ•˜๋Š” attention mask๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฒ•์€ ๊ธด ๋ฌธ์„œ์—์„œ ๋ถˆํ•„์š”ํ•œ ์ƒํ˜ธ ์ฐธ์กฐ๋ฅผ ๋ฐฉ์ง€ํ•ด ๋ชจ๋ธ์˜ ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ , ๊ธด ์‹œํ€€์Šค๋ฅผ ๋” ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
  • ์–ดํœ˜ ํฌ๊ธฐ์™€ RoPE ๊ธฐ๋ฐ˜ ์œ„์น˜ ์ธ์ฝ”๋”ฉ์˜ ๊ฐœ์„ : LLaMA 3๋Š” 128,000๊ฐœ์˜ ํ† ํฐ์„ ์ง€์›ํ•˜๋Š” ๋” ํฐ ์–ดํœ˜๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ค‘ 28,000๊ฐœ์˜ ์ถ”๊ฐ€ ํ† ํฐ์€ ๋น„์˜์–ด๊ถŒ ์–ธ์–ด๋ฅผ ๋” ์ž˜ ์ง€์›ํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์–‘ํ•œ ์–ธ์–ด์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€์ค๋‹ˆ๋‹ค.
    • RoPE (Rotary Position Embeddings)๋Š” ์œ„์น˜ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹ ์ค‘ ํ•˜๋‚˜๋กœ, LLaMA 3์—์„œ๋Š” 500,000์ด๋ผ๋Š” ๋” ํฐ ๊ธฐ๋ณธ ์ฃผํŒŒ์ˆ˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์„ค์ •ํ•˜์—ฌ ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด LLaMA 3๋Š” ์ตœ๋Œ€ 128K ํ† ํฐ์˜ ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ง€์›ํ•˜๋ฉฐ, ๋” ๊ธด ๋Œ€ํ™”๋‚˜ ๋ฌธ๋งฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜ : https://devopedia.org/llama-llm

์œ„ ๋…ผ๋ฌธ๋“ค์€ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์˜ ๋ฐœ์ „์„ ์ด๋ˆ ์ฃผ์š” ์—ฐ๊ตฌ๋“ค์ด๋ฉฐ, ๊ฐ ๋…ผ๋ฌธ์€ NLP์˜ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์„ ํ˜์‹ ์ ์œผ๋กœ ๊ฐœ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋…ผ๋ฌธ๋“ค์„ ํ†ตํ•ด NLP ์—ฐ๊ตฌ์˜ ํ๋ฆ„์„ ๋” ๊นŠ์ด ์ดํ•ดํ•˜๊ณ , ์ตœ์‹  ๊ธฐ์ˆ ์„ ์‘์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์‹œ๊ฐ„์„ ๋“ค์—ฌ์„œ ์ •๋ฆฌํ•œ๋งŒํผ ๋งŽ์€ ๋ถ„๋“ค๊ป˜ ๋„์›€์ด ๋˜์—ˆ์œผ๋ฉด ์ข‹๊ฒ ์Šต๋‹ˆ๋‹ค ๐Ÿ˜Ž



-->