[์ •๋ฆฌ] '24๋…„ AI Summit : '๋ผ๋งˆ' ๊ฐœ๋ฐœ ๋ฆฌ๋”๊ฐ€ ์„ค๋ช…ํ•˜๋Š” LLM : Small Models ์ตœ์‹  ๊ธฐ๋ฒ• - Soumya Batra

Posted by Euisuk's Dev Log on December 25, 2024

[์ •๋ฆฌ] โ€˜24๋…„ AI Summit : โ€˜๋ผ๋งˆโ€™ ๊ฐœ๋ฐœ ๋ฆฌ๋”๊ฐ€ ์„ค๋ช…ํ•˜๋Š” LLM : Small Models ์ตœ์‹  ๊ธฐ๋ฒ• - Soumya Batra

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/์ •๋ฆฌ-24๋…„-AI-Summit-๋ผ๋งˆ-๊ฐœ๋ฐœ-๋ฆฌ๋”๊ฐ€-์„ค๋ช…ํ•˜๋Š”-LLM-Small-Models-์ตœ์‹ -๊ธฐ๋ฒ•-Soumya-Batra

์˜ค์ „ ๋ฏธํŒ… ์ผ์ •์„ ๋งˆ์นœ ํ›„, Day2 ์˜คํ›„ ์„ธ์…˜์— ์ฐธ์„ํ•˜์—ฌ ๋งค์šฐ ์œ ์ตํ•œ ์‹œ๊ฐ„์„ ๋ณด๋ƒˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋“  ์„ธ์…˜์— ์ฐธ๊ฐ€ํ•˜์ง€ ๋ชปํ•œ ์ ์€ ์•„์‰ฝ์ง€๋งŒ, ์ฐธ์„ํ•œ ์„ธ์…˜๋“ค์—์„œ ์–ป์€ ๋‚ด์šฉ๊ณผ ์ธ์‚ฌ์ดํŠธ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์ด๋ฒˆ ์‹œ๋ฆฌ์ฆˆ๋ฅผ ๊ตฌ์„ฑํ•ด ๋ณด์•˜์Šต๋‹ˆ๋‹ค.

Track C: LLM & GenAI

  • ์ œ๋ชฉ : โ€˜๋ผ๋งˆโ€™ ๊ฐœ๋ฐœ ๋ฆฌ๋”๊ฐ€ ์„ค๋ช…ํ•˜๋Š” LLM : Small Models ์ตœ์‹  ๊ธฐ๋ฒ•
  • ๋ฐœํ‘œ์ž : Soumya Batra Meta Tech Lead, Applied Research Scientist


์„œ๋ก 

์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๊ณผ ์†Œ๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(SLM)์˜ ๋ฐœ์ „์€ ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์—์„œ ์ค‘์š”ํ•œ ์ „ํ™˜์ ์„ ๋งž์ดํ–ˆ์Šต๋‹ˆ๋‹ค.

  • LLM(Large Language Models)์€ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ํ†ตํ•ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€๋งŒ, ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ๊ณผ ์—๋„ˆ์ง€ ์†Œ๋น„๋กœ ์ธํ•ด ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ˜๋ฉด, SLM์€ ํŠน์ • ๋„๋ฉ”์ธ์— ์ง‘์ค‘ํ•˜์—ฌ ์ ์€ ์ž์›์„ ํ™œ์šฉํ•˜๋ฉด์„œ๋„ ํšจ์œจ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‹ LLM to SLM

์ด๋Ÿฌํ•œ ๋ณ€ํ™”๋Š” ๊ธฐ์—…๊ณผ ํ•™๊ณ„ ๋ชจ๋‘์— ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ  ์žˆ์œผ๋ฉฐ, ํšจ์œจ์„ฑ๊ณผ ์ง€์† ๊ฐ€๋Šฅ์„ฑ์ด๋ผ๋Š” ๋ชฉํ‘œ๋ฅผ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • SLM์€ ํŠนํžˆ ํ™˜๊ฒฝ์ , ๊ฒฝ์ œ์ , ๊ทธ๋ฆฌ๊ณ  ์‹ค์šฉ์„ฑ ์ธก๋ฉด์—์„œ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.

    • ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ ๋งŽ์€ ๊ณ„์‚ฐ ์ž์›์„ ์š”๊ตฌํ•˜์—ฌ ์œ ์ง€๋ณด์ˆ˜์™€ ์šด์˜ ๋น„์šฉ์ด ๋†’์ง€๋งŒ, SLM์€ ์ด๋ฅผ ๊ทน๋ณตํ•˜๋ฉฐ ํŠน์ • ๋„๋ฉ”์ธ์— ์ตœ์ ํ™”๋œ ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
    • AI ๋ชจ๋ธ์˜ ๋ฐœ์ „์€ ๋‹จ์ˆœํžˆ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๊ฒƒ๋งŒ์ด ์•„๋‹ˆ๋ผ ์ง€์† ๊ฐ€๋Šฅ์„ฑ๊ณผ ๋งž์ถคํ™”๋ผ๋Š” ์ธก๋ฉด์—์„œ์˜ ํ˜์‹ ์„ ์š”๊ตฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Š” ํŠนํžˆ ๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ๐Ÿ›ก๏ธ์™€ ์—๋„ˆ์ง€ ์†Œ๋น„ ์ ˆ๊ฐโ™ป๏ธ์ด๋ผ๋Š” ํ˜„๋Œ€์˜ ์ฃผ์š” ์š”๊ตฌ ์‚ฌํ•ญ์„ ์ถฉ์กฑ์‹œํ‚ค๋Š” ๋ฐ ์žˆ์–ด ์ค‘์š”ํ•œ ๋ฐœ์ „์ž…๋‹ˆ๋‹ค.


LLM๊ณผ SLM์˜ ์ •์˜

์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : https://www.digit.in/features/general/slm-vs-llm-why-smaller-gen-ai-models-maybe-better.html

LLM(๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ)์€ ์ˆ˜์‹ญ์–ต์—์„œ ์ˆ˜์ฒœ์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋กœ, ๋Œ€๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฒ”์šฉ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋กœ PaLM, Gemini, ChatGPT(GPT-3, GPT-4, GPT-4o)์™€ ๊ฐ™์€ ๋ชจ๋ธ๋“ค์ด ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋งŽ์€ ๊ณ„์‚ฐ ์ž์›๊ณผ ๊ฐ•๋ ฅํ•œ ํ•˜๋“œ์›จ์–ด๋ฅผ ํ•„์š”๋กœ ํ•˜๋ฉฐ, ๋‹ค์–‘ํ•œ ์–ธ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์„ ์ง€์›ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : https://jaynamm.tistory.com/entry/LLMLarge-Language-Model-์ดํ•ดํ•˜๊ธฐ

๋ฐ˜๋ฉด, SLM(์†Œ๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ)์€ (๋ช…ํ™•ํ•œ ์ •์˜๋Š” ์—†์œผ๋‚˜) ์ƒ๋Œ€์ ์œผ๋กœ ์ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋กœ, ํŠน์ • ์ž‘์—…์— ์ตœ์ ํ™”๋˜์–ด ์žˆ์œผ๋ฉฐ ํšจ์œจ์„ฑ๊ณผ ์‹คํ–‰ ๊ฐ€๋Šฅ์„ฑ์„ ์ค‘์‹œํ•ฉ๋‹ˆ๋‹ค.

๋ฐœํ‘œ์ž๊ฐ€ ๋‹ค์–‘ํ•œ GPT์—๊ฒŒ SLM์˜ ์ •์˜๋ฅผ ๋ฌผ์–ด๋ณธ ์žฅํ‘œ ( slide from the talk )

  • ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์€ ๋น„๊ต์  ์ ์€ ์ž์›์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ๊ฐœ์ธ ๋””๋ฐ”์ด์Šค๋‚˜ ์—ฃ์ง€ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰๋  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋ฉ๋‹ˆ๋‹ค.
  • SLM์€ ๋Œ€๊ทœ๋ชจ ํด๋ผ์šฐ๋“œ ์„œ๋ฒ„์— ์˜์กดํ•˜์ง€ ์•Š๊ณ ๋„ ๋…๋ฆฝ์ ์œผ๋กœ ์šด์˜ ๊ฐ€๋Šฅ(on-premise)ํ•˜๋ฉฐ, ํŠนํžˆ ๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ์ค‘์‹œํ•˜๋Š” ํ™˜๊ฒฝ์—์„œ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

SLM์˜ ์ค‘์š”ํ•œ ํŠน์ง• ์ค‘ ํ•˜๋‚˜๋Š” ๋„๋ฉ”์ธ ํŠนํ™”์ž…๋‹ˆ๋‹ค.

๋ฐœํ‘œ์ž SLM์˜ ์ •์˜ ์žฅํ‘œ ( slide from the talk )

SLM์€ ํŠน์ • ์‚ฌ์šฉ ์˜๋„(usage intent)์— ๋”ฐ๋ผ ์ •์˜๋˜๋Š” ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์‚ฌ์šฉ ์˜๋„๋Š” ์ฃผ๋กœ ๋ชจ๋ธ์ด ์–ด๋–ค ์ž‘์—…์„ ์ˆ˜ํ–‰ํ• ์ง€, ์–ด๋–ค ๋„๋ฉ”์ธ์— ํŠนํ™”๋˜์–ด ์žˆ๋Š”์ง€์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค.

SLM์˜ ์ฃผ์š” ํŠน์ง•

  1. ์ปดํŒฉํŠธํ•จ (Compact)

    • ์‚ฌ์šฉ์ž ๋””๋ฐ”์ด์Šค(์ตœ๋Œ€ ๋ช‡ ๊ฐœ์˜ GPU)์— ์ ํ•ฉํ•œ ํฌ๊ธฐ.
    • ๋Œ€๊ทœ๋ชจ ์„œ๋ฒ„ ํ™˜๊ฒฝ ์—†์ด๋„ ๋™์ž‘ ๊ฐ€๋Šฅ.
  2. ์ž์› ํšจ์œจ์„ฑ (Resource Efficient)

    • ๋ฉ”๋ชจ๋ฆฌ์™€ ๊ณ„์‚ฐ๋Ÿ‰์ด ์ ๊ฒŒ ์†Œ๋ชจ๋จ.
    • ํ•˜๋“œ์›จ์–ด ์š”๊ตฌ ์‚ฌํ•ญ์ด ๋‚ฎ์•„ ๋” ํญ๋„“์€ ํ™˜๊ฒฝ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅ.
  3. LLM๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ (Almost as performant as equivalent LLMs)

    • ํŠน์ • ์ž‘์—…์— ๋Œ€ํ•ด ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ ์ œ๊ณต.
  4. ํŠน์ • ์ž‘์—… ํŠนํ™” (On Specific Tasks)

    • ์˜๋ฃŒ, ๋ฒ•๋ฅ ๊ณผ ๊ฐ™์€ ํŠน์ • ๋„๋ฉ”์ธ์— ์ตœ์ ํ™”.
    • ์ผ๋ฐ˜์ ์ธ ์ž‘์—…๋ณด๋‹ค๋Š” ๋„๋ฉ”์ธ ํŠนํ™” ์ž‘์—…์— ํƒ์›”.

ํ™œ์šฉ ์˜ˆ์‹œ

  • ์˜๋ฃŒ ๊ธฐ๋ก ๋ถ„์„: SLM์€ ์˜๋ฃŒ ๋ฐ์ดํ„ฐ๋ฅผ ์ดํ•ดํ•˜๊ณ  ์š”์•ฝํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฒ•๋ฅ  ๋ฌธ์„œ ์ฒ˜๋ฆฌ: ๊ณ„์•ฝ์„œ ๋˜๋Š” ๋ฒ•๋ฅ  ๋ฌธ์„œ๋ฅผ ์ž๋™์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ณ  ์ฃผ์š” ์ •๋ณด๋ฅผ ์ถ”์ถœ.
  • ์‚ฐ์—…๋ณ„ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜: ํŠน์ • ๊ธฐ์—… ๋‚ด ๊ณ ๊ฐ ์ง€์› ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋˜๋Š” ์šด์˜ ๋ฐ์ดํ„ฐ ์š”์•ฝ.

SLM์€ ํŠน์ •ํ•œ ๋„๋ฉ”์ธ๊ณผ ์ž‘์—…์— ์ดˆ์ ์„ ๋งž์ถ”์–ด ์„ค๊ณ„๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์— ๋น„ํ•ด ํšจ์œจ์ ์ด๊ณ , ๋น ๋ฅด๋ฉฐ, ์ž์› ์ ˆ์•ฝ์ ์ด๋ผ๋Š” ์ ์—์„œ ๋‹ค์–‘ํ•œ ์‚ฐ์—…์—์„œ ์‹ค์šฉ์ ์œผ๋กœ ํ™œ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐœํ‘œ์ž SLM ๋ชจ๋ธ ์ฆ๊ฐ€ ์žฅํ‘œ ( slide from the talk )

SLM(Small Language Model)์˜ ๊ฐœ๋ฐœ์ด 2024๋…„ 2์›” ์ดํ›„ ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ฐœ๋ฐœ์ด ์ •์ฒด๋ฅผ ๋ณด์ด๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด์„œ, ๋ณด๋‹ค ํšจ์œจ์ ์ด๊ณ  ํŠน์ • ์ž‘์—…์— ์ตœ์ ํ™”๋œ SLM์ด ์ฃผ๋ชฉ๋ฐ›๊ฒŒ ๋œ ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.

SLM์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ ์œผ๋ฉด์„œ๋„ ํŠน์ • ๋„๋ฉ”์ธ์ด๋‚˜ ์ž‘์—…์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, Gemini 2B, Danube, GPT-4o Mini, Llama-3.1-Minitron๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด SLM์€ ์ œํ•œ๋œ ์ž์›์„ ํ™œ์šฉํ•˜์—ฌ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์ด ๋‹ค์–‘ํ•œ ์‚ฐ์—…์—์„œ ๋„์ž…๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

SLM์˜ ์ฆ๊ฐ€๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์™€ ๊ณ ์„ฑ๋Šฅ ํ•˜๋“œ์›จ์–ด๊ฐ€ ํ•„์š”ํ–ˆ๋˜ ๊ธฐ์กด LLM์˜ ํ•œ๊ณ„๋ฅผ ๋ณด์™„ํ•˜๋ฉฐ, ํŠน์ • ๋ชฉ์ ์„ ์œ„ํ•œ ๋งž์ถคํ˜• AI ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์— ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. 2024๋…„ ์ดํ›„, SLM์˜ ํ™œ์šฉ์€ ๋”์šฑ ํ™•์‚ฐ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.


(์ •๋ฆฌ) LLM๊ณผ SLM์˜ ์ฐจ์ด ํ…Œ์ด๋ธ”


SLM์ด ์ฃผ๋ชฉ๋ฐ›๋Š” ์ด์œ 

  1. SLM์˜ ์ˆ˜์š”๊ฐ€ ์ฆ๊ฐ€ํ•˜๋Š” ์ฃผ์š” ์ด์œ 

    • ํ”„๋ผ์ด๋ฒ„์‹œ (Privacy)

      • SLM์€ ๋กœ์ปฌ ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰๋  ์ˆ˜ ์žˆ์–ด, ๋ฐ์ดํ„ฐ๋ฅผ ์™ธ๋ถ€ ์„œ๋ฒ„๋กœ ์ „์†กํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.
      • ์ด๋Š” ๋ฏผ๊ฐํ•œ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋‚˜ ๋ณด์•ˆ์ด ์ค‘์š”ํ•œ ๋ถ„์•ผ์—์„œ ๋งค์šฐ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
    • ๋น„์šฉ ์ ˆ๊ฐ (Cost)

      • ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์— ๋น„ํ•ด ํ•™์Šต๊ณผ ์ถ”๋ก ์— ํ•„์š”ํ•œ ์ž์›์ด ์ ๊ธฐ ๋•Œ๋ฌธ์— ๋น„์šฉ ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.
      • ํŠนํžˆ ์ค‘์†Œ๊ทœ๋ชจ ๊ธฐ์—…์ด๋‚˜ ์ž์›์ด ์ œํ•œ๋œ ํ™˜๊ฒฝ์—์„œ๋„ ํ™œ์šฉ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค.
    • ํšจ์œจ์„ฑ (Efficiency)

      • SLM์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๊ตฌ์กฐ ๋•๋ถ„์— ์‹คํ–‰ ์†๋„๊ฐ€ ๋น ๋ฅด๊ณ  ํŠน์ • ์ž‘์—…์— ์ตœ์ ํ™”๋˜๊ธฐ ์‰ฝ์Šต๋‹ˆ๋‹ค.
      • ๋ฐ์ดํ„ฐ ์„ผํ„ฐ์—์„œ์˜ ์—๋„ˆ์ง€ ์†Œ๋น„๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ์–ด ์ง€์† ๊ฐ€๋Šฅ์„ฑ์„ ์ถ”๊ตฌํ•˜๋Š” ์‚ฐ์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
      • ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ์™€ ๊ฐ™์€ ๊ณ ์† ์‘์šฉ ๋ถ„์•ผ์—์„œ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
    • ๋งž์ถคํ™” (Customization)

      • ํŠน์ • ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ๋ฐ์ดํ„ฐ์™€ ์ž‘์—…์— ๋งž๊ฒŒ ์กฐ์ •ํ•˜๊ธฐ ์šฉ์ดํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋Š” ์˜๋ฃŒ, ๋ฒ•๋ฅ , ๊ณ ๊ฐ ์„œ๋น„์Šค ๋“ฑ ๋‹ค์–‘ํ•œ ์‚ฐ์—…์—์„œ SLM์ด ๋„๋ฆฌ ํ™œ์šฉ๋˜๋Š” ์ด์œ  ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค.
  2. ์ ์  ์ปค์ง€๋Š” SLM ์‹œ์žฅ

    • ์ขŒ์ธก ๊ทธ๋ž˜ํ”„

      • SLM(Small Language Model) ์‹œ์žฅ์€ ๋น ๋ฅด๊ฒŒ ํ™•์žฅ๋˜๊ณ  ์žˆ์œผ๋ฉฐ, 2030๋…„๊นŒ์ง€ 200์–ต ๋‹ฌ๋Ÿฌ(์•ฝ 20์กฐ ์›) ๊ทœ๋ชจ์— ์ด๋ฅผ ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.
      • ํ˜„์žฌ 2023๋…„ ๊ธฐ์ค€์œผ๋กœ ์‹œ์žฅ ๊ทœ๋ชจ๋Š” ์•ฝ 78์–ต ๋‹ฌ๋Ÿฌ(7.8B USD)์— ๋‹ฌํ•˜๋ฉฐ, ์—ฐํ‰๊ท  ์„ฑ์žฅ๋ฅ (CAGR)์€ 15.6%๋กœ ์˜ˆ์ธก๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

        ๐Ÿ“Ÿ (์ฐธ๊ณ ) ๋งŒ์•ฝ ํ•ด๋‹น ์•ก์ˆ˜ ๊ณ„์‚ฐ์ด ๊ตฌ์ฒด์ ์œผ๋กœ ๊ถ๊ธˆํ•˜๋‹ค๋ฉด ์•„๋ž˜ ์—ฐํ‰๊ท  ์„ฑ์žฅ๋ฅ (CAGR) ๊ณต์‹์„ ํ†ตํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

    • ์šฐ์ธก ๊ทธ๋ž˜ํ”„

      • ์‹œ์žฅ ์ ์œ ์œจ ๋ถ„ํฌ๋ฅผ ๋ณด๋ฉด, ์†Œ๋น„์ž ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜(Consumer Applications), ํ—ฌ์Šค์ผ€์–ด(Healthcare), ๊ธฐ์—…์šฉ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜(Enterprise Applications) ๋“ฑ์ด ์ฃผ์š” ์‚ฌ์šฉ ์‚ฌ๋ก€๋กœ ๋‚˜ํƒ€๋‚˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
      • ํŠนํžˆ ์†Œ๋งค(Retail)์™€ ๋ฒ•๋ฅ (Legal) ๋ถ„์•ผ์—์„œ๋„ ๋„์ž…์ด ํ™œ๋ฐœํ•ฉ๋‹ˆ๋‹ค.
  3. ์—ฃ์ง€ ๋ฐฐํฌ ๊ฐ€๋Šฅ์„ฑ

    • SLM์€ ์—ฃ์ง€ ๋””๋ฐ”์ด์Šค๋‚˜ ์˜จํ”„๋ ˆ๋ฏธ์Šค ํ™˜๊ฒฝ์—์„œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋„คํŠธ์›Œํฌ ์ œ์•ฝ ํ™˜๊ฒฝ์—์„œ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋Ÿฌํ•œ ํŠน์ง•์€ ๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ๋ฅผ ๋ณด์žฅํ•˜๋ฉด์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  4. ์ง€์† ๊ฐ€๋Šฅ์„ฑ (Sustainability)

    • LLM์€ ์—๋„ˆ์ง€ ์†Œ๋น„์™€ ํƒ„์†Œ ๋ฐฐ์ถœ์—์„œ ์•ฝ 7,000๋ฐฐ ๋” ๋งŽ์€ ์ž์›์„ ํ•„์š”๋กœ ํ•ฉ๋‹ˆ๋‹ค.
      • ๋ฐ์ดํ„ฐ ์„ผํ„ฐ์˜ ์—๋„ˆ์ง€ ์†Œ๋น„๋Š” ์ „์ฒด ์†Œ๋น„๋Ÿ‰์˜ 2%๋ฅผ ์ฐจ์ง€ํ•˜๋ฉฐ, 2๋…„ ๋‚ด ๋‘ ๋ฐฐ๋กœ ์ฆ๊ฐ€ํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค.
    • SLM์€ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ํ˜„์‹ค์ ์ธ ๋Œ€์•ˆ์ž…๋‹ˆ๋‹ค.
      • ์—๋„ˆ์ง€ ์†Œ๋น„ ์ ˆ๊ฐ ์™ธ์—๋„, SLM์€ ํ™˜๊ฒฝ ์˜ํ–ฅ์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

SLM ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•

๋ณธ ๋ฐœํ‘œ์—์„œ SLM์„ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด์„œ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. 2๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•์ด ์žˆ๋‹ค๊ณ  ์ด์•ผ๊ธฐํ•˜๋Š”๋ฐ์š”.

  1. LLM์„ ์••์ถ•์‹œ์ผœ์„œ SLM์„ ๋งŒ๋“œ๋Š” LLM Compression Technique๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. (LLM ์••์ถ• ๊ธฐ๋ฒ•)
  2. ์ฒ˜์Œ๋ถ€ํ„ฐ SLM์„ ์„ค๊ณ„ํ•˜๊ณ  ๊ตฌ์ถ•ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. (๋ชจ๋ธ์˜ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•)

1. LLM ์••์ถ• ๊ธฐ๋ฒ•

๊ธฐ์กด ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ, ์ฃผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ์ˆ ์ด ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค:

  • ์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation): ์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation)๋Š” ๋Œ€๊ทœ๋ชจ ๊ต์‚ฌ(Teacher) ๋ชจ๋ธ์˜ ์ถœ๋ ฅ์„ ํ†ตํ•ด ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด, ๊ด€๊ณ„ ๋ฐ ์ผ๋ฐ˜ํ™”๋œ ์ง€์‹์„ ํ•™์ƒ(Student) ๋ชจ๋ธ์— ์ „๋‹ฌํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์ด ๊ณผ์ •์—์„œ ํ•™์ƒ ๋ชจ๋ธ์€ ๊ต์‚ฌ ๋ชจ๋ธ์˜ ์˜ˆ์ธก ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ชจ๋ฐฉํ•˜์—ฌ ํ•™์Šตํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋” ์ž‘์€ ๋ชจ๋ธ(ํ•™์ƒ ๋ชจ๋ธ)์ด ๊ต์‚ฌ ๋ชจ๋ธ์˜ ๋ณต์žกํ•œ ์ง€์‹๊ณผ ์„ฑ๋Šฅ์„ ํšจ๊ณผ์ ์œผ๋กœ ๊ณ„์Šนํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ ์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation) ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์˜ˆ์‹œ

  • ๋…ผ๋ฌธ: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
    • ๋Œ€๊ทœ๋ชจ โ€˜๊ต์‚ฌโ€™ ๋ชจ๋ธ์˜ ์ง€์‹์„ ๋” ์ž‘์€ โ€˜ํ•™์ƒโ€™ ๋ชจ๋ธ์— ์ „๋‹ฌํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์˜ˆ๋ฅผ ๋“ค์–ด, DistilBERT๋Š” ์ง€์‹ ์ฆ๋ฅ˜(Knowledge Distillation)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ BERT ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์•ฝ 40% ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์˜ 97%๋ฅผ ์œ ์ง€ํ•˜๋Š” ๋ฐ ์„ฑ๊ณตํ–ˆ์Šต๋‹ˆ๋‹ค.

      ์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : https://zilliz.com/learn/distilbert-distilled-version-of-bert

  • ํ”„๋ฃจ๋‹(Pruning): ํ”„๋ฃจ๋‹(Pruning)์€ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ๋˜๋Š” ๋‰ด๋Ÿฐ ์—ฐ๊ฒฐ ์ค‘ ์ค‘์š”๋„๊ฐ€ ๋‚ฎ์€ ๋ถ€๋ถ„์„ ์ œ๊ฑฐํ•˜์—ฌ, ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ  ๋ชจ๋ธ์„ ๊ฒฝ๋Ÿ‰ํ™”ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ์ตœ์ ํ™” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์ค‘์š”๋„๊ฐ€ ๋‚ฎ๋‹ค๊ณ  ๊ฐ„์ฃผ๋˜๋Š” ๊ฐ€์ค‘์น˜(weight)๋‚˜ ๋‰ด๋Ÿฐ์„ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰๊ณผ ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ค„์ž…๋‹ˆ๋‹ค.
    • ๋ชจ๋ธ์˜ ๊ตฌ์กฐ๋ฅผ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š๊ณ ๋„ ๋™์ผํ•œ ๊ฒฐ๊ณผ๋ฅผ ์œ ์ง€ํ•˜๊ฑฐ๋‚˜, ์ตœ์†Œํ•œ์˜ ์„ฑ๋Šฅ ์†์‹ค๋งŒ ๋ฐœ์ƒํ•˜๋„๋ก ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ ํ”„๋ฃจ๋‹(Pruning) ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์˜ˆ์‹œ

  • ๋…ผ๋ฌธ: Structured Pruning of BERT-based Question Answering Models
  • ๋ชจ๋ธ์˜ ์ค‘์š”ํ•˜์ง€ ์•Š์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋‚˜ ๋‰ด๋Ÿฐ ์—ฐ๊ฒฐ์„ ์ œ๊ฑฐํ•˜์—ฌ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ์ค„์ด๊ณ  ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๋Š” ๊ธฐ๋ฒ•์ž…๋‹ˆ๋‹ค.
  • ์˜ˆ๋ฅผ ๋“ค์–ด, ๋…ผ๋ฌธ โ€œStructured Pruning of BERT-based Question Answering Modelsโ€์—์„œ๋Š” BERT ๊ธฐ๋ฐ˜ ์งˆ๋ฌธ ์‘๋‹ต ๋ชจ๋ธ์— ๊ตฌ์กฐ์  ํ”„๋ฃจ๋‹(Structured Pruning)์„ ์ ์šฉํ•˜์—ฌ ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

    ์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : https://arxiv.org/pdf/1910.06360 (๋…ผ๋ฌธ ์›๋ฌธ)

  • ์–‘์žํ™”(Quantization): ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋‚ฎ์€ ๋น„ํŠธ ์ •๋ฐ€๋„(์˜ˆ: 32-bit โ†’ 8-bit ๋˜๋Š” 4-bit)๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๊ณ  ๊ณ„์‚ฐ ๋น„์šฉ์„ ์ ˆ๊ฐํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.
    • ์ด๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ํ•˜๋“œ์›จ์–ด์—์„œ์˜ ์‹คํ–‰ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • ์–‘์žํ™”๋Š” ํŠนํžˆ ๋ชจ๋ฐ”์ผ ๋””๋ฐ”์ด์Šค ๋ฐ ์—ฃ์ง€ ์ปดํ“จํŒ… ํ™˜๊ฒฝ์—์„œ์˜ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ ์šฉ์— ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“ ์–‘์žํ™”(Quantization) ๊ธฐ๋ฐ˜ ์—ฐ๊ตฌ ์˜ˆ์‹œ

  • ๋…ผ๋ฌธ: GPTQ (Generative Pre-trained Transformer Quantization)
  • GPT-3์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ์€ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ์ถ”๋ก  ์‹œ์—๋„ ์—„์ฒญ๋‚œ ๊ณ„์‚ฐ ๋ฆฌ์†Œ์Šค์™€ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ํ›„์ฒ˜๋ฆฌ ์–‘์žํ™”(post-training quantization)๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์„ 3๋น„ํŠธ ๋˜๋Š” 4๋น„ํŠธ๋กœ ์••์ถ•ํ•˜๋ฉด์„œ ์„ฑ๋Šฅ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค.

    ์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : https://arxiv.org/pdf/1910.06360 (๋…ผ๋ฌธ ์›๋ฌธ)

Pruning + Knowledge Distillation

Nvidia์˜ ๋…ผ๋ฌธ โ€œLLM Pruning and Distillation in Practice: The Minitron Approachโ€๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ํšจ์œจ์ ์ธ ์••์ถ•์„ ์œ„ํ•ด ๊ฐ€์ง€์น˜๊ธฐ(pruning)์™€ ์ง€์‹ ์ฆ๋ฅ˜(knowledge distillation)๋ฅผ ๊ฒฐํ•ฉํ•œ Minitron ๋ฐฉ๋ฒ•๋ก ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

์•„๋ž˜ ํ‘œ๋Š” NVIDIA์˜ Minitron ๋ชจ๋ธ์ด ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)๋“ค๊ณผ ๋น„๊ตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ(State-of-the-Art, SOTA)์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

LLM์˜ ๋ฐœ์ „์†๋„๋Š” ๋น ๋ฅด์ง€๋งŒ, SLM๋„ ๊ฒฉ์ฐจ๋ฅผ ์ขํžˆ๊ณ  ์žˆ๋‹ค

์ด ๊ทธ๋ž˜ํ”„๋Š” SLM์˜ ํšจ์œจ์ ์ธ ๋ฐœ์ „ ์†๋„๋ฅผ ๊ฐ•์กฐํ•˜๋ฉฐ, ํŠน์ • ์ฃผ๊ธฐ๋งˆ๋‹ค ์„ฑ๋Šฅ์ด LLM์— ๊ทผ์ ‘ํ•˜๊ฑฐ๋‚˜ ๋”ฐ๋ผ์žก์„ ๊ฐ€๋Šฅ์„ฑ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

  • ์ด๋ฅผ ํ†ตํ•ด SLM์ด LLM์˜ ๋Œ€์ฒด์žฌ๋กœ์„œ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ์ž ์žฌ๋ ฅ์ด ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • ์ถ”๊ฐ€์ ์œผ๋กœ, SLM์˜ ์„ฑ์žฅ ์†๋„์™€ ๊ฐœ๋ฐœ ์ฃผ๊ธฐ๋ฅผ ๋” ๋ถ„์„ํ•˜๋ฉด SLM์ด LLM์˜ ๋น„์šฉ ๋Œ€๋น„ ํšจ์œจ์ ์ธ ์„ ํƒ์ง€๊ฐ€ ๋˜๋Š” ์˜์—ญ์„ ๊ตฌ์ฒด์ ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

  • ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ž‘์€ ์‚ฌ์ด์ฆˆ์˜ ๋ชจ๋ธ(SLM)์ด ํŠน์ •ํ•œ ์ž‘์—…(task-specific)์— ์ตœ์ ํ™”๋  ๊ฒฝ์šฐ, ๋” ํฐ ๋ชจ๋ธ(LLM)๊ณผ ๋น„๊ตํ•˜์—ฌ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ด์•ผ๊ธฐ ํ•ฉ๋‹ˆ๋‹ค.

    • Llama 3.3 70B ๋ชจ๋ธ์€ ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ์— ํŠนํ™”๋œ instruction-tuned ๋ชจ๋ธ๋กœ, ์ด๋ฅผ ํ†ตํ•ด ๊ฐ™์€ ํฌ๊ธฐ์˜ Llama 3.1 70B ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์šฐ์ˆ˜ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
    • ํ…์ŠคํŠธ ์ „์šฉ ์ž‘์—…(text-only applications)์— ํ•œ์ •ํ•  ๊ฒฝ์šฐ, ๋” ํฐ ๋ชจ๋ธ์ธ Llama 3.2 90B ๋˜๋Š” Llama 3.1 405B์— ๊ทผ์ ‘ํ•˜๊ฑฐ๋‚˜ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ์Œ์ด ๊ฐ•์กฐ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

2. ์ฒ˜์Œ๋ถ€ํ„ฐ SLM ๊ตฌ์ถ•ํ•˜๋Š” ํŒ

  1. ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘ ๋ฐ ์ „์ฒ˜๋ฆฌ

๐Ÿ’ก ์•„๋ž˜ ๋‘ ๋…ผ๋ฌธ, โ€œTextbooks Are All You Needโ€œ์™€ โ€œTextbooks Are All You Need II: phi-1.5 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œโ€œ๋Š” ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค.

  • ๊ฐ ๋…ผ๋ฌธ์˜ ์ฃผ์š” ๊ธฐ์—ฌ์™€ ํ•ต์‹ฌ ํฌ์ธํŠธ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:
    • Textbooks Are All You Need 1
      • phi-1 ๋ชจ๋ธ ๊ฐœ๋ฐœ: 1.3์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ธ phi-1์„ ์†Œ๊ฐœํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” HumanEval์—์„œ 50.6%, MBPP์—์„œ 55.5%์˜ pass@1 ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€์Šต๋‹ˆ๋‹ค.
      • ๋ฐ์ดํ„ฐ ํ’ˆ์งˆ์˜ ์ค‘์š”์„ฑ ๊ฐ•์กฐ: ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ์–‘์„ ์ค„์ด๋ฉด์„œ๋„ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ•˜์˜€์Šต๋‹ˆ๋‹ค.
    • Textbooks Are All You Need 2
      • phi-1.5 ๋ชจ๋ธ ๊ฐœ๋ฐœ: 1.3์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ phi-1.5 ๋ชจ๋ธ์„ ์†Œ๊ฐœํ•˜์˜€์œผ๋ฉฐ, ์ด๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…์—์„œ 5๋ฐฐ ํฐ ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€๊ณ , ์ดˆ๋“ฑํ•™๊ต ์ˆ˜ํ•™ ๋ฐ ๊ธฐ๋ณธ ์ฝ”๋”ฉ๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋น„์ตœ์‹  LLM์„ ๋Šฅ๊ฐ€ํ•˜์˜€์Šต๋‹ˆ๋‹ค.
      • ๋ชจ๋ธ์˜ ํŠน์„ฑ ๊ด€์ฐฐ: phi-1.5๋Š” โ€˜๋‹จ๊ณ„๋ณ„ ์‚ฌ๊ณ โ€™ ๋Šฅ๋ ฅ, ๊ธฐ๋ณธ์ ์ธ ์ธ์ปจํ…์ŠคํŠธ ํ•™์Šต ๋“ฑ ๋” ํฐ LLM์—์„œ ๊ด€์ฐฐ๋˜๋Š” ํŠน์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํ™˜๊ฐ ๋ฐ ์œ ํ•ดํ•˜๊ฑฐ๋‚˜ ํŽธํ–ฅ๋œ ์ƒ์„ฑ์˜ ๊ฐ€๋Šฅ์„ฑ๋„ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.
  1. Chinchilla Scaling Laws๋ฅผ ๋„˜์–ด์„œ ํ›ˆ๋ จ

์ž ๊น! Chinchilla Scaling Laws์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๊ณ  ๊ฐ‘์‹œ๋‹ค!

  • ๋ฐฐ๊ฒฝ ์„ค๋ช…

    • Scaling Laws for Neural Language Models

      ๐Ÿง OpenAI์˜ 2020๋…„๋„ ์—ฐ๊ตฌ โ€œScaling Laws for Neural Language Modelsโ€œ๋Š” ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์ง€๋งŒ, ํ•œ์ชฝ๋งŒ ์ฆ๊ฐ€์‹œํ‚ฌ ๊ฒฝ์šฐ์—๋Š” ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ์„ ์ง€์ ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

      • ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ ํฌ๊ธฐ, ๊ณ„์‚ฐ ์ž์›์˜ ์ฆ๊ฐ€๊ฐ€ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ์ค‘์š”ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค๋Š” ๊ฒƒ์„ 6๊ฐ€์ง€ ์ฃผ์š” ๋ฒ•์น™์œผ๋กœ ์ •๋ฆฌํ•ฉ๋‹ˆ๋‹ค.
          1. ๊ฑฐ๋“ญ์ œ๊ณฑ ๋ฒ•์น™ (Power Laws):
            • ๋ชจ๋ธ ์„ฑ๋Šฅ์€ ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ, ํ›ˆ๋ จ์— ์‚ฌ์šฉ๋˜๋Š” ์ปดํ“จํŠธ ์–‘ ๋“ฑ ์ฃผ์š” ์š”์†Œ์— ๋Œ€ํ•ด ๊ฑฐ๋“ญ์ œ๊ณฑ ๋ฒ•์น™์œผ๋กœ ๋‚˜ํƒ€๋‚ฉ๋‹ˆ๋‹ค. ๊ฐ ์š”์†Œ๋Š” ์„ฑ๋Šฅ์— ๋น„๋ก€ํ•˜์—ฌ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.
          1. ๊ณผ์ ํ•ฉ์˜ ๋ณดํŽธ์„ฑ (Universality of Overfitting):
            • ์„ฑ๋Šฅ์€ ๋ชจ๋ธ ํฌ๊ธฐ(N)์™€ ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ(D)๋ฅผ ํ•จ๊ป˜ ์ฆ๊ฐ€์‹œํ‚ฌ ๋•Œ ํ–ฅ์ƒ๋˜์ง€๋งŒ, ํ•œ์ชฝ๋งŒ ์ฆ๊ฐ€ํ•  ๊ฒฝ์šฐ ์ ์ง„์ ์œผ๋กœ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•˜๋ฏ€๋กœ N๊ณผ D์˜ ์ ์ ˆํ•œ ๋น„์œจ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค.
          1. ํ›ˆ๋ จ ๊ณก์„ ์˜ ๋ณดํŽธ์„ฑ (Universality of Training):
            • ํ›ˆ๋ จ ๊ณก์„ ์€ ์˜ˆ์ธก ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๊ด€๊ณ„์—†์ด ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์œ ์‚ฌํ•œ ๊ฒฝํ–ฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์ถ”ํ›„ ์†์‹ค ๊ฐ’์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
          1. ์ƒ˜ํ”Œ ํšจ์œจ์„ฑ (Sample Efficiency):
            • ํฐ ๋ชจ๋ธ์€ ๋” ์ƒ˜ํ”Œ ํšจ์œจ์ ์ด๋ฉฐ, ๋™์ผํ•œ ์„ฑ๋Šฅ์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•ด ์ ์€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์™€ ์ ์€ ์ตœ์ ํ™” ๋‹จ๊ณ„๋ฅผ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค.
          1. ์ตœ์ ์˜ ๋ฐฐ์น˜ ํฌ๊ธฐ (Optimal Batch Size):
            • ํ›ˆ๋ จ ๋ชจ๋ธ์˜ ์ตœ์  ๋ฐฐ์น˜ ํฌ๊ธฐ๋Š” ์†์‹ค๊ณผ ๋ฐ€์ ‘ํ•œ ๊ด€๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•  ๋•Œ ์ˆ˜๋ ดํ•˜๊ธฐ ์œ„ํ•ด ์•ฝ 100๋งŒ์—์„œ 200๋งŒ ํ† ํฐ์ด ์ด์ƒ์ ์ด๋ผ๋Š” ์ ์ด ์ œ์•ˆ๋ฉ๋‹ˆ๋‹ค.
          1. ์ปดํ“จํŠธ ํšจ์œจ์ ์ธ ํ›ˆ๋ จ (Compute-Efficient Training):
            • ๊ณ ์ •๋œ ์ปดํ“จํŠธ ์˜ˆ์‚ฐ ๋‚ด์—์„œ ํ›ˆ๋ จ์„ ์ง„ํ–‰ํ•  ๋•Œ, ๋งค์šฐ ํฐ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•˜๊ณ  ์ˆ˜๋ ด ์ „์— ์ค‘๋‹จํ•˜๋Š” ๊ฒƒ์ด ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ๋” ํšจ๊ณผ์ ์ด๋ผ๋Š” ์ฃผ์žฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
    • Training Compute-Optimal Large Language Models

      ๐Ÿง Google์˜ 2022๋…„๋„ ์—ฐ๊ตฌ โ€œTraining Compute-Optimal Large Language Modelsโ€, Chinchilla ์—ฐ๊ตฌ๋Š” ์ฃผ์–ด์ง„ ๊ณ„์‚ฐ ์ž์› ๋‚ด์—์„œ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ•  ๊ฒƒ์ธ์ง€์— ์ดˆ์ ์„ ๋งž์ถ”์—ˆ์Šต๋‹ˆ๋‹ค.

      • ์ด ์—ฐ๊ตฌ๋Š” ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ๋™์ผํ•œ ๋น„์œจ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์ด ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜์˜€์Šต๋‹ˆ๋‹ค.
        • ์ด๋ฅผ ํ†ตํ•ด, ๊ธฐ์กด์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์ด ๊ณผ์†Œํ•™์Šต(undertrained) ์ƒํƒœ์˜€์Œ์„ ์ง€์ ํ•˜๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์˜ ๊ท ํ˜•์ด ์ค‘์š”ํ•˜๋‹ค๋Š” ์ƒˆ๋กœ์šด ๊ด€์ ์„ ์ œ์‹œํ•˜์˜€์Šต๋‹ˆ๋‹ค.

      • ๋…ผ๋ฌธ์˜ Figure 1๊ณผ Figure A3๋Š” ํ˜„์žฌ์˜ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ด ๊ณผ์†Œํ•™์Šต(undertrained) ์ƒํƒœ์— ์žˆ์Œ์„ ์‹œ๊ฐ์ ์œผ๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๊ฐ ๊ทธ๋ž˜ํ”„์˜ ์˜๋ฏธ๋ฅผ ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
      • Figure 1: Overlaid predictions
        • ์ด ๊ทธ๋ž˜ํ”„๋Š” ์„ธ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•(Approach 1, 2, 3)์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ์™€ Kaplan et al. (2020)์˜ ์˜ˆ์ธก์„ ํ•จ๊ป˜ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. X์ถ•์€ FLOPs(์—ฐ์‚ฐ๋Ÿ‰)์„, Y์ถ•์€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
        • ํ˜„์žฌ ๋ชจ๋ธ๋“ค์˜ ์œ„์น˜: GPT-3(175B), Gopher(280B), Megatron-Turing NLG(530B) ๋“ฑ์˜ ๋ชจ๋ธ์€ ๊ทธ๋ž˜ํ”„ ์ƒ๋‹จ์— ์œ„์น˜ํ•ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ํฌ๊ธฐ๋Š” ํฌ์ง€๋งŒ, ์ฃผ์–ด์ง„ ์—ฐ์‚ฐ ์˜ˆ์‚ฐ ๋‚ด์—์„œ ์ตœ์ ์˜ ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ์—๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
        • ์˜ˆ์ธก๋œ ์ตœ์  ์ง€์ : ์„ธ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ• ๋ชจ๋‘ ํ˜„์žฌ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์ž‘์€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ๊ฐ€์ง€๋ฉฐ, ๋” ๋งŽ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ตœ์ ์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ๊ท ํ˜• ์žˆ๊ฒŒ ์ฆ๊ฐ€์‹œ์ผœ์•ผ ํ•จ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
      • Figure A3: Optimal number of tokens and parameters for a training FLOP budget
        • ์ด ๊ทธ๋ž˜ํ”„๋Š” ๊ณ ์ •๋œ ์—ฐ์‚ฐ ์˜ˆ์‚ฐ(FLOP budget) ํ•˜์—์„œ ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ํ•™์Šต ํ† ํฐ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. X์ถ•์€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜, Y์ถ•์€ ํ•™์Šต ํ† ํฐ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
        • ์ตœ์ ์˜ ์กฐํ•ฉ: ์„ธ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ• ๋ชจ๋‘ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜์™€ ํ•™์Šต ํ† ํฐ ์ˆ˜๊ฐ€ ๋น„๋ก€ ๊ด€๊ณ„์— ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด๋Š” ์ฃผ์–ด์ง„ ์—ฐ์‚ฐ ์˜ˆ์‚ฐ ๋‚ด์—์„œ ๋ชจ๋ธ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋ฅผ ๋™์ผํ•œ ๋น„์œจ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋Š” ๊ฒƒ์ด ์ตœ์ ์ž„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
        • ํ˜„์žฌ ๋ชจ๋ธ๋“ค์˜ ์œ„์น˜: ํ˜„์žฌ์˜ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ๋“ค์€ ์ด ์ตœ์ ์„ ์—์„œ ๋ฒ—์–ด๋‚˜ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์— ๋น„ํ•ด ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ“Œ ๋”ฐ๋ผ์„œ! ๐Ÿฟ๏ธ Chinchilla Optimum(์ตœ์ ํ™” ๋ฒ•์น™) ๋˜๋Š” Chinchilla Point(์ง€์ )์€ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ํฌ๊ธฐ์™€ ํ•™์Šต ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๊ฐ„์˜ ์ตœ์  ๊ท ํ˜•์„ ์ œ์•ˆํ•˜๋Š” ๊ธฐ์ค€์ด๋ผ๊ณ  ์ •์˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • SLM์€ ๋Œ€ํ˜• ๋ชจ๋ธ์— ๋น„ํ•ด ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ์ ์–ด ๋ณต์žกํ•œ ํŒจํ„ด ํ•™์Šต์— ์ œํ•œ์ด ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ Chinchilla Scaling Laws์— ๋”ฐ๋ผ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋น„๋ก€ํ•˜์—ฌ ์ถฉ๋ถ„ํ•œ ์–‘์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ณตํ•˜๋ฉด, ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๊ณผ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

    • ํŠนํžˆ, Qwen2.5์™€ ๊ฐ™์ด ๋ชจ๋ธ ํฌ๊ธฐ์— ๋น„ํ•ด ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•˜๋Š” ์ „๋žต์€ SLM์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๋Š” ๋ฐ ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” SLM์ด ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๊ธฐ ์œ„ํ•ด ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ํ•™์Šต์ด ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

  • (์ฐธ๊ณ ) ์‹ค์ œ๋กœ ์ถ”๊ฐ€์ ์œผ๋กœ ์ž๋ฃŒ ์กฐ์‚ฌ๋ฅผ ์ˆ˜ํ–‰ํ•ด๋ณด๋‹ˆ๊นŒ SLM์— Chinchilla Scaling Laws๋ฅผ ๋„˜์–ด์„  ์ถ”๊ฐ€ ๋ฐ์ดํ„ฐ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•œ SLM ํ•™์Šต์„ ์‹œํ‚ค๋Š” ๋ชจ๋ธ๋“ค์ด ์žˆ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.
    • Mamba์™€ Phi-2๋Š” ๋ชจ๋‘ ์†Œํ˜• ์–ธ์–ด ๋ชจ๋ธ(SLM)์— ์†ํ•˜๋ฉฐ, ์ด๋“ค์˜ ํ•™์Šต ๋น„์œจ์„ ๋ณด๋ฉด 200:1๋กœ over-trained ์˜์—ญ์— ์žˆ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

      ์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : https://lifearchitect.ai/chinchilla/

SLM์ด ์–ด๋–ป๊ฒŒ LLM์„ ๋”ฐ๋ผ์žก์„ ์ˆ˜ ์žˆ๋Š”๊ฐ€

  1. Generative AI(GenAI) ์—ฐ๊ตฌ๋Š” ์ฒ˜์Œ์— SLM์œผ๋กœ ์‹œ์ž‘๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

    • ์ดํ›„ LLM์ด ๋„์ž…๋˜์—ˆ์ง€๋งŒ, ์‹คํ—˜ ๊ฒฐ๊ณผ ํฐ ๋ชจ๋ธ์ด ํ•ญ์ƒ ์ž‘์€ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๋‚˜์€ ๊ฒƒ์€ ์•„๋‹ˆ๋ฉฐ, ์ž‘์€ ๋ชจ๋ธ์„ ์ž‘์—…(task)์— ๋งž๊ฒŒ ํŒŒ์ธํŠœ๋‹ํ•˜๋ฉด ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Œ์ด ๋ฐํ˜€์กŒ์Šต๋‹ˆ๋‹ค.
  2. ํ˜„์žฌ์˜ LLM์กฐ์ฐจ๋„ ์ „ ์„ธ๊ณ„์˜ ์ง€์‹์„ ์ถฉ๋ถ„ํžˆ ํฌํ•จํ•  ์ˆ˜ ์—†๋Š”, ์••์ถ•๋œ ์ƒํƒœ์˜ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

    • ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” ๋ชจ๋“  ์ •๋ณด๋ฅผ ๋‹ด๊ธฐ์—๋Š” LLM๋„ ์ œํ•œ์ ์ด๋ผ๋Š” ๊ฒƒ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค.
    • ์–ผ๋งˆ๋‚˜ ๋” ํ›ˆ๋ จ ๋ฐ ํšจ์œจ์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฐ€์— ๋”ฐ๋ผ์„œ, SLM์ด ํŠน์ • ์ž‘์—…์— ๋” ์ž˜ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  3. ๋ชจ๋ธ ํฌ๊ธฐ์™€ ๋ฐ์ดํ„ฐ ์–‘์ด ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ๊ด€๊ณ„๋Š” ์—ฌ์ „ํžˆ ์œ ํšจํ•ฉ๋‹ˆ๋‹ค.

  • SLM์ด๋ผ๋„ ์ ์ ˆํ•œ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ์™€ ํ›ˆ๋ จ ์ž์›์„ ํˆฌ์ž…ํ•˜๋ฉด LLM์— ๊ทผ์ ‘ํ•œ ์„ฑ๋Šฅ์„ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

(๊ฒฐ๋ก ) ํ˜„์žฌ์˜ LLM์€ ์ง€์‹์„ ์ €์žฅํ•˜๋Š” ๋ฐฉ์‹์ด๋‚˜ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๋น„ํšจ์œจ์ ์ด๋ผ๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.


LLM์˜ ๋ฌธ์ œ์ 

๋ฐœํ‘œ์ž๋Š” ํ˜„์žฌ์˜ LLM(Large Language Models)์ด โ€œ๋ฌด์ฐจ๋ณ„์ ์ธ brute force ๋ฐฉ์‹โ€์œผ๋กœ ์ž‘๋™ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค

  1. ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ ๋ฌธ์ œ

    • Pre-trained models are getting trained with noisy data:
      • ํ˜„์žฌ LLM์€ ๋Œ€๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜๊ณ  ์žˆ์ง€๋งŒ, ์ด ๋ฐ์ดํ„ฐ์—๋Š” ๋งŽ์€ ๋…ธ์ด์ฆˆ(๋ถˆํ•„์š”ํ•˜๊ฑฐ๋‚˜ ๋ถ€์ •ํ™•ํ•œ ์ •๋ณด)๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
      • ๋…ธ์ด์ฆˆ๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ œํ•œํ•˜๋ฉฐ, ํ•™์Šต ํšจ์œจ์„ฑ์„ ๋–จ์–ด๋œจ๋ฆฝ๋‹ˆ๋‹ค.
      • ์ด๋Š” ๋ชจ๋ธ์ด ๋ฐ˜๋“œ์‹œ ํ•„์š”ํ•œ ์ •๋ณด๋งŒ ํ•™์Šตํ•˜๋„๋ก ๋ฐ์ดํ„ฐ๋ฅผ ์ •์ œํ•˜๋Š” ์ž‘์—…์ด ๋ถ€์กฑํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
  2. ๋น„ํšจ์œจ์ ์ธ ์ง€์‹ ์ €์žฅ

    • Knowledge is stored in a highly non-optimized way:
      • ํ˜„์žฌ LLM์€ ๋น„ํšจ์œจ์ ์ธ ๋ฐฉ์‹์œผ๋กœ ์ง€์‹์„ ์ €์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
      • ์Šฌ๋ผ์ด๋“œ๋Š” ๋ชจ๋“  LLM์ด ํŒŒ๋ผ๋ฏธํ„ฐ๋‹น ์•ฝ 2๋น„ํŠธ(bits)์˜ ์ •๋ณด๋ฅผ ์ €์žฅํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค.
      • 7B(7 billion parameters) ๋ชจ๋ธ๋งŒ์œผ๋กœ๋„ ์ „ ์„ธ๊ณ„์˜ ์œ„ํ‚ค(Wikipedia)์™€ ๊ต๊ณผ์„œ ํ…์ŠคํŠธ ์ง€์‹์„ ํ•™์Šตํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜๋‹ค๊ณ  ์ฃผ์žฅํ•ฉ๋‹ˆ๋‹ค.
      • ์ด๋Š” ๋” ์ž‘์€ ๋ชจ๋ธ์—์„œ๋„ ๋™์ผํ•œ ์ž‘์—…์„ ๋” ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ์•”์‹œํ•ฉ๋‹ˆ๋‹ค.
  3. ์ค‘๋ณต๋˜๊ฑฐ๋‚˜ ๋ถˆํ•„์š”ํ•œ ์—ฐ๊ฒฐ

    • Redundant/unnecessary connections:
      • Interpretability Research์— ๋”ฐ๋ฅด๋ฉด, LLM์€ ํ•„์š” ์ด์ƒ์˜ ์ค‘๋ณต๋œ ์—ฐ๊ฒฐ์„ ํฌํ•จํ•˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์˜ ํšจ์œจ์„ฑ์„ ๋–จ์–ด๋œจ๋ฆฝ๋‹ˆ๋‹ค.
      • LLM์ด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์ž‘์€ ํšŒ๋กœ(circuit)๋ฅผ ์ธ์ฝ”๋”ฉํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๋‹ค๋Š” ์ ์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ตœ์ ํ™”๊ฐ€ ๋ถ€์กฑํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  4. ์ƒˆ๋กœ์šด ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์•„ํ‚คํ…์ฒ˜์˜ ๊ฐ€๋Šฅ์„ฑ

    • Possibly more efficient learning algorithms are yet to be discovered/proven:
      • ํ˜„์žฌ ์‚ฌ์šฉ๋˜๋Š” Transformer ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์ตœ์ ์˜ ํ•™์Šต ๋ฐฉ๋ฒ•์ด ์•„๋‹ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ๊ธฐํ•ฉ๋‹ˆ๋‹ค.
      • SSM(State Space Models)์™€ RNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ ๊ฐ™์€ ๋” ํšจ์œจ์ ์ธ ๊ตฌ์กฐ๊ฐ€ ์—ฐ๊ตฌ๋˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ด๋Š” LLM์˜ ๋น„ํšจ์œจ์„ฑ์„ ํ•ด๊ฒฐํ•  ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
      • ๋˜ํ•œ, ํ–‰๋ ฌ ๊ณฑ์…ˆ(matrix multiplication)์„ ์ตœ์ ํ™”ํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Research Frontiers

  1. Rethinking Model Architectures

    • Linear Models:
      • SSM(State Space Models) ๋ฐ RNN ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๊ณผ ๊ฐ™์€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜ ํƒ์ƒ‰.
      • Sparse Attention ๋ฐ Reversible Networks๋ฅผ ํ†ตํ•œ ๊ณ„์‚ฐ ํšจ์œจ์„ฑ ์ฆ๋Œ€.
  2. Rethinking Hardware

    • Non-von Neumann Architectures:
      • ์–‘์ž ์ปดํ“จํŒ…(Quantum Computing)๊ณผ ์‹ ๊ฒฝํ˜• ์ปดํ“จํŒ…(Neuromorphic Computing)๊ณผ ๊ฐ™์€ ์ƒˆ๋กœ์šด ํ•˜๋“œ์›จ์–ด ๊ธฐ์ˆ  ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ.
      • ์ „๋ ฅ ํšจ์œจ์„ฑ๊ณผ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋™์‹œ์— ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ง€์† ๊ฐ€๋Šฅํ•œ ์ปดํ“จํŒ… ๊ธฐ์ˆ  ์—ฐ๊ตฌ.

โœ”๏ธ Non-von Neumann Architectures์ด๋ž€?

  • Non-von Neumann Architectures๋Š” ์ „ํ†ต์ ์ธ ํฐ ๋…ธ์ด๋งŒ ๊ตฌ์กฐ(Von Neumann Architecture)์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ์ปดํ“จํŒ… ์•„ํ‚คํ…์ฒ˜์ž…๋‹ˆ๋‹ค.
  • ํฐ ๋…ธ์ด๋งŒ ๊ตฌ์กฐ๋Š” ์ปดํ“จํ„ฐ์˜ ๋ฉ”๋ชจ๋ฆฌ์™€ ํ”„๋กœ์„ธ์„œ๊ฐ€ ๋ถ„๋ฆฌ๋˜์–ด ์žˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์—์„œ ํ”„๋กœ์„ธ์„œ๋กœ ์ „์†กํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ๋™์ž‘ํ•ฉ๋‹ˆ๋‹ค.

  • ํ•˜์ง€๋งŒ ์ด ๊ตฌ์กฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
    • ํฐ ๋…ธ์ด๋งŒ ๋ณ‘๋ชฉ ํ˜„์ƒ(Von Neumann Bottleneck)
      • ๋ฉ”๋ชจ๋ฆฌ์™€ ํ”„๋กœ์„ธ์„œ ๊ฐ„์˜ ๋ฐ์ดํ„ฐ ์ „์†ก ์†๋„๊ฐ€ ์ปดํ“จํ„ฐ ์„ฑ๋Šฅ์˜ ์ฃผ์š” ์ œํ•œ ์š”์†Œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.
      • ์ฒ˜๋ฆฌํ•  ๋ฐ์ดํ„ฐ๊ฐ€ ์ปค์งˆ์ˆ˜๋ก ๋ณ‘๋ชฉ ํ˜„์ƒ์ด ์‹ฌํ™”๋˜์–ด ์—๋„ˆ์ง€ ์†Œ๋ชจ์™€ ์—ฐ์‚ฐ ์†๋„๊ฐ€ ๋น„ํšจ์œจ์ ์ž…๋‹ˆ๋‹ค.

โœ”๏ธ Non-von Neumann Architectures์˜ ํŠน์ง•

  • Non-von Neumann ๊ตฌ์กฐ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ์•ˆ๋œ ๋Œ€์•ˆ์ ์ธ ์ปดํ“จํŒ… ์•„ํ‚คํ…์ฒ˜๋กœ, ๋Œ€ํ‘œ์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ์ˆ ๋“ค์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค:
    • (1) Neuromorphic Computing (์‹ ๊ฒฝํ˜• ์ปดํ“จํŒ…)
    • (2) Quantum Computing (์–‘์ž ์ปดํ“จํŒ…)
    • (3) Processing-in-Memory (PIM, ๋ฉ”๋ชจ๋ฆฌ ๋‚ด ์—ฐ์‚ฐ)
    • (4) Heterogeneous Architectures (์ด์ข… ์ปดํ“จํŒ… ์•„ํ‚คํ…์ฒ˜)
  1. Interpretability Research
    • ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ๊ตฌ์กฐ๋ฅผ ๋” ๊นŠ์ด ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ ์—ฐ๊ตฌ.

      โ€œThe more we understand whatโ€™s going under the hood, the more we can

      learn how best to train modelsโ€ (โ€œ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ ์–ด๋–ค ์ผ์ด ์ผ์–ด๋‚˜๋Š”์ง€ ์ดํ•ดํ• ์ˆ˜๋ก, ๋ชจ๋ธ์„ ์ตœ์ ์œผ๋กœ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ๋” ์ž˜ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋‹ค.โ€)


๊ฒฐ๋ก 

SLM(Small Language Model)์€ ํšจ์œจ์„ฑ, ์‹ค์šฉ์„ฑ, ์ง€์† ๊ฐ€๋Šฅ์„ฑ์ด๋ผ๋Š” ํ˜„๋Œ€ AI์˜ ํ•ต์‹ฌ ์š”๊ตฌ๋ฅผ ์ถฉ์กฑํ•˜๋ฉฐ, ํŠน์ • ๋„๋ฉ”์ธ์— ํŠนํ™”๋œ ํ•ด๊ฒฐ์ฑ…์œผ๋กœ ์ž๋ฆฌ์žก๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์—๋„ˆ์ง€ ์†Œ๋น„์™€ ํƒ„์†Œ ๋ฐฐ์ถœ์˜ ๊ฐ์†Œ, ๋” ๋‚ฎ์€ ๊ณ„์‚ฐ ๋น„์šฉ์œผ๋กœ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์€ ๊ธฐ์—…๊ณผ ์—ฐ๊ตฌ์ž๋“ค์—๊ฒŒ ์‹ค์งˆ์ ์ธ ํ˜œํƒ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ, SLM์€ LLM(Large Language Model)์ด ํ•ด๊ฒฐํ•˜์ง€ ๋ชปํ•œ ๋ฌธ์ œ๋“ค์„ ๋ณด์™„ํ•˜๋ฉฐ, ๋ฐ์ดํ„ฐ ํ”„๋ผ์ด๋ฒ„์‹œ์™€ ์—ฃ์ง€ ์ปดํ“จํŒ…๊ณผ ๊ฐ™์€ ์‹ค์งˆ์ ์ธ ์š”๊ตฌ๋ฅผ ์ถฉ์กฑํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ๋” ์ด์ƒ AI ์—ฐ๊ตฌ๊ฐ€ ๋‹จ์ˆœํžˆ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํ‚ค์šฐ๋Š” ๋ฐฉํ–ฅ์ด ์•„๋‹ˆ๋ผ, ํŠน์ • ๋ฌธ์ œ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๋งž์ถคํ˜• ์†”๋ฃจ์…˜์„ ํƒ๊ตฌํ•ด์•ผ ํ•จ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์•ž์œผ๋กœ์˜ ์—ฐ๊ตฌ์™€ ํ˜์‹ ์€ SLM๊ณผ LLM์˜ ๊ณต์กด๊ณผ ์ƒํ˜ธ ๋ณด์™„์— ์ง‘์ค‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. LLM์€ ์—ฌ์ „ํžˆ ๋ฒ”์šฉ์ ์ด๊ณ  ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ๊ฐ•์ ์„ ๊ฐ€์ง€๋ฉฐ, SLM์€ ๋„๋ฉ”์ธ ํŠนํ™”์™€ ๊ฒฝ๋Ÿ‰ํ™”๋œ ํ™˜๊ฒฝ์—์„œ ๊ทธ ์žฅ์ ์„ ๋ฐœํœ˜ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ท ํ˜•์€ AI์˜ ์ง€์† ๊ฐ€๋Šฅ์„ฑ๊ณผ ํ™•์žฅ ๊ฐ€๋Šฅ์„ฑ์„ ๋™์‹œ์— ์‹คํ˜„ํ•˜๋Š” ํ•ต์‹ฌ ์ „๋žต์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํŠนํžˆ, LLM๊ณผ SLM ๊ฐ„์˜ ์ฐจ๋ณ„ํ™”๋œ ์—ญํ• ์„ ์ธ์ •ํ•˜๋ฉด์„œ๋„, ์–‘์ž์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉํ•ด ๋” ๋‚˜์€ ๋ชจ๋ธ ์„ค๊ณ„๋ฅผ ๋„๋ชจํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ์ด์–ด์งˆ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด AI๋Š” ๋‹จ์ˆœํžˆ ๋” ํฐ ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ํŠน์ •ํ•œ ์š”๊ตฌ์— ๋งž์ถ˜ ์ตœ์ ํ™”๋œ ํ˜•ํƒœ๋กœ ์ง„ํ™”ํ•ด ๊ฐˆ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ฒฐ๊ตญ, SLM์€ ๋ฐ์ดํ„ฐ์™€ ์ปดํ“จํŒ… ์ž์›์ด ์ œํ•œ๋œ ์ƒํ™ฉ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ AI ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด๋ฉฐ, AI์˜ ๋Œ€์ค‘ํ™”์™€ ์‹ค์šฉํ™”๋ฅผ ์ด‰์ง„ํ•  ์ค‘์š”ํ•œ ์ถ•์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, AI๋Š” ๋” ๋งŽ์€ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ๋‹ค๊ฐ€๊ฐˆ ์ˆ˜ ์žˆ๋Š” ํ˜์‹ ์  ๋„๊ตฌ๋กœ ๋ฐœ์ „ํ•˜๊ฒŒ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ฝ์–ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค :)



-->