[์ ๋ฆฌ] โ24๋ AI Summit : โ๋ผ๋งโ ๊ฐ๋ฐ ๋ฆฌ๋๊ฐ ์ค๋ช ํ๋ LLM : Small Models ์ต์ ๊ธฐ๋ฒ - Soumya Batra
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/์ ๋ฆฌ-24๋ -AI-Summit-๋ผ๋ง-๊ฐ๋ฐ-๋ฆฌ๋๊ฐ-์ค๋ช ํ๋-LLM-Small-Models-์ต์ -๊ธฐ๋ฒ-Soumya-Batra
์ค์ ๋ฏธํ ์ผ์ ์ ๋ง์น ํ, Day2 ์คํ ์ธ์ ์ ์ฐธ์ํ์ฌ ๋งค์ฐ ์ ์ตํ ์๊ฐ์ ๋ณด๋์ต๋๋ค. ๋ชจ๋ ์ธ์ ์ ์ฐธ๊ฐํ์ง ๋ชปํ ์ ์ ์์ฝ์ง๋ง, ์ฐธ์ํ ์ธ์ ๋ค์์ ์ป์ ๋ด์ฉ๊ณผ ์ธ์ฌ์ดํธ๋ฅผ ์ค์ฌ์ผ๋ก ์ด๋ฒ ์๋ฆฌ์ฆ๋ฅผ ๊ตฌ์ฑํด ๋ณด์์ต๋๋ค.
Track C: LLM & GenAI
- ์ ๋ชฉ : โ๋ผ๋งโ ๊ฐ๋ฐ ๋ฆฌ๋๊ฐ ์ค๋ช ํ๋ LLM : Small Models ์ต์ ๊ธฐ๋ฒ
๋ฐํ์ : Soumya Batra Meta Tech Lead, Applied Research Scientist
์๋ก
์ต๊ทผ ๋ช ๋ ๋์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)๊ณผ ์๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(SLM)์ ๋ฐ์ ์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์์ ์ค์ํ ์ ํ์ ์ ๋ง์ดํ์ต๋๋ค.
LLM(Large Language Models)
์ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ ๋ฅ๋ ฅ์ ํตํด ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ง๋ง, ๋์ ๊ณ์ฐ ๋น์ฉ๊ณผ ์๋์ง ์๋น๋ก ์ธํด ํ๊ณ๊ฐ ์์ต๋๋ค.- ๋ฐ๋ฉด, SLM์ ํน์ ๋๋ฉ์ธ์ ์ง์คํ์ฌ ์ ์ ์์์ ํ์ฉํ๋ฉด์๋ ํจ์จ์ ์ผ๋ก ์ฑ๋ฅ์ ๋ผ ์ ์๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ํ๊ณ ์์ต๋๋ค.
๐ LLM to SLM
์ด๋ฌํ ๋ณํ๋ ๊ธฐ์ ๊ณผ ํ๊ณ ๋ชจ๋์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๊ณ ์์ผ๋ฉฐ, ํจ์จ์ฑ๊ณผ ์ง์ ๊ฐ๋ฅ์ฑ์ด๋ผ๋ ๋ชฉํ๋ฅผ ๊ฐ์กฐํ๊ณ ์์ต๋๋ค.
-
SLM์ ํนํ ํ๊ฒฝ์ , ๊ฒฝ์ ์ , ๊ทธ๋ฆฌ๊ณ ์ค์ฉ์ฑ ์ธก๋ฉด์์ ์ค์ํฉ๋๋ค.
- ๊ธฐ์กด์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ง์ ๊ณ์ฐ ์์์ ์๊ตฌํ์ฌ ์ ์ง๋ณด์์ ์ด์ ๋น์ฉ์ด ๋์ง๋ง, SLM์ ์ด๋ฅผ ๊ทน๋ณตํ๋ฉฐ ํน์ ๋๋ฉ์ธ์ ์ต์ ํ๋ ํจ์จ์ฑ์ ์ ๊ณตํฉ๋๋ค.
- AI ๋ชจ๋ธ์ ๋ฐ์ ์ ๋จ์ํ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ๋ง์ด ์๋๋ผ ์ง์ ๊ฐ๋ฅ์ฑ๊ณผ ๋ง์ถคํ๋ผ๋ ์ธก๋ฉด์์์ ํ์ ์ ์๊ตฌํ๊ณ ์์ต๋๋ค.
์ด๋ ํนํ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์๐ก๏ธ์ ์๋์ง ์๋น ์ ๊ฐโป๏ธ์ด๋ผ๋ ํ๋์ ์ฃผ์ ์๊ตฌ ์ฌํญ์ ์ถฉ์กฑ์ํค๋ ๋ฐ ์์ด ์ค์ํ ๋ฐ์ ์ ๋๋ค.
LLM๊ณผ SLM์ ์ ์
์ด๋ฏธ์ง ์ถ์ฒ : https://www.digit.in/features/general/slm-vs-llm-why-smaller-gen-ai-models-maybe-better.html
LLM(๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)์ ์์ญ์ต์์ ์์ฒ์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ก, ๋๋์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ค์ํ ์์ ์ ์ํํ ์ ์๋ ๋ฒ์ฉ์ฑ์ ์ ๊ณตํฉ๋๋ค.
- ๋ํ์ ์ธ ์๋ก
PaLM
,Gemini
,ChatGPT
(GPT-3, GPT-4, GPT-4o)์ ๊ฐ์ ๋ชจ๋ธ๋ค์ด ์์ต๋๋ค. - ์ด๋ฌํ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ ๊ณ์ฐ ์์๊ณผ ๊ฐ๋ ฅํ ํ๋์จ์ด๋ฅผ ํ์๋ก ํ๋ฉฐ, ๋ค์ํ ์ธ์ด ์ฒ๋ฆฌ ์์ ์ ์ง์ํ ์ ์์ต๋๋ค.
์ด๋ฏธ์ง ์ถ์ฒ : https://jaynamm.tistory.com/entry/LLMLarge-Language-Model-์ดํดํ๊ธฐ
๋ฐ๋ฉด, SLM(์๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ)์ (๋ช
ํํ ์ ์๋ ์์ผ๋) ์๋์ ์ผ๋ก ์ ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ก, ํน์ ์์
์ ์ต์ ํ๋์ด ์์ผ๋ฉฐ ํจ์จ์ฑ๊ณผ ์คํ ๊ฐ๋ฅ์ฑ์ ์ค์ํฉ๋๋ค.
๋ฐํ์๊ฐ ๋ค์ํ GPT์๊ฒ SLM์ ์ ์๋ฅผ ๋ฌผ์ด๋ณธ ์ฅํ ( slide from the talk )
- ์ด๋ฌํ ๋ชจ๋ธ์ ๋น๊ต์ ์ ์ ์์์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ๊ฐ์ธ ๋๋ฐ์ด์ค๋ ์ฃ์ง ์ปดํจํ ํ๊ฒฝ์์ ์คํ๋ ์ ์๋๋ก ์ค๊ณ๋ฉ๋๋ค.
- SLM์ ๋๊ท๋ชจ ํด๋ผ์ฐ๋ ์๋ฒ์ ์์กดํ์ง ์๊ณ ๋ ๋ ๋ฆฝ์ ์ผ๋ก ์ด์ ๊ฐ๋ฅ(on-premise)ํ๋ฉฐ, ํนํ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์๋ฅผ ์ค์ํ๋ ํ๊ฒฝ์์ ์ ์ฉํฉ๋๋ค.
SLM์ ์ค์ํ ํน์ง ์ค ํ๋๋ ๋๋ฉ์ธ ํนํ์ ๋๋ค.
๋ฐํ์ SLM์ ์ ์ ์ฅํ ( slide from the talk )
SLM์ ํน์ ์ฌ์ฉ ์๋(usage intent)์ ๋ฐ๋ผ ์ ์๋๋ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค. ์ฌ๊ธฐ์ ์ฌ์ฉ ์๋๋ ์ฃผ๋ก ๋ชจ๋ธ์ด ์ด๋ค ์์ ์ ์ํํ ์ง, ์ด๋ค ๋๋ฉ์ธ์ ํนํ๋์ด ์๋์ง์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
SLM์ ์ฃผ์ ํน์ง
-
์ปดํฉํธํจ (Compact)
- ์ฌ์ฉ์ ๋๋ฐ์ด์ค(์ต๋ ๋ช ๊ฐ์ GPU)์ ์ ํฉํ ํฌ๊ธฐ.
- ๋๊ท๋ชจ ์๋ฒ ํ๊ฒฝ ์์ด๋ ๋์ ๊ฐ๋ฅ.
-
์์ ํจ์จ์ฑ (Resource Efficient)
- ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ๋์ด ์ ๊ฒ ์๋ชจ๋จ.
- ํ๋์จ์ด ์๊ตฌ ์ฌํญ์ด ๋ฎ์ ๋ ํญ๋์ ํ๊ฒฝ์์ ํ์ฉ ๊ฐ๋ฅ.
-
LLM๊ณผ ์ ์ฌํ ์ฑ๋ฅ (Almost as performant as equivalent LLMs)
- ํน์ ์์ ์ ๋ํด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)๊ณผ ์ ์ฌํ ์ฑ๋ฅ ์ ๊ณต.
-
ํน์ ์์ ํนํ (On Specific Tasks)
- ์๋ฃ, ๋ฒ๋ฅ ๊ณผ ๊ฐ์ ํน์ ๋๋ฉ์ธ์ ์ต์ ํ.
- ์ผ๋ฐ์ ์ธ ์์ ๋ณด๋ค๋ ๋๋ฉ์ธ ํนํ ์์ ์ ํ์.
ํ์ฉ ์์
- ์๋ฃ ๊ธฐ๋ก ๋ถ์: SLM์ ์๋ฃ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ์์ฝํ๋ ๋ฐ ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
- ๋ฒ๋ฅ ๋ฌธ์ ์ฒ๋ฆฌ: ๊ณ์ฝ์ ๋๋ ๋ฒ๋ฅ ๋ฌธ์๋ฅผ ์๋์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ฃผ์ ์ ๋ณด๋ฅผ ์ถ์ถ.
- ์ฐ์ ๋ณ ์ ํ๋ฆฌ์ผ์ด์ : ํน์ ๊ธฐ์ ๋ด ๊ณ ๊ฐ ์ง์ ๋ฐ์ดํฐ ๋ถ์ ๋๋ ์ด์ ๋ฐ์ดํฐ ์์ฝ.
SLM์ ํน์ ํ ๋๋ฉ์ธ๊ณผ ์์ ์ ์ด์ ์ ๋ง์ถ์ด ์ค๊ณ๋์๊ธฐ ๋๋ฌธ์, ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ๋นํด ํจ์จ์ ์ด๊ณ , ๋น ๋ฅด๋ฉฐ, ์์ ์ ์ฝ์ ์ด๋ผ๋ ์ ์์ ๋ค์ํ ์ฐ์ ์์ ์ค์ฉ์ ์ผ๋ก ํ์ฉ๋๊ณ ์์ต๋๋ค.
๋ฐํ์ SLM ๋ชจ๋ธ ์ฆ๊ฐ ์ฅํ ( slide from the talk )
SLM(Small Language Model)์ ๊ฐ๋ฐ์ด 2024๋ 2์ ์ดํ ๊ธ๊ฒฉํ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค. ์ด๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ฐ๋ฐ์ด ์ ์ฒด๋ฅผ ๋ณด์ด๊ธฐ ์์ํ๋ฉด์, ๋ณด๋ค ํจ์จ์ ์ด๊ณ ํน์ ์์ ์ ์ต์ ํ๋ SLM์ด ์ฃผ๋ชฉ๋ฐ๊ฒ ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
SLM์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ผ๋ฉด์๋ ํน์ ๋๋ฉ์ธ์ด๋ ์์ ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋๋ก ์ค๊ณ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, Gemini 2B, Danube, GPT-4o Mini, Llama-3.1-Minitron๊ณผ ๊ฐ์ ์๋ก์ด SLM์ ์ ํ๋ ์์์ ํ์ฉํ์ฌ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ฌํ ๋ชจ๋ธ๋ค์ด ๋ค์ํ ์ฐ์ ์์ ๋์ ๋๊ณ ์์ต๋๋ค.
SLM์ ์ฆ๊ฐ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ๊ณ ์ฑ๋ฅ ํ๋์จ์ด๊ฐ ํ์ํ๋ ๊ธฐ์กด LLM์ ํ๊ณ๋ฅผ ๋ณด์ํ๋ฉฐ, ํน์ ๋ชฉ์ ์ ์ํ ๋ง์ถคํ AI ์๋ฃจ์ ๊ฐ๋ฐ์ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด๊ณ ์์ต๋๋ค. 2024๋ ์ดํ, SLM์ ํ์ฉ์ ๋์ฑ ํ์ฐ๋ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
(์ ๋ฆฌ) LLM๊ณผ SLM์ ์ฐจ์ด ํ ์ด๋ธ
SLM์ด ์ฃผ๋ชฉ๋ฐ๋ ์ด์
-
SLM์ ์์๊ฐ ์ฆ๊ฐํ๋ ์ฃผ์ ์ด์
-
ํ๋ผ์ด๋ฒ์ (Privacy)
- SLM์ ๋ก์ปฌ ํ๊ฒฝ์์ ์คํ๋ ์ ์์ด, ๋ฐ์ดํฐ๋ฅผ ์ธ๋ถ ์๋ฒ๋ก ์ ์กํ ํ์๊ฐ ์์ต๋๋ค.
- ์ด๋ ๋ฏผ๊ฐํ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ ๋ณด์์ด ์ค์ํ ๋ถ์ผ์์ ๋งค์ฐ ์ ๋ฆฌํฉ๋๋ค.
-
๋น์ฉ ์ ๊ฐ (Cost)
- ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋นํด ํ์ต๊ณผ ์ถ๋ก ์ ํ์ํ ์์์ด ์ ๊ธฐ ๋๋ฌธ์ ๋น์ฉ ํจ์จ์ ์ ๋๋ค.
- ํนํ ์ค์๊ท๋ชจ ๊ธฐ์ ์ด๋ ์์์ด ์ ํ๋ ํ๊ฒฝ์์๋ ํ์ฉ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
-
ํจ์จ์ฑ (Efficiency)
- SLM์ ๊ฒฝ๋ํ๋ ๊ตฌ์กฐ ๋๋ถ์ ์คํ ์๋๊ฐ ๋น ๋ฅด๊ณ ํน์ ์์ ์ ์ต์ ํ๋๊ธฐ ์ฝ์ต๋๋ค.
- ๋ฐ์ดํฐ ์ผํฐ์์์ ์๋์ง ์๋น๋ฅผ ์ค์ผ ์ ์์ด ์ง์ ๊ฐ๋ฅ์ฑ์ ์ถ๊ตฌํ๋ ์ฐ์ ์ ์ ํฉํฉ๋๋ค.
- ์ค์๊ฐ ์ฒ๋ฆฌ์ ๊ฐ์ ๊ณ ์ ์์ฉ ๋ถ์ผ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
-
๋ง์ถคํ (Customization)
- ํน์ ๋๋ฉ์ธ์ ํนํ๋ ๋ฐ์ดํฐ์ ์์ ์ ๋ง๊ฒ ์กฐ์ ํ๊ธฐ ์ฉ์ดํฉ๋๋ค.
- ์ด๋ ์๋ฃ, ๋ฒ๋ฅ , ๊ณ ๊ฐ ์๋น์ค ๋ฑ ๋ค์ํ ์ฐ์ ์์ SLM์ด ๋๋ฆฌ ํ์ฉ๋๋ ์ด์ ์ค ํ๋์ ๋๋ค.
-
-
์ ์ ์ปค์ง๋ SLM ์์ฅ
-
์ข์ธก ๊ทธ๋ํ
- SLM(Small Language Model) ์์ฅ์ ๋น ๋ฅด๊ฒ ํ์ฅ๋๊ณ ์์ผ๋ฉฐ, 2030๋ ๊น์ง 200์ต ๋ฌ๋ฌ(์ฝ 20์กฐ ์) ๊ท๋ชจ์ ์ด๋ฅผ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
- ํ์ฌ 2023๋
๊ธฐ์ค์ผ๋ก ์์ฅ ๊ท๋ชจ๋ ์ฝ 78์ต ๋ฌ๋ฌ(7.8B USD)์ ๋ฌํ๋ฉฐ, ์ฐํ๊ท ์ฑ์ฅ๋ฅ (CAGR)์ 15.6%๋ก ์์ธก๋๊ณ ์์ต๋๋ค.
๐ (์ฐธ๊ณ ) ๋ง์ฝ ํด๋น ์ก์ ๊ณ์ฐ์ด ๊ตฌ์ฒด์ ์ผ๋ก ๊ถ๊ธํ๋ค๋ฉด ์๋ ์ฐํ๊ท ์ฑ์ฅ๋ฅ (CAGR) ๊ณต์์ ํตํด ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐํ ์ ์์ต๋๋ค:
-
์ฐ์ธก ๊ทธ๋ํ
- ์์ฅ ์ ์ ์จ ๋ถํฌ๋ฅผ ๋ณด๋ฉด, ์๋น์ ์ ํ๋ฆฌ์ผ์ด์ (Consumer Applications), ํฌ์ค์ผ์ด(Healthcare), ๊ธฐ์ ์ฉ ์ ํ๋ฆฌ์ผ์ด์ (Enterprise Applications) ๋ฑ์ด ์ฃผ์ ์ฌ์ฉ ์ฌ๋ก๋ก ๋ํ๋๊ณ ์์ต๋๋ค.
- ํนํ ์๋งค(Retail)์ ๋ฒ๋ฅ (Legal) ๋ถ์ผ์์๋ ๋์ ์ด ํ๋ฐํฉ๋๋ค.
-
-
์ฃ์ง ๋ฐฐํฌ ๊ฐ๋ฅ์ฑ
- SLM์ ์ฃ์ง ๋๋ฐ์ด์ค๋ ์จํ๋ ๋ฏธ์ค ํ๊ฒฝ์์ ์คํ ๊ฐ๋ฅํ๋ฉฐ, ๋คํธ์ํฌ ์ ์ฝ ํ๊ฒฝ์์ ์ ๋ฆฌํฉ๋๋ค.
- ์ด๋ฌํ ํน์ง์ ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์๋ฅผ ๋ณด์ฅํ๋ฉด์ ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ ์ ์์ต๋๋ค.
- SLM์ ์ฃ์ง ๋๋ฐ์ด์ค๋ ์จํ๋ ๋ฏธ์ค ํ๊ฒฝ์์ ์คํ ๊ฐ๋ฅํ๋ฉฐ, ๋คํธ์ํฌ ์ ์ฝ ํ๊ฒฝ์์ ์ ๋ฆฌํฉ๋๋ค.
-
์ง์ ๊ฐ๋ฅ์ฑ (Sustainability)
- LLM์ ์๋์ง ์๋น์ ํ์ ๋ฐฐ์ถ์์ ์ฝ 7,000๋ฐฐ ๋ ๋ง์ ์์์ ํ์๋ก ํฉ๋๋ค.
- ๋ฐ์ดํฐ ์ผํฐ์ ์๋์ง ์๋น๋ ์ ์ฒด ์๋น๋์ 2%๋ฅผ ์ฐจ์งํ๋ฉฐ, 2๋ ๋ด ๋ ๋ฐฐ๋ก ์ฆ๊ฐํ ๊ฒ์ผ๋ก ์์๋ฉ๋๋ค.
- SLM์ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ ํ์ค์ ์ธ ๋์์
๋๋ค.
- ์๋์ง ์๋น ์ ๊ฐ ์ธ์๋, SLM์ ํ๊ฒฝ ์ํฅ์ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ตฌ๋๊ณ ์์ต๋๋ค.
- LLM์ ์๋์ง ์๋น์ ํ์ ๋ฐฐ์ถ์์ ์ฝ 7,000๋ฐฐ ๋ ๋ง์ ์์์ ํ์๋ก ํฉ๋๋ค.
SLM ๋ง๋๋ ๋ฐฉ๋ฒ
๋ณธ ๋ฐํ์์ SLM์ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ํด์ ์๊ฐํฉ๋๋ค. 2๊ฐ์ง ์ ๊ทผ๋ฒ์ด ์๋ค๊ณ ์ด์ผ๊ธฐํ๋๋ฐ์.
- LLM์ ์์ถ์์ผ์ SLM์ ๋ง๋๋ LLM Compression Technique๋ฅผ ์๊ฐํฉ๋๋ค. (LLM ์์ถ ๊ธฐ๋ฒ)
- ์ฒ์๋ถํฐ SLM์ ์ค๊ณํ๊ณ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค. (๋ชจ๋ธ์ ์ฒ์๋ถํฐ ๊ตฌ์ถ)
1. LLM ์์ถ ๊ธฐ๋ฒ
๊ธฐ์กด ๋ชจ๋ธ์ ํจ์จ์ฑ์ ์ต์ ํํ๋ ๋ฐฉ๋ฒ์ผ๋ก, ์ฃผ๋ก ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ ์ด ์ฌ์ฉ๋ฉ๋๋ค:
- ์ง์ ์ฆ๋ฅ(Knowledge Distillation): ์ง์ ์ฆ๋ฅ(Knowledge Distillation)๋ ๋๊ท๋ชจ ๊ต์ฌ(Teacher) ๋ชจ๋ธ์ ์ถ๋ ฅ์ ํตํด ํ์ต ๋ฐ์ดํฐ์ ํจํด, ๊ด๊ณ ๋ฐ ์ผ๋ฐํ๋ ์ง์์ ํ์(Student) ๋ชจ๋ธ์ ์ ๋ฌํ๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ์
๋๋ค.
- ์ด ๊ณผ์ ์์ ํ์ ๋ชจ๋ธ์ ๊ต์ฌ ๋ชจ๋ธ์ ์์ธก ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ฐฉํ์ฌ ํ์ตํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ ์์ ๋ชจ๋ธ(ํ์ ๋ชจ๋ธ)์ด ๊ต์ฌ ๋ชจ๋ธ์ ๋ณต์กํ ์ง์๊ณผ ์ฑ๋ฅ์ ํจ๊ณผ์ ์ผ๋ก ๊ณ์นํฉ๋๋ค.
๐ ์ง์ ์ฆ๋ฅ(Knowledge Distillation) ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์
- ๋ ผ๋ฌธ: DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
- ๋๊ท๋ชจ โ๊ต์ฌโ ๋ชจ๋ธ์ ์ง์์ ๋ ์์ โํ์โ ๋ชจ๋ธ์ ์ ๋ฌํ์ฌ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๋๋ค.
์๋ฅผ ๋ค์ด, DistilBERT๋ ์ง์ ์ฆ๋ฅ(Knowledge Distillation)๋ฅผ ์ฌ์ฉํ์ฌ BERT ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ฝ 40% ์ค์ด๋ฉด์๋ ์ฑ๋ฅ์ 97%๋ฅผ ์ ์งํ๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค.
์ด๋ฏธ์ง ์ถ์ฒ : https://zilliz.com/learn/distilbert-distilled-version-of-bert
- ํ๋ฃจ๋(Pruning): ํ๋ฃจ๋(Pruning)์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ๋๋ ๋ด๋ฐ ์ฐ๊ฒฐ ์ค ์ค์๋๊ฐ ๋ฎ์ ๋ถ๋ถ์ ์ ๊ฑฐํ์ฌ, ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๊ณ ๋ชจ๋ธ์ ๊ฒฝ๋ํํ๋ ๋ฅ๋ฌ๋ ์ต์ ํ ๊ธฐ๋ฒ์
๋๋ค.
- ์ค์๋๊ฐ ๋ฎ๋ค๊ณ ๊ฐ์ฃผ๋๋ ๊ฐ์ค์น(weight)๋ ๋ด๋ฐ์ ์ ๊ฑฐํจ์ผ๋ก์จ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋๊ณผ ๊ณ์ฐ ๋น์ฉ์ ์ค์ ๋๋ค.
- ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ๋ณ๊ฒฝํ์ง ์๊ณ ๋ ๋์ผํ ๊ฒฐ๊ณผ๋ฅผ ์ ์งํ๊ฑฐ๋, ์ต์ํ์ ์ฑ๋ฅ ์์ค๋ง ๋ฐ์ํ๋๋ก ์ค๊ณํฉ๋๋ค.
๐ ํ๋ฃจ๋(Pruning) ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์
- ๋ ผ๋ฌธ: Structured Pruning of BERT-based Question Answering Models
- ๋ชจ๋ธ์ ์ค์ํ์ง ์์ ํ๋ผ๋ฏธํฐ๋ ๋ด๋ฐ ์ฐ๊ฒฐ์ ์ ๊ฑฐํ์ฌ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ์ค์ด๊ณ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๋ ๊ธฐ๋ฒ์ ๋๋ค.
์๋ฅผ ๋ค์ด, ๋ ผ๋ฌธ โStructured Pruning of BERT-based Question Answering Modelsโ์์๋ BERT ๊ธฐ๋ฐ ์ง๋ฌธ ์๋ต ๋ชจ๋ธ์ ๊ตฌ์กฐ์ ํ๋ฃจ๋(Structured Pruning)์ ์ ์ฉํ์ฌ ๋ชจ๋ธ์ ํจ์จ์ฑ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.
์ด๋ฏธ์ง ์ถ์ฒ : https://arxiv.org/pdf/1910.06360 (๋ ผ๋ฌธ ์๋ฌธ)
- ์์ํ(Quantization): ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฎ์ ๋นํธ ์ ๋ฐ๋(์: 32-bit โ 8-bit ๋๋ 4-bit)๋ก ๋ณํํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ ๊ณ์ฐ ๋น์ฉ์ ์ ๊ฐํ๋ ๋ฐฉ๋ฒ์
๋๋ค.
- ์ด๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ํ๋์จ์ด์์์ ์คํ ํจ์จ์ฑ์ ๊ทน๋ํํฉ๋๋ค.
- ์์ํ๋ ํนํ ๋ชจ๋ฐ์ผ ๋๋ฐ์ด์ค ๋ฐ ์ฃ์ง ์ปดํจํ ํ๊ฒฝ์์์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ ์ฉ์ ์ ์ฉํฉ๋๋ค.
๐ ์์ํ(Quantization) ๊ธฐ๋ฐ ์ฐ๊ตฌ ์์
- ๋ ผ๋ฌธ: GPTQ (Generative Pre-trained Transformer Quantization)
- GPT-3์ ๊ฐ์ ๋๊ท๋ชจ ๋ชจ๋ธ์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ ๊ณตํ์ง๋ง, ์ถ๋ก ์์๋ ์์ฒญ๋ ๊ณ์ฐ ๋ฆฌ์์ค์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ํ์ฒ๋ฆฌ ์์ํ(post-training quantization)๋ฅผ ํตํด ๋ชจ๋ธ์ 3๋นํธ ๋๋ 4๋นํธ๋ก ์์ถํ๋ฉด์ ์ฑ๋ฅ ์์ค์ ์ต์ํํ๋ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
์ด๋ฏธ์ง ์ถ์ฒ : https://arxiv.org/pdf/1910.06360 (๋ ผ๋ฌธ ์๋ฌธ)
Pruning + Knowledge Distillation
-
๋ ผ๋ฌธ ๋งํฌ: https://arxiv.org/pdf/2408.11796
Nvidia์ ๋ ผ๋ฌธ โLLM Pruning and Distillation in Practice: The Minitron Approachโ๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ํจ์จ์ ์ธ ์์ถ์ ์ํด ๊ฐ์ง์น๊ธฐ(pruning)์ ์ง์ ์ฆ๋ฅ(knowledge distillation)๋ฅผ ๊ฒฐํฉํ Minitron ๋ฐฉ๋ฒ๋ก ์ ์ ์ํฉ๋๋ค.
์๋ ํ๋ NVIDIA์ Minitron ๋ชจ๋ธ์ด ๊ธฐ์กด์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)๋ค๊ณผ ๋น๊ตํ์ฌ ๋ค์ํ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๋ฅ(State-of-the-Art, SOTA)์ ๋ฌ์ฑํ์์ ๋ํ๋ ๋๋ค.
LLM์ ๋ฐ์ ์๋๋ ๋น ๋ฅด์ง๋ง, SLM๋ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๊ณ ์๋ค
์ด ๊ทธ๋ํ๋ SLM์ ํจ์จ์ ์ธ ๋ฐ์ ์๋๋ฅผ ๊ฐ์กฐํ๋ฉฐ, ํน์ ์ฃผ๊ธฐ๋ง๋ค ์ฑ๋ฅ์ด LLM์ ๊ทผ์ ํ๊ฑฐ๋ ๋ฐ๋ผ์ก์ ๊ฐ๋ฅ์ฑ์ ์์ฌํฉ๋๋ค.
- ์ด๋ฅผ ํตํด SLM์ด LLM์ ๋์ฒด์ฌ๋ก์ ํ์ฉ๋ ์ ์๋ ์ ์ฌ๋ ฅ์ด ์์์ ๋ณด์ฌ์ค๋๋ค.
- ์ถ๊ฐ์ ์ผ๋ก, SLM์ ์ฑ์ฅ ์๋์ ๊ฐ๋ฐ ์ฃผ๊ธฐ๋ฅผ ๋ ๋ถ์ํ๋ฉด SLM์ด LLM์ ๋น์ฉ ๋๋น ํจ์จ์ ์ธ ์ ํ์ง๊ฐ ๋๋ ์์ญ์ ๊ตฌ์ฒด์ ์ผ๋ก ํ์ธํ ์ ์์ ๊ฒ์ ๋๋ค.
-
๋ฟ๋ง ์๋๋ผ ์์ ์ฌ์ด์ฆ์ ๋ชจ๋ธ(SLM)์ด ํน์ ํ ์์ (task-specific)์ ์ต์ ํ๋ ๊ฒฝ์ฐ, ๋ ํฐ ๋ชจ๋ธ(LLM)๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ค๊ณ ์ด์ผ๊ธฐ ํฉ๋๋ค.
- Llama 3.3 70B ๋ชจ๋ธ์ ํ ์คํธ ์ฒ๋ฆฌ์ ํนํ๋ instruction-tuned ๋ชจ๋ธ๋ก, ์ด๋ฅผ ํตํด ๊ฐ์ ํฌ๊ธฐ์ Llama 3.1 70B ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ฐ์ํจ์ ๋ณด์ฌ์ค๋๋ค.
- ํ ์คํธ ์ ์ฉ ์์ (text-only applications)์ ํ์ ํ ๊ฒฝ์ฐ, ๋ ํฐ ๋ชจ๋ธ์ธ Llama 3.2 90B ๋๋ Llama 3.1 405B์ ๊ทผ์ ํ๊ฑฐ๋ ์ ์ฌํ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์์ด ๊ฐ์กฐ๋๊ณ ์์ต๋๋ค.
2. ์ฒ์๋ถํฐ SLM ๊ตฌ์ถํ๋ ํ
-
๊ณ ํ์ง ๋ฐ์ดํฐ ์์ง ๋ฐ ์ ์ฒ๋ฆฌ
๐ก ์๋ ๋ ๋ ผ๋ฌธ, โTextbooks Are All You Needโ์ โTextbooks Are All You Need II: phi-1.5 ๊ธฐ์ ๋ณด๊ณ ์โ๋ ๊ณ ํ์ง ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๊ฐ์กฐํ๋ฉฐ, ์ํ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๋ฐฉ๋ฒ์ ํ๊ตฌํฉ๋๋ค.
- ๊ฐ ๋ ผ๋ฌธ์ ์ฃผ์ ๊ธฐ์ฌ์ ํต์ฌ ํฌ์ธํธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Textbooks Are All You Need 1
- phi-1 ๋ชจ๋ธ ๊ฐ๋ฐ: 1.3์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ phi-1์ ์๊ฐํ์์ผ๋ฉฐ, ์ด๋ HumanEval์์ 50.6%, MBPP์์ 55.5%์ pass@1 ์ ํ๋๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค.
- ๋ฐ์ดํฐ ํ์ง์ ์ค์์ฑ ๊ฐ์กฐ: ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์์ ์ค์ด๋ฉด์๋ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ฌ ๊ธฐ์กด์ ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ ์ ์ฌํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ์ ์ฆํ์์ต๋๋ค.
- Textbooks Are All You Need 2
- phi-1.5 ๋ชจ๋ธ ๊ฐ๋ฐ: 1.3์ต ๊ฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง phi-1.5 ๋ชจ๋ธ์ ์๊ฐํ์์ผ๋ฉฐ, ์ด๋ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ 5๋ฐฐ ํฐ ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์ด๋ฑํ๊ต ์ํ ๋ฐ ๊ธฐ๋ณธ ์ฝ๋ฉ๊ณผ ๊ฐ์ ๋ณต์กํ ์ถ๋ก ์์ ์์๋ ๋๋ถ๋ถ์ ๋น์ต์ LLM์ ๋ฅ๊ฐํ์์ต๋๋ค.
- ๋ชจ๋ธ์ ํน์ฑ ๊ด์ฐฐ: phi-1.5๋ โ๋จ๊ณ๋ณ ์ฌ๊ณ โ ๋ฅ๋ ฅ, ๊ธฐ๋ณธ์ ์ธ ์ธ์ปจํ ์คํธ ํ์ต ๋ฑ ๋ ํฐ LLM์์ ๊ด์ฐฐ๋๋ ํน์ฑ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ํ๊ฐ ๋ฐ ์ ํดํ๊ฑฐ๋ ํธํฅ๋ ์์ฑ์ ๊ฐ๋ฅ์ฑ๋ ๋ํ๋ฌ์ต๋๋ค.
- Chinchilla Scaling Laws๋ฅผ ๋์ด์ ํ๋ จ
์ ๊น! Chinchilla Scaling Laws์ ๋ํด์ ์์๋ณด๊ณ ๊ฐ์๋ค!
-
๋ฐฐ๊ฒฝ ์ค๋ช
- Scaling Laws for Neural Language Models
๐ง OpenAI์ 2020๋ ๋ ์ฐ๊ตฌ โScaling Laws for Neural Language Modelsโ๋ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์์ ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ฉด ์ฑ๋ฅ์ด ํฅ์๋์ง๋ง, ํ์ชฝ๋ง ์ฆ๊ฐ์ํฌ ๊ฒฝ์ฐ์๋ ์ฑ๋ฅ ํฅ์์ ํ๊ณ๊ฐ ์์์ ์ง์ ํ์์ต๋๋ค.
๋ชจ๋ธ ํฌ๊ธฐ
,๋ฐ์ดํฐ ํฌ๊ธฐ
,๊ณ์ฐ ์์์ ์ฆ๊ฐ
๊ฐ ๋ชจ๋ธ ์ฑ๋ฅ ํฅ์์ ์ค์ํ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ 6๊ฐ์ง ์ฃผ์ ๋ฒ์น์ผ๋ก ์ ๋ฆฌํฉ๋๋ค.-
- ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น (Power Laws):
- ๋ชจ๋ธ ์ฑ๋ฅ์ ๋ชจ๋ธ ํฌ๊ธฐ, ๋ฐ์ดํฐ์ ํฌ๊ธฐ, ํ๋ จ์ ์ฌ์ฉ๋๋ ์ปดํจํธ ์ ๋ฑ ์ฃผ์ ์์์ ๋ํด ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น์ผ๋ก ๋ํ๋ฉ๋๋ค. ๊ฐ ์์๋ ์ฑ๋ฅ์ ๋น๋กํ์ฌ ์ํฅ์ ๋ฏธ์นฉ๋๋ค.
- ๊ฑฐ๋ญ์ ๊ณฑ ๋ฒ์น (Power Laws):
-
- ๊ณผ์ ํฉ์ ๋ณดํธ์ฑ (Universality of Overfitting):
- ์ฑ๋ฅ์ ๋ชจ๋ธ ํฌ๊ธฐ(N)์ ๋ฐ์ดํฐ์ ํฌ๊ธฐ(D)๋ฅผ ํจ๊ป ์ฆ๊ฐ์ํฌ ๋ ํฅ์๋์ง๋ง, ํ์ชฝ๋ง ์ฆ๊ฐํ ๊ฒฝ์ฐ ์ ์ง์ ์ผ๋ก ์ฑ๋ฅ ์ ํ๊ฐ ๋ฐ์ํ๋ฏ๋ก N๊ณผ D์ ์ ์ ํ ๋น์จ์ ์ ์งํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
- ๊ณผ์ ํฉ์ ๋ณดํธ์ฑ (Universality of Overfitting):
-
- ํ๋ จ ๊ณก์ ์ ๋ณดํธ์ฑ (Universality of Training):
- ํ๋ จ ๊ณก์ ์ ์์ธก ๊ฐ๋ฅํ๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์ ๊ด๊ณ์์ด ๋งค๊ฐ๋ณ์๊ฐ ์ ์ฌํ ๊ฒฝํฅ์ ๋ํ๋ ๋๋ค. ์ด๊ธฐ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ํตํด ์ถํ ์์ค ๊ฐ์ ์์ธกํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ์ ๊ณตํฉ๋๋ค.
- ํ๋ จ ๊ณก์ ์ ๋ณดํธ์ฑ (Universality of Training):
-
- ์ํ ํจ์จ์ฑ (Sample Efficiency):
- ํฐ ๋ชจ๋ธ์ ๋ ์ํ ํจ์จ์ ์ด๋ฉฐ, ๋์ผํ ์ฑ๋ฅ์ ๋๋ฌํ๊ธฐ ์ํด ์ ์ ๋ฐ์ดํฐ ํฌ์ธํธ์ ์ ์ ์ต์ ํ ๋จ๊ณ๋ฅผ ์๊ตฌํฉ๋๋ค.
- ์ํ ํจ์จ์ฑ (Sample Efficiency):
-
- ์ต์ ์ ๋ฐฐ์น ํฌ๊ธฐ (Optimal Batch Size):
- ํ๋ จ ๋ชจ๋ธ์ ์ต์ ๋ฐฐ์น ํฌ๊ธฐ๋ ์์ค๊ณผ ๋ฐ์ ํ ๊ด๊ณ๊ฐ ์์ผ๋ฉฐ, ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ ์ฌ์ฉํ ๋ ์๋ ดํ๊ธฐ ์ํด ์ฝ 100๋ง์์ 200๋ง ํ ํฐ์ด ์ด์์ ์ด๋ผ๋ ์ ์ด ์ ์๋ฉ๋๋ค.
- ์ต์ ์ ๋ฐฐ์น ํฌ๊ธฐ (Optimal Batch Size):
-
- ์ปดํจํธ ํจ์จ์ ์ธ ํ๋ จ (Compute-Efficient Training):
- ๊ณ ์ ๋ ์ปดํจํธ ์์ฐ ๋ด์์ ํ๋ จ์ ์งํํ ๋, ๋งค์ฐ ํฐ ๋ชจ๋ธ์ ํ๋ จํ๊ณ ์๋ ด ์ ์ ์ค๋จํ๋ ๊ฒ์ด ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐ ๋ ํจ๊ณผ์ ์ด๋ผ๋ ์ฃผ์ฅ์ด ์์ต๋๋ค.
- ์ปดํจํธ ํจ์จ์ ์ธ ํ๋ จ (Compute-Efficient Training):
-
- Training Compute-Optimal Large Language Models
๐ง Google์ 2022๋ ๋ ์ฐ๊ตฌ โTraining Compute-Optimal Large Language Modelsโ, Chinchilla ์ฐ๊ตฌ๋ ์ฃผ์ด์ง ๊ณ์ฐ ์์ ๋ด์์ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ์ด๋ป๊ฒ ์ต์ ํํ ๊ฒ์ธ์ง์ ์ด์ ์ ๋ง์ถ์์ต๋๋ค.
- ์ด ์ฐ๊ตฌ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ๋์ผํ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์์ต๋๋ค.
-
์ด๋ฅผ ํตํด, ๊ธฐ์กด์ ๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ด ๊ณผ์ํ์ต(undertrained) ์ํ์์์ ์ง์ ํ๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ํฌ๊ธฐ์ ๊ท ํ์ด ์ค์ํ๋ค๋ ์๋ก์ด ๊ด์ ์ ์ ์ํ์์ต๋๋ค.
-
- ๋ ผ๋ฌธ์ Figure 1๊ณผ Figure A3๋ ํ์ฌ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ๋ค์ด ๊ณผ์ํ์ต(undertrained) ์ํ์ ์์์ ์๊ฐ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. ๊ฐ ๊ทธ๋ํ์ ์๋ฏธ๋ฅผ ์์ธํ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
- Figure 1: Overlaid predictions
- ์ด ๊ทธ๋ํ๋ ์ธ ๊ฐ์ง ์ ๊ทผ๋ฒ(Approach 1, 2, 3)์ ์์ธก ๊ฒฐ๊ณผ์ Kaplan et al. (2020)์ ์์ธก์ ํจ๊ป ๋ณด์ฌ์ค๋๋ค. X์ถ์ FLOPs(์ฐ์ฐ๋)์, Y์ถ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๋ํ๋ ๋๋ค.
- ํ์ฌ ๋ชจ๋ธ๋ค์ ์์น: GPT-3(175B), Gopher(280B), Megatron-Turing NLG(530B) ๋ฑ์ ๋ชจ๋ธ์ ๊ทธ๋ํ ์๋จ์ ์์นํด ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ ํฌ๊ธฐ๋ ํฌ์ง๋ง, ์ฃผ์ด์ง ์ฐ์ฐ ์์ฐ ๋ด์์ ์ต์ ์ ์ฑ๋ฅ์ ๋ด๊ธฐ์๋ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํจ์ ์์ฌํฉ๋๋ค.
- ์์ธก๋ ์ต์ ์ง์ : ์ธ ๊ฐ์ง ์ ๊ทผ๋ฒ ๋ชจ๋ ํ์ฌ ๋ชจ๋ธ๋ค๋ณด๋ค ์์ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ฐ์ง๋ฉฐ, ๋ ๋ง์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ต์ ์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ๊ท ํ ์๊ฒ ์ฆ๊ฐ์์ผ์ผ ํจ์ ์๋ฏธํฉ๋๋ค.
- Figure A3: Optimal number of tokens and parameters for a training FLOP budget
- ์ด ๊ทธ๋ํ๋ ๊ณ ์ ๋ ์ฐ์ฐ ์์ฐ(FLOP budget) ํ์์ ์ต์ ์ ํ๋ผ๋ฏธํฐ ์์ ํ์ต ํ ํฐ ์๋ฅผ ๋ํ๋ ๋๋ค. X์ถ์ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์, Y์ถ์ ํ์ต ํ ํฐ ์๋ฅผ ๋ํ๋ ๋๋ค.
- ์ต์ ์ ์กฐํฉ: ์ธ ๊ฐ์ง ์ ๊ทผ๋ฒ ๋ชจ๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์์ ํ์ต ํ ํฐ ์๊ฐ ๋น๋ก ๊ด๊ณ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ฃผ์ด์ง ์ฐ์ฐ ์์ฐ ๋ด์์ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ๋์ผํ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์ต์ ์์ ์๋ฏธํฉ๋๋ค.
- ํ์ฌ ๋ชจ๋ธ๋ค์ ์์น: ํ์ฌ์ ๋๊ท๋ชจ ๋ชจ๋ธ๋ค์ ์ด ์ต์ ์ ์์ ๋ฒ์ด๋ ์์ผ๋ฉฐ, ๋ชจ๋ธ ํฌ๊ธฐ์ ๋นํด ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํจ์ ์์ฌํฉ๋๋ค.
- ์ด ์ฐ๊ตฌ๋ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ๋ฅผ ๋์ผํ ๋น์จ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์ต์ ์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ ๋ฐ ์ค์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์์ต๋๋ค.
- Scaling Laws for Neural Language Models
๐ ๋ฐ๋ผ์! ๐ฟ๏ธ Chinchilla Optimum(์ต์ ํ ๋ฒ์น) ๋๋ Chinchilla Point(์ง์ )์ ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ํฌ๊ธฐ ๊ฐ์ ์ต์ ๊ท ํ์ ์ ์ํ๋ ๊ธฐ์ค์ด๋ผ๊ณ ์ ์ํ ์ ์์ต๋๋ค.
-
SLM์ ๋ํ ๋ชจ๋ธ์ ๋นํด ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ์ด ๋ณต์กํ ํจํด ํ์ต์ ์ ํ์ด ์์ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ Chinchilla Scaling Laws์ ๋ฐ๋ผ ๋ชจ๋ธ ํฌ๊ธฐ์ ๋น๋กํ์ฌ ์ถฉ๋ถํ ์์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ ๊ณตํ๋ฉด, ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ๊ณผ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค.
-
ํนํ, Qwen2.5์ ๊ฐ์ด ๋ชจ๋ธ ํฌ๊ธฐ์ ๋นํด ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ ์ ๋ต์ SLM์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ๋ฐ ํจ๊ณผ์ ์ ๋๋ค. ์ด๋ SLM์ด ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆฌ๊ธฐ ์ํด ์ถ๊ฐ ๋ฐ์ดํฐ ํ์ต์ด ์ผ๋ง๋ ์ค์ํ์ง๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
-
- (์ฐธ๊ณ ) ์ค์ ๋ก ์ถ๊ฐ์ ์ผ๋ก ์๋ฃ ์กฐ์ฌ๋ฅผ ์ํํด๋ณด๋๊น SLM์ Chinchilla Scaling Laws๋ฅผ ๋์ด์ ์ถ๊ฐ ๋ฐ์ดํฐ ํ์ต์ ์ํํ SLM ํ์ต์ ์ํค๋ ๋ชจ๋ธ๋ค์ด ์๋ ๊ฒ์ ํ์ธํ ์ ์์์ต๋๋ค.
Mamba์ Phi-2๋ ๋ชจ๋ ์ํ ์ธ์ด ๋ชจ๋ธ(SLM)์ ์ํ๋ฉฐ, ์ด๋ค์ ํ์ต ๋น์จ์ ๋ณด๋ฉด 200:1๋ก over-trained ์์ญ์ ์๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
์ด๋ฏธ์ง ์ถ์ฒ : https://lifearchitect.ai/chinchilla/
SLM์ด ์ด๋ป๊ฒ LLM์ ๋ฐ๋ผ์ก์ ์ ์๋๊ฐ
-
Generative AI(GenAI) ์ฐ๊ตฌ๋ ์ฒ์์ SLM์ผ๋ก ์์๋์์ต๋๋ค.
- ์ดํ LLM์ด ๋์ ๋์์ง๋ง, ์คํ ๊ฒฐ๊ณผ ํฐ ๋ชจ๋ธ์ด ํญ์ ์์ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ๊ฒ์ ์๋๋ฉฐ, ์์ ๋ชจ๋ธ์ ์์ (task)์ ๋ง๊ฒ ํ์ธํ๋ํ๋ฉด ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ์ ์์์ด ๋ฐํ์ก์ต๋๋ค.
-
ํ์ฌ์ LLM์กฐ์ฐจ๋ ์ ์ธ๊ณ์ ์ง์์ ์ถฉ๋ถํ ํฌํจํ ์ ์๋, ์์ถ๋ ์ํ์ ๋ชจ๋ธ์ ๋๋ค.
- ์ด๋ ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ๋ชจ๋ ์ ๋ณด๋ฅผ ๋ด๊ธฐ์๋ LLM๋ ์ ํ์ ์ด๋ผ๋ ๊ฒ์ ๋ปํฉ๋๋ค.
- ์ผ๋ง๋ ๋ ํ๋ จ ๋ฐ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๊ฐ์ ๋ฐ๋ผ์, SLM์ด ํน์ ์์ ์ ๋ ์ ์๋ํ ์ ์์ต๋๋ค.
-
๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ์ดํฐ ์์ด ์ฑ๋ฅ์ ๋ฏธ์น๋ ๊ด๊ณ๋ ์ฌ์ ํ ์ ํจํฉ๋๋ค.
- SLM์ด๋ผ๋ ์ ์ ํ ๋ฐ์ดํฐ ํฌ๊ธฐ์ ํ๋ จ ์์์ ํฌ์ ํ๋ฉด LLM์ ๊ทผ์ ํ ์ฑ๋ฅ์ ๋ผ ์ ์์ต๋๋ค.
(๊ฒฐ๋ก ) ํ์ฌ์ LLM์ ์ง์์ ์ ์ฅํ๋ ๋ฐฉ์์ด๋ ๊ณ์ฐ ํจ์จ์ฑ ์ธก๋ฉด์์ ๋นํจ์จ์ ์ด๋ผ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
LLM์ ๋ฌธ์ ์
๋ฐํ์๋ ํ์ฌ์ LLM(Large Language Models)์ด โ๋ฌด์ฐจ๋ณ์ ์ธ brute force ๋ฐฉ์โ์ผ๋ก ์๋ํ๊ณ ์๋ค๋ ์ ์ ๊ฐ์กฐํฉ๋๋ค
-
ํ๋ จ ๋ฐ์ดํฐ์ ํ์ง ๋ฌธ์
- Pre-trained models are getting trained with noisy data:
- ํ์ฌ LLM์ ๋๊ท๋ชจ์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ๊ณ ์์ง๋ง, ์ด ๋ฐ์ดํฐ์๋ ๋ง์ ๋ ธ์ด์ฆ(๋ถํ์ํ๊ฑฐ๋ ๋ถ์ ํํ ์ ๋ณด)๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
- ๋ ธ์ด์ฆ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ํํ๋ฉฐ, ํ์ต ํจ์จ์ฑ์ ๋จ์ด๋จ๋ฆฝ๋๋ค.
- ์ด๋ ๋ชจ๋ธ์ด ๋ฐ๋์ ํ์ํ ์ ๋ณด๋ง ํ์ตํ๋๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ ํ๋ ์์ ์ด ๋ถ์กฑํจ์ ์์ฌํฉ๋๋ค.
- Pre-trained models are getting trained with noisy data:
-
๋นํจ์จ์ ์ธ ์ง์ ์ ์ฅ
- Knowledge is stored in a highly non-optimized way:
- ํ์ฌ LLM์ ๋นํจ์จ์ ์ธ ๋ฐฉ์์ผ๋ก ์ง์์ ์ ์ฅํ๊ณ ์์ต๋๋ค.
- ์ฌ๋ผ์ด๋๋ ๋ชจ๋ LLM์ด ํ๋ผ๋ฏธํฐ๋น ์ฝ 2๋นํธ(bits)์ ์ ๋ณด๋ฅผ ์ ์ฅํ ์ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
- 7B(7 billion parameters) ๋ชจ๋ธ๋ง์ผ๋ก๋ ์ ์ธ๊ณ์ ์ํค(Wikipedia)์ ๊ต๊ณผ์ ํ ์คํธ ์ง์์ ํ์ตํ๊ธฐ์ ์ถฉ๋ถํ๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค.
- ์ด๋ ๋ ์์ ๋ชจ๋ธ์์๋ ๋์ผํ ์์ ์ ๋ ํจ์จ์ ์ผ๋ก ์ํํ ์ ์์์ ์์ํฉ๋๋ค.
- Knowledge is stored in a highly non-optimized way:
-
์ค๋ณต๋๊ฑฐ๋ ๋ถํ์ํ ์ฐ๊ฒฐ
- Redundant/unnecessary connections:
- Interpretability Research์ ๋ฐ๋ฅด๋ฉด, LLM์ ํ์ ์ด์์ ์ค๋ณต๋ ์ฐ๊ฒฐ์ ํฌํจํ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ ํจ์จ์ฑ์ ๋จ์ด๋จ๋ฆฝ๋๋ค.
- LLM์ด ์ฌ๋ฌ ๊ฐ์ ์์ ํ๋ก(circuit)๋ฅผ ์ธ์ฝ๋ฉํ๋ ๊ฒฝํฅ์ด ์๋ค๋ ์ ์ด ๋ฐ๊ฒฌ๋์์ต๋๋ค. ์ด๋ ์ต์ ํ๊ฐ ๋ถ์กฑํจ์ ๋ณด์ฌ์ค๋๋ค.
- Redundant/unnecessary connections:
-
์๋ก์ด ํ์ต ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์ํคํ ์ฒ์ ๊ฐ๋ฅ์ฑ
- Possibly more efficient learning algorithms are yet to be discovered/proven:
- ํ์ฌ ์ฌ์ฉ๋๋ Transformer ์ํคํ ์ฒ๊ฐ ์ต์ ์ ํ์ต ๋ฐฉ๋ฒ์ด ์๋ ๊ฐ๋ฅ์ฑ์ ์ ๊ธฐํฉ๋๋ค.
- SSM(State Space Models)์ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ๋ ํจ์จ์ ์ธ ๊ตฌ์กฐ๊ฐ ์ฐ๊ตฌ๋๊ณ ์์ผ๋ฉฐ, ์ด๋ LLM์ ๋นํจ์จ์ฑ์ ํด๊ฒฐํ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
- ๋ํ, ํ๋ ฌ ๊ณฑ์ (matrix multiplication)์ ์ต์ ํํ๋ ์ํคํ ์ฒ๊ฐ ์ฑ๋ฅ ํฅ์์ ์ ๊ณตํ ์ ์์ต๋๋ค.
- Possibly more efficient learning algorithms are yet to be discovered/proven:
Research Frontiers
-
Rethinking Model Architectures
- Linear Models:
- SSM(State Space Models) ๋ฐ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๊ฐ์ ๊ฒฝ๋ํ๋ ๋ชจ๋ธ ์ํคํ ์ฒ ํ์.
- Sparse Attention ๋ฐ Reversible Networks๋ฅผ ํตํ ๊ณ์ฐ ํจ์จ์ฑ ์ฆ๋.
- Linear Models:
-
Rethinking Hardware
- Non-von Neumann Architectures:
- ์์ ์ปดํจํ (Quantum Computing)๊ณผ ์ ๊ฒฝํ ์ปดํจํ (Neuromorphic Computing)๊ณผ ๊ฐ์ ์๋ก์ด ํ๋์จ์ด ๊ธฐ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ.
- ์ ๋ ฅ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋์์ ํฅ์์ํค๊ธฐ ์ํ ์ง์ ๊ฐ๋ฅํ ์ปดํจํ ๊ธฐ์ ์ฐ๊ตฌ.
- Non-von Neumann Architectures:
โ๏ธ Non-von Neumann Architectures์ด๋?
- Non-von Neumann Architectures๋ ์ ํต์ ์ธ ํฐ ๋ ธ์ด๋ง ๊ตฌ์กฐ(Von Neumann Architecture)์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ ์๋ ์ปดํจํ ์ํคํ ์ฒ์ ๋๋ค.
ํฐ ๋ ธ์ด๋ง ๊ตฌ์กฐ๋ ์ปดํจํฐ์ ๋ฉ๋ชจ๋ฆฌ์ ํ๋ก์ธ์๊ฐ ๋ถ๋ฆฌ๋์ด ์์ผ๋ฉฐ, ๋ฐ์ดํฐ๋ฅผ ๋ฉ๋ชจ๋ฆฌ์์ ํ๋ก์ธ์๋ก ์ ์กํ๋ ๋ฐฉ์์ผ๋ก ๋์ํฉ๋๋ค.
- ํ์ง๋ง ์ด ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- ํฐ ๋ ธ์ด๋ง ๋ณ๋ชฉ ํ์(Von Neumann Bottleneck)
- ๋ฉ๋ชจ๋ฆฌ์ ํ๋ก์ธ์ ๊ฐ์ ๋ฐ์ดํฐ ์ ์ก ์๋๊ฐ ์ปดํจํฐ ์ฑ๋ฅ์ ์ฃผ์ ์ ํ ์์๊ฐ ๋ฉ๋๋ค.
- ์ฒ๋ฆฌํ ๋ฐ์ดํฐ๊ฐ ์ปค์ง์๋ก ๋ณ๋ชฉ ํ์์ด ์ฌํ๋์ด ์๋์ง ์๋ชจ์ ์ฐ์ฐ ์๋๊ฐ ๋นํจ์จ์ ์ ๋๋ค.
โ๏ธ Non-von Neumann Architectures์ ํน์ง
- Non-von Neumann ๊ตฌ์กฐ๋ ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋์์ ์ธ ์ปดํจํ ์ํคํ ์ฒ๋ก, ๋ํ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ๊ธฐ์ ๋ค์ด ํฌํจ๋ฉ๋๋ค:
- (1) Neuromorphic Computing (์ ๊ฒฝํ ์ปดํจํ )
- (2) Quantum Computing (์์ ์ปดํจํ )
- (3) Processing-in-Memory (PIM, ๋ฉ๋ชจ๋ฆฌ ๋ด ์ฐ์ฐ)
- (4) Heterogeneous Architectures (์ด์ข ์ปดํจํ ์ํคํ ์ฒ)
- Interpretability Research
-
๋ชจ๋ธ์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ๋ ๊น์ด ์ดํดํ๊ธฐ ์ํ ํด์ ๊ฐ๋ฅ์ฑ ์ฐ๊ตฌ.
โThe more we understand whatโs going under the hood, the more we can
learn how best to train modelsโ (โ๋ชจ๋ธ ๋ด๋ถ์์ ์ด๋ค ์ผ์ด ์ผ์ด๋๋์ง ์ดํดํ ์๋ก, ๋ชจ๋ธ์ ์ต์ ์ผ๋ก ํ๋ จ์ํค๋ ๋ฐฉ๋ฒ์ ๋ ์ ๋ฐฐ์ธ ์ ์๋ค.โ)
-
๊ฒฐ๋ก
SLM(Small Language Model)์ ํจ์จ์ฑ, ์ค์ฉ์ฑ, ์ง์ ๊ฐ๋ฅ์ฑ์ด๋ผ๋ ํ๋ AI์ ํต์ฌ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ๋ฉฐ, ํน์ ๋๋ฉ์ธ์ ํนํ๋ ํด๊ฒฐ์ฑ ์ผ๋ก ์๋ฆฌ์ก๊ณ ์์ต๋๋ค. ์๋์ง ์๋น์ ํ์ ๋ฐฐ์ถ์ ๊ฐ์, ๋ ๋ฎ์ ๊ณ์ฐ ๋น์ฉ์ผ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๊ธฐ์ ๊ณผ ์ฐ๊ตฌ์๋ค์๊ฒ ์ค์ง์ ์ธ ํํ์ ์ ๊ณตํฉ๋๋ค.
๋ํ, SLM์ LLM(Large Language Model)์ด ํด๊ฒฐํ์ง ๋ชปํ ๋ฌธ์ ๋ค์ ๋ณด์ํ๋ฉฐ, ๋ฐ์ดํฐ ํ๋ผ์ด๋ฒ์์ ์ฃ์ง ์ปดํจํ ๊ณผ ๊ฐ์ ์ค์ง์ ์ธ ์๊ตฌ๋ฅผ ์ถฉ์กฑํฉ๋๋ค. ์ด๋ ๋ ์ด์ AI ์ฐ๊ตฌ๊ฐ ๋จ์ํ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๋ฐฉํฅ์ด ์๋๋ผ, ํน์ ๋ฌธ์ ๋ฅผ ํจ์จ์ ์ผ๋ก ํด๊ฒฐํ ์ ์๋ ๋ง์ถคํ ์๋ฃจ์ ์ ํ๊ตฌํด์ผ ํจ์ ์์ฌํฉ๋๋ค.
์์ผ๋ก์ ์ฐ๊ตฌ์ ํ์ ์ SLM๊ณผ LLM์ ๊ณต์กด๊ณผ ์ํธ ๋ณด์์ ์ง์คํด์ผ ํฉ๋๋ค. LLM์ ์ฌ์ ํ ๋ฒ์ฉ์ ์ด๊ณ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๋ฐ ๊ฐ์ ์ ๊ฐ์ง๋ฉฐ, SLM์ ๋๋ฉ์ธ ํนํ์ ๊ฒฝ๋ํ๋ ํ๊ฒฝ์์ ๊ทธ ์ฅ์ ์ ๋ฐํํ ๊ฒ์ ๋๋ค. ์ด๋ฌํ ๊ท ํ์ AI์ ์ง์ ๊ฐ๋ฅ์ฑ๊ณผ ํ์ฅ ๊ฐ๋ฅ์ฑ์ ๋์์ ์คํํ๋ ํต์ฌ ์ ๋ต์ด ๋ ๊ฒ์ ๋๋ค.
ํนํ, LLM๊ณผ SLM ๊ฐ์ ์ฐจ๋ณํ๋ ์ญํ ์ ์ธ์ ํ๋ฉด์๋, ์์์ ์ฅ์ ์ ๊ฒฐํฉํด ๋ ๋์ ๋ชจ๋ธ ์ค๊ณ๋ฅผ ๋๋ชจํ๋ ์ฐ๊ตฌ๊ฐ ์ด์ด์ง ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ด๋ฅผ ํตํด AI๋ ๋จ์ํ ๋ ํฐ ๋ชจ๋ธ์ด ์๋๋ผ, ํน์ ํ ์๊ตฌ์ ๋ง์ถ ์ต์ ํ๋ ํํ๋ก ์งํํด ๊ฐ ๊ฒ์ ๋๋ค.
๊ฒฐ๊ตญ, SLM์ ๋ฐ์ดํฐ์ ์ปดํจํ ์์์ด ์ ํ๋ ์ํฉ์์๋ ๊ฐ๋ ฅํ AI ๊ธฐ๋ฅ์ ์ ๊ณตํ ์ ์๋ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด๋ฉฐ, AI์ ๋์คํ์ ์ค์ฉํ๋ฅผ ์ด์งํ ์ค์ํ ์ถ์ด ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, AI๋ ๋ ๋ง์ ์ฌ๋๋ค์๊ฒ ๋ค๊ฐ๊ฐ ์ ์๋ ํ์ ์ ๋๊ตฌ๋ก ๋ฐ์ ํ๊ฒ ๋ ๊ฒ์ ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค :)