[Paper Review] K-EXAONE Technical Report

๋์ : ํ๊ตญ AI ์ํ๊ณ์ ๋์ ๊ณผ K-EXAONE์ ํ์
๊ธ๋ก๋ฒ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM) ๊ฐ๋ฐ ๊ฒฝ์์ด ์น์ดํด์ง๊ณ ์์ต๋๋ค. Closed-Source ๋ชจ๋ธ์ด ์ฌ์ ํ ์ฑ๋ฅ ์ฐ์๋ฅผ ์ ํ๊ณ ์์ง๋ง, Open-Weight ๋ชจ๋ธ๋ค์ด ์์ฒ์ต ํ๋ผ๋ฏธํฐ๋ฅผ ๋์ด ์กฐ(trillion) ๋จ์ ์ค์ผ์ผ๋ก ๊ณต๊ฒฉ์ ์ผ๋ก ํ์ฅํ๋ฉฐ ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ๋น ๋ฅด๊ฒ ์ขํ๊ณ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ํ๊ตญ์ ์ํฉ์ ๋ ํนํ ๋์ ์ ์๊ณ ์์ต๋๋ค. ๊ธ๋ก๋ฒ ์ ๋ ๊ตญ๊ฐ ๋๋น AI ์ ์ฉ ๋ฐ์ดํฐ์ผํฐ์ AI ์นฉ์ด ์๋์ ์ผ๋ก ๋ถ์กฑํ์ฌ, ๊ทธ๊ฐ ์๋ฐฑ์ต(tens of billions) ํ๋ผ๋ฏธํฐ ์์ค์ ๋น์ฉ ํจ์จ์ ์๊ท๋ชจ ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ง์คํด์์ต๋๋ค. ํ์ง๋ง AI ์ ํ์ ๊ทผ๋ณธ์ ๊ธฐ๋ฐ์ ํ๋ณดํ๋ ค๋ฉด ๊ธ๋ก๋ฒ ์ต์์ ์์ค์ ์ฑ๋ฅ์ ๊ฐ์ถ ๋๊ท๋ชจ ๋ชจ๋ธ์ด ํ์์ ์ ๋๋ค. ์ด๋ฌํ ์ธํ๋ผ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด ํ๊ตญ ์ ๋ถ๊ฐ GPU ๋ฑ ํต์ฌ ์์์ ์ ๊ณตํ๋ ์ ๋ต์ ํ๋ก๊ทธ๋จ์ ์์ํ๊ณ , LG AI Research๊ฐ ์ด ์ง์์ ํ์ฉํ์ฌ ๊ฐ๋ฐํ ๊ฒ์ด ๋ฐ๋ก K-EXAONE์ ๋๋ค.
K-EXAONE์ ์ด์ ๋ชจ๋ธ์ธ EXAONE 4.0์ ํ์ด๋ธ๋ฆฌ๋ ์ํคํ ์ฒ(์ถ๋ก /๋น์ถ๋ก ํตํฉ)๋ฅผ ๊ณ์นํ๋ฉด์, ์ธ ๊ฐ์ง ํต์ฌ ํ์ ์ ๋์ ํฉ๋๋ค. ์ฒซ์งธ, Mixture-of-Experts(MoE) ํจ๋ฌ๋ค์์ ์ฑํํ์ฌ ์ด 236B ํ๋ผ๋ฏธํฐ ์ค ์ถ๋ก ์ 23B๋ง ํ์ฑํํ๋ ํจ์จ์ ์ค์ผ์ผ๋ง์ ๋ฌ์ฑํฉ๋๋ค. ๋์งธ, ๊ธฐ์กด 3๊ฐ ์ธ์ด(ํ๊ตญ์ด, ์์ด, ์คํ์ธ์ด)์์ ๋ ์ผ์ด, ์ผ๋ณธ์ด, ๋ฒ ํธ๋จ์ด๋ฅผ ์ถ๊ฐํ์ฌ 6๊ฐ ์ธ์ด๋ก ๋ค๊ตญ์ด ์ปค๋ฒ๋ฆฌ์ง๋ฅผ ํ์ฅํฉ๋๋ค. ์ ์งธ, 256K ํ ํฐ์ Context Window๋ฅผ ์ง์ํ์ฌ ์ค์ธ๊ณ Long-Context ์ ํ๋ฆฌ์ผ์ด์ ์ ๋์ํฉ๋๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ ์ค๊ณ
Fine-Grained Sparse MoE: ํํ๋ ฅ๊ณผ ํจ์จ์ ์๋ฆฝ
K-EXAONE์ ๊ธฐ์กด EXAONE ์๋ฆฌ์ฆ์ Dense ๋ชจ๋ธ๋ง ํจ๋ฌ๋ค์์์ ๋ฒ์ด๋, 100B+ ๊ท๋ชจ ๋ชจ๋ธ ํ์ต์์ ์ ์ ๋ณดํธํ๋๊ณ ์๋ MoE ์ํคํ ์ฒ๋ฅผ ์ฑํํฉ๋๋ค. ํต์ฌ ์ค๊ณ ์ฒ ํ์ ๋์ ํํ ๋ค์์ฑ๊ณผ ์์ ํจ์จ์ ํ์ต/์ถ๋ก ์ ์๋ฆฝ์ ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, 128๊ฐ์ Expert ํ์์ ํ ํฐ๋น Top-8 Expert๋ฅผ ๋ผ์ฐํ ํ๊ณ , ์ฌ๊ธฐ์ 1๊ฐ์ Shared Expert๋ฅผ ์ถ๊ฐํ์ฌ ์ด 9๊ฐ์ Expert๊ฐ ๋์์ ํ์ฑํ๋ฉ๋๋ค. ์ด ํ๋ผ๋ฏธํฐ๊ฐ 236B์ด์ง๋ง ํ์ฑ ํ๋ผ๋ฏธํฐ๋ ์ฝ 23B์ ๋ถ๊ณผํ์ฌ, Dense ๋ชจ๋ธ ๋๋น ํจ์ฌ ํจ์จ์ ์ธ ์ฐ์ฐ์ด ๊ฐ๋ฅํฉ๋๋ค.
MoE ๊ตฌ์กฐ์์ ํต์ฌ์ ์ธ ๋ผ์ฐํ ์์ ์ฑ๊ณผ Expert ํ์ฉ ํจ์จ์ ์ํด ๋ ๊ฐ์ง ๊ธฐ๋ฒ์ ์ ์ฉํฉ๋๋ค. Sequence-Level Load Balancing์ ํน์ Expert์ ํ ํฐ์ด ํธ์ค๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ฉฐ, Dropless Routing Policy๋ ๋ชจ๋ ํ ํฐ์ด Capacity ์ ํ ์์ด Expert์ ๋์คํจ์น๋๋๋ก ๋ณด์ฅํฉ๋๋ค. ์ด ๋ ๊ธฐ๋ฒ์ ์กฐํฉ์ ๋๊ท๋ชจ MoE ํ์ต์์ Gradient Flow๋ฅผ ์์ ํํ๊ณ ์๋ ด ํ๋์ ๊ฐ์ ํ๋ ๋ฐ ํต์ฌ์ ์ ๋๋ค.
Hybrid Attention๊ณผ ๋ธ๋ก ๊ตฌ์กฐ
K-EXAONE์ Main Block์ ์ด 48๊ฐ ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋๋ฉฐ, Sliding Window Attention(SWA) 36๊ฐ ๋ ์ด์ด์ Global Attention(GA) 12๊ฐ ๋ ์ด์ด๊ฐ ํผํฉ๋ Hybrid Attention ๊ตฌ์กฐ๋ฅผ ๋ฐ๋ฆ ๋๋ค. ์ ์ฒด ๋ ์ด์ด์ GA๋ฅผ ์ ์ฉํ๋ ๊ฒ ๋๋น ๋ฉ๋ชจ๋ฆฌ ์๋น์ ์ฐ์ฐ ์ค๋ฒํค๋๋ฅผ ํฌ๊ฒ ์ค์ด๋ฉด์๋ Long-Context ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ์ ์งํ๋ ์ค๊ณ์ ๋๋ค.
๋ธ๋ก ๊ตฌ์กฐ์ ํ๋ฆ์ ํ ์คํธ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1
2
3
4
5
6
7
8
์
๋ ฅ ํ ํฐ โ Embedding
โ [SWA + Sparse MoE] ร 3 ๋ ์ด์ด
โ [GA + Sparse MoE] ร 1 + [SWA + Sparse MoE] ร 3 ๋ฐ๋ณต ร 12
โ [GA + Sparse MoE] ร 1
โ RMSNorm โ LM Head โ ์ถ๋ ฅ
* ๊ฐ ๋ธ๋ก ๋ด๋ถ: Attention โ RMSNorm โ Sparse MoE (128 experts, top-8 + 1 shared) โ RMSNorm
* ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋ง MoE ๋์ Dense FFN (hidden size: 18,432) โ ํ์ต ์์ ์ฑ ํ๋ณด
์ฌ๊ธฐ์ ์ฃผ๋ชฉํ ์ค๊ณ ๊ฒฐ์ ์ด ๋ช ๊ฐ์ง ์์ต๋๋ค. ์ฒซ ๋ฒ์งธ ๋ ์ด์ด๋ฅผ Dense FFN์ผ๋ก ๊ตฌํํ ๊ฒ์ MoE ํ์ต ์ด๊ธฐ์ ๋ถ์์ ์ฑ์ ๋ฐฉ์งํ๊ธฐ ์ํ ์ ํ์ ๋๋ค. SWA์ Window Size๋ฅผ ๊ธฐ์กด 4,096์์ 128๋ก ๋ํญ ์ถ์ํ ๊ฒ์ Long-Context ์ถ๋ก ์ KV-Cache ์ฌ์ฉ๋์ ๊ทน๋จ์ ์ผ๋ก ์ค์ด๋ฉด์๋ ๋ชจ๋ธ๋ง ์ฉ๋์ ๋ณด์กดํ๊ธฐ ์ํ ๊ฒ์ ๋๋ค. Attention Head๋ Query 64๊ฐ, Key-Value 8๊ฐ์ Grouped Query Attention(GQA) ๊ตฌ์ฑ์ด๋ฉฐ, Head Dimension์ 128์ ๋๋ค.
ํ์ต ์์ ์ฑ๊ณผ Long-Context ์ธ์ฝ์ ๊ฐํํ๊ธฐ ์ํด EXAONE 4.0์์ ๋ ๊ฐ์ง ๊ธฐ๋ฒ์ ๊ณ์นํฉ๋๋ค. QK Norm์ Attention ์ฐ์ฐ ์ ์ Query/Key ๋ฒกํฐ์ Layer Normalization์ ์ ์ฉํ์ฌ, ๊น์ ๋คํธ์ํฌ์์ Attention Logit์ด ํญ๋ฐํ๋ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํฉ๋๋ค. SWA-only RoPE๋ Rotary Positional Embeddings๋ฅผ SWA ๋ ์ด์ด์๋ง ์ ํ์ ์ผ๋ก ์ ์ฉํ์ฌ, GA์์์ ๊ธ๋ก๋ฒ ํ ํฐ ์ํธ์์ฉ์ ๋ํ ๊ฐ์ญ์ ๋ฐฉ์งํ๊ณ Long-Sequence ์ธ์ฝ ๊ฒฌ๊ณ ์ฑ์ ๋์ ๋๋ค.
Multi-Token Prediction(MTP) ๋ชจ๋
K-EXAONE์ Dense Layer ๊ธฐ๋ฐ์ MTP ๋ชจ๋์ ํตํฉํ์ฌ ํ์ฌ ํ ํฐ๋ฟ ์๋๋ผ xt+1x_{t+1}xt+1โ ๋ฏธ๋ ํ ํฐ๊น์ง ์์ธกํ๋ ๋ณด์กฐ ํ์ต ๋ชฉํ๋ฅผ ์ ์ฉํฉ๋๋ค. ์ด ๋ชจ๋์ ์ญํ ์ ์ด์ค์ ์ ๋๋ค. ํ์ต ์์๋ Future-Token ์์ธก ๋ฅ๋ ฅ์ ํฅ์์ํค๋ Auxiliary Loss๋ก ๊ธฐ๋ฅํ๊ณ , ์ถ๋ก ์์๋ Self-Drafting์ ํ์ฉ๋์ด ํ์ค Autoregressive Decoding ๋๋น ์ฝ 1.5๋ฐฐ์ ๋์ฝ๋ฉ ์ฒ๋ฆฌ๋ ํฅ์์ ๋ฌ์ฑํฉ๋๋ค.
MTP Block ์์ฒด์ ํ๋ผ๋ฏธํฐ ์๋ 0.52B์ผ๋ก ๋งค์ฐ ๊ฒฝ๋์ด๋ฉฐ, Dense Layer ๊ธฐ๋ฐ ์ค๊ณ๋ฅผ ํตํด ๋ผ์ฐํ ์ค๋ฒํค๋์ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ์ต์ํํฉ๋๋ค. MTP Block์ Main Block์ LM Head์ Embedding์ ๊ณต์ (shared)ํ์ฌ ์ถ๊ฐ์ ์ธ ํ๋ผ๋ฏธํฐ ๋ถ๋ด์ ์ค์ ๋๋ค.
์ํคํ ์ฒ ๊ตฌ์ฑ ์์ฝ
| ๊ตฌ์ฑ ์์ | ์ธ๋ถ ์ค์ | ๊ฐ |
|---|---|---|
| Main Block | Layers (Total / SWA / GA) | 48 / 36 / 12 |
| ย | Sliding Window Size | 128 |
| ย | Attention Heads (Q / KV) | 64 / 8 |
| ย | Head Dimension | 128 |
| ย | Experts (Total / Shared / Activated) | 128 / 1 / 8 |
| ย | Parameters (Total / Activated) | 236B / 23B |
| MTP Block | Attention Heads (Q / KV) | 64 / 8 |
| ย | Head Dimension | 128 |
| ย | Parameters | 0.52B |
Tokenizer ์ฌ์ค๊ณ: SuperBPE์ 150K ์ดํ
K-EXAONE์ Tokenizer๋ฅผ ์ ๋ฉด ์ฌ์ค๊ณํ์ฌ Vocabulary Size๋ฅผ ๊ธฐ์กด 100K์์ 150K๋ก ํ์ฅํฉ๋๋ค. ์ค๊ณ ์ ๋ต์ ํต์ฌ์ ๊ธฐ์กด ์ดํ์ ๊ณ ๋น๋ 70%๋ฅผ ๋ณด์กดํ๋ฉด์, ๋๋จธ์ง ์ฉ๋์ ์ถ๊ฐ ์ธ์ด, STEM(Science, Technology, Engineering, Mathematics), ์ฝ๋ ๋๋ฉ์ธ์ผ๋ก ์ฌ๋ฐฐ๋ถํ๋ ๊ฒ์ ๋๋ค.
ํนํ SuperBPE ์ ๋ต์ ๋์ ํ์ฌ ๋น๋ฒํ ๋จ์ด ์ํ์ค๋ฅผ ๋จ์ผ ํ ํฐ(Superword)์ผ๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ์ด Superword Token์ ์ ์ฒด ์ดํ์ ์ฝ 20%๋ฅผ ์ฐจ์งํ๋ฉฐ, ์์ด:ํ๊ตญ์ด:๋ค๊ตญ์ด = 2:3:1 ๋น์จ๋ก ํ ๋น๋ฉ๋๋ค. ํ๊ตญ์ด์ ๊ฐ์ฅ ๋์ ๋น์ค์ ๋ ์ ์ด Sovereign AI๋ก์์ ์ค๊ณ ์๋๋ฅผ ๋ฐ์ํฉ๋๋ค.
์ถ๊ฐ์ ์ผ๋ก Pre-Tokenization Regex๋ฅผ ์ ๋ฐ์ดํธํ์ฌ Superword ๊ฒฝ๊ณ, ์ค๋ฐ๊ฟ, ๋ค๊ตญ์ด ์ ๋์ฝ๋ ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ๊ณ , Unicode Normalization์ NFKC์์ NFC๋ก ์ ํํฉ๋๋ค. NFC ์ ํ์ ์ด์ ๋ ์ฝ๋ ๋ฐ STEM ์ฝํผ์ค์์ ํํ ๋ฐ๊ฒฌ๋๋ ์์ฒจ์, ์๋์ฒจ์, ๊ธฐํธ๊ฐ ๋ง์ ํ ์คํธ์ ์๋ฏธ์ ๊ตฌ๋ถ์ ๋ณด์กดํ๊ธฐ ์ํ ๊ฒ์ ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก Bytes per Token ๊ธฐ์ค์ผ๋ก ์ ๋๋ฉ์ธ์์ ํ๊ท ์ฝ 30%์ ํ ํฐ ํจ์จ์ฑ ํฅ์์ ๋ฌ์ฑํฉ๋๋ค. ๋๋ฉ์ธ๋ณ๋ก๋ ๋ค๊ตญ์ด์์ +49.8%, ํ๊ตญ์ด์์ +29.0%, ์ฝ๋์์ +26.7%, STEM์์ +20.1%, ์์ด์์ +19.6%์ ๊ฐ์ ์ ๋ณด์ ๋๋ค.
ํ์ต ํ์ดํ๋ผ์ธ
Pre-training: 3๋จ๊ณ ์ปค๋ฆฌํ๋ผ
K-EXAONE์ ์ด 11T ํ ํฐ, 1.52ร10241.52 \times 10^{24}1.52ร1024 FLOPs ๊ท๋ชจ์ ์ฌ์ ํ์ต์ ์ํํ๋ฉฐ, 3๋จ๊ณ ์ปค๋ฆฌํ๋ผ์ ํตํด ๊ธฐ์ด ์ง์ โ ๋๋ฉ์ธ ์ ๋ฌธ์ฑ โ ์ถ๋ก ๋ฅ๋ ฅ์ ์ ์ง์ ์ผ๋ก ๊ตฌ์ถํฉ๋๋ค. EXAONE 4.0์ ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ๊ณ์นํ๋ฉด์ ๋ค์ค ๋ฐ์ดํฐ ํํฐ๋ง์ ์ ์ฉํ์ฌ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํฉ๋๋ค.
ํ์ต ์ ์ ์์ ์ฃผ๋ชฉํ ์ ์ FP8 ์ ๋ฐ๋๋ก ๋ค์ดํฐ๋ธ ํ์ต์ ์ํํ๋ฉด์๋ BF16๊ณผ ๋๋ฑํ ํ์ต Loss ๊ณก์ ์ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด๋ FP8 ํ์ต์ด ์ต์ ํ ์์ ์ฑ์ ๋ณด์กดํ๋ฉด์๋ Full Quantization-Aware ์๋ ด์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋๋ค. Optimizer๋ก๋ Muon์ ์ฑํํ๊ณ , Learning Rate Scheduler๋ Warmup-Stable-Decay(WSD)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ฃผ์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ ์ต๋ ํ์ต๋ฅ 3.0ร10โ43.0 \times 10^{-4}3.0ร10โ4, MoE Sequence Auxiliary Loss ๊ณ์ 1.0ร10โ41.0 \times 10^{-4}1.0ร10โ4, Expert Bias Update Factor 1.0ร10โ41.0 \times 10^{-4}1.0ร10โ4, MTP Loss Weight 0.05์ ๋๋ค.
๋ค๊ตญ์ด ํ์ฅ์ ์ํด์๋ Cross-Lingual Knowledge Transfer๋ฅผ ํ์ฉํ ํฉ์ฑ ์ฝํผ์ค๋ฅผ ์์ฑํฉ๋๋ค. ์ธ์ด๋ณ ์ฌ์ ํ์ต ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ํฌ๊ฒ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ์ ๋ฌธ ์ง์๊ณผ ์ถ๋ก ํจํด์ ์ธ์ด ๊ฐ์ ์ ํํ๋ Synthetic Corpora๋ฅผ ์์ฑํ์ฌ ์ ๋ ฅ ์ธ์ด์ ๊ด๊ณ์์ด ๊ท ์ผํ ์ฑ๋ฅ์ ๋ณด์ฅํฉ๋๋ค.
๋ํ Thinking-Augmented Data Synthesis๋ฅผ ํตํด ์ฌ์ ํ์ต ๋ฐ์ดํฐ์ ๋ช ์์ ์ถ๋ก ๊ฐ๋ ์ ํฌํจ์ํต๋๋ค. ๋ฌธ์ ๊ธฐ๋ฐ์ Thinking Trajectory๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ ์์ค ์ฝํ ์ธ ์ ๊ฒฐํฉํ์ฌ, ๋จ๊ณ๋ณ ์ถ๋ก ์ ์ธ์ฝ๋ฉํ๋ ํตํฉ ์ํ์ ๋ง๋ญ๋๋ค. ์ด๋ฌํ Thinking-Augmented ์ฝํผ์ค๋ ์ถ๋ก ํ๋์ ์ ์ด๋ฅผ ์ด์งํ๊ณ ํ์ Post-Training์ ํจ๊ณผ๋ฅผ ๋์ด๋ ์ ๋ต์ ๋๋ค.
Context Length Extension: 8K โ 32K โ 256K
K-EXAONE์ 2๋จ๊ณ Context Length Extension์ ํตํด ์ต๋ 256K ํ ํฐ์ ์ง์ํฉ๋๋ค. ๊ธฐ๋ณธ ๋ชจ๋ธ์ 8K ํ ํฐ์ผ๋ก ์ฌ์ ํ์ต๋ ํ, Stage 1์์ 8K โ 32K, Stage 2์์ 32K โ 256K๋ก ํ์ฅ๋ฉ๋๋ค. ๋ ๋จ๊ณ ๋ชจ๋ ๋์ผํ ์ธ ๊ฐ์ง ๋ฐ์ดํฐ ๊ตฌ์ฑ ์์๋ฅผ ๊ณต์ ํ๋, ๊ฐ ๋จ๊ณ์ ๋ชฉํ์ ์์ ์ฑ ์๊ตฌ์ ๋ง๊ฒ ์ํ๋ง ๋น์จ์ ์กฐ์ ํฉ๋๋ค.
Rehearsal Dataset์ Long-Context ํนํ ํ์ต์ ๊ฐ์ฅ ํฐ ์ํ์ธ Short-Context ์ฑ๋ฅ ์ ํ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํ ํต์ฌ ๊ตฌ์ฑ ์์์ ๋๋ค. ์ฌ์ ํ์ต ๋ถํฌ์์ ์ถ์ถํ ๊ณ ํ์ง ์ํ์ ํฌํจํ์ฌ, ์งง์ Context์์์ ๋ชจ๋ธ ํ๋์ ์ต์ปค๋งํ๋ ์ผ๊ด๋ ํ์ต ์ ํธ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ Stage ๋ชจ๋์ ํฌํจ๋๋, Stage๋ณ๋ก ๋น์จ์ ์กฐ์ ํ์ฌ Long-Context ํ์ต ์ ํธ๊ฐ ์ถฉ๋ถํ ๋ฐ์๋๋๋ก ํฉ๋๋ค.
Synthetic Reasoning Dataset์ ์ํ, ๊ณผํ, ๊ฒฝ์ ํ๋ก๊ทธ๋๋ฐ์ ๋์ ์ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ต์ข ๋ต๋ณ๋ฟ ์๋๋ผ ์ค๊ฐ ์ถ๋ก ํจํด ํ์ต์ ์ฅ๋ คํ๋ ํฉ์ฑ ์ถ๋ก ์ฝํ ์ธ ๋ฅผ ํฌํจํฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ Context Extension ์ ๊ณผ์ ์ ๊ฑธ์ณ ํตํฉ๋์ด, ๊ธด ์ ๋ ฅ ํ์์๋ ์ถ๋ก ํ์ง์ด ํฅ์๋๋๋ก ํฉ๋๋ค.
Long-Document Dataset์ ๋จ์ผ ํ์ต ์ธ์คํด์ค ๋ด์์ ์๋น๋ ์ ์๋ ์ ์ฒด ๋ฌธ์ ์ํ์ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ ์ฒด Long-Document๋ฅผ Truncation ์์ด End-to-End๋ก ํ์ตํ์ฌ Long-Range Dependency ํฌ์ฐฉ์ ์ฅ๋ คํฉ๋๋ค. Stage 1์์๋ 32K๊น์ง์ ์์ ์ ์ฑ๋ฅ์ ์ฐ์ ์์๋ฅผ ๋๊ณ , Stage 2์์๋ 256K๊น์ง์ ์์กด์ฑ์ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด Long-Document ์ํ์ ๋น์ค์ ๋์ ๋๋ค.
ํ์ง ๊ฒ์ฆ์ ์ํด ์ฌ์ ํ์ต๊ณผ ๋์ผํ ํ๋กํ ์ฝ์ Short-Context ํ๊ฐ์ Needle-In-A-Haystack(NIAH) ํ ์คํธ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ์ํํฉ๋๋ค. ๊ฐ Stage์ ๋ชฉํ Context Range์์ ๊ฑฐ์ ์๋ฒฝํ NIAH ์ฑ๋ฅ(โgreen lightโ)์ ๋ฌ์ฑํ ๋๊น์ง ํ์ต์ ๋ฐ๋ณตํ๋ฉฐ, ์ด๋ฅผ ํตํด K-EXAONE์ด ์ ๋ฐ์ ์ฑ๋ฅ ์ ํ ์์ด 256K ํ ํฐ์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ํ์ฅ๋์์์ ํ์ธํฉ๋๋ค.
Post-training: SFT โ RL โ Preference Learning
Post-training์ ์ธ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์ฒซ์งธ, ๋๊ท๋ชจ Supervised Fine-Tuning(SFT)์ ํตํด ๋ค์ํ ์ฌ์ฉ์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ ์๋ต์ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํ์ตํฉ๋๋ค. ํ์คํฌ๋ฅผ ์ฌ๋ฌ ๋๋ฉ์ธ์ผ๋ก ๋ถ๋ฅํ๊ณ ๊ฐ๊ฐ์ ๋ง๋ ์์ฑ ๋ฐฉ๋ฒ์ด๋ ์ ๋ฌธ๊ฐ๋ฅผ ์ฑํํฉ๋๋ค. ํ๊ตญ์ด ํนํ ๋ฅ๋ ฅ ๊ฐํ๋ฅผ ์ํด ๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ(MSIT)์ ํ๊ตญ์ง๋ฅ์ ๋ณด์ฌํ์งํฅ์(NIA), ํ๊ตญ๋ฐ์ดํฐ์ฐ์ ์งํฅ์(K-DATA) ๋ฑ์ด ์ ๊ณตํ๋ ๊ณต๊ณต ๋ฐ ๊ธฐ๊ด ๋ฐ์ดํฐ๋ฅผ ํ์ฉํฉ๋๋ค.
Agentic Tool Use ํ์ต์์๋ ์ค์ Tool ํ๊ฒฝ ๊ตฌ์ถ์ ๋์ ๋น์ฉ๊ณผ ๋นํจ์จ์ฑ์ ๊ทน๋ณตํ๊ธฐ ์ํด LLM์ ํ์ฉํ Synthetic Tool Environment๋ฅผ ๊ตฌ์ถํฉ๋๋ค. Tool-Use ์๋๋ฆฌ์ค์ ๊ฒ์ฆ ๊ฐ๋ฅํ ํต๊ณผ ๊ธฐ์ค์ ํฌํจํ๋ ํฉ์ฑ ํ๊ฒฝ์ ์์ฑํ ๋ค, LLM์ผ๋ก ํ๊ฐํ์ฌ ๋นํ์ค์ ์ด๊ฑฐ๋ ํ ์ ์๋ ์ผ์ด์ค๋ฅผ ํํฐ๋งํฉ๋๋ค. ์ด ๊ณผ์ ์ ํตํด ์๋ฐฑ ๊ฐ์ ๊ฒ์ฆ ๊ฐ๋ฅํ๊ณ ํ์ค์ ์ธ Tool-Use Task์ ํ๊ฐ ํ๊ฒฝ์ ํ๋ณดํฉ๋๋ค.
Web Search ์ํ ์์๋ ๋ ๊ฐ์ง Sub-Agent๋ฅผ ํ์ฉํ์ฌ Context ํจ์จ์ฑ์ ๊ฐ์ ํฉ๋๋ค. Summarizer Sub-Agent๋ ๊ฐ์ ธ์จ ์นํ์ด์ง๋ฅผ ์์ฝํ์ฌ K-EXAONE์ด ๊ธธ๊ณ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์น ํ ์คํธ๋ฅผ ์ง์ ์ฒ๋ฆฌํ์ง ์๋๋ก ํฉ๋๋ค. Trajectory Compressor๋ Tool-Calling ์ด๋ ฅ์ด ์ฌ์ ์ ์๋ ๋จ๊ณ ์๋ฅผ ์ด๊ณผํ๋ฉด, ์ ์ฒด ์ํธ์์ฉ์ Tool ์ถ๋ ฅ์ ํต์ฌ ์ฌ์ค๊ณผ ๋จ์ ์กฐ์ฌ ์ง๋ฌธ์ ๋ด์ ๋จ์ผ JSON ๊ตฌ์กฐํ ๋ ์ฝ๋๋ก ์์ถํฉ๋๋ค. ์ด ์ค๊ณ๋ ์ค๋ณต๋ Tool ๊ฒฐ๊ณผ๊ฐ K-EXAONE์ ๋ฐ๋ณต ๋ ธ์ถ๋๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค. ๋ Sub-Agent ๋ชจ๋ ์ถ๋ก ์ K-EXAONE๊ณผ ๋์ผํ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก ๊ตฌํ๋ฉ๋๋ค.
Reinforcement Learning: AGAPO
์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๊ธฐ ์ํด Verifiable Rewards๋ฅผ ์ฌ์ฉํ Reinforcement Learning(RL)์ ์ํํฉ๋๋ค. ์ํ, ์ฝ๋, STEM, Instruction Following์ ์์ฐ๋ฅด๋ Multi-Task ์ค์ ์์ ํ์ตํ๋ฉฐ, ๊ฒ์ฆ์๋ Rule-Based Verifier์ LLM-as-a-Judge์ ์กฐํฉ์ ์ฌ์ฉํฉ๋๋ค.
์ต์ ํ์๋ Off-Policy Policy Gradient์ Truncated Importance Sampling์ ์ฌ์ฉํ๋ AGAPO๋ฅผ ์ฑํํฉ๋๋ค. RL ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค. ์ง๋ฌธ qโผP(Q)q \sim P(Q)qโผP(Q)์ ๋ํด Rollout Policy ฯฮธrollout\pi_{\theta_{\text{rollout}}}ฯฮธrolloutโโ์์ GGG๊ฐ์ ํ๋ณด ์๋ต O={o1,โฆ,oG}O = {o_1, \ldots, o_G}O={o1โ,โฆ,oGโ}๋ฅผ ์ํ๋งํ๊ณ , ๊ฐ ์๋ต์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์ riโ[0,1]r_i \in [0, 1]riโโ[0,1]์ ๋ถ์ฌํฉ๋๋ค.
| JAGAPO(ฮธ)=EqโผP(Q),{oi}i=1Gโผฯฮธrollout(Oโฃq)[1Gโi=1G(1โฃoiโฃโt=1โฃoiโฃsg(minโก(ฯi,t,ฯต))Aglobal,ilogโกฯฮธ(oi,tโฃq,oi,<t))]J_{\text{AGAPO}}(\theta) = \mathbb{E}_{q \sim P(Q), {o_i}_{i=1}^{G} \sim \pi_{\theta_{\text{rollout}}}(O | q)}\left[\frac{1}{G}\sum_{i=1}^{G}\left(\frac{1}{ | o_i | }\sum_{t=1}^{ | o_i | } \text{sg}\left(\min(\rho_{i,t}, \epsilon)\right) A_{\text{global},i} \log\pi_\theta(o_{i,t} | q, o_{i,<t})\right)\right]JAGAPOโ(ฮธ)=EqโผP(Q),{oiโ}i=1Gโโผฯฮธrolloutโโ(Oโฃq)โ[G1โโi=1Gโ(โฃoiโโฃ1โโt=1โฃoiโโฃโsg(min(ฯi,tโ,ฯต))Aglobal,iโlogฯฮธโ(oi,tโโฃq,oi,<tโ))] |
์ฌ๊ธฐ์ Importance Ratio์ Advantage๋ ๋ค์๊ณผ ๊ฐ์ด ๊ณ์ฐ๋ฉ๋๋ค.
| ฯi,t=ฯฮธ(oi,tโฃq,oi,<t)ฯฮธrollout(oi,tโฃq,oi,<t)\rho_{i,t} = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{rollout}}}(o_{i,t} | q, o_{i,<t})}ฯi,tโ=ฯฮธrolloutโโ(oi,tโโฃq,oi,<tโ)ฯฮธโ(oi,tโโฃq,oi,<tโ)โ |
Agroup,i=riโ1Gโ1โjโ irj,Aglobal,i=Agroup,iโmean({Agroup,k}k)std({Agroup,k}k)A_{\text{group},i} = r_i - \frac{1}{G-1}\sum_{j \neq i} r_j, \quad A_{\text{global},i} = \frac{A_{\text{group},i} - \text{mean}({A_{\text{group},k}}_k)}{\text{std}({A_{\text{group},k}}_k)}Agroup,iโ=riโโGโ11โโj๎ โ=iโrjโ,Aglobal,iโ=std({Agroup,kโ}kโ)Agroup,iโโmean({Agroup,kโ}kโ)โ
Group-Level Advantage๋ฅผ ๋จผ์ ๊ณ์ฐํ์ฌ ๊ทธ๋ฃน ๋ด ์๋์ ๋ณด์ ์ ํธ๋ฅผ ํฌ์ฐฉํ ๋ค, Global Normalization์ ์ ์ฉํ์ฌ ๋ฐฐ์น ์์ค์ ์ ๋ณด๋ฅผ ๋ฐ์ํฉ๋๋ค. ํต์ฌ ์ค๊ณ ๊ฒฐ์ ์ผ๋ก๋ Zero-Variance Filtering(์ํ๋ง๋ Rollout์ด ๋ชจ๋ ๋์ผํ ๋ณด์์ ๋ฐ๋ ํ๋กฌํํธ๋ฅผ ์ ๊ฑฐํ์ฌ Advantage๊ฐ 0์ด ๋๋ ๊ฒฝ์ฐ๋ฅผ ๋ฐฉ์ง), KL Penalty ์ ๊ฑฐ(์ฑ๋ฅ ํฅ์๊ณผ ๋ถํ์ํ ์ฐ์ฐ ๋ฐฉ์ง), MoE Router ๋๊ฒฐ(RL ํ์ต ์ ๊ณผ์ ์์ ๋ผ์ฐํฐ๋ฅผ ๊ณ ์ )์ด ์์ต๋๋ค.
Preference Learning: GROUPER
RL ํ์ต ํ์๋ Human Preference์์ ์ ๋ ฌ์ ์ํ Preference Learning ๋จ๊ณ๋ฅผ ์ํํฉ๋๋ค. ์ด ๋จ๊ณ์์๋ ์ถ๋ก ์ฑ๋ฅ์ ๋ณด์กดํ๋ฉด์ Chat, Safety, Instruction Following, Agentic Tool Use, Creative Writing ๋ฑ ์ผ๋ฐ ์ ๋ ฌ ๋๋ฉ์ธ์ ์ง์คํฉ๋๋ค. ์ด๋ฅผ ์ํด SimPER์ ๊ฐ์ ๋ณํ์ธ GROUPER(Group-wise SimPER)๋ฅผ ์ ์ํฉ๋๋ค.
GRPO์์ ์๊ฐ์ ๋ฐ์, ๊ฐ ์ฟผ๋ฆฌ์ ๋ํด ์ฌ๋ฌ ์๋ต์ ์ํ๋งํ๊ณ Group-wise Advantage๋ก ํ์ตํฉ๋๋ค. ๊ฐ ์๋ต์ Preference Reward๋ Rule-Based Reward์ ๋ค์ฐจ์ ํ๊ฐ๋ฅผ ์ํํ๋ Rubric-Based Generative Reward์ ์กฐํฉ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค. ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
| LGROUPER(ฮธ)=โExโผP(X),{oi}i=1Gโผฯฮธinit(Oโฃx)[1Gโi=1G(Apref,iexpโก(1โฃoiโฃlogโกฯฮธ(oiโฃx)))]\mathcal{L}_{\text{GROUPER}}(\theta) = -\mathbb{E}_{x \sim P(X), {o_i}_{i=1}^{G} \sim \pi_{\theta_{\text{init}}}(O | x)}\left[\frac{1}{G}\sum_{i=1}^{G}\left(A_{\text{pref},i} \exp\left(\frac{1}{ | o_i | }\log\pi_\theta(o_i | x)\right)\right)\right]LGROUPERโ(ฮธ)=โExโผP(X),{oiโ}i=1Gโโผฯฮธinitโโ(Oโฃx)โ[G1โโi=1Gโ(Apref,iโexp(โฃoiโโฃ1โlogฯฮธโ(oiโโฃx)))] |
Advantage ๊ณ์ฐ์ Preference Reward๋ฅผ ํ์คํํ ๋ค [โ1,1][-1, 1][โ1,1] ๋ฒ์๋ก ์ค์ผ์ผ๋งํฉ๋๋ค.
zi=rpref,iโmean({rpref,j}j=1G)std({rpref,j}j=1G),Apref,i=2โ ziโminโก({zj}j=1G)maxโก({zj}j=1G)โminโก({zj}j=1G)โ1โ[โ1,1]z_i = \frac{r_{\text{pref},i} - \text{mean}({r_{\text{pref},j}}_{j=1}^{G})}{\text{std}({r_{\text{pref},j}}_{j=1}^{G})}, \quad A_{\text{pref},i} = 2 \cdot \frac{z_i - \min({z_j}_{j=1}^{G})}{\max({z_j}_{j=1}^{G}) - \min({z_j}_{j=1}^{G})} - 1 \in [-1, 1]ziโ=std({rpref,jโ}j=1Gโ)rpref,iโโmean({rpref,jโ}j=1Gโ)โ,Apref,iโ=2โ max({zjโ}j=1Gโ)โmin({zjโ}j=1Gโ)ziโโmin({zjโ}j=1Gโ)โโ1โ[โ1,1]
GROUPER๋ SimPER์ Hyperparameter-Free ํน์ฑ๊ณผ GRPO์ Group-wise Sampling์ ๊ฒฐํฉํ์ฌ, ์ผ๋ฐ ๋๋ฉ์ธ์์์ ์ ๋ ฌ ์ฑ๋ฅ์ ๊ฐ์ ํฉ๋๋ค.
Data Compliance
AI ๋ชจ๋ธ ๊ฐ๋ฐ์ ํ์ํ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์์ง๊ณผ ํ์ฉ ๊ณผ์ ์์ ๋ฐ์ํ ์ ์๋ ์ ์๊ถ ์นจํด, ์ง์ ์ฌ์ฐ๊ถ ์นจํด, ๊ฐ์ธ์ ๋ณด ๋ณดํธ ์๋ฐ ๋ฑ์ ๋ฒ์ ๋ฆฌ์คํฌ๋ฅผ ์ต์ํํ๊ธฐ ์ํด, LG AI Research๋ ๋ฐ์ดํฐ ์์ง, AI ๋ชจ๋ธ ํ์ต, ์ ๋ณด ์ ๊ณต์ ์ ๊ณผ์ ์ ๊ฑธ์ณ AI Compliance ๋ฆฌ๋ทฐ๋ฅผ ์ํํฉ๋๋ค.
ํ๊ฐ ๊ฒฐ๊ณผ
๋ฒค์น๋งํฌ์ ํ๊ฐ ์ค์
K-EXAONE์ 9๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๊ฑธ์น ํฌ๊ด์ ๋ฒค์น๋งํฌ ์ค์ํธ๋ก ํ๊ฐ๋ฉ๋๋ค. World Knowledge(MMLU-PRO, GPQA-DIAMOND, HUMANITYโS LAST EXAM), Math(IMO-ANSWERBENCH, AIME 2025, HMMT NOV 2025), Coding/Agentic Coding(LIVECODEBENCH PRO, LIVECODEBENCH V6, TERMINAL-BENCH 2.0, SWE-BENCH VERIFIED), Agentic Tool Use(ฯ2\tau^2ฯ2-BENCH, BROWSECOMP), Instruction Following(IFBENCH, IFEVAL), Long Context Understanding(AA-LCR, OPENAI-MRCR), Korean(KMMLU-PRO, KOBALT, CLICK, HRM8K, KO-LONGBENCH), Multilinguality(MMMLU, WMT24++), Safety(WILDJAILBREAK, KGC-SAFETY)๋ฅผ ํฌํจํฉ๋๋ค.
ํ๊ฐ ์ค์ ์ Temperature 1.0, Top-p 0.95์ด๋ฉฐ, Long Context Understanding ๋ฒค์น๋งํฌ์๋ 160K, ๋๋จธ์ง์๋ 128K Context Length๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ถ๋ก ์ MTP๋ ๋นํ์ฑํํฉ๋๋ค.
Reasoning ๋ชจ๋ ์ฃผ์ ๊ฒฐ๊ณผ
๋น๊ต ๋์์ EXAONE 4.0(32B Dense), gpt-oss-120b(117B MoE, 5.1B Active), Qwen3-235B-A22B-Thinking-2507(235B MoE, 22B Active), DeepSeek-V3.2(671B MoE, 37B Active)์ ๋๋ค.
| ๋ฒค์น๋งํฌ | K-EXAONE | EXAONE 4.0 | gpt-oss-120b | Qwen3-235B | DeepSeek-V3.2 |
|---|---|---|---|---|---|
| MMLU-PRO | 83.8 | 81.8 | 80.7 | 84.4 | 85.0 |
| AIME 2025 | 92.8 | 85.3 | 92.5 | 92.3 | 93.1 |
| LiveCodeBench V6 | 80.7 | 66.7 | 81.9 | 74.1 | 79.4 |
| ฯ2\tau^2ฯ2-Bench (weighted) | 73.2 | 46.8 | 63.9 | 58.6 | 79.0 |
| IFBench | 67.3 | 36.0 | 69.5 | 52.6 | 62.5 |
| KoBALT | 61.8 | 25.4 | 54.3 | 56.1 | 62.7 |
| KGC-SAFETY | 96.1 | 58.0 | 92.5 | 66.2 | 73.0 |
์ํ ์ถ๋ก ์์ K-EXAONE์ AIME 2025์์ 92.8์ ๋ฌ์ฑํ์ฌ gpt-oss-120b(92.5)์ Qwen3(92.3)์ ์ํํ๊ณ , 37B ํ์ฑ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง DeepSeek-V3.2(93.1)์ ๊ทผ์ ํฉ๋๋ค. 23B ํ์ฑ ํ๋ผ๋ฏธํฐ๋ก ์ด ์์ค์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ๊ฒ์ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ ๋ฉด์์ ์ธ์์ ์ ๋๋ค.
Agentic Tool Use(ฯ2\tau^2ฯ2-Bench)์์๋ ๊ฐ์ค ํ๊ท 73.2๋ก gpt-oss-120b(63.9)์ Qwen3(58.6)์ ํฌ๊ฒ ์ํํฉ๋๋ค. ์ด๋ Synthetic Tool Environment ๊ธฐ๋ฐ ํ์ต ์ ๋ต์ด ์ ํจํ์์ ์์ฌํฉ๋๋ค. ๋ค๋ง DeepSeek-V3.2(79.0)์๋ ๋ฏธ์น์ง ๋ชปํฉ๋๋ค.
Instruction Following์์ K-EXAONE์ IFBench 67.3, IFEVAL 89.7์ ๊ธฐ๋กํ์ฌ ๋๋ถ๋ถ์ ๋น๊ต ๋ชจ๋ธ์ ๋ฅ๊ฐํฉ๋๋ค.
์์ ์ฑ(KGC-SAFETY)์์๋ 96.1๋ก ๋ชจ๋ ๋น๊ต ๋ชจ๋ธ์ ์๋์ ์ผ๋ก ๋ฅ๊ฐํฉ๋๋ค. gpt-oss-120b(92.5)์๋ 3.6p ์ฐจ์ด๋ฅผ ๋ณด์ด๋ฉฐ, Qwen3(66.2)์ DeepSeek-V3.2(73.0)์๋ 20~30p ์ด์์ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ ๋๋ค.
ํ๊ตญ์ด ๋ฐ ๋ค๊ตญ์ด ์ฑ๋ฅ
ํ๊ตญ์ด ๋ฒค์น๋งํฌ์์ K-EXAONE์ Open-Weight Reasoning ๋ชจ๋ธ ์ค ๊ฐํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. CLICK(์ธ์ดยท๋ฌธํ ์ญ๋) 83.9, HRM8K(์ฌ๋ฆผํผ์๋๊ธ ์ํ ์ถ๋ก ) 90.9, KO-LONGBENCH(Long-Context ์ดํด) 86.8์ ๋ฌ์ฑํฉ๋๋ค. ๋ค๋ง KMMLU-PRO(67.3)์์ Qwen3(71.6)๊ณผ DeepSeek-V3.2(72.1)์ ๋ค์ฒ์ง๋ ์ ์ ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. ํ๊ตญ์ด ํนํ ๋ชจ๋ธ์์๋ ํ๊ตญ์ด ์ ๋ฌธ ์ง์ ๋ฒค์น๋งํฌ์์ ์ต๊ณ ๊ฐ ์๋ ๊ฒ์ ํฅํ ๊ฐ์ ์ด ํ์ํ ์์ญ์ ๋๋ค.
๋ค๊ตญ์ด ํ๊ฐ์์๋ MMMLU 85.7, WMT24++ 90.5๋ฅผ ๊ธฐ๋กํฉ๋๋ค. EXAONE 4.0 ๋๋น ๋ชจ๋ ์ธ์ด์์ ๊ณ ๋ฅด๊ฒ ์ฑ๋ฅ์ด ํฅ์๋์ด, ํน์ ์ธ์ด์ ๋๋๋ฌ์ง ์ฝํ๋ ์ง๋ฐฐ ์์ด ๊ท ํ ์กํ ๋ค๊ตญ์ด ์ญ๋์ ๋ณด์ฌ์ค๋๋ค.
Non-Reasoning ๋ชจ๋ ํน๊ธฐ์ฌํญ
Non-Reasoning ๋ชจ๋์์ ํนํ ์ฃผ๋ชฉํ ๊ฒฐ๊ณผ๋ Long Context Understanding์ ๋๋ค. K-EXAONE์ AA-LCR 45.2, OPENAI-MRCR 60.9๋ฅผ ๋ฌ์ฑํ์ฌ, Qwen3(31.2, 42.8)๊ณผ DeepSeek-V3.2(32.0, 42.4)๋ฅผ ๋ํญ ์ํํฉ๋๋ค. ์ด๋ Hybrid Attention ๊ตฌ์กฐ์ 2๋จ๊ณ Context Extension ์ ๋ต์ด Non-Reasoning ํ๊ฒฝ์์ ํนํ ํจ๊ณผ์ ์์ ์์ฌํฉ๋๋ค.
EXAONE 4.0 ๋๋น ๊ฐ์ ํญ
EXAONE 4.0(32B Dense)์์ K-EXAONE(236B MoE, 23B Active)์ผ๋ก์ ์ ํ์์ ๊ฐ์ฅ ๊ทน์ ์ธ ๊ฐ์ ์ด ๋ํ๋ ์์ญ์ ฯ2\tau^2ฯ2-Bench Telecom(23.7 โ 73.5, +49.8p), KGC-SAFETY(58.0 โ 96.1, +38.1p), KoBALT(25.4 โ 61.8, +36.4p), IFBench(36.0 โ 67.3, +31.3p)์ ๋๋ค. ์ด๋ MoE ์ค์ผ์ผ๋ง๊ณผ Post-Training ํ์ดํ๋ผ์ธ ๊ฐ์ ์ ๋ณตํฉ์ ํจ๊ณผ๋ก ํด์๋ฉ๋๋ค.
๊ฐ์ ์ฌ์ง ์์ญ
์คํ ๊ฒฐ๊ณผ์์ ๋ช ๊ฐ์ง ๊ฐ์ ์ฌ์ง๊ฐ ํ์ธ๋ฉ๋๋ค. Agentic Coding(SWE-BENCH VERIFIED 49.4)์์ DeepSeek-V3.2(73.1)๊ณผ gpt-oss-120b(62.4)์ ๋นํด ์๋นํ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํฉ๋๋ค. HUMANITYโS LAST EXAM(13.6)์์ DeepSeek-V3.2(25.1)์ ์ฝ ์ ๋ฐ ์์ค์ผ๋ก, ์ต์์ ๋์ด๋ ์ง์ ์ถ๋ก ์์ ํ๊ณ๋ฅผ ๋ณด์ ๋๋ค.
์์ ์ฑ ํ๋ ์์ํฌ: K-AUT์ KGC-SAFETY
K-EXAONE์ ๊ฐ์ฅ ๋๋๋ฌ์ง ์ฐจ๋ณ์ ์ค ํ๋๋ ํ๊ตญ ์ฌํ๋ฌธํ์ ๋งฅ๋ฝ์ ์ฒด๊ณ์ ์ผ๋ก ๋ฐ์ํ ์์ ์ฑ ํ๋ ์์ํฌ์ ๋๋ค. ๊ธฐ์กด์ ์๊ตฌ ์ค์ฌ AI ์ํ ๋ถ๋ฅ ์ฒด๊ณ๊ฐ ํ๊ตญ ์ฌํ์ ๋ฌธํ์ ๋ฏผ๊ฐ์ฑ๊ณผ ๋งฅ๋ฝ ํนํ ์๊ตฌ๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ์ง ๋ชปํ๋ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, Korea-Augmented Universal Taxonomy(K-AUT)๋ฅผ ์ ์ํฉ๋๋ค.
K-AUT๋ 4๊ฐ ์ฃผ์ ๋๋ฉ์ธ๊ณผ 226๊ฐ ์ธ๋ถ ์ํ ์์ญ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. Universal Human Values(55๊ฐ)๋ UN ํ์ฅ๊ณผ ๊ตญ์ ์ธ๊ถ ๊ธฐ์ค์ ๊ธฐ๋ฐํ ์๋ช ยท์กด์ยท๊ธฐ๋ณธ๊ถ ์ํ์ ๋ค๋ฃน๋๋ค. Social Safety(75๊ฐ)๋ ์ฌํ ์ง์ ๊ต๋์ด๋ ์๊ทนํ ์ฌํ๋ฅผ ํ๊ฐํฉ๋๋ค. Korean Sensitivity(60๊ฐ)๋ ํ๋ฒ์ ๊ฐ์น, ๊ตญ๋ด๋ฒ(๊ตญ๊ฐ๋ณด์๋ฒ ๋ฑ), ๊ฒ์ฆ๋ ์ญ์ฌ์ ํฉ์์ ๊ธฐ๋ฐํ์ฌ ํ๊ตญ์ ๋ฌธํ์ ยท์ญ์ฌ์ ยท์ง์ ํ์ ๋งฅ๋ฝ์์์ ๋ฏผ๊ฐ ์ด์๋ฅผ ๊ด๋ฆฌํฉ๋๋ค. Future Risk(36๊ฐ)๋ ๊ตญ์ AI ์ค๋ฆฌ ์์น๊ณผ ์์ธก์ ์ํ ์ฐ๊ตฌ์ ๊ธฐ๋ฐํ์ฌ ์ ๊ธฐ์ ๋ก ์ธํ ์๋ก์ด ์ํ์ ๋ค๋ฃน๋๋ค.
์ด ํ๋ ์์ํฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ KGC-SAFETY ๋ฒค์น๋งํฌ๋ 226๊ฐ ์นดํ ๊ณ ๋ฆฌ์์ ๊ฐ 10๊ฐ์ฉ ์ด 2,260๊ฐ ํ ์คํธ ์ธ์คํด์ค๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๋ค๊ตญ์ด(6๊ฐ ์ธ์ด), ๋ฉํฐํด, ์ ๋์ , ์ผ๋ฐ ์๋๋ฆฌ์ค๋ฅผ ํฌํจํฉ๋๋ค. ํ๊ฐ๋ LLM-as-a-Judge ํ๋ ์์ํฌ๋ก ์ํ๋๋ฉฐ, ๊ฐ ํ ์คํธ ์ผ์ด์ค์ ์์ ์ฌ๋ถ๋ฅผ ์ด์ง ํ๋จํฉ๋๋ค.
KGC-SAFETY ์ธ๋ถ ๊ฒฐ๊ณผ์์ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ด Universal Human Values์ Social Safety์์ ์๋์ ์ผ๋ก ๋์ Safe Rate๋ฅผ ๋ณด์ด์ง๋ง, Future Risk์ Korean Sensitivity์์๋ ๋ฎ์ ๊ฒฝํฅ์ ๋ณด์ ๋๋ค. K-EXAONE์ ์ ๋๋ฉ์ธ์์ 94% ์ด์์ Safe Rate๋ฅผ ์ ์งํ์ฌ(Universal Human Values 97.5, Social Safety 96.9, Korean Sensitivity 94.3, Future Risk 95.0), K-AUT ๊ธฐ๋ฐ์ ํ๊ตญ ํนํ ์์ ์ฑ ํ์ต์ด ํจ๊ณผ์ ์ด์์์ ์ ์ฆํฉ๋๋ค.
๋ ผ๋ฌธ์์๋ ์ด ์ ๊ทผ๋ฒ์ด ๋ค๋ฅธ ๊ตญ๊ฐ์ Sovereign AI ๊ฐ๋ฐ ์ modularํ๊ณ scalableํ blueprint์ผ๋ก ํ์ฉ๋ ์ ์๋ค๊ณ ์์น๋ฅผ ์ง์ ํฉ๋๋ค. ๋ณดํธ์ ์ค๋ฆฌ์ ์ง์ญ์ ํน์์ฑ์ ์ฒด๊ณ์ ์ผ๋ก ํตํฉํ๋ K-AUT์ ๊ตฌ์กฐ๋, ๊ฐ๊ตญ์ ๋ฌธํ์ ๋งฅ๋ฝ์ ๋ง๊ฒ ํ์ฅ ๊ฐ๋ฅํ ์ค๊ณ๋ฅผ ๊ฐ์ถ๊ณ ์์ต๋๋ค.
ํ๊ณ์ ๋ฐฐํฌ
K-EXAONE์ ๋ชจ๋ LLM๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ช ๊ฐ์ง ํ๊ณ๋ฅผ ๊ฐ์ง๋๋ค. ๊ฐ์ธ์ , ์ ํดํ, ํธํฅ๋ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋ถ์ ์ ํ ์๋ต์ด ์์ฑ๋ ์ ์์ผ๋ฉฐ, ์ฐ๋ นยท์ฑ๋ณยท์ธ์ข ๋ฑ๊ณผ ๊ด๋ จ๋ ํธํฅ๋ ์๋ต์ด ๋์ฌ ์ ์์ต๋๋ค. ํ์ต ๋ฐ์ดํฐ์ ํต๊ณ์ ํฌ๊ฒ ์์กดํ์ฌ ์๋ฏธ์ ยท๊ตฌ๋ฌธ์ ์ผ๋ก ๋ถ์ ํํ ๋ฌธ์ฅ์ด ์์ฑ๋ ์ ์๊ณ , ์ต์ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ง ๋ชปํ์ฌ ๊ฑฐ์ง์ด๊ฑฐ๋ ๋ชจ์๋ ์๋ต์ ํ ์ ์์ต๋๋ค.
๋ฐฐํฌ ์ธก๋ฉด์์ K-EXAONE์ ๋น๋ ์ ์ , ๋น์๋์ , ์ ์ธ๊ณ์ , ์ทจ์ ๋ถ๊ฐ ๋ผ์ด์ ์ค๋ก ์์ ์ ยท๋น์์ ์ ๋ชฉ์ ์ ์ ๊ทผ, ๋ค์ด๋ก๋, ์ค์น, ์์ , ์ฌ์ฉ, ๋ฐฐํฌ, ํ์ ์ ์๋ฌผ ์์ฑ์ด ํ์ฉ๋ฉ๋๋ค. ๋ค๋ง ์์ ์ ๋ชฉ์ ์ ๋ฐฐํฌ, ์๋ธ๋ผ์ด์ ์ฑ, ๋๋ ์ 3์ ์ ๊ณต์ ๋ณ๋ ํฉ์๊ฐ ํ์ํฉ๋๋ค.
๊ฒฐ๋ก
K-EXAONE์ ํ๊ตญ์ AI ์ธํ๋ผ ์ ์ฝ ์์์ ์ ๋ถ-๋ฏผ๊ฐ ํ๋ ฅ์ ํตํด ๊ธ๋ก๋ฒ ๊ฒฝ์๋ ฅ ์๋ ๋๊ท๋ชจ ๋ชจ๋ธ์ ๊ตฌ์ถํ ์ ์์์ ์ค์ฆํ Sovereign AI ๋ชจ๋ธ์ ๋๋ค. MoE ์ํคํ ์ฒ๋ฅผ ํตํ ํจ์จ์ ์ค์ผ์ผ๋ง(236B/23B), Hybrid Attention ๊ธฐ๋ฐ์ 256K Long-Context ์ฒ๋ฆฌ, SuperBPE Tokenizer์ ํ๊ท 30% ํจ์จ ํฅ์, AGAPO RL๊ณผ GROUPER Preference Learning์ ํตํ ์ ๋ ฌ, ๊ทธ๋ฆฌ๊ณ K-AUT ํ๋ ์์ํฌ ๊ธฐ๋ฐ์ ํ๊ตญ ์ฌํ๋ฌธํ ํนํ ์์ ์ฑ์ด๋ผ๋ ๋ค์ธต์ ํ์ ์ด ์กฐํ๋ฅผ ์ด๋ฃจ๋ฉฐ, ์ถ๋ก , Agentic, ๋ค๊ตญ์ด, ์์ ์ฑ ๋ฑ ๋ค์ํ ํ๊ฐ์์ ์ ์ฌ ๊ท๋ชจ Open-Weight ๋ชจ๋ธ๋ค๊ณผ ๋๋ฑํ๊ฑฐ๋ ๊ทธ ์ด์์ ์ฑ๋ฅ์ ์ ์ฆํฉ๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ผ๋ก๋ K-EXAONE์ MoE ๋ผ์ฐํ ๋์ ๋ถ์(์ด๋ค Expert๊ฐ ์ด๋ค ์ธ์ด/๋๋ฉ์ธ์ ํนํ๋๋์ง์ ๋ํ Ablation Study), Agentic Coding ๋ฅ๋ ฅ ๊ฐํ, ๊ทธ๋ฆฌ๊ณ GROUPER์ ๊ธฐ์กด RLHF/DPO ๊ณ์ด Preference Learning ๋ฐฉ๋ฒ๋ก ๊ฐ์ ์ฌ์ธต ๋น๊ต๊ฐ ํฅ๋ฏธ๋ก์ด ํ๊ตฌ ์ฃผ์ ๊ฐ ๋ ๊ฒ์ ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค.