[Paper Review] EXAONE 4.0: Unified Large Language Models Integrating
Non-reasoning and Reasoning Modes

Introduction
LLM ์ํ๊ณ์์ ๊ฐ์ฅ ๋๋ ทํ ํธ๋ ๋ ์ค ํ๋๋ โ๋น ๋ฅธ ์๋ตโ๊ณผ โ๊น์ ์ถ๋ก โ์ ํ๋์ ๋ชจ๋ธ๋ก ์ ๊ณตํ๋ Hybrid ๋ชจ๋ธ์ ๋ถ์์ ๋๋ค.
์ฌ๊ธฐ์ โ๋น ๋ฅธ ์๋ตโ์ด๋ ์ผ๋ฐ์ ์ธ ๋ํ๋ ์์ฝ์ฒ๋ผ ์ฆ๊ฐ์ ์ธ ๋ต๋ณ์ด ํ์ํ ์ํฉ์, โ๊น์ ์ถ๋ก โ์ด๋ ๋ณต์กํ ์ํ ๋ฌธ์ ๋ ์ฝ๋ฉ ๊ณผ์ ์ฒ๋ผ ๋จ๊ณ์ ์ฌ๊ณ (Chain-of-Thought)๊ฐ ํ์ํ ์ํฉ์ ์๋ฏธํฉ๋๋ค. ๊ธฐ์กด์๋ ์ด ๋ ๊ฐ์ง ๋ฅ๋ ฅ์ ๊ฐ๊ฐ ๋ณ๋์ ๋ชจ๋ธ๋ก ์ ๊ณตํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์์ต๋๋ค. ์๋ฅผ ๋ค์ด OpenAI์ ๊ฒฝ์ฐ ๋ฒ์ฉ GPT-4o์ ์ถ๋ก ํนํ o1/o3๋ฅผ, DeepSeek์ DeepSeek V3(๋ฒ์ฉ)์ DeepSeek R1(์ถ๋ก )์ ๋ณ๋๋ก ์ด์ํฉ๋๋ค. ์ฌ์ฉ์ ์ ์ฅ์์๋ ์ฉ๋์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ ํํด์ผ ํ๊ณ , ์๋น์ค ์ ๊ณต์ ์ ์ฅ์์๋ ๋ ๋ชจ๋ธ์ ๋์์ ๋ฐฐํฌํ๊ณ ๊ด๋ฆฌํด์ผ ํ๋ ๋ถ๋ด์ด ์์์ต๋๋ค.
์ต๊ทผ Qwen 3, DeepSeek ๋ฑ ์ฃผ์ ๋ชจ๋ธ๋ค์ด ๋ ๋ชจ๋๋ฅผ ํ๋๋ก ํตํฉํ๋ ๋ฐฉํฅ์ผ๋ก ์๋ ดํ๊ณ ์์ผ๋ฉฐ, LG AI Research์ EXAONE 4.0๋ ์ด ํ๋ฆ์ ํ๊ฐ์ด๋ฐ์ ์์ต๋๋ค.
LG AI Research๋ EXAONE์ด๋ผ๋ ์์ฒด Foundation Model ์๋ฆฌ์ฆ๋ฅผ ๊ฐ๋ฐํด ์์ต๋๋ค. ์ง์ ๋ฒ์ ์ธ EXAONE 3.5๋ ๋ค์ํ ์ฌ์ฉ์ ์ง์๋ฅผ ์ ํํ ๋ฐ๋ฅด๋ ๋ฒ์ฉ Instruction Following์, EXAONE Deep์ ์ํ๊ณผ ์ฝ๋ฉ ์์ญ์ ์ถ๋ก ์ฑ๋ฅ์ ๊ฐ๊ฐ ํนํ๋์ด ์์์ต๋๋ค. EXAONE 4.0์ ์ด ๋ ๋ชจ๋ธ์ ๊ฐ์ ์ NON-REASONING ๋ชจ๋์ REASONING ๋ชจ๋๋ผ๋ ํํ๋ก ๋จ์ผ ๋ชจ๋ธ์ ํตํฉํ ๊ฒ์ด ํต์ฌ์ ๋๋ค. ์ฌ์ฉ์๊ฐ ๋น ๋ฅธ ๋ต๋ณ์ด ํ์ํ๋ฉด NON-REASONING ๋ชจ๋๋ฅผ, ๋ณต์กํ ๋ฌธ์ ํ์ด๊ฐ ํ์ํ๋ฉด REASONING ๋ชจ๋๋ฅผ ์ ํํ ์ ์์ต๋๋ค.
์ฌ๊ธฐ์ Agentic AI ์๋๋ฅผ ๊ฒจ๋ฅํ Tool Use ๊ธฐ๋ฅ์ด ์๋ก ์ถ๊ฐ๋์์ต๋๋ค. Tool Use๋ ๋ชจ๋ธ์ด ์ธ๋ถ ๋๊ตฌ(API ํธ์ถ, ๋ฐ์ดํฐ๋ฒ ์ด์ค ์กฐํ, ์น ๊ฒ์ ๋ฑ)๋ฅผ ์์จ์ ์ผ๋ก ํ์ฉํ์ฌ ์ฌ์ฉ์์ ์์ฒญ์ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ์ ๋ปํฉ๋๋ค. ์ต๊ทผ LLM์ด ๋จ์ํ ํ ์คํธ ์์ฑ์ ๋์ด ์ค์ ์์ ์ ์ํํ๋ โAgentโ๋ก ๋ฐ์ ํ๋ฉด์, Tool Use๋ ํ์์ ์ธ ๊ธฐ๋ฅ์ผ๋ก ์๋ฆฌ์ก๊ณ ์์ต๋๋ค. ์ด ์ธ์๋ Spanish ์ธ์ด ์ง์ ์ถ๊ฐ(๊ธฐ์กด ์์ด/ํ๊ตญ์ด์์ ํ์ฅ), 14T ํ ํฐ์ผ๋ก ๋ํญ ํ๋๋ Pretraining, 128K ํ ํฐ๊น์ง์ Context Length ํ์ฅ์ด ์ด๋ฃจ์ด์ก์ต๋๋ค.
๋ชจ๋ธ์ ๊ณ ์ฑ๋ฅ 32B(320์ต ํ๋ผ๋ฏธํฐ)์ On-device์ฉ 1.2B(12์ต ํ๋ผ๋ฏธํฐ) ๋ ๊ฐ์ง ํฌ๊ธฐ๋ก ์ ๊ณต๋ฉ๋๋ค. 32B๋ ์๋ฒ ํ๊ฒฝ์์์ ๊ณ ์ฑ๋ฅ ์ถ๋ก ์, 1.2B๋ ์ค๋งํธํฐ์ด๋ Edge Device ๊ฐ์ ์ ํ๋ ํ๊ฒฝ์์์ ๋ก์ปฌ ์คํ์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก Hugging Face์์ ๊ณต๊ฐ๋์ด ์์ต๋๋ค.
์ด ๊ธ์์๋ EXAONE 4.0 Technical Report์ ํ๋ฆ์ ๋ฐ๋ผ, ์ํคํ ์ฒ ์ค๊ณ ๊ฒฐ์ ๋ถํฐ Post-training ํ์ดํ๋ผ์ธ, ๋ฒค์น๋งํฌ ์ฑ๋ฅ๊น์ง ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค.
Model Configurations: ์ํคํ ์ฒ์ ํต์ฌ ๋ณ๊ฒฝ์
Hybrid Attention โ Global๊ณผ Sliding Window์ ๊ฒฐํฉ
EXAONE 4.0 32B์ ๊ฐ์ฅ ๋์ ๋๋ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ Attention ๋ฉ์ปค๋์ฆ์ ๋๋ค.
๋จผ์ ๋ฐฐ๊ฒฝ์ ์ง์ด๋ณด๊ฒ ์ต๋๋ค. Transformer ๋ชจ๋ธ์ Self-Attention์ ์ํ์ค ๋ด ๋ชจ๋ ํ ํฐ ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด 1,000๊ฐ์ ํ ํฐ์ผ๋ก ๊ตฌ์ฑ๋ ์ ๋ ฅ์ด ์๋ค๋ฉด, ๊ฐ ํ ํฐ์ด ๋๋จธ์ง 999๊ฐ์ ํ ํฐ๊ณผ ์ด๋ค ๊ด๋ จ์ด ์๋์ง๋ฅผ ๋ชจ๋ ๊ณ์ฐํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ Global Attention์ด๋ผ ํ๋ฉฐ, ๋ฌธ๋งฅ ์ดํด์๋ ๊ฐ๋ ฅํ์ง๋ง ์ํ์ค ๊ธธ์ด nnn์ ๋ํด O(n2)O(n^2)O(n2)์ ์ฐ์ฐ ๋น์ฉ์ด ๋ฐ์ํฉ๋๋ค. ์ํ์ค ๊ธธ์ด๊ฐ 2๋ฐฐ๊ฐ ๋๋ฉด ์ฐ์ฐ๋์ 4๋ฐฐ๋ก ๋์ด๋๋ ์ ์ ๋๋ค. 128K ํ ํฐ(์ฝ 10๋ง ์ ์ด์์ ํ ์คํธ)๊น์ง ์ฒ๋ฆฌํด์ผ ํ๋ EXAONE 4.0์์๋ ์ด ๋น์ฉ์ด ํ์ค์ ์ธ ๋ณ๋ชฉ์ด ๋ฉ๋๋ค.
์ด์ ๋ํ ํจ์จ์ ๋์์ด Sliding Window Attention(Local Attention)์ ๋๋ค. ์ ์ฒด ์ํ์ค๊ฐ ์๋ ๊ฐ ํ ํฐ ์ฃผ๋ณ์ ๊ณ ์ ๋ ๋ฒ์(Window) ๋ด์์๋ง Attention์ ๊ณ์ฐํฉ๋๋ค. Window Size๊ฐ 4K๋ผ๋ฉด, ๊ฐ ํ ํฐ์ ์์ ์ ์๋ค 4K ํ ํฐ ๋ฒ์ ๋ด์์๋ง ๊ด๊ณ๋ฅผ ํ์ ํฉ๋๋ค. ์ฐ์ฐ ๋น์ฉ์ด O(nรw)O(n \times w)O(nรw) (w๋ Window Size)๋ก ์ค์ด๋ค์ด ํจ์จ์ ์ด์ง๋ง, Window ๋ฐ์ ๋จผ ํ ํฐ๊ณผ์ ๊ด๊ณ๋ ์ง์ ํ์ ํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
EXAONE 3.5๋ ๋ชจ๋ ๋ ์ด์ด์์ Global Attention์ ์ฌ์ฉํ์ต๋๋ค. EXAONE 4.0์ ์ด๋ฅผ ๋ณ๊ฒฝํ์ฌ Sliding Window Attention(Local)๊ณผ Global Attention์ 3:1 ๋น์จ๋ก ํผํฉํฉ๋๋ค. 64๊ฐ ๋ ์ด์ด ์ค 48๊ฐ๋ Window Size 4K์ Sliding Window Attention์, 16๊ฐ๋ ์ ์ฒด ์ํ์ค์ ๋ํ Global Attention์ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค.
์ด ์ค๊ณ์ ์ง๊ด์ ๋ช ํํฉ๋๋ค. ๋๋ถ๋ถ์ ๋ ์ด์ด์์๋ ์ฃผ๋ณ ํ ํฐ ๊ฐ์ ๊ด๊ณ(Local Context)๋ฅผ ํ์ ํ๋ ๊ฒ์ผ๋ก ์ถฉ๋ถํ๊ณ , ์ฃผ๊ธฐ์ ์ผ๋ก ๋ฐฐ์น๋ Global Attention ๋ ์ด์ด๊ฐ ์ํ์ค ์ ์ฒด์ ๋งฅ๋ฝ์ ํตํฉํ๋ ์ญํ ์ ํฉ๋๋ค. ๋น์ ํ์๋ฉด, ๊ธด ์์ค์ ์ฝ์ ๋ ๋๋ถ๋ถ์ ์๊ฐ์ ํ์ฌ ๋จ๋ฝ์ ๋งฅ๋ฝ์ ์ง์คํ๋, ๊ฐ๋ ์ ์ฒด ์ค๊ฑฐ๋ฆฌ๋ฅผ ์๊ธฐํ๋ฉฐ ํฐ ๊ทธ๋ฆผ์ ํ์ ํ๋ ๊ฒ๊ณผ ์ ์ฌํฉ๋๋ค. Gemma 2/3, Llama 4 ๋ฑ ์ต๊ทผ ์ฐ๊ตฌ์์๋ ์์ ๋ ์ด์ด์๋ง Global Attention์ ์ ์ฉํด๋ Long-context ์ฑ๋ฅ์ด ์ ์ง๋๋ค๋ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์ด ์์ผ๋ฉฐ, Mamba ๊ฐ์ Heterogeneous ๊ตฌ์กฐ์์๋ ์ฃผ๊ธฐ์ ์ธ ์๋์ Global Attention์ด ์ ์ญ ๋งฅ๋ฝ ์ดํด์ ๋์์ด ๋๋ค๋ ์ ์ด ํ์ธ๋์์ต๋๋ค.
์ฌ๊ธฐ์ ์ฃผ๋ชฉํ ์ค๊ณ ๊ฒฐ์ ์ด ๋ ๊ฐ์ง ์์ต๋๋ค.
์ฒซ์งธ, Global Attention ๋ ์ด์ด์์ RoPE(Rotary Position Embedding)๋ฅผ ์ฌ์ฉํ์ง ์์ต๋๋ค. RoPE๋ ํ ํฐ์ ์๋์ ์์น ์ ๋ณด๋ฅผ Attention ๊ณ์ฐ์ ์ฃผ์ ํ๋ ๊ธฐ๋ฒ์ผ๋ก, ๋๋ถ๋ถ์ ์ต์ LLM์์ ํ์ค์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ๊ทธ๋ฐ๋ฐ EXAONE 4.0์ Global Attention ๋ ์ด์ด์์ ์ด๋ฅผ ์๋์ ์ผ๋ก ์ ๊ฑฐํ์ต๋๋ค. ์ด์ ๋ RoPE๊ฐ ์ ์ฉ๋๋ฉด ๋ชจ๋ธ์ด ํ ํฐ ๊ฐ ๊ฑฐ๋ฆฌ์ ๋ฐ๋ฅธ Bias(๊ฐ๊น์ด ํ ํฐ์ ๋ ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ ๊ฒฝํฅ)๋ฅผ ๊ฐ๊ฒ ๋๋๋ฐ, Global Attention์ ์ญํ ์ ์ํ์ค ์ ์ฒด๋ฅผ ๊ท ๋ฑํ๊ฒ ์กฐ๋งํ๋ ๊ฒ์ด๋ฏ๋ก, ์์น ๊ธฐ๋ฐ Bias ์์ด ์ง์ ํ ์ ์ญ์ ์์ผ๋ฅผ ์ ์งํ๋๋ก ์ค๊ณํ ๊ฒ์ ๋๋ค. Local Attention ๋ ์ด์ด์์๋ RoPE๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ์ฌ ๊ทผ์ ํ ํฐ ๊ฐ์ ์์น ๊ด๊ณ๋ฅผ ์ ํํ ํฌ์ฐฉํฉ๋๋ค.
๋์งธ, Local Attention์ผ๋ก Chunked Attention ๋์ Sliding Window Attention์ ์ฑํํ์ต๋๋ค. Chunked Attention์ ์ํ์ค๋ฅผ ๊ณ ์ ํฌ๊ธฐ์ Chunk๋ก ๋๋์ด Chunk ๋ด์์๋ง Attention์ ๊ณ์ฐํ๋ ๋ฐฉ์์ ๋๋ค. ํจ์จ์ ์ด์ง๋ง Chunk ๊ฒฝ๊ณ์์ ์ ๋ณด๊ฐ ๋จ์ ๋๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ฐ๋ฉด Sliding Window Attention์ ์๋์ฐ๊ฐ ํ ํฐ๋ง๋ค ํ ์นธ์ฉ ์ด๋ํ๋ฏ๋ก ๊ฒฝ๊ณ ๋จ์ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. EXAONE 4.0์ Sliding Window์ ์ด๋ก ์ ์์ ์ฑ๊ณผ ์คํ์์ค ํ๋ ์์ํฌ(vLLM, TGI ๋ฑ)์์์ ๊ด๋ฒ์ํ ์ง์์ด๋ผ๋ ์ค์ฉ์ ์ด์ ๋ฅผ ๋ค์ด ์ด๋ฅผ ์ ํํ์ต๋๋ค. Short-context ์ฑ๋ฅ์ ์ ์ํฅ์ ์ต์ํํ๊ธฐ ์ํด Window Size๋ฅผ 4K๋ก ์ค์ ํ ๊ฒ๋ ์ค์ฉ์ ํ๋จ์ ๋๋ค.
ํํธ, 1.2B ๋ชจ๋ธ์ Hybrid๊ฐ ์๋ ์ ์ฒด Global Attention์ ์ฌ์ฉํฉ๋๋ค. ๋ ์ด์ด ์๊ฐ 30๊ฐ๋ก ์๋์ ์ผ๋ก ์ ์ด Hybrid์ ํจ์จ์ฑ ์ด์ ์ด ์ ํ์ ์ด๋ฉฐ, ์๊ท๋ชจ ๋ชจ๋ธ์์๋ ์ด๋ฏธ ์ ํ๋ ๋ชจ๋ธ ์ฉ๋์ ์ ์ญ์ ๋งฅ๋ฝ ํ์ ์ ์ต๋ํ ํ์ฉํ๋ ๊ฒ์ด ๋ ์ค์ํ ์ ์๊ธฐ ๋๋ฌธ์ผ๋ก ํด์๋ฉ๋๋ค.
QK-Reorder-LN โ Layer Normalization์ ์ฌ๋ฐฐ์น
๋ ๋ฒ์งธ ์ฃผ์ ์ํคํ ์ฒ ๋ณ๊ฒฝ์ LayerNorm์ ์์น์ ๋๋ค.
์ด ๋ณ๊ฒฝ์ ์ดํดํ๋ ค๋ฉด Transformer์ Layer Normalization ๋ฐฐ์น์ ๋ํ ๋ฐฐ๊ฒฝ์ด ํ์ํฉ๋๋ค. Layer Normalization(LayerNorm)์ ๊ฐ ๋ ์ด์ด์ ์ถ๋ ฅ์ ์ ๊ทํํ์ฌ ํ์ต์ ์์ ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ์๋ Transformer(โAttention Is All You Needโ) ๋ ผ๋ฌธ์์๋ ๋ ์ด์ด ์ถ๋ ฅ ํ์ Normalization์ ์ ์ฉํ๋ Post-LN ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. ์ดํ Pre-LN ๊ตฌ์กฐ(๋ ์ด์ด ์ ๋ ฅ์ Normalization ์ ์ฉ)๊ฐ ๋ฑ์ฅํ์ฌ, ํ์ต ์์ ์ฑ์ ํฌ๊ฒ ๊ฐ์ ํ๊ณ ๋๋ถ๋ถ์ ์ต์ LLM์์ ์ฌ์ค์ ํ์ค์ด ๋์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ ์ต๊ทผ โThe Curse of Depth in Large Language Modelsโ ์ฐ๊ตฌ์์ Pre-LN์ ๊ตฌ์กฐ์ ๋ฌธ์ ๊ฐ ์ง์ ๋์์ต๋๋ค. ๋ชจ๋ธ ๊น์ด๊ฐ ์ฆ๊ฐํ ์๋ก ์ถ๋ ฅ์ ๋ถ์ฐ(Variance)์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ปค์ง๋ฉฐ, ์ด๋ก ์ธํด ๊น์ ๋ ์ด์ด๋ค์ด ๋ชจ๋ธ ์ฑ๋ฅ์ ์ค์ง์ ์ผ๋ก ๊ธฐ์ฌํ์ง ๋ชปํ๋ ํ์์ด ๋ฐ์ํฉ๋๋ค. ์ง๊ด์ ์ผ๋ก ์ค๋ช ํ๋ฉด, 64๊ฐ ๋ ์ด์ด๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์์ ์์ชฝ ๋ ์ด์ด๋ค์ ์ถ๋ ฅ์ ์ ์ ํ ํฌ๊ธฐ๋ฅผ ์ ์งํ์ง๋ง ๋ค์ชฝ ๋ ์ด์ด๋ก ๊ฐ์๋ก ์ถ๋ ฅ ๊ฐ์ ๋ฒ์๊ฐ ๊ทน๋จ์ ์ผ๋ก ์ปค์ ธ์, ๋ง์ง๋ง ๋ช์ญ ๊ฐ์ ๋ ์ด์ด๋ ์ฌ์ค์ โ์ฃฝ์ ๋ ์ด์ดโ โ ํ๋ผ๋ฏธํฐ๋ ์กด์ฌํ์ง๋ง ์์ธก์ ์๋ฏธ ์๋ ๊ธฐ์ฌ๋ฅผ ํ์ง ๋ชปํ๋ ์ํ โ ๊ฐ ๋๋ ๊ฒ์ ๋๋ค.
EXAONE 4.0์ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด QK-Reorder-LN์ ์ฑํํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ Attention ๋ธ๋ก ๋ด์์ Query์ Key ๋ฒกํฐ์ ๊ฐ๊ฐ RMSNorm์ ์ ์ฉํ ํ Attention ์ฐ์ฐ์ ์ํํ๊ณ , Attention Output์ ํ ๋ฒ ๋ RMSNorm์ ์ ์ฉํฉ๋๋ค. RMSNorm(Root Mean Square Normalization)์ LayerNorm์ ๊ฒฝ๋ํ ๋ฒ์ ์ผ๋ก, ํ๊ท ์ ๋นผ๋ ์ฐ์ฐ์ ์๋ตํ๊ณ RMS ๊ฐ์ผ๋ก๋ง ์ ๊ทํํ์ฌ ๊ณ์ฐ ํจ์จ์ด ๋์ต๋๋ค. EXAONE 3.0๋ถํฐ ์ฌ์ฉํด์จ RMSNorm ์์ฒด๋ ์ ์งํ๋, ์ ์ฉ ์์น๋ฅผ ์ฌ๋ฐฐ์นํ ๊ฒ์ ๋๋ค.
์ด ๋ฐฉ์์ ๊ธฐ์กด Pre-LN ๋๋น ์ฐ์ฐ๋์ด ์ฆ๊ฐํ๋ Trade-off๊ฐ ์์ต๋๋ค โ Attention ๋ธ๋ก ๋ด์ ์ถ๊ฐ์ ์ธ Normalization ์ฐ์ฐ์ด ๋ค์ด๊ฐ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ทธ๋ฌ๋ OLMoE, OLMo 2 ๋ฑ์ ์ฐ๊ตฌ์์ QK-Normalization๊ณผ ์ ์ฌํ ์ ๊ทผ์ด Downstream Task ์ฑ๋ฅ์ ๊ฐ์ ํ๋ ๊ฒ์ผ๋ก ๋ณด๊ณ ๋์์ผ๋ฉฐ, EXAONE ํ๋ ๋จ์ํ ๋ถ์ฐ์ ์ค์ผ์ผ๋งํ๋ ๋ฐฉ์๋ณด๋ค QK-Reorder-LN์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ์คํ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์์ต๋๋ค.
๋ชจ๋ธ ์คํ ์์ฝ
| ํญ๋ชฉ | 32B | 1.2B |
|---|---|---|
| dmodeld_\text{model}dmodelโ (Hidden Dimension) | 5,120 | 2,048 |
| Layers | 64 | 30 |
| Normalization | QK-Reorder-LN | QK-Reorder-LN |
| Non-linearity | SwiGLU | SwiGLU |
| FFN Dimension | 27,392 | 4,096 |
| Attention Type | Hybrid (Local:Global = 3:1) | Global |
| Head Type / Heads / KV Heads | GQA / 40 / 8 | GQA / 32 / 8 |
| Head Size | 128 | 64 |
| Max Seq Length | 131,072 (128K) | 65,536 (64K) |
| RoPE ฮธ\thetaฮธ | 1,000,000 | 1,000,000 |
| Tokenizer / Vocab | BBPE / 102,400 | BBPE / 102,400 |
| Tied Embedding | False | True |
๋ ๋ชจ๋ธ ๋ชจ๋ GQA(Grouped Query Attention)๋ฅผ ์ฌ์ฉํฉ๋๋ค. GQA๋ Multi-Head Attention์์ Key์ Value Head์ ์๋ฅผ Query Head๋ณด๋ค ์ ๊ฒ ์ค์ ํ์ฌ, KV Cache ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ ์ฝํ๋ฉด์ ์ฑ๋ฅ์ ์ ์งํ๋ ๊ธฐ๋ฒ์ ๋๋ค. 32B ๋ชจ๋ธ์ 40๊ฐ์ Query Head์ 8๊ฐ์ KV Head๋ฅผ, 1.2B ๋ชจ๋ธ์ 32๊ฐ์ Query Head์ 8๊ฐ์ KV Head๋ฅผ ์ฌ์ฉํฉ๋๋ค.
Tokenizer๋ BBPE(Byte-level Byte Pair Encoding)๋ฅผ ์ฌ์ฉํ๋ฉฐ, 102,400๊ฐ์ Vocabulary๋ฅผ ํ๊ตญ์ด์ ์์ด ํ ํฐ์ด ๊ฑฐ์ ๋์ผํ ๋น์จ๋ก ๊ณต์ ํฉ๋๋ค. 1.2B ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ํจ์จ์ฑ์ ์ํด Tied Word Embedding(์ ๋ ฅ Embedding๊ณผ ์ถ๋ ฅ Projection์ด ๊ฐ์ ๊ฐ์ค์น๋ฅผ ๊ณต์ ํ๋ ๋ฐฉ์)์ ์ฌ์ฉํฉ๋๋ค.
Pre-training: ๋ฐ์ดํฐ ๊ท๋ชจ์ ํ์ง์ ๋์ ๊ฐํ
EXAONE 4.0 32B ๋ชจ๋ธ์ 14T(14์กฐ) ํ ํฐ์ผ๋ก Pretraining๋์์ผ๋ฉฐ, ์ด๋ EXAONE 3.5์ 6.5T ๋๋น ์ฝ 2๋ฐฐ์ ํด๋นํฉ๋๋ค. 1.2B ๋ชจ๋ธ๋ 12T ํ ํฐ์ผ๋ก ํ์ต๋์ด ๋ชจ๋ธ ํฌ๊ธฐ ๋๋น ์๋นํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ํํ์ต๋๋ค. ํฌ์ ๋ ์ฐ์ฐ๋(FLOPs)์ 32B ๋ชจ๋ธ์ด 2.69ร10242.69 \times 10^{24}2.69ร1024, 1.2B ๋ชจ๋ธ์ด 8.65ร10228.65 \times 10^{22}8.65ร1022์ ๋๋ค. ์ฐธ๊ณ ๋ก Pretraining์ ๋ชจ๋ธ์ด ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ธ์ด์ ํจํด, ์ฌ์ค ์ง์, ์ถ๋ก ๋ฅ๋ ฅ ๋ฑ์ ํ์ตํ๋ ์ด๊ธฐ ํ์ต ๋จ๊ณ๋ก, ์ดํ์ Fine-tuning๊ณผ ๊ตฌ๋ถ๋ฉ๋๋ค.
์ด ๋ฐ์ดํฐ ์ฆ๊ฐ๋ ๋จ์ํ ์์ ํ๋์ ๊ทธ์น์ง ์์ต๋๋ค. World Knowledge ๊ฐํ๋ฅผ ๋ช ํํ ๋ชฉํ๋ก ์ค์ ํ๊ณ , STEM(Science, Technology, Engineering, Mathematics) ๋ถ์ผ ๋ฑ ์ ๋ฌธ ๋๋ฉ์ธ์ ๋ฐ์ดํฐ๋ฅผ ํน๋ณํ ํ๋ ์ด์ ํ์ต๋๋ค. โํ๋ ์ด์ โ์ด๋ ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๋ ๊ฒ์ด ์๋๋ผ, ํ์ง ๊ธฐ์ค์ ๋ฐ๋ผ ์ ๋ณํ๊ณ ์ ์ ํ๋ ๊ณผ์ ์ ์๋ฏธํฉ๋๋ค. ์ค์ ๋ก MMLU-Redux ๋ฑ ์ง์ ๊ธฐ๋ฐ ๋ฒค์น๋งํฌ์์ ๋๋ ทํ ์ฑ๋ฅ ํฅ์์ด ๊ด์ฐฐ๋์์ต๋๋ค.
๋ํ ์ต๊ทผ ์ฐ๊ตฌ(โFour Habits of Highly Effective STaRsโ)์์ ์ถ๋ก ์ฑ๋ฅ์ด Pretraining ๊ณผ์ ์์ ํ์ต๋ Cognitive Behavior์ ํฌ๊ฒ ์ํฅ์ ๋ฐ๋๋ค๋ ๊ฒฐ๊ณผ๊ฐ ๋ณด๊ณ ๋์์ต๋๋ค. Cognitive Behavior๋ ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์์ฑํ ๋ ๋ณด์ด๋ ์ฌ๊ณ ํจํด โ ์๋ฅผ ๋ค์ด ๋ฌธ์ ๋ฅผ ๋จ๊ณ์ ์ผ๋ก ๋ถํดํ๊ฑฐ๋, ๊ฐ์ ์ ๊ฒ์ฆํ๊ฑฐ๋, ๋์์ ํ์ํ๋ ๋ฑ์ ํ๋ โ ์ ๋งํฉ๋๋ค. ์ด๋ฌํ ํจํด์ ์ฃผ๋ก Pretraining ๋ฐ์ดํฐ์ ํฌํจ๋ ๋ฌธ์(๊ต๊ณผ์, ํ์ ๋ ผ๋ฌธ, ๋ ผ๋ฆฌ์ ํ ๋ก ๋ฑ)๋ก๋ถํฐ ํ์ต๋ฉ๋๋ค. EXAONE 4.0์ ์ด๋ฅผ ๋ฐ์ํ์ฌ Pretraining ๋จ๊ณ์์๋ถํฐ ์๊ฒฉํ Data Curation์ ์ํํ์ฌ, ๋จ์ํ ์ง์๋ฟ ์๋๋ผ Post-training์์์ ์ถ๋ก ์ฑ๋ฅ๊น์ง ๊ณ ๋ คํ ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ํ๋ค๊ณ ํฉ๋๋ค.
Context Length Extension: 4K์์ 128K๊น์ง
EXAONE 4.0์ ์ต๋ 128K ํ ํฐ์ Context Length๋ฅผ ์ง์ํฉ๋๋ค. Context Length๋ ๋ชจ๋ธ์ด ํ ๋ฒ์ ์ฒ๋ฆฌํ ์ ์๋ ์ ๋ ฅ ํ ์คํธ์ ์ต๋ ๊ธธ์ด๋ฅผ ์๋ฏธํฉ๋๋ค. 128K ํ ํฐ์ ๋๋ต ์๋ฌธ ๊ธฐ์ค ์ฝ 300ํ์ด์ง ๋ถ๋์ ํ ์คํธ์ ํด๋นํ๋ฉฐ, ๊ธด ๋ฌธ์ ์์ฝ, ๋๋์ ์ฝ๋ ๋ถ์, ์ฌ๋ฌ ๋ฌธ์๋ฅผ ๋์์ ์ฐธ์กฐํ๋ QA ๋ฑ์์ ํต์ฌ์ ์ธ ๋ฅ๋ ฅ์ ๋๋ค.
๊ทธ๋ฐ๋ฐ ์ฒ์๋ถํฐ 128K ํ ํฐ์ผ๋ก ํ์ตํ๋ ๊ฒ์ ๋นํจ์จ์ ์ ๋๋ค. ๊ธด ์ํ์ค๋ ์ฐ์ฐ ๋น์ฉ์ด ๋๊ณ , ๋๋ถ๋ถ์ ํ์ต ๋ฐ์ดํฐ๋ 128K๋ณด๋ค ํจ์ฌ ์งง๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋ผ์ EXAONE 4.0์ 2๋จ๊ณ ์ ์ง์ ํ์ฅ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
๋จผ์ 4K Context๋ก Pretrain๋ ๋ชจ๋ธ์ 32K๋ก ํ์ฅํ๊ณ , ์ดํ ๋ค์ 128K๋ก ํ์ฅํฉ๋๋ค. ๊ฐ ๋จ๊ณ์์ NIAH(Needle In A Haystack) ํ ์คํธ๋ฅผ ํตํด ์ฑ๋ฅ์ ๊ฒ์ฆํฉ๋๋ค. NIAH ํ ์คํธ๋ ๊ธด ํ ์คํธ(Haystack) ์์ ํน์ ์ ๋ณด(Needle)๋ฅผ ์จ๊ธฐ๊ณ , ๋ชจ๋ธ์ด ์ด๋ฅผ ์ ํํ ์ฐพ์๋ด๋์ง ํ์ธํ๋ ํ์ค์ ์ธ Long-context ํ๊ฐ ๋ฐฉ๋ฒ์ ๋๋ค. ๋ชจ๋ ์์น(์์, ์ค๊ฐ, ๋)์ ๋ชจ๋ ๊ธธ์ด์์ โgreen lightโ(์ ๋ณด๋ฅผ ์ ํํ ์ฐพ์๋)์ด ํ์ธ๋ ๋๊น์ง ๋ฐ๋ณต์ ์ผ๋ก ์ต์ ํ๋ฅผ ์งํํฉ๋๋ค.
Short-context ์์ญ์์์ ์ฑ๋ฅ ์ ํ๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ์ ์คํ ๋ฐ์ดํฐ ์ ์ ๋ฐฉ๋ฒ๋ก ๊ณผ Progressive Training Recipe๋ฅผ ์ ์ฉํ ์ ์ด ์ฃผ๋ชฉํ ๋งํฉ๋๋ค. Long-context Fine-tuning ๊ณผ์ ์์ ๊ธฐ์กด์ Short-context ๋ฅ๋ ฅ์ด ํผ์๋๋ ํ์์ โCatastrophic Forgettingโ์ ์ผ์ข ์ผ๋ก ํํ ๋ฐ์ํ๋ ๋ฌธ์ ์ด๋ฉฐ, EXAONE 4.0์ ์ด๋ฅผ ๋ช ์์ ์ผ๋ก ๊ด๋ฆฌํ๊ณ ์์ต๋๋ค.
1.2B ๋ชจ๋ธ์ 64K ํ ํฐ๊น์ง ํ์ฅ๋ฉ๋๋ค. 1B ํ๋ผ๋ฏธํฐ ๋ฒ์์ ๋ชจ๋ธ ๋๋ถ๋ถ์ด 32K๋ฅผ ์ต๋ ์ง์ํ๋ ๊ฒ์ ๊ฐ์ํ๋ฉด, ์ด๋ ๋๊ธ ๋๋น ์ฝ 2๋ฐฐ์ Context Length์ ๋๋ค.
Post-training: 5๋จ๊ณ ํ์ดํ๋ผ์ธ
Pretraining์ด โ์์์ ์ธ ์ธ์ด ๋ฅ๋ ฅโ์ ํ์ตํ๋ ๋จ๊ณ๋ผ๋ฉด, Post-training์ ์ด ๋ฅ๋ ฅ์ ์ฌ์ฉ์์ ์ง์๋ฅผ ๋ฐ๋ฅด๊ณ , ์ ํํ๊ฒ ์ถ๋ก ํ๋ฉฐ, ์ธ๊ฐ์ ์ ํธ์ ๋ง๊ฒ ์๋ตํ๋๋ก ์ ์ ํ๋ ๋จ๊ณ์ ๋๋ค. EXAONE 4.0์ Post-training์ 5๋จ๊ณ๋ก ๊ตฌ์ฑ๋ ์ ๊ตํ ํ์ดํ๋ผ์ธ์ ๊ฑฐ์นฉ๋๋ค. ํฌ๊ฒ SFT(Supervised Fine-Tuning) โ RL(Reinforcement Learning) โ Preference Learning์ 3๊ฐ ์ถ์ผ๋ก ๋๋ฉ๋๋ค.
Large-Scale Supervised Fine-Tuning
SFT๋ ์ธ๊ฐ์ด ์์ฑํ ๊ณ ํ์ง ์ ๋ ฅ-์ถ๋ ฅ ์์ ํตํด ๋ชจ๋ธ์ด โ๋ฐ๋์งํ ์๋ต ํํโ๋ฅผ ํ์ตํ๋ ๊ณผ์ ์ ๋๋ค. EXAONE 4.0์ SFT์์๋ 5๊ฐ ๋๋ฉ์ธ์ ๊ฑธ์ณ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค.
World Knowledge ๋๋ฉ์ธ์์๋ ์น ์์ค์์ ์์งํ ๋ฌธ์ ๋ฅผ ๊ต์ก์ ๊ฐ์น ๊ธฐ์ค์ผ๋ก ํํฐ๋งํฉ๋๋ค. ๋จ์ํ ์ฌ์ค ์๊ธฐ๊ฐ ์๋๋ผ, ๋ค์ํ ๋ถ์ผ์ ๋์ด๋์ ๊ฑธ์น ์ง์์ Distillation(์ฆ๋ฅ)์ ๋ชฉํ๋ก ํฉ๋๋ค. ์ ๋ฌธ์ ์ด๊ณ ๊ณ ๋์ด๋์ ๋ฐ์ดํฐ๋ ํน๋ณํ ์ํ๋งํ์ฌ REASONING ๋ชจ๋ ํ์ต์ ํ์ฉํฉ๋๋ค.
Math, Code, Logic ๋๋ฉ์ธ์์๋ ์ ํํ Ground Truth ํ๋ณด๊ฐ ์ด๋ ต๋ค๋ ๊ทผ๋ณธ์ ์ ์ฝ์ด ์์ต๋๋ค. ์ํ ๋ฌธ์ ๋ ๋ต์ด ๋ช ํํ์ง๋ง ๊ณ ํ์ง ๋ฌธ์ ์์ฒด๋ฅผ ๋๋์ผ๋ก ๋ง๋ค๊ธฐ๊ฐ ์ด๋ ต๊ณ , ์ฝ๋ ๋ฌธ์ ๋ ํ ์คํธ ์ผ์ด์ค๋ฅผ ํตํ ๊ฒ์ฆ์ด ํ์ํฉ๋๋ค. ๊ฒ์ฆ ๋ถ๊ฐ๋ฅํ ๋ฌธ์ ๋ฅผ ์ต์ง๋ก ๋ง๋๋ ๋์ , ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ต์ด ์๋ ๋ฌธ์ ์ ๋ํด ๋ค์ํ ์๋ต์ ์์ฑํ๋ ์ ๋ต์ ํํฉ๋๋ค. ํฅ๋ฏธ๋ก์ด ์คํ์ ๋ฐ๊ฒฌ์, ํ๋์ ๋ฌธ์ ์ ๋ํด ์ฌ๋ฌ ๋ค๋ฅธ ํ์ด๋ฒ(์๋ต)์ ์์ฑํ๋ ๊ฒ์ด ๊ณ ์ ํ ๋ฌธ์ ์ ์๋ ๋ค์์ฑ์ ๋๋ฆฌ๋ ๊ฒ๊ณผ ๋๋ฑํ ํจ๊ณผ๋ฅผ ๋ณด์ธ๋ค๋ ์ ์ ๋๋ค. ์ด๋ ๋ฐ์ดํฐ ๊ตฌ์ถ ๋น์ฉ์ ํฌ๊ฒ ์ค์ผ ์ ์๋ ์ค์ฉ์ ์ธ์ฌ์ดํธ์ ๋๋ค. REASONING ๋ชจ๋์์ Math/Code ์๋ต์ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ํฌํจํ์ฌ ๊ธธ์ด์ง๋ ๊ฒฝํฅ์ด ์์ด, Degeneration(๋ฐ๋ณต์ ์ด๊ฑฐ๋ ๋ฌด์๋ฏธํ ํ ์คํธ ์์ฑ)๊ณผ ์ธ์ด ๋ถ์ผ์น(ํ๊ตญ์ด ์ง๋ฌธ์ ์์ด๋ก ๋ตํ๋ ๋ฑ)์ ์ํ์ด ๋์์ง๋ฏ๋ก, ์ ์คํ ํํฐ๋ง์ ์ ์ฉํฉ๋๋ค. Code ๋๋ฉ์ธ์์๋ ์๊ณ ๋ฆฌ์ฆ Problem-solving์ ๋์ด Full Stack Development์ ์ด์ ์ ๋ง์ถ Software Engineering ๋ฐ์ดํฐ์ ๋ ํฌํจ๋ฉ๋๋ค.
Long Context ๋๋ฉ์ธ์์๋ Context ๊ธธ์ด์ ํต์ฌ ์ ๋ณด์ ์์น๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ณํ์์ผ, ๋ถ์ฐ๋ ์ ๋ณด๋ฅผ ์๋ณํ๊ณ ์ถ๋ก ํ๋ ๋ฅ๋ ฅ์ ํ๋ จํฉ๋๋ค. ์๋ฅผ ๋ค์ด ํต์ฌ ์ ๋ณด๊ฐ ๊ธด ๋ฌธ์์ ์ฒ์, ์ค๊ฐ, ๋์ ๊ฐ๊ฐ ์์นํ๋ ๊ฒฝ์ฐ๋ฅผ ๋ชจ๋ ํ์ตํ๋ ๊ฒ์ ๋๋ค. ํ๊ตญ์ด์ ๊ฒฝ์ฐ ๋ฒ๋ฅ , ํ์ , ๊ธฐ์ ๋ฌธ์ ๋ฑ์ ์ ์ ํ์ฌ ๋ค์ํ Long-context ์ ๋ ฅ ํ์์ ๋ง๊ฒ ์ฌ๊ตฌ์ฑํฉ๋๋ค.
Agentic Tool Use ๋๋ฉ์ธ์์๋ ๋จ์ํ Single Tool Call(ํ๋์ API๋ฅผ ํ ๋ฒ ํธ์ถํ๋ ๊ฒ)์ด ์๋๋ผ, ๋ณด๋ค ํ์ค์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ๋ค๋ฃน๋๋ค. ์ฌ์ฉ์์์ ๋ํ๋ฅผ ํตํด ์๊ตฌ์ฌํญ์ ๊ตฌ์ฒดํํ๊ณ , ์ฌ๋ฌ ๋๊ตฌ๋ฅผ ์์ฐจ์ ์ผ๋ก ํธ์ถํ๋ฉฐ, ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๋ค์ ํ๋์ ๊ฒฐ์ ํ๊ณ , ์คํ ์ค๋ฅ ์ ๋์์ ๋ชจ์ํ๋ โ ์ด๋ฐ ๋ณต์กํ Long-horizon Tool-calling ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํฉ๋๋ค. Multi-step(์ฌ๋ฌ ๋จ๊ณ์ ๋๊ตฌ ํธ์ถ), Multi-turn(์ฌ๋ฌ ์ฐจ๋ก์ ๋ํ ์๋ณต) ํ์์ผ๋ก ์กฐ์งํํ์ฌ Agentic Tool Use์ ํ์ต์ ํจ๊ณผ์ ์ผ๋ก ์ง์ํฉ๋๋ค.
Multilinguality ๋๋ฉ์ธ์์๋ ํ๊ตญ์ด์ Spanish ๋ชจ๋์ ๋ํด ๋ฌธํ/์ญ์ฌ์ ์ง์๊ณผ ์์ฐ์ค๋ฌ์ด ๋ํ ๋ฅ๋ ฅ์ ๋ชฉํ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ๊ธฐ์กด ์์ด ์ํ์ ๋ฒ์ญ์ ์ฟผ๋ฆฌ๋ก ํ์ฉํ๋ ํํธ, ๊ฐ ์ธ์ด ๊ณ ์ ์ ์๋ก์ด Instruction๋ ์์ฑํฉ๋๋ค. ํ๊ตญ์ด๋ ํนํ ๊ต์ก๊ณผ ์ฐ์ ์ ๋ฌธ๊ฐ ๊ด๋ จ ์ฃผ์ ๋ฅผ ํ๋ ์ด์ ํ์ฌ ๋๋ฉ์ธ ํนํ ์ฟผ๋ฆฌ ๋์ ๋ฅ๋ ฅ์ ๊ฐํํฉ๋๋ค.
Unified Mode Training. NON-REASONING๊ณผ REASONING ๋ฐ์ดํฐ๋ฅผ ์์ฐจ์ ์ผ๋ก๊ฐ ์๋๋ผ ํจ๊ป ํ์ตํ๋ ๊ฒ์ด ํต์ฌ ์ค๊ณ ๊ฒฐ์ ์ ๋๋ค. ์์ฐจ์ ํ์ต(๋จผ์ NON-REASONING, ๊ทธ ๋ค์ REASONING)์ ๋์ค์ ํ์ตํ ๋ชจ๋๊ฐ ์ด์ ๋ชจ๋๋ฅผ ๋ฎ์ด์ฐ๋ Catastrophic Forgetting ์ํ์ด ์์ต๋๋ค. ๋์ ํ์ต์ ์ด ์ํ์ ์ค์ด์ง๋ง, ๋ ๋ชจ๋ ๊ฐ ๋ฐ์ดํฐ ๋น์จ ์ค์ ์ด ์ค์ํฉ๋๋ค. Ablation Study๋ฅผ ํตํด REASONING ๋ NON-REASONING ๋ฐ์ดํฐ์ ํ ํฐ ๋น์จ์ 1.5:1๋ก ์ค์ ํ์ต๋๋ค. REASONING ๋น์จ์ด ๋๋ฌด ๋์ผ๋ฉด NON-REASONING ๋ชจ๋์์๋ ๋ชจ๋ธ์ด ๋ถํ์ํ๊ฒ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ์์ฑํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ฐ๋๋ก ๋๋ฌด ๋ฎ์ผ๋ฉด REASONING ๋ชจ๋์ ์ถ๋ก ํ์ง์ด ์ ํ๋ ๊ฒ์ ๋๋ค.
Unified Mode ํ์ต ํ์๋ ๋๋ฉ์ธ ๋ถ๊ท ํ์ ํด์ํ๊ธฐ ์ํด, Code์ Tool Use ๋๋ฉ์ธ์ ๊ณ ํ์ง REASONING ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฌ์ฉํ๋ 2์ฐจ SFT๋ฅผ ์ํํฉ๋๋ค. ์ ์ฒด ๋ฐ์ดํฐ์์ ์ด ๋๋ฉ์ธ์ ๋น์ค์ด ์๋์ ์ผ๋ก ๋ฎ์๊ธฐ ๋๋ฌธ์, ํด๋น ์์ญ์ ์ฑ๋ฅ์ ๋ณด๊ฐํ๋ ค๋ ์๋์ ๋๋ค.
Reasoning Reinforcement Learning โ AGAPO
SFT๊ฐ โ์ข์ ์๋ต์ ํจํด์ ๋ชจ๋ฐฉโํ๋ ๊ฒ์ด๋ผ๋ฉด, RL(Reinforcement Learning)์ โ์ํ์ฐฉ์ค๋ฅผ ํตํด ์ค์ค๋ก ๋ ๋์ ์ ๋ต์ ๋ฐ๊ฒฌโํ๋ ๊ฒ์ ๋๋ค. ๋ชจ๋ธ์ด ๋ฌธ์ ์ ๋ํด ์ฌ๋ฌ ์๋ต์ ์์ฑํ๊ณ , ์ ๋ต/์ค๋ต ์ฌ๋ถ์ ๋ฐ๋ฅธ ๋ณด์(Reward)์ ๋ฐ์ ์ ๋ต์ ๋ผ ํ๋ฅ ์ ๋์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํฉ๋๋ค.
EXAONE 4.0์ SFT ์ดํ Online RL์ ์ํํ๋ฉฐ, ๊ธฐ์กด GRPO(Group Relative Policy Optimization)์ ํ๊ณ๋ฅผ ํฌ๊ด์ ์ผ๋ก ๊ฐ์ ํ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ AGAPO(Asymmetric Sampling and Global Advantage Policy Optimization)๋ฅผ ์ ์ํฉ๋๋ค.
๋จผ์ GRPO์ ๋ํด ๊ฐ๋จํ ์ค๋ช ํ๊ฒ ์ต๋๋ค. GRPO๋ DeepSeek์์ ์ ์ํ RL ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๊ฐ ๋ฌธ์ ์ ๋ํด ์ฌ๋ฌ ๊ฐ์ ์๋ต(Group)์ ์์ฑํ ๋ค, ๊ทธ๋ฃน ๋ด์์์ ์๋์ ์ฑ๋ฅ ์ฐจ์ด(Advantage)๋ฅผ ๊ณ์ฐํ์ฌ ์ ์ฑ ์ ์ ๋ฐ์ดํธํฉ๋๋ค. PPO(Proximal Policy Optimization)์ ๋ฌ๋ฆฌ ๋ณ๋์ Critic(Value) ๋ชจ๋ธ์ด ํ์ ์์ด ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ด ์ข๊ณ , Verifiable Reward(์ํ ์ ๋ต ์ฌ๋ถ, ์ฝ๋ ํ ์คํธ ํต๊ณผ ์ฌ๋ถ ๋ฑ ๊ฐ๊ด์ ์ผ๋ก ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์)์ ๊ฒฐํฉํ๋ฉด ๋งค์ฐ ํจ๊ณผ์ ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋ช ๊ฐ์ง ๊ตฌ์กฐ์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ, AGAPO๋ ์ด๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
ํ์ต ๋ฐ์ดํฐ๋ ์ํ, ์ฝ๋, ๊ณผํ, Instruction Following์ 4๊ฐ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ํจ์จ์ ์ธ ํ์ต์ ์ํด SFT ๋ชจ๋ธ์์ 8๊ฐ์ ์๋ต์ ์์ฑํ์ฌ, 8๊ฐ ๋ชจ๋ ์ ๋ต์ธ ์ํ(๋ชจ๋ธ์๊ฒ ์ด๋ฏธ ์ฌ์ด ๋ฌธ์ )์ ์ฌ์ ํํฐ๋ง์ผ๋ก ์ ๊ฑฐํฉ๋๋ค. ์ฌ์ด ๋ฌธ์ ์์๋ ๋ชจ๋ธ์ด ์๋ก์ด ๊ฒ์ ๋ฐฐ์ธ ์ฌ์ง๊ฐ ์ ๊ธฐ ๋๋ฌธ์ ๋๋ค.
๋ณด์ ํจ์๋ ์นดํ ๊ณ ๋ฆฌ๋ณ๋ก ๋ง์ถค ์ค๊ณ๋ฉ๋๋ค. ์ํ์ Rule-based Verifier(์ ๋ต๊ณผ์ ์ผ์น ์ฌ๋ถ), ์ฝ๋๋ Test Case ํต๊ณผ ์ฌ๋ถ, ๊ณผํ์ Rule-based Verifier ์คํจ ์ LLM Judge๊ฐ 2์ฐจ ๊ฒ์ฆ(๋ ์ ์ฐํ ํ๋จ), Instruction Following์ ๋ชจ๋ ์ ์ฝ ์กฐ๊ฑด ์ถฉ์กฑ ์ 1, ์๋๋ฉด 0์ ๋ถ์ฌํฉ๋๋ค.
AGAPO์ ํต์ฌ ์ค๊ณ ์์๋ ๋ค ๊ฐ์ง์ ๋๋ค.
์ฒซ์งธ, Clipped Objective ์ ๊ฑฐ. PPO๋ ํ์ต ์์ ์ฑ์ ์ํด Policy Update์ ํฌ๊ธฐ๋ฅผ ์ ํํ๋ โClippingโ์ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ ์ ์ฑ ๊ณผ ๊ธฐ์กด ์ ์ฑ ์ ํ๋ฅ ๋น์จ(Ratio)์ด ์ผ์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ฉด Gradient๋ฅผ ์ฐจ๋จํฉ๋๋ค. ์ด๋ ์์ ์ฑ์๋ ์ ๋ฆฌํ์ง๋ง, ๋ฎ์ ํ๋ฅ ์ ํ ํฐ โ ์ฆ ๋ชจ๋ธ์ด ํ์ฌ๋ ๊ฑฐ์ ์์ฑํ์ง ์์ง๋ง ์ค์ ์ค์ํ ์ญํ ์ ํ ์ ์๋ ํ ํฐ โ ์ Gradient Update๊ฐ ์ฐจ๋จ๋๋ ๋ถ์์ฉ์ด ์์ต๋๋ค. ์ด๋ฌํ ํ ํฐ์ ์ข ์ข ์ถ๋ก ๊ฒฝ๋ก์ ๋ถ๊ธฐ์ (fork) ์ญํ ์ ํ๋ Reflective Behavior(์: โ์ ๊น, ์ด ์ ๊ทผ์ ํ๋ ธ์ผ๋ ๋ค์ ์๊ฐํด๋ณด์โ)์ ๊ด๋ จ์ด ์์ต๋๋ค. AGAPO๋ Clipping์ ์ ๊ฑฐํ๊ณ ํ์ค Policy Gradient Loss๋ฅผ ์ฌ์ฉํ์ฌ, ์ด๋ฌํ ํ์์ ํ ํฐ์ด ํ์ต์ ์จ์ ํ ๊ธฐ์ฌํ ์ ์๋๋ก ํฉ๋๋ค.
๋์งธ, Asymmetric Sampling. ๊ธฐ์กด GRPO์์๋ ํ ๋ฌธ์ ์ ๋ํด ์์ฑ๋ ๋ชจ๋ ์๋ต์ด ์ ๋ต์ด๊ฑฐ๋ ๋ชจ๋ ์ค๋ต์ธ ๊ฒฝ์ฐ, ๊ทธ๋ฃน ๋ด ์๋์ ์ฐจ์ด๊ฐ ์์ผ๋ฏ๋ก Advantage๊ฐ 0์ด ๋ฉ๋๋ค. ๋ฐ๋ผ์ ์ด๋ฐ ์ํ์ ํ์ต์ ๊ธฐ์ฌํ์ง ๋ชปํด ํ๊ธฐ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ โ๋ชจ๋ ์๋ต์ด ์ค๋ตโ์ธ ๊ฒฝ์ฐ์๋ ์ ์ฉํ ํ์ต ์ ํธ๊ฐ ์กด์ฌํฉ๋๋ค โ ๋ชจ๋ธ์ด ์ด๋ฐ ์ ํ์ ๋ฌธ์ ์์ ํนํ ์ทจ์ฝํ๋ค๋ ์ ๋ณด ์์ฒด๊ฐ ๊ฐ์น ์๊ธฐ ๋๋ฌธ์ ๋๋ค. Negative Sample Reinforcement์ ํจ๊ณผ์ ๋ํ ์ต๊ทผ ์ฐ๊ตฌ(โThe Surprising Effectiveness of Negative Reinforcement in LLM Reasoningโ)๋ฅผ ๋ฐ์ํ์ฌ, AGAPO๋ ๋ชจ๋ ์๋ต์ด ์ค๋ต์ธ ์ํ์ ๋ฒ๋ฆฌ์ง ์์ต๋๋ค. ๋์ Advantage ๊ณ์ฐ์ ํตํด ์์ ์์ ๋ณด์์ ํ ๋นํ์ฌ, ๋ชจ๋ธ์ด ์๋ชป๋ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ ๊ทน์ ์ผ๋ก ํํผํ๋๋ก ํ์ตํฉ๋๋ค. โ๋น๋์นญ(Asymmetric)โ์ด๋ผ๋ ์ด๋ฆ์ All-correct(ํ๊ธฐ)์ All-incorrect(์ ์ง)๋ฅผ ๋น๋์นญ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฐ์ ์ ๋ํฉ๋๋ค.
์ ์งธ, Group & Global Advantage. GRPO์ Advantage ๊ณ์ฐ์ ๊ฐ ๊ทธ๋ฃน(๊ฐ์ ๋ฌธ์ ์ ๋ํ ์๋ต๋ค) ๋ด์์๋ง ์ด๋ฃจ์ด์ง๋๋ค. ์ด ๋ฐฉ์์ ๊ทธ๋ฃน ๋ด ์๋์ ์ฐจ์ด๋ง ๋ฐ์ํ ๋ฟ, ์ ์ฒด ๋ฐฐ์น์ ๋์ด๋ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ์ง ๋ชปํฉ๋๋ค. ์๋ฅผ ๋ค์ด All-incorrect ๊ทธ๋ฃน์ ์ ์ ํ ํฌ๊ธฐ์ ์์ ๋ณด์์ ๋ถ์ฌํ๋ ค๋ฉด, ๋ฐฐ์น ์ ์ฒด์์ ์ด ๊ทธ๋ฃน์ด ์ผ๋ง๋ ๋์ ์ฑ๊ณผ์ธ์ง๋ฅผ ์์์ผ ํฉ๋๋ค. AGAPO๋ ์ด๋ฅผ ์ํด 2๋จ๊ณ Advantage ๊ณ์ฐ์ ๋์ ํฉ๋๋ค. ๋จผ์ ๊ทธ๋ฃน ๋ด์์ LOO(Leave-One-Out) ๋ฐฉ์์ผ๋ก Advantage๋ฅผ ๊ณ์ฐํฉ๋๋ค. LOO๋ ๊ฐ ์๋ต์ ๋ณด์์์ ๋๋จธ์ง ์๋ต๋ค์ ํ๊ท ๋ณด์์ ๋นผ๋ ๋ฐฉ์์ผ๋ก, ํด๋น ์๋ต์ด ๊ทธ๋ฃน ๋ด์์ ์๋์ ์ผ๋ก ์ผ๋ง๋ ์ข๊ฑฐ๋ ๋์์ง๋ฅผ ์ธก์ ํฉ๋๋ค. ๊ทธ ๋ค์, ์ ์ฒด ๋ฏธ๋๋ฐฐ์น์ ๊ฑธ์ณ ์ ๊ทํ(ํ๊ท ์ ๋นผ๊ณ ํ์คํธ์ฐจ๋ก ๋๋)ํ์ฌ ์ต์ข Global Advantage๋ฅผ ์ฐ์ถํฉ๋๋ค.
Aloo,i=riโ1Gโ1โjโ irj,Aglobal,i=Aloo,iโmean{Aloo,k}kstd{Aloo,k}kA_{\text{loo},i} = r_i - \frac{1}{G-1}\sum_{j \neq i} r_j, \quad A_{\text{global},i} = \frac{A_{\text{loo},i} - \text{mean}{A_{\text{loo},k}}_k}{\text{std}{A_{\text{loo},k}}_k}Aloo,iโ=riโโGโ11โโj๎ โ=iโrjโ,Aglobal,iโ=std{Aloo,kโ}kโAloo,iโโmean{Aloo,kโ}kโโ
์ฌ๊ธฐ์ rir_iriโ๋ iii๋ฒ์งธ ์๋ต์ ๋ณด์, GGG๋ ๊ทธ๋ฃน ํฌ๊ธฐ, kkk๋ ๋ฏธ๋๋ฐฐ์น ๋ด ๋ชจ๋ ์๋ต์ ์ธ๋ฑ์ค์ ๋๋ค.
๋ท์งธ, Sequence Level Cumulative KL. RL๋ก ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๋ ๊ณผ์ ์์, SFT ๋จ๊ณ์์ ํ์ตํ ๋ค๋ฅธ ๋ฅ๋ ฅ(์์ฐ์ค๋ฌ์ด ๋ํ, Instruction Following ๋ฑ)์ด ์์๋ ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด KL Divergence Penalty๋ฅผ ์ ์ฉํฉ๋๋ค. KL Penalty๋ RL๋ก ์ ๋ฐ์ดํธ๋๋ ํ์ฌ ์ ์ฑ (ฯฮธ\pi_\thetaฯฮธโ)์ด SFT ์ดํ์ ์ฐธ์กฐ ์ ์ฑ (ฯref\pi_\text{ref}ฯrefโ)์์ ๋๋ฌด ๋ฉ์ด์ง์ง ์๋๋ก ์ ์ฝํ๋ ์ญํ ์ ํฉ๋๋ค. AGAPO๋ ํ ํฐ ์์ค์ด ์๋ Sequence ์์ค์ Cumulative KL์ ์ฑํํ์ฌ, ๊ฐ๋ณ ํ ํฐ์ ๋ฏธ์ธํ ํ๋ฅ ๋ณํ๋ณด๋ค๋ ์ ์ฒด ์๋ต ์์ค์์์ ๋ถํฌ ๋ณํ๋ฅผ ๊ด๋ฆฌํฉ๋๋ค.
์ต์ข Objective๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
| JAGAPO(ฮธ)=EqโผP(Q),โ โ{oi}i=1Gโผฯฮธ(Oโฃq)[1Gโi=1G(Aglobal,ilogโกฯฮธ(oiโฃq)โฮฒDKL(ฯฮธโฅฯref))]J_{\text{AGAPO}}(\theta) = \mathbb{E}_{q \sim P(Q),\; {o_i}_{i=1}^G \sim \pi_\theta(\mathcal{O} | q)} \left[ \frac{1}{G} \sum_{i=1}^{G} \left( A_{\text{global},i} \log \pi_\theta(o_i | q) - \beta D_{\text{KL}}(\pi_\theta | \pi_{\text{ref}}) \right) \right]JAGAPOโ(ฮธ)=EqโผP(Q),{oiโ}i=1Gโโผฯฮธโ(Oโฃq)โ[G1โโi=1Gโ(Aglobal,iโlogฯฮธโ(oiโโฃq)โฮฒDKLโ(ฯฮธโโฅฯrefโ))] |
| Aglobal,ilogโกฯฮธ(oiโฃq)A_{\text{global},i} \log \pi_\theta(o_i | q)Aglobal,iโlogฯฮธโ(oiโโฃq) ๋ถ๋ถ์ ์ข์ ์๋ต์ ์์ฑ ํ๋ฅ ์ ๋์ด๊ณ ๋์ ์๋ต์ ํ๋ฅ ์ ๋ฎ์ถ๋ Policy Gradient์ด๋ฉฐ, ฮฒDKL\beta D_{\text{KL}}ฮฒDKLโ ๋ถ๋ถ์ ์ ์ฑ ์ด ์ฐธ์กฐ ๋ชจ๋ธ์์ ๋๋ฌด ๋ฒ์ด๋์ง ์๋๋ก ํ๋ ์ ๊ทํ ํญ์ ๋๋ค. ฮฒ\betaฮฒ๋ ๋ ํญ ๊ฐ์ ๊ท ํ์ ์กฐ์ ํ๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค. |
AGAPO์ ๊ฐ ์ปดํฌ๋ํธ๊ฐ ํด๊ฒฐํ๋ ๋ฌธ์ ๋ฅผ ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
| ๊ธฐ๋ฒ | ํด๊ฒฐํ๋ ๋ฌธ์ | ํต์ฌ ์์ด๋์ด |
|---|---|---|
| Remove Clipped Objective | PPO Clip์ด ํ์์ ํ ํฐ์ Gradient ์ฐจ๋จ | ํ์ค Policy Gradient Loss ์ฌ์ฉ |
| Asymmetric Sampling | All-incorrect ์ํ ํ๊ธฐ๋ก ์ธํ ์ ๋ณด ์์ค | All-incorrect์ ์์ ์์ ๋ณด์, ํ๊ธฐํ์ง ์์ |
| Group & Global Advantage | GRPO๊ฐ ๋ฐฐ์น ์ ์ฒด ๋ถํฌ ๋ฏธ๋ฐ์ | LOO(๊ทธ๋ฃน ๋ด) โ Global Normalization(๋ฐฐ์น ์ ์ฒด) |
| Seq-Level Cumulative KL | SFT ํ์ต ๋ฅ๋ ฅ ๋ณด์กด | ์ํ์ค ์์ค ๋์ KL Penalty |
Preference Learning โ 2๋จ๊ณ ์ธ๊ฐ ์ ๋ ฌ
RL ๋จ๊ณ์์๋ Verifiable Reward โ ์ฆ โ์ ๋ต์ด๋ ์ค๋ต์ด๋โ๋ผ๋ ๊ฐ๊ด์ ๋ณด์ โ ๋ฅผ ํตํ ์ ํ๋ ํฅ์์ ์ง์คํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ด๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ง ์์ต๋๋ค. ์ธ๊ฐ์ด ์ ํธํ๋ ์๋ต์ ์คํ์ผ(๊ฐ๊ฒฐํจ, ์์ฐ์ค๋ฌ์, ์ ์คํจ ๋ฑ)์ ํ์ตํ์ง ์์ผ๋ฉฐ, ์ถ๋ก Task์ ํนํ๋๋ฉด์ ๋ค๋ฅธ ์ ํ์ Task์์ ์ฑ๋ฅ ์ ํ๊ฐ ๊ด์ฐฐ๋ฉ๋๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์ถ๊ฐ์ ์ธ Preference Learning์ ๋์ ํฉ๋๋ค.
Preference Learning์ ์ธ๊ฐ์ ์ ํธ๋ฅผ ์ง์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. โ์ด ์๋ต์ด ์ ์๋ต๋ณด๋ค ๋ซ๋คโ๋ผ๋ ํํ์ ๋น๊ต ๋ฐ์ดํฐ(Chosen/Rejected ์)๋ก๋ถํฐ ๋ชจ๋ธ์ ํ์ต์ํต๋๋ค. ๋ํ์ ์ธ ํ๋ ์์ํฌ๊ฐ DPO(Direct Preference Optimization)์ธ๋ฐ, EXAONE 4.0์ DPO ๊ณ์ด์ด๋ฉด์ Reference Model์ด ๋ถํ์ํ SimPER(Simple Preference Optimization)๋ฅผ ์ฌ์ฉํฉ๋๋ค. Reference Model์ด ๋ถํ์ํ๋ค๋ ๊ฒ์ ํ์ต ์ ์ถ๊ฐ ๋ชจ๋ธ์ ๋ฉ๋ชจ๋ฆฌ์ ์ฌ๋ฆด ํ์๊ฐ ์์ด ํจ์จ์ ์ด๋ผ๋ ์๋ฏธ์ ๋๋ค.
๋ฐ์ดํฐ์ ๊ตฌ์ถ ๋ฐฉ์์ด ํน์ง์ ์ ๋๋ค. ์ธ๋ถ ์ธ๊ฐ ํ๊ฐ์๊ฐ ์ง์ ๋ผ๋ฒจ๋งํ๋ ๊ฒ์ด ์๋๋ผ, RL ์๋ฃ ํ์ ๋ชจ๋ธ ์์ ์ด ์์ฑํ On-policy ์๋ต์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. ๊ฐ ์ฟผ๋ฆฌ์ ๋ํด 4~16๊ฐ์ ์๋ต์ ์์ฑํ๊ณ , Verifiable Reward, Preference Reward(LLM Judge๊ฐ ํ๊ฐํ๋ ์๋ต ํ์ง), Language Consistency Reward(์ง๋ฌธ ์ธ์ด์ ์๋ต ์ธ์ด์ ์ผ์น๋), Conciseness Reward(๋ถํ์ํ ์ฅํฉํจ ์์ด ํต์ฌ์ ์ ๋ฌํ๋ ์ ๋)๋ฅผ ์กฐํฉํ Hybrid Reward๋ก Chosen๊ณผ Rejected๋ฅผ ์ ์ ํฉ๋๋ค.
Stage 1์ ํ ํฐ ํจ์จ์ฑ์ ์ง์คํฉ๋๋ค. REASONING ๋ชจ๋์์ ์ ํํ ๋ต๋ณ์ ์ ์งํ๋ฉด์ ๋ถํ์ํ๊ฒ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ ์ค์ด๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค. Verifiable Reward์ Conciseness Reward๋ฅผ ๊ฒฐํฉํ์ฌ, ์ ๋ต ์ค ๊ฐ์ฅ ์งง์ ์๋ต์ Chosen์ผ๋ก ์ ํํฉ๋๋ค. ์ด๋ ์ถ๋ก ๋น์ฉ์ ์ง์ ์ ์ผ๋ก ์ค์ด๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
Stage 2๋ ์ธ๊ฐ ์ ๋ ฌ(Human Alignment)์ ์ง์คํฉ๋๋ค. Preference Reward์ Language Consistency Reward๋ฅผ ๊ฒฐํฉํฉ๋๋ค. REASONING ๋ชจ๋ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ, ์ถ๋ก ๊ณผ์ (Thinking) ๋ถ๋ถ์ด ์๋ ์ต์ข ๋ต๋ณ์ ๋ํด์๋ง Preference Labeling์ ์ํํ๋ ๊ฒ์ด ์ค์ํ ์ค๊ณ ๊ฒฐ์ ์ ๋๋ค. ์ฌ๊ณ ๊ณผ์ ์ ์คํ์ผ๋ณด๋ค๋ ์ต์ข ์ ์ผ๋ก ์ฌ์ฉ์์๊ฒ ์ ์๋๋ ๋ต๋ณ์ ํ์ง๊ณผ ์ ํธ๋์ ์ง์คํ๊ฒ ๋ค๋ ์๋ฏธ์ ๋๋ค. ํ์ต ์์ ์ฑ์ ์ํด Stage 1 ๋ฐ์ดํฐ์ ์ผ๋ถ๋ฅผ Stage 2์์ ์ฌ์ฌ์ฉํฉ๋๋ค.
Evaluation: ๋ฒค์น๋งํฌ ์ฑ๋ฅ ๋ถ์
ํ๊ฐ ์ฒด๊ณ
EXAONE 4.0์ 6๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ๋ฒค์น๋งํฌ๋ก ํ๊ฐ๋ฉ๋๋ค.
World Knowledge: MMLU-REDUX(๋ค๋ถ์ผ ์ง์ ํ๊ฐ์ ๊ฐ์ ๋ฒ์ ), MMLU-PRO(๋ ๋์ ์ ์ธ ๋ค๋ถ์ผ ์ง์), GPQA-DIAMOND(๋ํ์ ์์ค์ ์๋ฌผํ/๋ฌผ๋ฆฌํ/ํํ ๋ฌธ์ ). Math/Coding: AIME 2025(๋ฏธ๊ตญ ์ํ ์ฌ๋ฆผํผ์๋), HMMT FEB 2025(ํ๋ฒ๋-MIT ์ํ ๋ํ), LIVECODEBENCH V5/V6(์ค์๊ฐ ์ฝ๋ฉ ๊ฒฝ์ง). Instruction Following: IFEVAL(์ง์์ฌํญ ์ค์ ํ๊ฐ), MULTI-IF(๋ค๊ตญ์ด/๋คํด ์ง์์ฌํญ). Long Context: HELMET(์ข ํฉ Long-context ํ๊ฐ), RULER(ํฉ์ฑ Long-context ํ ์คํธ), LONGBENCH(์ด์ค์ธ์ด Long-context ๋ฒค์น๋งํฌ). Agentic Tool Use: BFCL-V3(ํจ์ ํธ์ถ ๋ฅ๋ ฅ), TAU-BENCH(์ฌ์ฉ์-์์ด์ ํธ ๋๊ตฌ ์ฌ์ฉ ์๋ฎฌ๋ ์ด์ ). Multilinguality: ํ๊ตญ์ด(KMMLU-PRO, KMMLU-REDUX, KSM)์ Spanish(MMMLU, MATH500, WMT24++) ํ๊ฐ.
๋น๊ต ๋์์ Mid-size(Qwen 3 32B, Gemma 3 27B, Phi 4, Mistral Small ๋ฑ)๋ถํฐ Frontier๊ธ(DeepSeek R1-0528 671B, Qwen 3 235B, Llama 4 Maverick 402B ๋ฑ)๊น์ง ํฌ๊ดํฉ๋๋ค. REASONING ๋ชจ๋์์๋ temperature 0.6, top-p 0.95๋ฅผ ์ฌ์ฉํ๋ฉฐ, ํนํ AIME/HMMT์์๋ n=32n=32n=32๊ฐ ์๋ต์ ์ํ๋งํ์ฌ ํ๊ท ์ ํ๋๋ฅผ ๋ณด๊ณ ํฉ๋๋ค. ์ด๋ ์ถ๋ก ๋ฌธ์ ์ ํ๋ฅ ์ ํน์ฑ์ ๊ฐ์ํ ํ๊ฐ ๋ฐฉ์์ ๋๋ค.
REASONING ๋ชจ๋ โ Math/Coding์์์ ์๋์ ์ฑ๊ณผ
32B REASONING ๋ชจ๋์ ๊ฐ์ฅ ๋๋๋ฌ์ง ๊ฒฐ๊ณผ๋ Math/Coding ์์ญ์ ๋๋ค.
| ๋ฒค์น๋งํฌ | EXAONE 4.0 32B | Qwen 3 32B | Qwen 3 235B | DeepSeek R1-0528 |
|---|---|---|---|---|
| AIME 2025 | 85.3 | 72.9 | 81.5 | 87.5 |
| HMMT FEB 2025 | 72.9 | 50.4 | 62.5 | 79.4 |
| LIVECODEBENCH V6 | 66.7 | 60.1 | 58.9 | 70.3 |
32B ๋ชจ๋ธ์ด ํ๋ผ๋ฏธํฐ ์ ์ฝ 7๋ฐฐ์ธ Qwen 3 235B๋ฅผ ๋ชจ๋ Math/Coding ๋ฒค์น๋งํฌ์์ ๋ฅ๊ฐํฉ๋๋ค. ์ด๋ ๋จ์ํ ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ๋ณด๋ค ํ์ต ๋ฐฉ๋ฒ๋ก (AGAPO, ์ฒด๊ณ์ SFT ๋ฐ์ดํฐ ๊ตฌ์ฑ)์ด ์ถ๋ก ์ฑ๋ฅ์ ๋ ๊ฒฐ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์์์ ์์ฌํฉ๋๋ค. 671B์ธ DeepSeek R1-0528์๋ ๊ทผ์ ํ ์ฑ๋ฅ(AIME 85.3 vs 87.5)์ ๋ฌ์ฑํ์ฌ, ๋ชจ๋ธ ํฌ๊ธฐ ๋๋น ํจ์จ์ด ๋งค์ฐ ๋์์ ๋ณด์ฌ์ค๋๋ค.
REASONING ๋ชจ๋ โ World Knowledge์ Tool Use
World Knowledge์์๋ GPQA-DIAMOND 75.4๋ก, Qwen 3 235B(71.1)๋ฅผ ๋ฅ๊ฐํ๊ณ DeepSeek R1-0528(81.0)์ ์ด์ด ๋ ๋ฒ์งธ๋ฅผ ๊ธฐ๋กํฉ๋๋ค. GPQA-DIAMOND๋ ๋ํ์ ์์ค์ ์ ๋ฌธ ์ง์์ ์๊ตฌํ๋ ๋ฒค์น๋งํฌ๋ก, ์ด ์ฑ๊ณผ๋ STEM ๋ถ์ผ ๋ฐ์ดํฐ ํ๋ ์ด์ ์ ํจ๊ณผ๋ฅผ ์ง์ ์ ์ผ๋ก ๋ณด์ฌ์ค๋๋ค. MMLU-REDUX 92.3๋ 14T ํ ํฐ Pretraining์ ํจ๊ณผ๋ฅผ ์ ๋ฐ์ํฉ๋๋ค.
Instruction Following์์๋ IFEVAL 83.7, MULTI-IF 73.5๋ฅผ ๊ธฐ๋กํฉ๋๋ค. NON-REASONING๊ณผ REASONING ๋ชจ๋๋ฅผ ํตํฉํ์์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ์ ์งํ๋ค๋ ์ ์์, Unified Mode Training์ 1.5:1 ๋น์จ ์ค์ ์ด ํจ๊ณผ์ ์์ ํ์ธํ ์ ์์ต๋๋ค. ์ผ๋ถ ๋ชจ๋ธ(Magistral Small)์ IFEVAL 37.9๋ก ํฌ๊ฒ ๋ฎ์ ์ ์๋ฅผ ๋ณด์ด๋๋ฐ, ์ด๋ Reasoning์ ํนํ๋ ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ธ ์ง์์ฌํญ ์ค์์์๋ ์ทจ์ฝํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก์ ๋๋ค.
Tool Use์์๋ TAU-BENCH(Airline) 51.5๋ก DeepSeek R1-0528(53.5)๊ณผ ์ ์ฌํ ์์ค์ ๋ณด์ด๋ฉฐ, TAU-BENCH(Retail) 62.8๋ก ๋๋ถ๋ถ์ Baseline์ ๋ฅ๊ฐํฉ๋๋ค. TAU-BENCH๋ ์๋ฎฌ๋ ์ด์ ๋ ์ฌ์ฉ์์ ๋ํํ๋ฉด์ ํญ๊ณต๊ถ ๋ณ๊ฒฝ, ์ํ ๋ฐํ ๋ฑ์ ์ค์ ์ ๋ฌด๋ฅผ ์ฒ๋ฆฌํ๋ ์๋๋ฆฌ์ค๋ฅผ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ ๋๋ค. Agentic Tool Use๊ฐ EXAONE 4.0์์ ์๋ก ๋์ ๋ ๊ธฐ๋ฅ์์ ๊ฐ์ํ๋ฉด ๊ณ ๋ฌด์ ์ธ ์ถ๋ฐ์ ์ ๋๋ค.
NON-REASONING ๋ชจ๋ โ ์ ๋ฐฉ์ ๊ฒฝ์๋ ฅ
NON-REASONING ๋ชจ๋์์๋ EXAONE 4.0 32B๋ ๋๊ธ Mid-size ๋ชจ๋ธ ์ค ์ ๋ฐ์ ์ผ๋ก ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. MMLU-REDUX 89.8, MMLU-PRO 77.6์ผ๋ก Phi 4(88.3/70.4), Mistral Small(85.9/69.1), Gemma 3 27B(85.0/67.5)๋ฅผ ํฌ๊ฒ ์์๋ฉฐ, Math/Coding์์๋ AIME 2025 35.9, LIVECODEBENCH V6 43.1๋ก ๋๊ธ ๋๋น ์๋์ ์ ๋๋ค. NON-REASONING ๋ชจ๋์์๋ ์ํ/์ฝ๋ฉ์์ ๋ค๋ฅธ ๋ชจ๋ธ์ Non-Reasoning ์ฑ๋ฅ์ ํฌ๊ฒ ์ํํ๋ ๊ฒ์, Unified Mode Training์ด REASONING์ ๋ฅ๋ ฅ์ NON-REASONING ๋ชจ๋์๋ ์ผ์ ๋ถ๋ถ ์ ์ด์ํค๋ ํจ๊ณผ๊ฐ ์์์ ์์ฌํฉ๋๋ค.
Long Context ํ๊ฐ์์๋ RULER 88.2๋ฅผ ๊ธฐ๋กํ์ฌ Qwen 3 32B(85.6), Gemma 3 27B(66.0)๋ฅผ ์ํํฉ๋๋ค. ํนํ Llama 4 Maverick์ด RULER 128K์์ 2.9๋ก ์ฌ์ค์ ์์ ํ ์คํจํ๋ ๊ฒ๊ณผ ๋์กฐ์ ์ผ๋ก, Hybrid Attention ๊ตฌ์กฐ์ ํจ๊ณผ๊ฐ ๋ช ํํ ๋๋ฌ๋ฉ๋๋ค. HELMET์์๋ Recall ์นดํ ๊ณ ๋ฆฌ(๊ธด ํ ์คํธ์์ ํน์ ์ ๋ณด๋ฅผ ์ฐพ์๋ด๋ ๋ฅ๋ ฅ)์์ 94.06์ผ๋ก ๋ชจ๋ ๋น๊ต ๋ชจ๋ธ์ ์๋ํ์ง๋ง, Summarization(25.64)์ ์๋์ ์ฝ์ ์ผ๋ก ๋ํ๋ฉ๋๋ค. ๊ธด ํ ์คํธ์์ ์ ๋ณด๋ฅผ โ์ฐพ๋โ ๋ฅ๋ ฅ๊ณผ โ์์ฝํ๋โ ๋ฅ๋ ฅ์ ์๋ก ๋ค๋ฅธ ์คํฌ์์ ๋ณด์ฌ์ฃผ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
ํ๊ตญ์ด ์ฑ๋ฅ๋ ๋์ ๋๋๋ค. KMMLU-PRO 60.0, KO-LONGBENCH 76.9๋ก, Frontier๊ธ ๋ชจ๋ธ์ ์ ์ธํ๋ฉด ๊ฐ์ฅ ๋์ ์์ค์ ๋๋ค. KO-LONGBENCH๋ ํ๊ตญ์ด Long-context ์ดํด๋ฅผ ํ๊ฐํ๋ ์์ฒด ๋ฒค์น๋งํฌ๋ก, ๋ฒ๋ฅ /ํ์ /๊ธฐ์ ๋ฌธ์ QA, ๋ํ ์ดํด, ํ ์ด๋ธ QA ๋ฑ์ ํฌํจํฉ๋๋ค. Mistral Small(55.4)์ 20% ์ด์ ์์๋ ๊ฒ์ ํ๊ตญ์ด Long-context ๋ฐ์ดํฐ ํ๋ ์ด์ ์ ํจ๊ณผ๋ฅผ ์ ๋ณด์ฌ์ค๋๋ค.
1.2B ๋ชจ๋ธ โ On-device Reasoning์ ๊ฐ๋ฅ์ฑ
1.2B ๋ชจ๋ธ์ ์ฑ๋ฅ์ 12์ต์ด๋ผ๋ ํ๋ผ๋ฏธํฐ ์๋ฅผ ๊ฐ์ํ๋ฉด ๋๋ผ์ด ์์ค์ ๋๋ค. 12์ต ํ๋ผ๋ฏธํฐ๋ ์ค๋งํธํฐ์์๋ ์คํ ๊ฐ๋ฅํ ์์ค์ ํฌ๊ธฐ์ ๋๋ค.
REASONING ๋ชจ๋์์ AIME 2025 45.2, LIVECODEBENCH V6 45.3์ ๋ฌ์ฑํ์ฌ, ํ๋ผ๋ฏธํฐ๊ฐ ์ฝ 2.4๋ฐฐ์ธ SmolLM 3B(36.7, 29.1)๋ฅผ ํฌ๊ฒ ๋ฅ๊ฐํฉ๋๋ค. GPQA-DIAMOND 52.0์ผ๋ก Qwen 3 1.7B(40.1)๋ฅผ 10% ์ด์ ์์๋ฉฐ, ํ๊ตญ์ด ์ํ(KSM) 60.6์ผ๋ก ๋๊ธ ์ต๊ณ ์ ๋๋ค. ๋ค๋ง EXAONE Deep 2.4B(2๋ฐฐ ํฌ๊ธฐ์ ์ถ๋ก ์ ์ฉ ๋ชจ๋ธ)์ ๋นํด์๋ AIME(45.2 vs 47.9)์์ ์ํญ ๋ค์ฒ์ง๋๋ฐ, Hybrid ๋ชจ๋ธ์ด ์ ์ฉ Reasoning ๋ชจ๋ธ ๋๋น ์ฝ๊ฐ์ ์ฑ๋ฅ Trade-off๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค.
NON-REASONING ๋ชจ๋์์๋ ๋๋ถ๋ถ์ ๋ฒค์น๋งํฌ์์ ๋๊ธ ์ต๊ณ ์ฑ๋ฅ์ ๊ธฐ๋กํฉ๋๋ค. ํนํ Long Context์์ RULER 77.4, KO-LONGBENCH 69.8๋ก, 64K ํ ํฐ๊น์ง์ Long-context ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๊ฒ์ฆํฉ๋๋ค. Qwen 3 0.6B์ KO-LONGBENCH 16.4์ ๋น๊ตํ๋ฉด ๊ทธ ์ฐจ์ด๊ฐ ๊ทน๋ช ํฉ๋๋ค.
๋ค๋ง WMT24++(Spanish ๋ฒ์ญ ํ์ง)์์๋ 65.9๋ก SmolLM 3B(84.0)์ ํฌ๊ฒ ๋ค์ฒ์ง๋ฉฐ, ์ด๋ ์คํ์ธ์ด ์ง์์ด ์์ง ์ด๊ธฐ ๋จ๊ณ์์ ์์ฌํฉ๋๋ค. TAU-BENCH(Airline) NON-REASONING์์๋ 10.0์ผ๋ก ๋ฎ์ ์ฑ๋ฅ์ ๋ณด์ฌ, ์ํ ๋ชจ๋ธ์์์ ๋ณต์กํ Tool Use ์๋๋ฆฌ์ค๋ ์ฌ์ ํ ๋์ ์ ์ธ ๊ณผ์ ์ ๋๋ค.
Reasoning Budget โ ์ถ๋ก ๋น์ฉ๊ณผ ์ฑ๋ฅ์ Trade-off
REASONING ๋ชจ๋์์ ๋ชจ๋ธ์ ์ต์ข ๋ต๋ณ ์ ์ โ์๊ฐํ๋ ๊ณผ์ โ(Thinking Token)์ ์์ฑํฉ๋๋ค. ์ด Thinking Token์ ์๋ฅผ ์ ํํ๋ฉด ์ถ๋ก ๋น์ฉ(์๊ฐ, ์ฐ์ฐ๋)์ด ์ค์ด๋ค์ง๋ง ์ฑ๋ฅ๋ ์ํฅ์ ๋ฐ์ต๋๋ค. ์ด Trade-off๋ฅผ ์ ๋์ ์ผ๋ก ๋ถ์ํ ๊ฒ์ด Reasoning Budget ์คํ์ ๋๋ค.
Reasoning ํ ํฐ ์๋ฅผ 1K์์ 64K๊น์ง ๋ณํ์ํค๋ฉฐ ์ฑ๋ฅ์ ๊ด์ฐฐํ ๊ฒฐ๊ณผ๋ ์ค์ฉ์ ์ผ๋ก ์๋ฏธ ์๋ ์์ฌ์ ์ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ธ์ ์์ฑ์ด ์ต๋ ํ ํฐ Budget์ ๋๋ฌํ๋ฉด, ๊ฐ์ ๋ก ์๊ฐ์ ๋ง๋ฌด๋ฆฌํ๊ณ ๋ต๋ณ์ ์์ฑํ๋๋ก ์ ๋ํฉ๋๋ค.
32B ๋ชจ๋ธ์์ LIVECODEBENCH V6์ 64K(66.7) โ 32K(67.3)๋ก ์คํ๋ ค ์ํญ ์์นํ๊ณ , 16K(53.0)์์ ๋น๋ก์ ๋์ ๋๋ ํ๋ฝ์ด ์์๋ฉ๋๋ค. ์ด๋ ์ฝ๋ฉ ๋ฌธ์ ์ ์๋น์๊ฐ 32K ์ด๋ด์ ์ฌ๊ณ ๋ง์ผ๋ก ์ถฉ๋ถํ ํด๊ฒฐ ๊ฐ๋ฅํ๋ฉฐ, 64K๊น์ง์ ์ถ๊ฐ ์ฌ๊ณ ๊ฐ ๋ฐ๋์ ๋์์ด ๋์ง๋ ์์์ ์์ฌํฉ๋๋ค. AIME 2025๋ 64K(85.3) โ 32K(74.8)๋ก ์ฝ 12% ๊ฐ์๊ฐ ๋ฐ์ํ์ง๋ง, ์ด ์์น๋ ์ฌ์ ํ Qwen 3 32B์ 72.9๋ฅผ ์ํํฉ๋๋ค. ์ํ ์ฌ๋ฆผํผ์๋๊ธ ๋ฌธ์ ๋ ์ฝ๋ฉ๋ณด๋ค ๋ ๊ธด ์ถ๋ก ์ฒด์ธ์ด ํ์ํ ๊ฒฝํฅ์ด ์์ด Budget ๊ฐ์์ ๋ ๋ฏผ๊ฐํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
1.2B ๋ชจ๋ธ์์๋ AIME 2025์ด 64K(45.2) โ 32K(45.3)๋ก ๊ฑฐ์ ๋์ผํ๋ฉฐ, LIVECODEBENCH V6๋ 64K(45.3) โ 32K(43.0)๋ก 5% ์ด๋ด์ ํ๋ฝ์ ๊ทธ์นฉ๋๋ค. ์ํ ๋ชจ๋ธ์ ์ ์ด์ 64K์ ๊ฐ๊น์ด ๋งค์ฐ ๊ธด ์ถ๋ก ์ฒด์ธ์ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ๊ธฐ ์ด๋ ค์ฐ๋ฏ๋ก, 32K๋ก ์ถฉ๋ถํ ๊ฒ์ผ๋ก ํด์๋ฉ๋๋ค.
์ด ๊ฒฐ๊ณผ๋ ์ค์ ์๋น์ค ๋ฐฐํฌ ์ 32K Budget๋ง์ผ๋ก๋ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ์ถฉ๋ถํ ์ฑ๋ฅ์ ํ๋ณดํ ์ ์์์ ์๋ฏธํฉ๋๋ค. Reasoning Token์ด ์ค์ด๋ค๋ฉด ์ถ๋ก ์ง์ฐ์๊ฐ๊ณผ GPU ๋น์ฉ์ด ์ง์ ์ ์ผ๋ก ๊ฐ์ํ๋ฏ๋ก, ์ด๋ ์ค์๊ฐ ์๋น์ค์์์ ๋น์ฉ ์ต์ ํ์ ๋ฐ๋ก ํ์ฉ ๊ฐ๋ฅํ ์ธ์ฌ์ดํธ์ ๋๋ค.
Limitations
๋ ผ๋ฌธ์์ ๋ช ์ํ๋ ํ๊ณ์ ์ ๋ชจ๋ LLM์ ๊ณตํต์ ์ธ ๊ฒ๋ค์ ํฌํจํฉ๋๋ค. ํ์ต ๋ฐ์ดํฐ์ ํต๊ณ์ ํน์ฑ์ ์์กดํ์ฌ ๋ถ์ ์ ํ๊ฑฐ๋ ํธํฅ๋(๋์ด, ์ฑ๋ณ, ์ธ์ข ๋ฑ) ์๋ต์ด ์์ฑ๋ ์ ์์ผ๋ฉฐ, Knowledge Cut-off(2024๋ 11์) ์ดํ์ ์ ๋ณด๋ ๋ฐ์๋์ง ์์ต๋๋ค. ๋ํ ํ๋ฅ ๊ธฐ๋ฐ ํ ์คํธ ์์ฑ์ ๋ณธ์ง์ ํน์ฑ์ ์๋ฏธ์ /๊ตฌ๋ฌธ์ ์ผ๋ก ๋ถ์ ํํ ๋ฌธ์ฅ์ด ์์ฑ๋ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
๋ผ์ด์ ์ค๋ EXAONE AI Model License Agreement 1.2 - NC๋ก, ์ฐ๊ตฌ ๋ฐ ๊ต์ก ๋ชฉ์ ์ผ๋ก๋ง ์ฌ์ฉ ๊ฐ๋ฅํฉ๋๋ค. ์์ ์ ํ์ฉ์๋ LG AI Research์์ ๋ณ๋ ๋ผ์ด์ ์ค ๊ณ์ฝ์ด ํ์ํ๋ฉฐ, ํนํ ๊ฒฝ์ ๋ชจ๋ธ ๊ฐ๋ฐ์ EXAONE 4.0์ ๋ชจ๋ธ์ด๋ Output์ ์ฌ์ฉํ๋ ๊ฒ๋ ๋ช ์์ ์ผ๋ก ๊ธ์ง๋์ด ์์ต๋๋ค. ์คํ์์ค(Apache 2.0, MIT ๋ฑ)์๋ ๋ค๋ฅธ ์ ํ์ ๋ผ์ด์ ์ค์ด๋ฏ๋ก, ํ์ฉ ์ ์ฃผ์๊ฐ ํ์ํฉ๋๋ค.
๊ฒฐ๋ก ๋ฐ ์์ฌ์
EXAONE 4.0์ โํ๋์ ๋ชจ๋ธ๋ก ๋ ๊ฐ์ง ๋ชจ๋โ๋ผ๋ Hybrid ํจ๋ฌ๋ค์์ ์คํจ์ฑ์ ์ ์ฆํฉ๋๋ค. 32B ๋ชจ๋ธ์ด Math/Coding์์ 7๋ฐฐ ํฐ Qwen 3 235B๋ฅผ ๋ฅ๊ฐํ๊ณ , 1.2B ๋ชจ๋ธ์ด 3B๊ธ ๋ชจ๋ธ์ ์ํํ๋ ๊ฒฐ๊ณผ๋ ์ํคํ ์ฒ ์ค๊ณ(Hybrid Attention, QK-Reorder-LN)์ Data Curation(14T ํ ํฐ, ๋๋ฉ์ธ๋ณ ๋ง์ถค ๋ฐ์ดํฐ), ๊ทธ๋ฆฌ๊ณ AGAPO๋ฅผ ํตํ RL ์ต์ ํ์ ์ข ํฉ์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค.
ํนํ AGAPO๋ GRPO์ ๊ตฌ์ฒด์ ํ๊ณ โ Clipped Objective์ ํ์ ์ต์ , All-incorrect ์ํ ํ๊ธฐ, ๋ฐฐ์น ๋ถํฌ ๋ฏธ๋ฐ์ โ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฐ์ ํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, RL ๊ธฐ๋ฐ Reasoning ๊ฐํ ์ฐ๊ตฌ์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๋ฅผ ํฉ๋๋ค. Hybrid Attention์ 3:1 ๋น์จ๊ณผ 4K Window Size๋ผ๋ ๊ตฌ์ฒด์ ์ค๊ณ ์ ํ, Global Attention์์์ RoPE ์ ๊ฑฐ ๊ฒฐ์ ๋ ๋ค๋ฅธ ๋ชจ๋ธ ์ค๊ณ์ ์ฐธ๊ณ ๋ ์ ์๋ ์ค์ฉ์ ์ง์นจ์ ๋๋ค.
ํ๊ตญ์ด ์ฑ๋ฅ์์์ ๊ฐ์ (KO-LONGBENCH 76.9, KSM 87.6)์ ํ๊ตญ์ด ์ฌ์ฉ์ ๊ด์ ์์ ๋๋ ทํ ์ฐจ๋ณ์ ์ด๋ฉฐ, Agentic Tool Use์ ๋์ ์ LLM ๊ธฐ๋ฐ ์์ด์ ํธ ๊ฐ๋ฐ์ ๊ธฐ๋ฐ์ ๋ง๋ จํฉ๋๋ค. ๋ค๋ง ๋น์์ ์ ๋ผ์ด์ ์ค(NC)๋ผ๋ ์ ์ฝ๊ณผ, Summarization/๋ฒ์ญ ๋ฑ ์ผ๋ถ ์์ญ์์์ ์๋์ ์ฝ์ ์ ์ค์ ํ์ฉ ์ ๊ณ ๋ คํด์ผ ํ ์์์ ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค