[Paper Review] EXAONE 4.0: Unified Large Language Models Integrating
Non-reasoning and Reasoning Modes
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-EXAONE-4.0-Unified-Large-Language-Models-IntegratingNon-reasoning-and-Reasoning-Modes
1
RESEARCH, L. G., et al. EXAONE 4.0: Unified Large Language Models Integrating Non-reasoning and Reasoning Modes. arXiv preprint arXiv:2507.11407, 2025.
ํต์ฌ ๊ธฐ์ฌ๋ ๋ถ์
ํด๊ฒฐํ๋ ค๋ ๋ฌธ์
๊ธฐ์กด EXAONE 3.5๋ ์ค์ฉ์ ํ์ฉ์ฑ์ ์ค์ ์ ๋์๊ณ , EXAONE Deep์ ์ํยท์ฝ๋ฉ ์์ญ์ ์ถ๋ก ์ฑ๋ฅ์ ์ง์คํ์ต๋๋ค.
ํ์ง๋ง ๊ฐ๊ฐ ๋ณ๋์ ๋ชจ๋ธ๋ก ์ ๊ณต๋์ด ์ฌ์ฉ์๊ฐ ๋ ๊ฐ์ง ๋ฅ๋ ฅ์ ๋ชจ๋ ํ์ฉํ๊ธฐ ์ํด์๋ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฌ์ฉํด์ผ ํ๋ ๋ถํธํจ์ด ์์์ต๋๋ค.
์ ์ํ๋ ํด๊ฒฐ์ฑ ์ ๋ ์ฐฝ์ฑ
EXAONE 4.0์ NON-REASONING ๋ชจ๋์ REASONING ๋ชจ๋๋ฅผ ๋จ์ผ ๋ชจ๋ธ์ ํตํฉํ hybrid ์ํคํ ์ฒ๋ฅผ ์ ์ํฉ๋๋ค. ์ฃผ์ ํ์ ์ฌํญ์:
- Hybrid Attention ๋ฉ์ปค๋์ฆ: ์ ์ญ attention๊ณผ ์ง์ญ attention์ 3:1 ๋น์จ๋ก ๊ฒฐํฉ
- QK-Reorder-LN: Query์ Key ์ ๋ ฅ ํ LayerNorm์ ์ ์ฉํ๋ ์๋ก์ด ์ ๊ทํ ๋ฐฉ๋ฒ
- ํตํฉ ๋ชจ๋ ํ๋ จ: ๋ ๋ชจ๋๋ฅผ ์์ฐจ์ ์ด ์๋ ๋์์ ํ๋ จํ๋ ๋ฐฉ๋ฒ๋ก
- AGAPO ์๊ณ ๋ฆฌ์ฆ: ๊ธฐ์กด GRPO๋ฅผ ๊ฐ์ ํ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ
๐ Chapter 1: Introduction
์ฑํฐ์ ์์น์ ์ญํ
์๋ก ์ฑํฐ๋ EXAONE 4.0์ ๊ฐ๋ฐ ๋ฐฐ๊ฒฝ๊ณผ ๋ชฉ์ , ์ฃผ์ ํน์ง์ ํฌ๊ด์ ์ผ๋ก ์ ์ํ์ฌ ์ ์ฒด ๋ ผ๋ฌธ์ ๋ฐฉํฅ์ฑ์ ์ค์ ํฉ๋๋ค.
์ ์์ ์์ ์์๋ฅผ ๋ฐ๋ฅธ ์์ธ ๋ด์ฉ:
1. EXAONE ์๋ฆฌ์ฆ์ ๋ฐ์ ๊ณผ์
LG AI Research์ EXAONE foundation model ์๋ฆฌ์ฆ๋ ๊ฐ๋ ฅํ instruction-following๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํตํด ๋ค์ํ ์ค์ ์ ํ๋ฆฌ์ผ์ด์
์ ์ง์ํ๋๋ก ๊ฐ๋ฐ๋์์ต๋๋ค. ์ด์ ๋ฒ์ ์ธ EXAONE 3.5๋ ํฌ๊ด์ ์ธ instruction-following ๋ฅ๋ ฅ์ ๊ฐํํ์ฌ ์ค์ ํ์ฉ์ฑ์ ์ง์คํ์ผ๋ฉฐ, EXAONE Deep์ ์ํ ๋ฐ ์ฝ๋ฉ ์์ญ์์์ ์ถ๋ก ์ฑ๋ฅ์ ๊ฐ์กฐํ์ต๋๋ค.
2. Agentic AI ์๋๋ฅผ ์ํ ์๋ก์ด ๊ธฐ๋ฅ
๋ค๊ฐ์ค๋ agentic AI ์๋๋ฅผ ์ผ๋์ ๋๊ณ , EXAONE 4.0์ ์ด ํจ๋ฌ๋ค์์ ํต์ฌ ๋ฅ๋ ฅ์ธ agentic tool use๋ฅผ ๋์
ํ๊ณ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ฑ ๋ฐ์ ์์ผฐ์ต๋๋ค.
3. ๋ชจ๋ ํตํฉ์ ํ์
EXAONE 4.0์ ๋น ๋ฅธ ์ฌ๊ณ ์ ์๋ต์ ๊ฐ๋ฅํ๊ฒ ํ๋ NON-REASONING ๋ชจ๋์ ๊น์ ์ฌ๊ณ ์ ๋ ์ ํํ ๋ต๋ณ์ ์ํ REASONING ๋ชจ๋๋ฅผ ๋จ์ผ ๋ชจ๋ธ์ ํตํฉํ์ต๋๋ค.
4. ๋ฐ์ดํฐ์ ์ปจํ
์คํธ ํ์ฅ
์ฌ์ ํ๋ จ์ ์ฌ์ฉ๋๋ ํ ํฐ ์๋ฅผ ๋ํญ ์ฆ๊ฐ์์ผ ์ธ๊ณ ์ง์์ ๊ฐํํ์ผ๋ฉฐ, STEM ๋ถ์ผ์ ์ ๋ฌธ ๋๋ฉ์ธ ๋ฐ์ดํฐ ํ๋ ์ด์
์ด downstream ์์
์์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ๋ชจ๋ธ์ ์ต๋ ์ปจํ
์คํธ ๊ธธ์ด๋ฅผ 128K ํ ํฐ๊น์ง ํ์ฅํ์ฌ ๊ธด ์ปจํ
์คํธ ๊ธฐ๋ฐ ์์
์ ์ ์ฉ์ฑ์ ํฅ์์์ผฐ์ต๋๋ค.
5. Hybrid Attention ์ํคํ
์ฒ
๊ธด ์ปจํ
์คํธ ์ฒ๋ฆฌ ์ attention ๊ณ์ฐ์ ๊ณ์ฐ ๋ถ๋ด์ ์ํํ๊ธฐ ์ํด ์ ์ญ attention๊ณผ ์ง์ญ attention์ ๊ฒฐํฉํ hybrid ์ํคํ
์ฒ๋ฅผ ์ฑํํ์ต๋๋ค.
6. ๋ค๊ตญ์ด ์ง์ ํ์ฅ
EXAONE 4.0์ ๊ธฐ์กด์ ์์ด์ ํ๊ตญ์ด ์ง์์ ๋ํด ์คํ์ธ์ด๋ฅผ ๊ณต์์ ์ผ๋ก ์ถ๊ฐํ์ต๋๋ค.
์ฑํฐ์ ํต์ฌ ๊ธฐ์ฌ: EXAONE 4.0์ ์ ์ฒด์ ์ธ ๋น์ ๊ณผ ์ฃผ์ ํ์ ์ฌํญ ์ ์
๋ค์ ์ฑํฐ๋ก์ ์ฐ๊ฒฐ: ๊ตฌ์ฒด์ ์ธ ๋ชจ๋ธ๋ง ๋ฐฉ๋ฒ๋ก ์ผ๋ก ์ด์ด์ง
๐ Chapter 2: Modeling
์ฑํฐ์ ์์น์ ์ญํ
๋ชจ๋ธ๋ง ์ฑํฐ๋ EXAONE 4.0์ ๊ธฐ์ ์ ๊ตฌํ ์ธ๋ถ์ฌํญ์ ์ฒด๊ณ์ ์ผ๋ก ์ค๋ช ํ๋ ํต์ฌ ์ฅ์ผ๋ก, ๋ชจ๋ธ ๊ตฌ์ฑ๋ถํฐ ํ์ฒ๋ฆฌ ํ๋ จ๊น์ง ์ ๊ณผ์ ์ ๋ค๋ฃน๋๋ค.
2.1 Model Configurations
Hybrid Attention ๋ฉ์ปค๋์ฆ์ ๋์
EXAONE 4.0์ ์ด์ EXAONE 3.5 ๋ชจ๋ธ๊ณผ ์ ์ฌํ ๊ตฌ์กฐ์ ํ๋ ์์ํฌ๋ฅผ ์ ์งํ์ง๋ง, attention ๋ฉ์ปค๋์ฆ์์ ์ฃผ์ํ ๋ณํ๋ฅผ ๋ณด์
๋๋ค. EXAONE 3.5์์๋ ๋ชจ๋ ๋ ์ด์ด๊ฐ ์ ์ญ attention์ ์ฌ์ฉํ์ง๋ง, EXAONE 4.0์ ์ง์ญ attention(sliding window attention)๊ณผ ์ ์ญ attention์ 3:1 ๋น์จ๋ก ๊ฒฐํฉํ hybrid attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํฉ๋๋ค.
์ค๊ณ ์๋ฆฌ์ ์ด๋ก ์ ๋ฐฐ๊ฒฝ
์ต๊ทผ ์ฐ๊ตฌ๋ค์ ๋ ํฐ window ํฌ๊ธฐ(์: 512์์ 1,024 ๋๋ 4,096)๋ฅผ ์ฌ์ฉํ๊ณ ์์์ ๋ ์ด์ด์๋ง ์ ์ญ attention์ ์ ์ฉํด๋ ์ฐ์ํ long-context ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. EXAONE 4.0 ์ค๊ณ์์๋ ๋จ๋ฌธ๋งฅ ์ฑ๋ฅ์ ๋ํ ๋ถ์ ์ ์ํฅ์ ์ต์ํํ๊ธฐ ์ํด 4K์ sliding window ํฌ๊ธฐ๋ฅผ ์ ํํ์ต๋๋ค.
RoPE์ Attention ์ค๊ณ
์ ์ญ attention์์๋ Rotary Position embedding์ ์ฌ์ฉํ์ง ์์ ๋ชจ๋ธ์ด ๊ธธ์ด์ ๋ํ ํธํฅ์ ๊ฐ์ง ์๊ณ global view๋ฅผ ์ ์งํ ์ ์๋๋ก ํฉ๋๋ค. ์ง์ญ attention ๋ฉ์ปค๋์ฆ ์ค๊ณ์์๋ chunked attention ์ ๋ต ๋์ ์ด๋ก ์ ์์ ์ฑ์ด ๊ฐํ sliding window attention์ ์ฑํํ์ต๋๋ค.
QK-Reorder-LN ์ ๊ทํ ๋ฐฉ๋ฒ
๊ธฐ์กด ๋ฌธ์ ์ ๊ณผ ํด๊ฒฐ์ฑ
์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ ํฌ๊ฒ ์ํฅ์ ์ฃผ์ง ์๋ ์ผ๋ถ ๋ ์ด์ด๋ค์ด ์ฃผ๋ก ๊น์ ๋ ์ด์ด์์ ๋ฐ๊ฒฌ๋ฉ๋๋ค. ์ด๋ ์์ ์ฑ์ ํฅ์์ํค์ง๋ง ๋ชจ๋ธ ๊น์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ถ๋ ฅ์ ๋ถ์ฐ์ด ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ Pre-LN transformer ์ํคํ
์ฒ์ ๊ธฐ์ธํฉ๋๋ค.
QK-Reorder-LN์ ๊ตฌํ
์
๋ ฅ query์ key ํ์ LayerNorm์ ์ ์ฉํ๊ณ , attention ์ถ๋ ฅ ํ์ ๋ค์ LayerNorm์ ์ํํ๋ QK-Reorder-LN ๋ฐฉ๋ฒ์ด ๋ ๋ง์ ๊ณ์ฐ์ ์๋ชจํ์ง๋ง downstream ์์
์์ ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
๋ชจ๋ธ ๊ตฌ์ฑ ์ธ๋ถ์ฌํญ
EXAONE 4.0 ๋ชจ๋ธ ์๋ฆฌ์ฆ๋ 32B์ 1.2B ๋ ๊ฐ์ง ๊ตฌ์ฑ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค:
32B ๋ชจ๋ธ ์ฌ์:
- d_model: 5,120
- ๋ ์ด์ด ์: 64
- Attention ํ์ : Hybrid
- Head ํ์ : GQA (Grouped Query Attention)
- ์ต๋ ์ํ์ค ๊ธธ์ด: 131,072
1.2B ๋ชจ๋ธ ์ฌ์:
- d_model: 2,048
- ๋ ์ด์ด ์: 30
- Attention ํ์ : Global
- Head ํ์ : GQA
- ์ต๋ ์ํ์ค ๊ธธ์ด: 65,536
2.2 Pre-training
๋ฐ์ดํฐ ๊ท๋ชจ์ ๋ํญ ํ์ฅ
EXAONE 3.5 32B ๋ชจ๋ธ์ด 6.5์กฐ ํ ํฐ์ผ๋ก ์ฌ์ ํ๋ จ๋ ๊ฒ์ ๋นํด, EXAONE 4.0 32B ๋ชจ๋ธ์ ์ด๋ฅผ ๋ ๋ฐฐ๋ก ๋๋ฆฐ 14์กฐ ํ ํฐ์ผ๋ก ์ฌ์ ํ๋ จ๋์์ต๋๋ค. ์ด๋ฌํ ๋ฐ์ดํฐ ์ฆ๊ฐ๋ ๋ชจ๋ธ์ ์ธ๊ณ ์ง์ ํฅ์์ ๋ชฉํ๋ก ํฉ๋๋ค.
์ธ์ง ํ๋ ๊ธฐ๋ฐ ๋ฐ์ดํฐ ํ๋ ์ด์
์ต๊ทผ ์ฐ๊ตฌ์์ ์ถ๋ก ์ฑ๋ฅ์ด ์ฌ์ ํ๋ จ ์ค ๋ฌธ์์์ ์ต๋ํ ์ธ์ง ํ๋์ ์ํด ํฌ๊ฒ ์ํฅ์ ๋ฐ๋๋ค๋ ๊ฒ์ด ๋ฐํ์ง์ ๋ฐ๋ผ, ํ์ฒ๋ฆฌ ํ๋ จ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ์ ํ๋ จ ์ค ์๊ฒฉํ ๋ฐ์ดํฐ ํ๋ ์ด์
์ ์ํํ์ต๋๋ค.
2.3 Context Length Extension
2๋จ๊ณ ํ์ฅ ํ๋ก์ธ์ค
EXAONE 4.0์์๋ ์ต๋ ์ปจํ
์คํธ ๊ธธ์ด๋ฅผ 128K ํ ํฐ๊น์ง ํ์ฅํ๊ธฐ ์ํด 2๋จ๊ณ ์ปจํ
์คํธ ๊ธธ์ด ํ์ฅ ํ๋ก์ธ์ค๋ฅผ ์ํํฉ๋๋ค:
- 4K ํ ํฐ์ผ๋ก ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ 32K ํ ํฐ์ผ๋ก ํ์ฅ
- ์ดํ 128K ํ ํฐ๊น์ง ์ถ๊ฐ ํ์ฅ
NIAH ํ
์คํธ๋ฅผ ํตํ ๊ฒ์ฆ
๊ฐ ๋จ๊ณ์์ Needle In A Haystack (NIAH) ํ
์คํธ๋ฅผ ํตํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฒ ์ ํ ๊ฒ์ฆํ๋ฉฐ, ๋ชจ๋ ์ธ๊ทธ๋จผํธ์์ ์ผ๊ด๋๊ฒ โ๋
น์ ์ ํธโ๊ฐ ๊ด์ฐฐ๋ ๋๊น์ง ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ํฉ๋๋ค.
2.4 Post-training
3๋จ๊ณ ํ๋ จ ํ์ดํ๋ผ์ธ
EXAONE 4.0์ ํ์ฒ๋ฆฌ ํ๋ จ์ ๋ค์ํ ์ฌ์ฉ์ ์ง์์ ์๋ตํ๊ณ NON-REASONING๊ณผ REASONING ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๊ธฐ ์ํด ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
- Supervised Fine-tuning (SFT)
- Reasoning Reinforcement Learning (RL)
- Preference Learning (NON-REASONING๊ณผ REASONING ๋ชจ๋ ํตํฉ)
2.4.1 Large-scale Supervised Fine-tuning
5๊ฐ ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ ๊ตฌ์ฑ
SFT ๋ฐ์ดํฐ์
์ non-reasoning๊ณผ reasoning ๋ฐ์ดํฐ๋ก ๋๋์ด์ง๋ฉฐ, 5๊ฐ ์์ญ์ผ๋ก ๋ถ๋ฅ๋ฉ๋๋ค:
World Knowledge ๋๋ฉ์ธ
๊ด๋ฒ์ํ ๋ถ์ผ์ ๋์ด๋ ์์ค์ ํฌ๊ดํ๋ ์ธ๊ณ ์ง์ ๋๋ฉ์ธ์์๋ ๊ต์ก์ ๊ฐ์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์น ์์ค์์ ์์งํ ๋ฌธ์ ๋ฅผ ํํฐ๋งํ์ฌ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ์ฐ์ ํ์ฉํฉ๋๋ค.
Math, Code, Logic ๋๋ฉ์ธ
์ด ์์ญ์์๋ ์ ํํ ground truth ์ค์ ์ด ํ์์ ์ด์ง๋ง ์ด๋ ค์ ๊ณ ํ์ง ๋ฌธ์ ์๊ฐ ์๋์ ์ผ๋ก ์ ํ์ ์
๋๋ค. ๋ฐ๋ผ์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ต๋ณ์ ๊ฐ์ง ์ฟผ๋ฆฌ์ ๋ํด ๋ค์ํ ์๋ต์ ํ๋ จํ๋ฉฐ, ๊ณ ์ ํ ์ฟผ๋ฆฌ ์๋ฅผ ๋๋ฆฌ๋ ๊ฒ๋งํผ ์ฟผ๋ฆฌ๋น ์ฌ๋ฌ ์๋ต์ ์์ฑํ๋ ๊ฒ์ด ํจ๊ณผ์ ์์ ๊ด์ฐฐํ์ต๋๋ค.
Long Context ๋๋ฉ์ธ
์น ์ฝํผ์ค์์ ํ์ฅ๋ ์
๋ ฅ์ ํฌ๊ด์ ์ดํด๊ฐ ํ์ํ ์์
์ ์ค์ ์ ๋ long-context SFT ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํฉ๋๋ค. ๋ถ์ฐ๋ ์ ๋ณด๋ฅผ ์๋ณํ๊ณ ์ถ๋ก ํ ์ ์๋๋ก ์ปจํ
์คํธ ๊ธธ์ด์ ํต์ฌ ์ฝํ
์ธ ์ ์์น๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๋ณํ์ํต๋๋ค.
Agentic Tool Use ๋๋ฉ์ธ
๋ชจ๋ธ์ agentic tool use ๋ฅ๋ ฅ ํฅ์์ ์ํด ๋จ์ํ single tool call ๋ฐ์ดํฐ์
์์ฑ์ ๋์ด ๋ณต์กํ long-horizon tool-calling ๋ฐ์ดํฐ ๊ตฌ์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ์ฌ์ฉ์-์์ด์ ํธ ๋ํ์ ์ฌ์ฉ์ ์ํธ์์ฉ, ํ๊ฒฝ์ผ๋ก๋ถํฐ์ ์คํ ํผ๋๋ฐฑ, ๋ฐ๋ณต์ ์ถ๋ก ์ ํฌํจ์์ผ ์์ด์ ํธ๊ฐ ์ฌ์ฉ์์ ์ํ๋ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋๋ก ์๋ดํฉ๋๋ค.
Multilinguality ๋๋ฉ์ธ
ํ๊ตญ์ด์ ์คํ์ธ์ด ์ง์์ ์ํด ๊ฐ ์ธ์ด๋ณ ๋ฌธํ์ , ์ญ์ฌ์ ์ง์์ ๋์์ผ๋ก ํ๋ ๋ฐ์ดํฐ์
์ ๊ตฌ์ฑํ ๋ฟ๋ง ์๋๋ผ ์ฌ์ฉ์์์ ์ ์ฐฝํ๊ณ ์์ฐ์ค๋ฌ์ด ๋ํ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค.
ํตํฉ ๋ชจ๋ ํ๋ จ
๊ฒฐํฉ๋ ๋ฐ์ดํฐ์
์์ NON-REASONING ๋ฐ์ดํฐ๋ ์ฃผ๋ก ๋ค์ํ ์์
์ผ๋ก ๊ตฌ์ฑ๋๊ณ , REASONING ๋ฐ์ดํฐ๋ ์ํ๊ณผ ์ฝ๋ ๋๋ฉ์ธ์ ์ค์ฌ์ผ๋ก ํฉ๋๋ค. ๋ ๋ชจ๋๋ฅผ ์์ฐจ์ ์ผ๋ก fine-tuningํ๋ ๋์ ๊ฒฐํฉํ์ฌ ํจ๊ป ํ๋ จํฉ๋๋ค. ํ ํฐ ๋น์จ ์ฐ๊ตฌ๋ฅผ ํตํด REASONING ๋ NON-REASONING ๋ฐ์ดํฐ ๋น์จ์ 1.5:1๋ก ์ค์ ํ์ต๋๋ค.
2.4.2 Reasoning Reinforcement Learning
AGAPO ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ
๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํด SFT ํ ์จ๋ผ์ธ ๊ฐํํ์ต์ ์ํํฉ๋๋ค. ๊ธฐ์กด GRPO ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด AGAPO (Asymmetric Sampling and Global Advantage Policy Optimization)๋ผ๋ ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํฉ๋๋ค.
AGAPO์ ์ฃผ์ ํน์ง:
1. Remove Clipped Objective
PPO์ clip loss๊ฐ ์ถ๋ก ๊ฒฝ๋ก์ ๋ถ๊ธฐ์ ์ญํ ์ ํ๋ ๋ฐ์ฑ์ ํ๋๊ณผ ๊ด๋ จ๋ ์ค์ํ ์ ํ๋ฅ ํ ํฐ์ ๊ธฐ์ฌ๋๋ฅผ ๋จ์ด๋จ๋ฆด ์ ์๋ค๋ ์ด์ ์ฐ๊ตฌ๋ฅผ ๋ฐํ์ผ๋ก, AGAPO๋ PPO์์ clipping์ ์ ๊ฑฐํ๊ณ ํ์ค policy gradient loss๋ฅผ ์ฌ์ฉํฉ๋๋ค.
2. Asymmetric Sampling
๋ชจ๋ ์๋ต์ด ํ๋ฆฐ ์ํ๋ ๋ฒ๋ฆฌ์ง ์๊ณ ๋ ๋์ ๋น์จ์ ๋ถ์ ์ ํผ๋๋ฐฑ์ ํฌํจ์ํค๋ ๋น๋์นญ ์ํ๋ง ๋ฐฉ๋ฒ์ ํ์ฉํฉ๋๋ค.
3. Group & Global Advantages
GRPO์ advantage ๋ฐฉ๋ฒ์ด ์ ์ฒด ๋ฐฐ์น์ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ์ง ์๋ ๋ฌธ์ ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด, AGAPO๋ ๊ทธ๋ฃน ๋จ๊ณ์ ์ ์ญ ๋จ๊ณ์ 2๋จ๊ณ๋ก advantage๋ฅผ ๊ณ์ฐํฉ๋๋ค.
4. Sequence Level Cumulative KL
SFT ๋จ๊ณ์์ ํ์ตํ ๋ฅ๋ ฅ์ ๋ณด์กดํ๋ฉด์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด sequence-level cumulative KL penalty๋ฅผ ์ ์ฉํฉ๋๋ค.
๋ชฉ์ ํจ์
AGAPO ๋ชฉ์ ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋ฉ๋๋ค:
JAGAPO(ฮธ)=EqโผP(Q),{oi}i=1Gโผฯฮธ(Oโฃq)[1Gโi=1G(Aglobal,ilogโกฯฮธ(oiโฃq)โฮฒDKL[ฯฮธ,ฯref])]J_{AGAPO}(\theta) = \mathbb{E}_{q \sim P(Q), {o_i}_{i=1}^G \sim \pi_\theta(O | q)} \left[ \frac{1}{G} \sum_{i=1}^G \left( A_{global,i} \log \pi_\theta(o_i | q) - \beta D_{KL}[\pi_\theta, \pi_{ref}] \right) \right]JAGAPOโ(ฮธ)=EqโผP(Q),{oiโ}i=1Gโโผฯฮธโ(Oโฃq)โ[G1โโi=1Gโ(Aglobal,iโlogฯฮธโ(oiโโฃq)โฮฒDKLโ[ฯฮธโ,ฯrefโ])] |
2.4.3 Preference Learning with Hybrid Reward
2๋จ๊ณ Preference Learning
RL ๋จ๊ณ์์๋ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์์ ํตํด ์ ํ๋ ํฅ์์ ๋ชฉํ๋ก ํ์ง๋ง, ๋ค๋ฅธ ์ ํ์ ์์
์์ ์ฑ๋ฅ ์ ํ๊ฐ ๊ด์ฐฐ๋ฉ๋๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ถ๊ฐ์ ์ธ preference learning ๋จ๊ณ๋ฅผ ๋์
ํฉ๋๋ค.
1๋จ๊ณ: ์ ํ์ฑ๊ณผ ๊ฐ๊ฒฐ์ฑ
์ถ๋ก ๊ด๋ จ ๊ฒ์ฆ ๊ฐ๋ฅํ ํ๋ จ ๋ฐ์ดํฐ์ ๋ํด ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ณด์๊ณผ ๊ฐ๊ฒฐ์ฑ ๋ณด์์ ๊ฒฐํฉํ์ฌ ์ ๋ต ์ค ๊ฐ์ฅ ์งง์ ์๋ต์ ์ ํ๋ ์ต์
์ผ๋ก ์ ํํฉ๋๋ค.
2๋จ๊ณ: ์ธ์ด ์ผ๊ด์ฑ๊ณผ ์ ํธ๋
์ธ๊ฐ ์ ๋ ฌ์ ์ํด ์ ํธ๋ ๋ณด์๊ณผ ์ธ์ด ์ผ๊ด์ฑ ๋ณด์์ ์กฐํฉ์ ์ฌ์ฉํฉ๋๋ค. REASONING ๋ชจ๋ ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ ์ถ๋ก ๊ณผ์ ์ด ์๋ฃ๋ ํ ์ต์ข
๋ต๋ณ์์๋ง ์ ํธ๋ ๋ผ๋ฒจ๋ง์ ์ํํฉ๋๋ค.
์ฑํฐ์ ํต์ฌ ๊ธฐ์ฌ: ๋ชจ๋ธ ์ํคํ
์ฒ์ ํ๋ จ ๋ฐฉ๋ฒ๋ก ์ ์์ธํ ๊ธฐ์ ์ ๊ตฌํ
๋ค์ ์ฑํฐ๋ก์ ์ฐ๊ฒฐ: ์ด๋ก ์ ์ค๊ณ๊ฐ ์ค์ ์ฑ๋ฅ์ผ๋ก ์ด๋ป๊ฒ ๊ตฌํ๋๋์ง ํ๊ฐ ๊ฒฐ๊ณผ๋ก ์ด์ด์ง
๐ Chapter 3: Evaluation
์ฑํฐ์ ์์น์ ์ญํ
ํ๊ฐ ์ฑํฐ๋ EXAONE 4.0์ ์ด๋ก ์ ์ค๊ณ์ ๊ตฌํ์ด ์ค์ ์ฑ๋ฅ์ผ๋ก ์ด๋ป๊ฒ ๋ํ๋๋์ง ์ฒด๊ณ์ ์ผ๋ก ๊ฒ์ฆํ๋ ํต์ฌ ์ฅ์ ๋๋ค.
3.1 Benchmarks
6๊ฐ ์นดํ
๊ณ ๋ฆฌ๋ณ ํ๊ฐ ์ฒด๊ณ
EXAONE 4.0์ 6๊ฐ ์นดํ
๊ณ ๋ฆฌ์ ๋ค์ํ ๋ฒค์น๋งํฌ๋ก ํ๊ฐํฉ๋๋ค:
World Knowledge
- MMLU-REDUX: MMLU์ ๊ฐ์ ๋ฐ ํ์ฅ ๋ฒ์
- MMLU-PRO: ๋์ฑ ๊ฒฌ๊ณ ํ๊ณ ๋์ ์ ์ธ ๋ค์ค ์์ ์ธ์ด ์ดํด ๋ฒค์น๋งํฌ
- GPQA-DIAMOND: ์๋ฌผํ, ๋ฌผ๋ฆฌํ, ํํ ๋ถ์ผ์ ์ ๋ฌธ๊ฐ ์์ค ์ง์ ํ๊ฐ
Math/Coding
- AIME 2025: ์ํ ์ฌ๋ฆผํผ์๋ ๊ฒฝ์ ๋ํ
- HMMT FEB 2025: ํ๋ฒ๋-MIT ์ํ ํ ๋๋จผํธ
- LIVECODEBENCH V5/V6: ๋ผ์ด๋ธ ์ฝ๋ฉ ๋ฅ๋ ฅ ํ๊ฐ
Instruction Following
- IFEVAL: ์ง์ ์ค์ ๋ฅ๋ ฅ ํ๊ฐ
- MULTI-IF: ๋ค์ค ํด ๋ฐ ๋ค๊ตญ์ด ์๋๋ฆฌ์ค๋ก ํ์ฅ๋ IFEVAL
Long Context
- HELMET: ํฉ์ฑ ์์ ๊ณผ ์ค์ ์๋๋ฆฌ์ค๋ฅผ ํฌ๊ดํ๋ long-context ์ดํด ๋ฅ๋ ฅ
- RULER: ๋ค์ํ ์ธก๋ฉด์ long-context ์ดํด ํ๊ฐ
- LONGBENCH: ์ด์ค ์ธ์ด long-context ์ดํด ๋ฒค์น๋งํฌ
Agentic Tool Use
- BFCL-V3: ํจ์ ํธ์ถ ๋ฅ๋ ฅ์ ๋ค์ํ ์ธก๋ฉด ํ๊ฐ
- TAU-BENCH: ์๋ฎฌ๋ ์ด์ ๋ ์ฌ์ฉ์ LLM๊ณผ์ ๋ํ๋ฅผ ํตํ ๋๊ตฌ ํธ์ถ ์ฑ๋ฅ ํ๊ฐ
Multilinguality
- ํ๊ตญ์ด: KMMLU-PRO, KMMLU-REDUX, KSM (Korean School Math)
- ์คํ์ธ์ด: MMMLU (ES), MATH500 (ES), WMT24++
3.2 Baselines
3๊ฐ์ง ๋ชจ๋ธ ํ์
๋ณ ๋ถ๋ฅ
๋น๊ต ๋์ ๋ชจ๋ธ๋ค์ 3๊ฐ์ง ์ ํ์ผ๋ก ๋ถ๋ฅ:
- Non-Reasoning ๋ชจ๋ธ: CoT ์คํ์ผ๋ก ์๋ต ์์ฑ
- Reasoning ๋ชจ๋ธ: ๊ธด CoT ์คํ์ผ๋ก ์๋ต ์์ฑ
- Hybrid ๋ชจ๋ธ: ๋ชจ๋์ ๋ฐ๋ผ CoT ๋๋ ๊ธด CoT ์คํ์ผ๋ก ์์ฑ
๋ชจ๋ธ ๊ท๋ชจ๋ณ ๋ถ๋ฅ
- Small-size: 3B ๋ฏธ๋ง
- Mid-size: 10B-30B
- Frontier: 200B ์ด์
3.4 Experimental Results
์ํ/์ฝ๋ฉ ๋๋ฉ์ธ์์์ ์ฐ์์ฑ
EXAONE 4.0 ๋ชจ๋ธ์ ์ํ/์ฝ๋ฉ ๋ฒค์น๋งํฌ์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์
๋๋ค:
- 32B ๋ชจ๋ธ: REASONING๊ณผ NON-REASONING ๋ชจ๋ ๋ชจ๋์์ Qwen3 235B๋ฅผ ๋ชจ๋ ์ํ/์ฝ๋ฉ ๋ฒค์น๋งํฌ์์ ๋ฅ๊ฐ
- 1.2B ๋ชจ๋ธ: REASONING ๋ชจ๋์ EXAONE Deep 2.4B๋ฅผ ์ ์ธํ ๋ชจ๋ ๊ธฐ์ค์ ์ ๋ฅ๊ฐ
๋๊ตฌ ์ฌ์ฉ ์๋๋ฆฌ์ค์์์ ๊ฒฝ์๋ ฅ
EXAONE 4.0 32B ๋ชจ๋ธ์ ๊ธฐ์ค ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ๋๊ตฌ ์ฌ์ฉ ์ฑ๋ฅ์ ๋ณด์
๋๋ค:
- REASONING ๋ชจ๋์์ TAU-BENCH์์ R1-0528๊ณผ ์ ์ฌํ ์ฑ๋ฅ
- NON-REASONING ๋ชจ๋์์ Qwen 3 235B์ ๋น๊ต ๊ฐ๋ฅํ BFCL-V3 ๊ฒฐ๊ณผ
์ธ๊ณ ์ง์๊ณผ GPQA ์ฑ๋ฅ
๋ ๋ชจ๋ธ ๋ชจ๋ ์ธ๊ณ ์ง์ ์นดํ
๊ณ ๋ฆฌ ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ GPQA-DIAMOND์์ ๊ธฐ์ค์ ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
3.5 Reasoning Budget
์ถ๋ก ํ ํฐ ์์ ๋ฐ๋ฅธ ์ฑ๋ฅ ๋ณํ
์ถ๋ก ํ ํฐ ์๋ฅผ 1K์์ 64K๊น์ง ๋ณํ์ํค๋ฉฐ ์ฑ๋ฅ ๋ณํ๋ฅผ ๊ด์ฐฐํ์ต๋๋ค:
32K ์ถ๋ก ์์ฐ์์์ ๊ฒฝ์๋ ฅ
EXAONE 4.0 ๋ชจ๋ธ์ 32K ์ถ๋ก ์์ฐ์ผ๋ก๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค:
- 32B ๋ชจ๋ธ์ AIME 2025์์ 12.3% ๊ฐ์๋ฅผ ์ ์ธํ๊ณ ๋ ๋๋ถ๋ถ 5% ์ด๋ด์ ์ฑ๋ฅ ๊ฐ์
- ๊ธฐ์ค ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ฌ์ ํ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ ์ ์ง
์ฑํฐ์ ํต์ฌ ๊ธฐ์ฌ: ์ข
ํฉ์ ์ด๊ณ ์ฒด๊ณ์ ์ธ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํตํ ๋ชจ๋ธ ๋ฅ๋ ฅ ๊ฒ์ฆ
๋ค์ ์ฑํฐ๋ก์ ์ฐ๊ฒฐ: ์ฑ๋ฅ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ํ ๋ชจ๋ธ์ ํ๊ณ์ ๊ณผ ์ํ์์ ๋
ผ์๋ก ์ด์ด์ง
๐ Chapter 4: Limitations
์ฑํฐ์ ์์น์ ์ญํ
ํ๊ณ์ ์ฑํฐ๋ EXAONE 4.0์ ๋ฐ์ด๋ ์ฑ๋ฅ์๋ ๋ถ๊ตฌํ๊ณ ์กด์ฌํ๋ ์ ์ฝ์ฌํญ๊ณผ ์ ์ฌ์ ์ํ์์๋ฅผ ์์งํ๊ฒ ๋ ผ์ํฉ๋๋ค.
์ ์์ ์์ ์์๋ฅผ ๋ฐ๋ฅธ ์์ธ ๋ด์ฉ:
1. ๊ธฐ๋ณธ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ํ๊ณ
EXAONE 4.0 ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ์กด์ ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ํน์ ํ๊ณ๊ฐ ์์ผ๋ฉฐ ๋๋๋ก ๋ถ์ ์ ํ ์๋ต์ ์์ฑํ ์ ์์ต๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํ ํฐ์ ์ถ๋ ฅ ํ๋ฅ ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ต์ ์์ฑํ๋ฉฐ, ์ด๋ ํ๋ จ ๋ฐ์ดํฐ๋ก๋ถํฐ์ ํ์ต ์ค์ ๊ฒฐ์ ๋ฉ๋๋ค.
2. ํ๋ จ ๋ฐ์ดํฐ์ ๋ถ์์ ์ฑ
๊ฐ์ธ์ , ์ ํดํ, ํธํฅ๋ ์ ๋ณด๋ฅผ ํ๋ จ ๋ฐ์ดํฐ์์ ์ ์ธํ๊ธฐ ์ํด ๋ชจ๋ ๋
ธ๋ ฅ์ ๊ธฐ์ธ์์ง๋ง, ์ผ๋ถ ๋ฌธ์ ๊ฐ ์๋ ์ฝํ
์ธ ๊ฐ ์ฌ์ ํ ํฌํจ๋ ์ ์์ด ๋ฐ๋์งํ์ง ์์ ์๋ต์ผ๋ก ์ด์ด์ง ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค.
3. ๊ตฌ์ฒด์ ์ธ ์ํ ์์๋ค
๋ถ์ ์ ํ ๋ต๋ณ ์์ฑ
๊ฐ์ธ์ , ์ ํดํ ๋๋ ๊ธฐํ ๋ถ์ ์ ํ ์ ๋ณด๊ฐ ํฌํจ๋ ๋ถ์ ์ ํ ๋ต๋ณ์ด ์์ฑ๋ ์ ์์ต๋๋ค.
ํธํฅ๋ ์๋ต
์ฐ๋ น, ์ฑ๋ณ, ์ธ์ข
๋ฑ๊ณผ ๊ด๋ จ๋ ํธํฅ๋ ์๋ต์ด ์์ฑ๋ ์ ์์ต๋๋ค.
ํต๊ณ์ ์์กด์ฑ์ ๋ฌธ์
์์ฑ๋ ์๋ต์ ํ๋ จ ๋ฐ์ดํฐ์ ํต๊ณ์ ํฌ๊ฒ ์์กดํ์ฌ ์๋ฏธ์ ์ผ๋ก ๋๋ ๊ตฌ๋ฌธ์ ์ผ๋ก ์ฌ๋ฐ๋ฅด์ง ์์ ๋ฌธ์ฅ์ ์์ฑํ ์ ์์ต๋๋ค.
์ต์ ์ ๋ณด์ ๋ถ์ฌ
๋ชจ๋ธ์ด ์ต์ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ง ์๊ธฐ ๋๋ฌธ์ ์๋ต์ด ๊ฑฐ์ง์ด๊ฑฐ๋ ๋ชจ์๋ ์ ์์ต๋๋ค.
4. ์ค๋ฆฌ์ ์ฌ์ฉ ์ง์นจ
LG AI Research๋ EXAONE 4.0 ์ธ์ด ๋ชจ๋ธ๋ก๋ถํฐ ๋ฐ์ํ ์ ์๋ ์ ์ฌ์ ์ํ์ ์ค์ด๊ธฐ ์ํด ๋
ธ๋ ฅํฉ๋๋ค. ์ฌ์ฉ์๋ EXAONE 4.0 ์ธ์ด ๋ชจ๋ธ ์ฌ์ฉ ์ LG AI์ ์ค๋ฆฌ ์์น์ ์๋ฐํ๋ ๋ถ์ ์ ํ ์ถ๋ ฅ ์์ฑ์ ์ ๋ํ ์ ์๋ ์
์์ ํ๋(์: ๋ถ๋ฒ ์ ๋ณด ์
๋ ฅ)์ ์ฐธ์ฌํ ์ ์์ต๋๋ค.
5. ์ฑ
์ ๊ณ ์ง
EXAONE 4.0 ์ธ์ด ๋ชจ๋ธ์ ์ํด ์์ฑ๋ ํ
์คํธ๋ LG AI Research์ ๊ฒฌํด๋ฅผ ๋ฐ์ํ์ง ์์ต๋๋ค.
์ฑํฐ์ ํต์ฌ ๊ธฐ์ฌ: ๋ชจ๋ธ์ ํฌ๋ช
์ฑ๊ณผ ์ฑ
์๊ฐ ์๋ AI ๊ฐ๋ฐ์ ์ํ ํ๊ณ ์ธ์
๋ค์ ์ฑํฐ๋ก์ ์ฐ๊ฒฐ: ์ค์ ๋ฐฐํฌ๋ฅผ ์ํ ๋ผ์ด์ ์ค ์ ๋ณด ์ ๊ณต์ผ๋ก ์ด์ด์ง
๐ Chapter 5: Deployment
์ฑํฐ์ ์์น์ ์ญํ
๋ฐฐํฌ ์ฑํฐ๋ EXAONE 4.0 ๋ชจ๋ธ์ ์ค์ ์ฌ์ฉ์ ์ํ ๋ฒ์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ ์ค์ฉ์ ์ฅ์ ๋๋ค.
๋ผ์ด์ ์ค ์ ๋ณด
๋ถ๋ก B์์ EXAONE 4.0 ๋ชจ๋ธ ์ฌ์ฉ์ ์ํ ๋ผ์ด์ ์ค ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํฉ๋ฒ์ ํ์ฉ์ ์ํด์๋ ๋ผ์ด์ ์ค ์ ๋ณด ์ดํด๊ฐ ํ์์ ์ ๋๋ค.
์ฑํฐ์ ํต์ฌ ๊ธฐ์ฌ: ๋ชจ๋ธ ์ฌ์ฉ์ ์ํ ๋ฒ์ ๊ฐ์ด๋๋ผ์ธ ์ ๊ณต
๋ค์ ์ฑํฐ๋ก์ ์ฐ๊ฒฐ: ์ ์ฒด ์ฐ๊ตฌ์ ๊ฒฐ๋ก ๊ณผ ํฅํ ๋ฐฉํฅ ์ ์๋ก ๋ง๋ฌด๋ฆฌ
๐ Chapter 6: Conclusion
์ฑํฐ์ ์์น์ ์ญํ
๊ฒฐ๋ก ์ฑํฐ๋ EXAONE 4.0์ ์ ์ฒด์ ์ธ ์ฑ๊ณผ๋ฅผ ์์ฝํ๊ณ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํ๋ ๋ง๋ฌด๋ฆฌ ์ฅ์ ๋๋ค.
์ ์์ ์์ ์์๋ฅผ ๋ฐ๋ฅธ ์์ธ ๋ด์ฉ:
1. EXAONE 4.0์ ํต์ฌ ์ฑ๊ณผ
๋ณธ ๊ธฐ์ ๋ณด๊ณ ์์์๋ NON-REASONING ๋ชจ๋์ REASONING ๋ชจ๋๋ฅผ ํตํฉํ EXAONE 4.0์ ์๊ฐํ์ต๋๋ค. EXAONE 4.0์ ์ฃผ์ ํน์ง์ ์ด์ ์ EXAONE 3.5์ EXAONE Deep์์ ๊ฐ๊ฐ ์ง์๋์๋ ์ค์ฉ์ ํ์ฉ์ฑ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ณ ์ด๋ฅผ ๋จ์ผ ๋ชจ๋ธ๋ก ํตํฉํ ๊ฒ์
๋๋ค.
2. ์๋ก์ด ๊ธฐ๋ฅ์ ๋์
agentic tool use ๋ฐ ์คํ์ธ์ด ์ง์๊ณผ ๊ฐ์ ์๋ก์ด ๊ธฐ๋ฅ์ ๋์
ํ์ต๋๋ค.
3. ์ฑ๋ฅ์์ ์ฐ์์ฑ
์ฑ๋ฅ ๋ฉด์์ EXAONE 4.0์ ๋น์ทํ ๊ท๋ชจ์ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, frontier ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํด์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
4. ํฅํ ๊ณํ
ํฅํ ์์
์ ์ผํ์ผ๋ก, ์ง์ ์ธ์ด๋ฅผ ์ ์ง์ ์ผ๋ก ํ์ฅํ์ฌ ํ์ฉ์ฑ์ ์ง์์ ์ผ๋ก ๊ฐํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
5. ์ฐ๊ตฌ ์ํ๊ณ์ ๋ํ ๊ธฐ์ฌ
EXAONE 3.0 ์ถ์ ์ดํ, LG AI Research๋ open-weight ํํ๋ก ๋ชจ๋ธ์ ๊ณต๊ฐํ์ฌ ์ฐ๊ตฌ ์ํ๊ณ ํ์ฅ์ ๊ธฐ์ฌํด์์ผ๋ฉฐ, ์ฌ์ฉ์ ํผ๋๋ฐฑ์ ๊ธฐ๋ฐ์ผ๋ก ์ง์์ ์ผ๋ก ๋ชจ๋ธ์ ๊ฐ์ ํด์์ต๋๋ค.
6. ์ฐ๋ฝ์ฒ ์ ๋ณด
๋ชจ๋ธ ๊ฐ์ ์ ์์ด๋ ๋น์ฆ๋์ค ๊ด๋ จ ๋ฌธ์๋ contact_us@lgresearch.ai๋ก ์ฐ๋ฝํ์๊ธฐ ๋ฐ๋๋๋ค.
์ฑํฐ์ ํต์ฌ ๊ธฐ์ฌ: ์ ์ฒด ์ฐ๊ตฌ ์ฑ๊ณผ์ ์ข ํฉ๊ณผ ์ง์์ ์ธ ๋ฐ์ ์ ์ํ ๋ฐฉํฅ ์ ์
๊ธฐ์ ์ ํจ์์ ์์ฉ
ํด๋น ๋ถ์ผ์ ๋ฏธ์น๋ ์ํฅ
EXAONE 4.0์ hybrid ๋ชจ๋ ํตํฉ ์ ๊ทผ๋ฒ์ ๋จ์ผ ๋ชจ๋ธ์ด ์๋ก ๋ค๋ฅธ ์ฌ์ฉ ์๋๋ฆฌ์ค์ ์ต์ ํ๋ ๋ ๊ฐ์ง ์ถ๋ก ์ ๋ต์ ์ ๊ณตํ ์ ์์์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ ์ค์ฉ์ ๋ฐฐํฌ์์ ๋ชจ๋ธ ๊ด๋ฆฌ ๋ณต์ก์ฑ์ ํฌ๊ฒ ์ค์ด๋ ํ์ ์ ์ ๊ทผ๋ฒ์ ๋๋ค.
๋ค๋ฅธ ์ฐ๊ตฌ ์์ญ์ผ๋ก์ ํ์ฅ ๊ฐ๋ฅ์ฑ
Hybrid attention ๋ฉ์ปค๋์ฆ๊ณผ QK-Reorder-LN๊ณผ ๊ฐ์ ์ํคํ ์ฒ ํ์ ์ ๋ค๋ฅธ ๋ํ ์ธ์ด ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ง์ ์ ์ผ๋ก ์ ์ฉ ๊ฐ๋ฅํ๋ฉฐ, ํนํ long-context ์ฒ๋ฆฌ๊ฐ ์ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์์ ํ์ฉ๋๊ฐ ๋์ ๊ฒ์ ๋๋ค.
์ค์ ์ฐ์ ์ ์ฉ์์์ ๊ณ ๋ ค์ฌํญ
Agentic tool use ๊ธฐ๋ฅ์ ์ค์ ๋น์ฆ๋์ค ํ๊ฒฝ์์ AI ์์ด์ ํธ ๊ตฌ์ถ์ ์ํ ์ค์ฉ์ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ฉฐ, ๋ค๊ตญ์ด ์ง์ ํ์ฅ์ ๊ธ๋ก๋ฒ ์๋น์ค ๋ฐฐํฌ์ ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ๋ํ ์์ฌ์
AGAPO์ ๊ฐ์ ์๋ก์ด ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ๋ฐ์ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ ํ๋ จ ๋ฐฉ๋ฒ๋ก ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ฉฐ, preference learning์ ํตํ ๋ชจ๋ ํตํฉ ๋ฐฉ๋ฒ๋ก ์ multi-modal AI ์์คํ ๊ฐ๋ฐ์ ์ค์ํ ํต์ฐฐ์ ์ ๊ณตํฉ๋๋ค.
๋ณธ ๋ ผ๋ฌธ์ EXAONE 4.0์ ํตํด ์ค์ฉ์ฑ๊ณผ ์ถ๋ก ๋ฅ๋ ฅ์ ๋จ์ผ ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ๋ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๋ฉฐ, ํฅํ ๋ฒ์ฉ AI ์์คํ ๊ฐ๋ฐ์ ์ํ ์ค์ํ ๊ธฐ์ ์ ํ ๋๋ฅผ ๋ง๋ จํ์ต๋๋ค.