[Paper Review] EXAONE Deep: Reasoning Enhanced Language Models
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-EXAONE-Deep-Reasoning-Enhanced-Language-Models
1
RESEARCH, L. G., et al. EXAONE Deep: Reasoning Enhanced Language Models. arXiv preprint arXiv:2503.12524, 2025.
Abstract
EXAONE Deep ์๋ฆฌ์ฆ๋ฅผ ์๊ฐํฉ๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ์ํ ๋ฐ ์ฝ๋ฉ benchmark๋ฅผ ํฌํจํ ๋ค์ํ ์ถ๋ก ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ฐ๋ฆฌ๋ ๊ธด ์ฌ๊ณ ๊ณผ์ ์ stream์ ํตํฉํ ์ถ๋ก ํนํ dataset์ ์ฃผ๋ก ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ค์ ํ๋ จํ์ต๋๋ค. ํ๊ฐ ๊ฒฐ๊ณผ, ์ฐ๋ฆฌ์ ์์ ๋ชจ๋ธ๋ค์ธ EXAONE Deep 2.4B์ 7.8B๋ ๋น์ทํ ํฌ๊ธฐ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํ๋ฉฐ, ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ธ EXAONE Deep 32B๋ ์ฃผ์ open-weight ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ชจ๋ EXAONE Deep ๋ชจ๋ธ๋ค์ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๊ณต๊ฐ๋์ด ์์ผ๋ฉฐ https://huggingface.co/LGAI-EXAONE ์์ ๋ค์ด๋ก๋ํ ์ ์์ต๋๋ค.
-
Introduction
์ต๊ทผ ์ฐ๊ตฌ์์๋ ํ ์คํธ ๋จ๊ณ์์ ์ปดํจํ ๋ฆฌ์์ค๋ฅผ ์กฐ์ ํ์ฌ ์ถ๋ก ์ฑ๋ฅ์ ํฅ์์ํค๋ ์ถ์ธ๊ฐ ์ฆ๊ฐํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ์ถ์ธ์ ๋์ํ์ฌ, LG AI Research๋ EXAONE Deep 2.4B, 7.8B, 32B๋ผ๋ ์๋ก์ด ๋ชจ๋ธ ๋ผ์ธ์ ์ ์๊ฐํฉ๋๋ค. ์ด ๋ชจ๋ธ๋ค์ EXAONE 3.5 ์๋ฆฌ์ฆ์ fine-tuned ๋ฒ์ ์ผ๋ก, ์ถ๋ก ์์ ์ ํน๋ณํ ์ต์ ํ๋์์ต๋๋ค. ์ฐ๋ฆฌ๋ fine-tuning์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ธ ๊ฐ์ง ์ฃผ์ ๊ธฐ๋ฒ์ธ Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Online Reinforcement Learning (Online RL)์ ์ฌ์ฉํ์ฌ ์ด ๋ชจ๋ธ๋ค์ ํ๋ จํ์ต๋๋ค.
๋ชจ๋ธ๋ค์ ์ฑ๋ฅ ํ๊ฐ ๊ฒฐ๊ณผ, 2.4B ๋ณํ์ ๊ฒฝ์ฐ DeepSeek-R1-Distill-Qwen-1.5B๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. 7.8B ๋ณํ์ ๊ฒฝ์ฐ, DeepSeek-R1-Distill-Qwen-7B ๋ฐ DeepSeek-R1-Distill-Llama-8B์ ๊ฐ์ ๋น์ทํ ๊ท๋ชจ์ open-weight ๋ชจ๋ธ๋ค๋ฟ๋ง ์๋๋ผ proprietary ์ถ๋ก ๋ชจ๋ธ์ธ OpenAI o1-mini๋ ๋ฅ๊ฐํฉ๋๋ค. 32B ๋ชจ๋ธ์ ๊ฒฝ์ฐ, QwQ-32B ๋ฐ DeepSeek-R1๊ณผ ๊ฐ์ ์ฃผ์ open-weight ์ถ๋ก ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, DeepSeek-R1-Distill-Qwen-32B ๋ฐ DeepSeek-R1-Distill-Llama-70B๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ ๋๋ค.
โ์๊ฐ์ด ๋ง์ด ๋๊ณ , ๋ง์ด ํ๋์ด ๋๊ณ , ํ๋์ด ์ต๊ด์ด ๋๊ณ , ์ต๊ด์ด ์ฑ๊ฒฉ์ด ๋๊ณ , ์ฑ๊ฒฉ์ด ์ด๋ช ์ด ๋๋ค. ๋ฐ๋ผ์ ๊นจ์ด์๋ ๋ง์์ ๋์ผ๋ก ๋ง์์ ๋ฅผ ์ง์ผ๋ณด๋ผ.โ - TRYON EDWARDS
-
Modeling
2.1 Data
์ธ์ด ๋ชจ๋ธ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ SFT์ฉ 1.6M ์ธ์คํด์ค, DPO์ฉ preference data 20K ์ธ์คํด์ค, ๊ทธ๋ฆฌ๊ณ Online RL์ฉ ์ถ๊ฐ 10K ์ธ์คํด์ค๋ฅผ ํ์ฉํ์ต๋๋ค. SFT dataset๋ ์ฝ 12B ํ ํฐ์ ํฌํจํ๋ฉฐ, ๊ทธ ๊ธธ์ด ๋ถํฌ๋ Figure 2์ ๋ํ๋ ์์ต๋๋ค. ์ด dataset๋ ๋ชจ๋ธ์ด ํ์ฅ๋ chain-of-thought (CoT) ๊ณผ์ ์ ํตํด ์ถ๋ก ์ ์ํํ๋๋ก ์ค๊ณ๋์์ต๋๋ค.
Figure 2์์ ๋ณด๋ฏ์ด, Code ๋๋ฉ์ธ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ํ๊ท ์ ์ผ๋ก ์๋นํ ๊ธธ๋ฉฐ, Others ๋๋ฉ์ธ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ ๋ ์งง์ ๊ฒฝํฅ์ด ์์ต๋๋ค.
2.2 Training
EXAONE Deep์ base ๋ชจ๋ธ๋ค์ instruction-following ๋ฅ๋ ฅ์ ๊ฐ์ถ instruction-tuned ๋ชจ๋ธ์ธ EXAONE 3.5 Instruct ๋ชจ๋ธ๋ค์ ๋๋ค. EXAONE Deep์ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ SFT ๋ฐ DPO ๋ฐ์ดํฐ๋ฅผ template ํ์์ผ๋ก ๊ตฌ์กฐํํ์ต๋๋ค. ๊ฐ ํ๋ จ ์ธ์คํด์ค๋ ๊ตฌ์กฐํ๋ ์ฌ๊ณ ๊ณผ์ ๊ณผ ์ถ๋ก ๋จ๊ณ๋ฅผ ์ผ๊ด๋๊ณ ์ ํํ ์๋ต์ผ๋ก ์ข ํฉํ ์ต์ข ๋ต๋ณ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, EXAONE 3.5 Instruct ๋ชจ๋ธ๋ค์ <thought>
์ </thought>
ํ๊ทธ ๋ด์์ ์ถ๋ก ์ ์ํํ๋๋ก ํ๋ จ๋๋ฉฐ, reflection, self-checking, correction๊ณผ ํจ๊ป ๋จ๊ณ๋ณ ๋
ผ๋ฆฌ์ ์งํ์ ์ํํฉ๋๋ค. ์ถ๋ก ํ ์์ฑ๋๋ ์ต์ข
๋ต๋ณ์ ์์ฒด ์๊ฒฐ์ ์ด๋ฉฐ, ์ฌ๊ณ ๊ณผ์ ์์ ๋์ถ๋ ํต์ฌ ํต์ฐฐ์ ๋ช
ํํ๊ณ ๊ฐ๊ฒฐํ๊ฒ ์์ฝํฉ๋๋ค.
ํ๋ จ compute ์ธก๋ฉด์์, EXAONE Deep ๋ชจ๋ธ๋ค์ Google Cloud Platform๊ณผ NVIDIA NeMo Framework์์ ์ ๊ณต๋๋ NVIDIA H100 GPU cluster๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ๋ฉ๋๋ค. base ๋ชจ๋ธ์ pretraining๊ณผ ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ์ํ fine-tuning์ ์ฌ์ฉ๋ computation ์์ Table 1์ ์ ์๋์ด ์์ต๋๋ค.
Table 1: ๋ชจ๋ธ ํ๋ จ์ ์ํ computation ์ (FLOPs)
๋ชจ๋ธ ํฌ๊ธฐ | Pretraining | Fine-tuning | Total |
---|---|---|---|
32B | 1.25 ร 10ยฒโด | 7.04 ร 10ยฒยน | 1.26 ร 10ยฒโด |
7.8B | 4.21 ร 10ยฒยณ | 1.71 ร 10ยฒยน | 4.23 ร 10ยฒยณ |
2.4B | 9.36 ร 10ยฒยฒ | 5.27 ร 10ยฒโฐ | 9.41 ร 10ยฒยฒ |
-
Evaluation
3.1 Benchmarks
์ฐ๋ฆฌ๋ MATH-500, American Invitational Mathematics Examination (AIME) 2024 ๋ฐ 2025, South Koreaโs College Scholastic Ability Test (CSAT) 2025์ ์ํ ์น์ , GPQA Diamond, LiveCodeBench (24.08-25.02), MMLU, MMLU-Pro์์ ๋ชจ๋ธ๋ค์ ํ๊ฐํฉ๋๋ค.
CSAT์ ๊ฒฝ์ฐ, ํ ์คํธ ๋ฌธ์ ์ ๋ณด์กฐ ๊ทธ๋ํฝ ์ ๋ณด๋ฅผ ํฌํจํ๋๋ฐ, ์ฑ๋ฅ ํ๊ฐ ์ ๊ทธ๋ํฝ ์ฝํ ์ธ ๋ ์ ์ธ๋ฉ๋๋ค. ์ํ ์น์ ์์ ํ์๋ค์ ๋ฏธ์ ๋ถ, ํต๊ณ, ๊ธฐํํ ์ค ์ธ ๊ฐ์ง ์ ํ ๊ณผ๋ชฉ์์ ์ ํํ ์ ์์ผ๋ฉฐ, ์ต์ข ์ ์๋ ์ด ์ธ ์ ํ ๊ณผ๋ชฉ์์ ์ป์ ์ ์์ ํ๊ท ์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
3.2 Baselines
์ฐ๋ฆฌ๋ DeepSeek-R1๊ณผ ๊ฐ์ ๊ฐ๋ ฅํ baseline๋ฟ๋ง ์๋๋ผ QwQ-32B, DeepSeek-R1-Distill-Qwen-32B, 7B, 1.5B, DeepSeek-R1-Distill-Llama-70B, 8B, OpenAI o1-mini์ ๊ฐ์ ๋น๊ต ๊ฐ๋ฅํ ๊ท๋ชจ์ baseline๋ค๊ณผ ํฌ๊ด์ ์ธ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค.
3.3 Evaluation Setup
DeepSeek-R1 ๊ธฐ์ ๋ณด๊ณ ์์ ์ค๋ช ๋ ์ค์ ์ ๋ฐ๋ผ, ๋ชจ๋ธ ์์ฑ์ ์ต๋ ๊ธธ์ด๋ฅผ 32K ํ ํฐ์ผ๋ก ์ค์ ํ์ต๋๋ค. ์ถ๋ก ๋ชจ๋ธ๋ค์ ๊ธด ์ถ๋ ฅ์ด ํฌ๊ฒ ๋ฌ๋ผ์ง ์ ์๋ค๋ ์ ์ ๊ณ ๋ คํ์ฌ, ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ๋ขฐ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด pass@k metric์ ์ฑํํ์ต๋๋ค.
ํ๊ฐ์ ์ฌ์ฉ๋ prompt๋ค์ Figure 4, 5, 6์ ๋ํ๋ ์์ต๋๋ค. CSAT benchmark์ ๊ฒฝ์ฐ, ๋จ๋ตํ๊ณผ ๊ฐ๊ด์ ๋ฌธ์ ๋ฅผ ํฌํจํ๋ฏ๋ก ๋ prompt๋ฅผ ๋ชจ๋ ์ฌ์ฉํฉ๋๋ค.
3.4 Experimental Results
EXAONE Deep๊ณผ baseline ๋ชจ๋ธ๋ค ๊ฐ์ ์ฑ๋ฅ ๋น๊ต๋ ์ํ, ๊ณผํ, ์ฝ๋ฉ, ์ผ๋ฐ ์ง์์ ๋ค ๊ฐ์ง ๋ฒ์ฃผ์์ ์ํ๋ฉ๋๋ค. ์ํ ๋ฒ์ฃผ์ ํ๊ฐ ๊ฒฐ๊ณผ๋ Table 2์, ๋ค๋ฅธ ๋ฒ์ฃผ์ ๊ฒฐ๊ณผ๋ Table 3์ ์ ์๋์ด ์์ต๋๋ค.
EXAONE Deep 32B ๋ชจ๋ธ์ DeepSeek-R1 ๋ฐ QwQ-32B์ ๊ฐ์ ์ฃผ์ open-weight ์ถ๋ก ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ํนํ DeepSeek-R1-Distill-Qwen-32B ๋ฐ DeepSeek-R1-Distill-Llama-70B์ ๊ฐ์ distilled ๋ฒ์ ๋ค์ ๋ฅ๊ฐํฉ๋๋ค.
๋ํ, EXAONE Deep 7.8B ๋ชจ๋ธ์ DeepSeek-R1-Distill-Qwen-7B ๋ฐ DeepSeek-R1-Distill-Llama-8B์ ๊ฐ์ ์ ์ฌํ ๊ท๋ชจ์ ๋ชจ๋ธ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, proprietary ์ถ๋ก ๋ชจ๋ธ์ธ OpenAI o1-mini๋ ๋ฅ๊ฐํฉ๋๋ค.
EXAONE Deep 2.4B์ ๊ฒฝ์ฐ, DeepSeek-R1-Distill-Qwen-1.5B๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. ์ฐ๋ฆฌ์ ์คํ ๊ฒฐ๊ณผ๋ EXAONE Deep ๋ชจ๋ธ๋ค์ด ๋ค์ํ ๋ชจ๋ธ ํฌ๊ธฐ์์ ํฅ์๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๊ฐ์กฐํฉ๋๋ค.
-
Limitations
์ด ๋ฌธ์์์ ์๊ฐ๋ EXAONE Deep ๋ชจ๋ธ๋ค์ ์ถ๋ก ์์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํ๋๋ก ํน๋ณํ fine-tuning๋์์ต๋๋ค. base ๋ชจ๋ธ๋ค์ด instruction-fine-tuned๋์ด ์ผ๋ฐ์ ์ผ๋ก ์ง์๋ฅผ ๋ฐ๋ฅผ ์ ์์ง๋ง, ๋ ๋์ ๋ฒ์์ ์ค์ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ๋ค๋ฃจ๊ธฐ ์ํด์๋ ์ค์ฉ์ ์ธ ์์ฉ ์๋๋ฆฌ์ค์ ์ต์ ํ๋ EXAONE 3.5 Instruct ๋ชจ๋ธ๋ค์ ์ฌ์ฉํ ๊ฒ์ ๊ฐ๋ ฅํ ๊ถ์ฅํฉ๋๋ค.
-
Deployment
๋ถ๋ก B์์๋ EXAONE Deep ๋ชจ๋ธ ์ฌ์ฉ์ ์ํ ๋ผ์ด์ ์ค ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ๋ฒ์ ํ์ฉ์ ์ํด์๋ ๋ผ์ด์ ์ค ์ ๋ณด๋ฅผ ์ดํดํ๋ ๊ฒ์ด ํ์์ ์ ๋๋ค.
-
Conclusion
์ด ๋ฌธ์์์ ์ฐ๋ฆฌ๋ ์ธ ๊ฐ์ง ํนํ๋ ์ถ๋ก ๋ชจ๋ธ์ธ EXAONE Deep 2.4B, 7.8B, 32B๋ฅผ ์ ์ํ์ต๋๋ค. ์ถ๋ก ๋ฅ๋ ฅ ํฅ์์ ๋ชฉํ๋ก ํ๋ ๋ค์ํ ๋ฐฉ๋ฒ๋ก ์ ์ถํ์๋ ๋ถ๊ตฌํ๊ณ , ์ฐ๋ฆฌ๋ SFT, DPO, Online RL๊ณผ ๊ฐ์ ์ ํ๋ฆฝ๋ ์ ๊ทผ๋ฒ์ ์์กดํ์ฌ ๋น์ทํ ๊ท๋ชจ์ ๋ชจ๋ธ๋ค ๋๋น ์ฐ์ํ๊ฑฐ๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์ถ๋ก ์ฑ๋ฅ ํฅ์์์ ์ด๋ฌํ ๊ฒ์ฆ๋ ๊ธฐ๋ฒ๋ค์ ํจ๊ณผ์ฑ๊ณผ ์ค์ฉ์ฑ์ ๊ฐ์กฐํฉ๋๋ค. ํ์ฌ ์ด๋ฌํ ๋ชจ๋ธ๋ค์ ์ฃผ๋ก ์ํ, ๊ณผํ, ์ฝ๋ฉ๊ณผ ๊ฐ์ด ๋ช ํํ ๋ต์ด ์๋ ๋๋ฉ์ธ์์ ๋ฌธ์ ํด๊ฒฐ์ ์ง์คํ๊ณ ์์ต๋๋ค. ์์ผ๋ก ์ฐ๋ฆฌ๋ ๋ต์ด ๋ ๋ช ํํ๊ฑฐ๋ ์์ง ๋ฐ๊ฒฌ๋์ง ์์ ์์ญ์ผ๋ก ๋ฅ๋ ฅ์ ํ์ฅํ์ฌ ๋ ๋์ ์ํฅ๊ณผ ์ ์ฉ์ฑ์ ์ถ๊ตฌํ๊ณ ์ ํฉ๋๋ค.
์ฐ๋ฆฌ์ ๋ชจ๋ธ๋ค์ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๋ชจ๋ ์ฌ๋์ด ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ๋ชจ๋ธ ๊ฐ์ ์ ๋์์ด ๋๋ ์ฌ๋ฌ๋ถ์ ํผ๋๋ฐฑ์ ํ์ํฉ๋๋ค. ํผ๋๋ฐฑ์ด ์๊ฑฐ๋ ๋ชจ๋ธ๊ณผ์ ์์ ์ ๊ธฐํ ํ์์ ๊ด์ฌ์ด ์์ผ์๋ฉด contact_us@lgresearch.ai๋ก ์ฐ๋ฝํด ์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
Model License
EXAONE AI Model License Agreement 1.1 - NC
์ด ๋ผ์ด์ ์ค ๊ณ์ฝ(โ๊ณ์ฝโ)์ ๊ทํ(โ๋ผ์ด์ ์ค ์ฌ์ฉ์โ)์ LG Management Development Institute Co., Ltd.(โ๋ผ์ด์ ์ค ์ ๊ณต์โ) ๊ฐ์ EXAONE AI Model(โ๋ชจ๋ธโ)์ ์ฌ์ฉ์ ๊ท์จํ๊ธฐ ์ํด ์ฒด๊ฒฐ๋ฉ๋๋ค. ๋ชจ๋ธ์ ๋ค์ด๋ก๋, ์ค์น, ๋ณต์ฌ ๋๋ ์ฌ์ฉํจ์ผ๋ก์จ, ๊ทํ๋ ์ด ๊ณ์ฝ์ ์กฐ๊ฑด์ ์ค์ํ๊ณ ๊ตฌ์๋ฐ๋ ๋ฐ ๋์ํฉ๋๋ค.
1. ์ ์
1.1 ๋ชจ๋ธ: ๋ผ์ด์ ์ค ์ ๊ณต์๊ฐ ์ ๊ณตํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ๋ก, ๋ผ์ด์ ์ค ์ ๊ณต์๊ฐ ๊ณต๊ธํ๋ ๋ชจ๋ ์ํํธ์จ์ด, ์๊ณ ๋ฆฌ์ฆ, ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๋๋ ๊ด๋ จ ๊ตฌ์ฑ ์์๋ฅผ ํฌํจํฉ๋๋ค.
1.2 ํ์๋ฌผ: ๋ผ์ด์ ์ค ์ฌ์ฉ์ ๋๋ ์ 3์๊ฐ ๋ง๋ ๋ชจ๋ธ์ ์์ , ๋ณ๊ฒฝ, ํฅ์, ๊ฐ์ , ์ ์ ๋๋ ํ์ ์์ ์ ์๋ฏธํฉ๋๋ค.
1.3 ์ถ๋ ฅ๋ฌผ: ๋ชจ๋ธ์ด๋ ํ์๋ฌผ์ ์ํด ์์ฑ๋ ๋ชจ๋ ๋ฐ์ดํฐ, ๊ฒฐ๊ณผ, ์ฝํ ์ธ , ์์ธก, ๋ถ์, ํต์ฐฐ ๋๋ ๊ธฐํ ์๋ฃ๋ฅผ ์๋ฏธํฉ๋๋ค.
1.4 ๋ผ์ด์ ์ค ์ ๊ณต์: EXAONE AI Model์ ์์ ์, ๊ฐ๋ฐ์ ๋ฐ ์ ๊ณต์์ธ LG Management Development Institute Co., Ltd.๋ฅผ ์๋ฏธํฉ๋๋ค.
1.5 ๋ผ์ด์ ์ค ์ฌ์ฉ์: ์ด ๊ณ์ฝ์ ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฑฐ๋ ์ฌ์ฉํ๋ ค๋ ๊ฐ์ธ, ์กฐ์ง, ๋ฒ์ธ, ํ์ ๊ธฐ๊ด, ์ ๋ถ ๊ธฐ๊ด ๋๋ ๊ธฐํ ์ฃผ์ฒด๋ฅผ ์๋ฏธํฉ๋๋ค.
2. ๋ผ์ด์ ์ค ํ๊ฐ
2.1 ๋ผ์ด์ ์ค ํ๊ฐ: ์ด ๊ณ์ฝ์ ๋ช ์๋ ์กฐ๊ฑด์ ๋ฐ๋ผ, ๋ผ์ด์ ์ค ์ ๊ณต์๋ ๋ผ์ด์ ์ค ์ฌ์ฉ์์๊ฒ ์ ํ์ , ๋น๋ ์ ์ , ์๋ ๋ถ๊ฐ๋ฅ, ์ ์ธ๊ณ์ , ์ทจ์ ๊ฐ๋ฅํ ๋ผ์ด์ ์ค๋ฅผ ํ๊ฐํฉ๋๋ค.
3. ์ ํ์ฌํญ
3.1 ์์ ์ ์ฌ์ฉ: ๋ผ์ด์ ์ค ์ฌ์ฉ์๋ ์์ต์ ์ง์ ์ ์ด๊ฑฐ๋ ๊ฐ์ ์ ์ผ๋ก ์ฐฝ์ถํ๋ ์ ํ, ์๋น์ค ๋๋ ์์ฉํ๋ก๊ทธ๋จ ๊ฐ๋ฐ์ด๋ ๋ฐฐํฌ๋ฅผ ํฌํจํ๋ ์ด์ ๊ตญํ๋์ง ์๋ ์์ ์ ๋ชฉ์ ์ผ๋ก ๋ชจ๋ธ, ํ์๋ฌผ ๋๋ ์ถ๋ ฅ๋ฌผ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ช ์์ ์ผ๋ก ๊ธ์ง๋ฉ๋๋ค.
3.2 ์ญ๊ณตํ: ๋ผ์ด์ ์ค ์ฌ์ฉ์๋ ํด๋น ๋ฒ๋ฅ ์์ ๋ช ์์ ์ผ๋ก ํ์ฉํ๋ ๊ฒฝ์ฐ๋ฅผ ์ ์ธํ๊ณ , ๋ชจ๋ธ์ ์ญ์ปดํ์ผ, ๋ถํด, ์ญ๊ณตํํ๊ฑฐ๋ ์์ค ์ฝ๋, ๊ธฐ๋ณธ ์์ด๋์ด, ์๊ณ ๋ฆฌ์ฆ ๋๋ ๊ตฌ์กฐ๋ฅผ ๋์ถํ๋ ค๊ณ ์๋ํด์๋ ์ ๋ฉ๋๋ค.
4. ์์ ๊ถ
4.1 ์ง์ ์ฌ์ฐ๊ถ: ์์ , ํ์๋ฌผ ๋ฐ ๊ด๋ จ ๋ฌธ์๋ฅผ ํฌํจํ ๋ชจ๋ธ์ ๋ชจ๋ ๊ถ๋ฆฌ, ์์ ๊ถ ๋ฐ ์ด์ต์ ๋ผ์ด์ ์ค ์ ๊ณต์์ ๋ ์ ์ ์ฌ์ฐ์ผ๋ก ์ ์ง๋ฉ๋๋ค.
5. ๋ฌด๋ณด์ฆ
5.1 โ์๋ ๊ทธ๋๋กโ ๊ธฐ์ค: ๋ชจ๋ธ, ํ์๋ฌผ ๋ฐ ์ถ๋ ฅ๋ฌผ์ ๋ช ์์ , ๋ฌต์์ ๋๋ ๋ฒ์ ๋ณด์ฆ์ด๋ ํํ ์์ด โ์๋ ๊ทธ๋๋กโ ๋ฐ โ์ด์ฉ ๊ฐ๋ฅํ ์ํ๋กโ ์ ๊ณต๋ฉ๋๋ค.
6. ์ฑ ์ ์ ํ
6.1 ์ํด์ ๋ํ ์ฑ ์ ์์: ํด๋น ๋ฒ๋ฅ ์์ ํ์ฉํ๋ ์ต๋ ๋ฒ์๊น์ง, ๋ผ์ด์ ์ค ์ ๊ณต์๋ ํน๋ณํ, ๋ถ์์ , ๊ฐ์ ์ , ๊ฒฐ๊ณผ์ , ์์์ ๋๋ ์ง๋ฒ์ ์ํด์ ๋ํด ์ด๋ ํ ๊ฒฝ์ฐ์๋ ์ฑ ์์ ์ง์ง ์์ต๋๋ค.
7. ์ข ๋ฃ
7.1 ๋ผ์ด์ ์ค ์ ๊ณต์์ ์ํ ์ข ๋ฃ: ๋ผ์ด์ ์ค ์ ๊ณต์๋ ๋ผ์ด์ ์ค ์ฌ์ฉ์๊ฐ ์ด ๊ณ์ฝ์ ์กฐ๊ฑด์ ์๋ฐํ๋ ๊ฒฝ์ฐ ์ฌ์ ํต์ง ์์ด ์ธ์ ๋ ์ง ์ด ๊ณ์ฝ์ ์ข ๋ฃํ๊ณ ๋ผ์ด์ ์ค ์ฌ์ฉ์์ ๋ชจ๋ธ ์ฌ์ฉ ๊ถ๋ฆฌ๋ฅผ ์ทจ์ํ ์ ์๋ ๊ถ๋ฆฌ๋ฅผ ๋ณด์ ํฉ๋๋ค.
8. ์ค๊ฑฐ๋ฒ
8.1 ์ค๊ฑฐ๋ฒ: ์ด ๊ณ์ฝ์ ๋ฒ๋ฅ ์ถฉ๋ ์์น๊ณผ ๊ด๊ณ์์ด ๋ํ๋ฏผ๊ตญ ๋ฒ๋ฅ ์ ๋ฐ๋ผ ๊ท์จ๋๊ณ ํด์๋ฉ๋๋ค.
9. ๋ณ๊ฒฝ
9.1 ์์ : ๋ผ์ด์ ์ค ์ ๊ณต์๋ ๋จ๋ ์ฌ๋์ผ๋ก ์ธ์ ๋ ์ง ์ด ๊ณ์ฝ์ ์์ ํ๊ฑฐ๋ ๊ฐ์ ํ ๊ถ๋ฆฌ๋ฅผ ๋ณด์ ํฉ๋๋ค.
Evaluation Details
Table 4: CSAT 2025 benchmark์ ์ ํ ๊ณผ๋ชฉ๋ณ ๊ฐ๋ณ ์ ์์์ EXAONE Deep๊ณผ baseline ๋ชจ๋ธ๋ค์ ๋น๊ต
๋ชจ๋ธ | CSAT 2025 ๋ฏธ์ ๋ถ | CSAT 2025 ํต๊ณ | CSAT 2025 ๊ธฐํํ |
---|---|---|---|
EXAONE Deep 32B | 95.1 | 95.0 | 93.5 |
QwQ-32B | 94.5 | 95.5 | 93.3 |
DeepSeek-R1 (671B) | 89.4 | 90.8 | 89.6 |