[Paper Review] EXAONE Deep: Reasoning Enhanced Language Models

Posted by Euisuk's Dev Log on August 30, 2025

[Paper Review] EXAONE Deep: Reasoning Enhanced Language Models

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Paper-Review-EXAONE-Deep-Reasoning-Enhanced-Language-Models

https://arxiv.org/pdf/2503.12524

1
RESEARCH, L. G., et al. EXAONE Deep: Reasoning Enhanced Language Models. arXiv preprint arXiv:2503.12524, 2025.

Abstract

EXAONE Deep ์‹œ๋ฆฌ์ฆˆ๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ benchmark๋ฅผ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ์ถ”๋ก  ์ž‘์—…์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๊ธด ์‚ฌ๊ณ  ๊ณผ์ •์˜ stream์„ ํ†ตํ•ฉํ•œ ์ถ”๋ก  ํŠนํ™” dataset์„ ์ฃผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ๋“ค์„ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ฐ€ ๊ฒฐ๊ณผ, ์šฐ๋ฆฌ์˜ ์ž‘์€ ๋ชจ๋ธ๋“ค์ธ EXAONE Deep 2.4B์™€ 7.8B๋Š” ๋น„์Šทํ•œ ํฌ๊ธฐ์˜ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ, ๊ฐ€์žฅ ํฐ ๋ชจ๋ธ์ธ EXAONE Deep 32B๋Š” ์ฃผ์š” open-weight ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ๋ชจ๋“  EXAONE Deep ๋ชจ๋ธ๋“ค์€ ์—ฐ๊ตฌ ๋ชฉ์ ์œผ๋กœ ๊ณต๊ฐœ๋˜์–ด ์žˆ์œผ๋ฉฐ https://huggingface.co/LGAI-EXAONE ์—์„œ ๋‹ค์šด๋กœ๋“œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. Introduction

์ตœ๊ทผ ์—ฐ๊ตฌ์—์„œ๋Š” ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์ถ”์„ธ๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ถ”์„ธ์— ๋Œ€์‘ํ•˜์—ฌ, LG AI Research๋Š” EXAONE Deep 2.4B, 7.8B, 32B๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ ๋ผ์ธ์—…์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ EXAONE 3.5 ์‹œ๋ฆฌ์ฆˆ์˜ fine-tuned ๋ฒ„์ „์œผ๋กœ, ์ถ”๋ก  ์ž‘์—…์— ํŠน๋ณ„ํžˆ ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” fine-tuning์— ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ธฐ๋ฒ•์ธ Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), Online Reinforcement Learning (Online RL)์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋ชจ๋ธ๋“ค์„ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ ๊ฒฐ๊ณผ, 2.4B ๋ณ€ํ˜•์˜ ๊ฒฝ์šฐ DeepSeek-R1-Distill-Qwen-1.5B๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. 7.8B ๋ณ€ํ˜•์˜ ๊ฒฝ์šฐ, DeepSeek-R1-Distill-Qwen-7B ๋ฐ DeepSeek-R1-Distill-Llama-8B์™€ ๊ฐ™์€ ๋น„์Šทํ•œ ๊ทœ๋ชจ์˜ open-weight ๋ชจ๋ธ๋“ค๋ฟ๋งŒ ์•„๋‹ˆ๋ผ proprietary ์ถ”๋ก  ๋ชจ๋ธ์ธ OpenAI o1-mini๋„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. 32B ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, QwQ-32B ๋ฐ DeepSeek-R1๊ณผ ๊ฐ™์€ ์ฃผ์š” open-weight ์ถ”๋ก  ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, DeepSeek-R1-Distill-Qwen-32B ๋ฐ DeepSeek-R1-Distill-Llama-70B๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

โ€œ์ƒ๊ฐ์ด ๋ง์ด ๋˜๊ณ , ๋ง์ด ํ–‰๋™์ด ๋˜๊ณ , ํ–‰๋™์ด ์Šต๊ด€์ด ๋˜๊ณ , ์Šต๊ด€์ด ์„ฑ๊ฒฉ์ด ๋˜๊ณ , ์„ฑ๊ฒฉ์ด ์šด๋ช…์ด ๋œ๋‹ค. ๋”ฐ๋ผ์„œ ๊นจ์–ด์žˆ๋Š” ๋งˆ์Œ์˜ ๋ˆˆ์œผ๋กœ ๋งˆ์Œ์˜ ๋ฅผ ์ง€์ผœ๋ณด๋ผ.โ€ - TRYON EDWARDS

  1. Modeling

2.1 Data

์–ธ์–ด ๋ชจ๋ธ์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” SFT์šฉ 1.6M ์ธ์Šคํ„ด์Šค, DPO์šฉ preference data 20K ์ธ์Šคํ„ด์Šค, ๊ทธ๋ฆฌ๊ณ  Online RL์šฉ ์ถ”๊ฐ€ 10K ์ธ์Šคํ„ด์Šค๋ฅผ ํ™œ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. SFT dataset๋Š” ์•ฝ 12B ํ† ํฐ์„ ํฌํ•จํ•˜๋ฉฐ, ๊ทธ ๊ธธ์ด ๋ถ„ํฌ๋Š” Figure 2์— ๋‚˜ํƒ€๋‚˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด dataset๋Š” ๋ชจ๋ธ์ด ํ™•์žฅ๋œ chain-of-thought (CoT) ๊ณผ์ •์„ ํ†ตํ•ด ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Figure 2์—์„œ ๋ณด๋“ฏ์ด, Code ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์€ ํ‰๊ท ์ ์œผ๋กœ ์ƒ๋‹นํžˆ ๊ธธ๋ฉฐ, Others ๋„๋ฉ”์ธ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋“ค์€ ๋” ์งง์€ ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

2.2 Training

EXAONE Deep์˜ base ๋ชจ๋ธ๋“ค์€ instruction-following ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ˜ instruction-tuned ๋ชจ๋ธ์ธ EXAONE 3.5 Instruct ๋ชจ๋ธ๋“ค์ž…๋‹ˆ๋‹ค. EXAONE Deep์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด, ์šฐ๋ฆฌ๋Š” SFT ๋ฐ DPO ๋ฐ์ดํ„ฐ๋ฅผ template ํ˜•์‹์œผ๋กœ ๊ตฌ์กฐํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ํ›ˆ๋ จ ์ธ์Šคํ„ด์Šค๋Š” ๊ตฌ์กฐํ™”๋œ ์‚ฌ๊ณ  ๊ณผ์ •๊ณผ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ์ผ๊ด€๋˜๊ณ  ์ •ํ™•ํ•œ ์‘๋‹ต์œผ๋กœ ์ข…ํ•ฉํ•œ ์ตœ์ข… ๋‹ต๋ณ€์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

๊ตฌ์ฒด์ ์œผ๋กœ, EXAONE 3.5 Instruct ๋ชจ๋ธ๋“ค์€ <thought>์™€ </thought> ํƒœ๊ทธ ๋‚ด์—์„œ ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋„๋ก ํ›ˆ๋ จ๋˜๋ฉฐ, reflection, self-checking, correction๊ณผ ํ•จ๊ป˜ ๋‹จ๊ณ„๋ณ„ ๋…ผ๋ฆฌ์  ์ง„ํ–‰์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ํ›„ ์ƒ์„ฑ๋˜๋Š” ์ตœ์ข… ๋‹ต๋ณ€์€ ์ž์ฒด ์™„๊ฒฐ์ ์ด๋ฉฐ, ์‚ฌ๊ณ  ๊ณผ์ •์—์„œ ๋„์ถœ๋œ ํ•ต์‹ฌ ํ†ต์ฐฐ์„ ๋ช…ํ™•ํ•˜๊ณ  ๊ฐ„๊ฒฐํ•˜๊ฒŒ ์š”์•ฝํ•ฉ๋‹ˆ๋‹ค.

ํ›ˆ๋ จ compute ์ธก๋ฉด์—์„œ, EXAONE Deep ๋ชจ๋ธ๋“ค์€ Google Cloud Platform๊ณผ NVIDIA NeMo Framework์—์„œ ์ œ๊ณต๋˜๋Š” NVIDIA H100 GPU cluster๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋ฉ๋‹ˆ๋‹ค. base ๋ชจ๋ธ์˜ pretraining๊ณผ ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ์œ„ํ•œ fine-tuning์— ์‚ฌ์šฉ๋œ computation ์–‘์€ Table 1์— ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

Table 1: ๋ชจ๋ธ ํ›ˆ๋ จ์„ ์œ„ํ•œ computation ์–‘ (FLOPs)

๋ชจ๋ธ ํฌ๊ธฐ Pretraining Fine-tuning Total
32B 1.25 ร— 10ยฒโด 7.04 ร— 10ยฒยน 1.26 ร— 10ยฒโด
7.8B 4.21 ร— 10ยฒยณ 1.71 ร— 10ยฒยน 4.23 ร— 10ยฒยณ
2.4B 9.36 ร— 10ยฒยฒ 5.27 ร— 10ยฒโฐ 9.41 ร— 10ยฒยฒ
  1. Evaluation

3.1 Benchmarks

์šฐ๋ฆฌ๋Š” MATH-500, American Invitational Mathematics Examination (AIME) 2024 ๋ฐ 2025, South Koreaโ€™s College Scholastic Ability Test (CSAT) 2025์˜ ์ˆ˜ํ•™ ์„น์…˜, GPQA Diamond, LiveCodeBench (24.08-25.02), MMLU, MMLU-Pro์—์„œ ๋ชจ๋ธ๋“ค์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

CSAT์˜ ๊ฒฝ์šฐ, ํ…์ŠคํŠธ ๋ฌธ์ œ์™€ ๋ณด์กฐ ๊ทธ๋ž˜ํ”ฝ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๋Š”๋ฐ, ์„ฑ๋Šฅ ํ‰๊ฐ€ ์‹œ ๊ทธ๋ž˜ํ”ฝ ์ฝ˜ํ…์ธ ๋Š” ์ œ์™ธ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜ํ•™ ์„น์…˜์—์„œ ํ•™์ƒ๋“ค์€ ๋ฏธ์ ๋ถ„, ํ†ต๊ณ„, ๊ธฐํ•˜ํ•™ ์ค‘ ์„ธ ๊ฐ€์ง€ ์„ ํƒ ๊ณผ๋ชฉ์—์„œ ์„ ํƒํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ตœ์ข… ์ ์ˆ˜๋Š” ์ด ์„ธ ์„ ํƒ ๊ณผ๋ชฉ์—์„œ ์–ป์€ ์ ์ˆ˜์˜ ํ‰๊ท ์œผ๋กœ ๊ณ„์‚ฐ๋ฉ๋‹ˆ๋‹ค.

3.2 Baselines

์šฐ๋ฆฌ๋Š” DeepSeek-R1๊ณผ ๊ฐ™์€ ๊ฐ•๋ ฅํ•œ baseline๋ฟ๋งŒ ์•„๋‹ˆ๋ผ QwQ-32B, DeepSeek-R1-Distill-Qwen-32B, 7B, 1.5B, DeepSeek-R1-Distill-Llama-70B, 8B, OpenAI o1-mini์™€ ๊ฐ™์€ ๋น„๊ต ๊ฐ€๋Šฅํ•œ ๊ทœ๋ชจ์˜ baseline๋“ค๊ณผ ํฌ๊ด„์ ์ธ ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

3.3 Evaluation Setup

DeepSeek-R1 ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ์— ์„ค๋ช…๋œ ์„ค์ •์— ๋”ฐ๋ผ, ๋ชจ๋ธ ์ƒ์„ฑ์˜ ์ตœ๋Œ€ ๊ธธ์ด๋ฅผ 32K ํ† ํฐ์œผ๋กœ ์„ค์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ถ”๋ก  ๋ชจ๋ธ๋“ค์˜ ๊ธด ์ถœ๋ ฅ์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์„ ๊ณ ๋ คํ•˜์—ฌ, ๋ชจ๋ธ ์„ฑ๋Šฅ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด pass@k metric์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ‰๊ฐ€์— ์‚ฌ์šฉ๋œ prompt๋“ค์€ Figure 4, 5, 6์— ๋‚˜ํƒ€๋‚˜ ์žˆ์Šต๋‹ˆ๋‹ค. CSAT benchmark์˜ ๊ฒฝ์šฐ, ๋‹จ๋‹ตํ˜•๊ณผ ๊ฐ๊ด€์‹ ๋ฌธ์ œ๋ฅผ ํฌํ•จํ•˜๋ฏ€๋กœ ๋‘ prompt๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

3.4 Experimental Results

EXAONE Deep๊ณผ baseline ๋ชจ๋ธ๋“ค ๊ฐ„์˜ ์„ฑ๋Šฅ ๋น„๊ต๋Š” ์ˆ˜ํ•™, ๊ณผํ•™, ์ฝ”๋”ฉ, ์ผ๋ฐ˜ ์ง€์‹์˜ ๋„ค ๊ฐ€์ง€ ๋ฒ”์ฃผ์—์„œ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์ˆ˜ํ•™ ๋ฒ”์ฃผ์˜ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋Š” Table 2์—, ๋‹ค๋ฅธ ๋ฒ”์ฃผ์˜ ๊ฒฐ๊ณผ๋Š” Table 3์— ์ œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

EXAONE Deep 32B ๋ชจ๋ธ์€ DeepSeek-R1 ๋ฐ QwQ-32B์™€ ๊ฐ™์€ ์ฃผ์š” open-weight ์ถ”๋ก  ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ํŠนํžˆ DeepSeek-R1-Distill-Qwen-32B ๋ฐ DeepSeek-R1-Distill-Llama-70B์™€ ๊ฐ™์€ distilled ๋ฒ„์ „๋“ค์„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

๋˜ํ•œ, EXAONE Deep 7.8B ๋ชจ๋ธ์€ DeepSeek-R1-Distill-Qwen-7B ๋ฐ DeepSeek-R1-Distill-Llama-8B์™€ ๊ฐ™์€ ์œ ์‚ฌํ•œ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, proprietary ์ถ”๋ก  ๋ชจ๋ธ์ธ OpenAI o1-mini๋„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

EXAONE Deep 2.4B์˜ ๊ฒฝ์šฐ, DeepSeek-R1-Distill-Qwen-1.5B๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” EXAONE Deep ๋ชจ๋ธ๋“ค์ด ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ํฌ๊ธฐ์—์„œ ํ–ฅ์ƒ๋œ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

  1. Limitations

์ด ๋ฌธ์„œ์—์„œ ์†Œ๊ฐœ๋œ EXAONE Deep ๋ชจ๋ธ๋“ค์€ ์ถ”๋ก  ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋„๋ก ํŠน๋ณ„ํžˆ fine-tuning๋˜์—ˆ์Šต๋‹ˆ๋‹ค. base ๋ชจ๋ธ๋“ค์ด instruction-fine-tuned๋˜์–ด ์ผ๋ฐ˜์ ์œผ๋กœ ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅผ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋” ๋„“์€ ๋ฒ”์œ„์˜ ์‹ค์ œ ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด์„œ๋Š” ์‹ค์šฉ์ ์ธ ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค์— ์ตœ์ ํ™”๋œ EXAONE 3.5 Instruct ๋ชจ๋ธ๋“ค์„ ์‚ฌ์šฉํ•  ๊ฒƒ์„ ๊ฐ•๋ ฅํžˆ ๊ถŒ์žฅํ•ฉ๋‹ˆ๋‹ค.

  1. Deployment

๋ถ€๋ก B์—์„œ๋Š” EXAONE Deep ๋ชจ๋ธ ์‚ฌ์šฉ์„ ์œ„ํ•œ ๋ผ์ด์„ ์Šค ์ •๋ณด๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ฒ•์  ํ™œ์šฉ์„ ์œ„ํ•ด์„œ๋Š” ๋ผ์ด์„ ์Šค ์ •๋ณด๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

  1. Conclusion

์ด ๋ฌธ์„œ์—์„œ ์šฐ๋ฆฌ๋Š” ์„ธ ๊ฐ€์ง€ ํŠนํ™”๋œ ์ถ”๋ก  ๋ชจ๋ธ์ธ EXAONE Deep 2.4B, 7.8B, 32B๋ฅผ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ถ”๋ก  ๋Šฅ๋ ฅ ํ–ฅ์ƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•๋ก ์˜ ์ถœํ˜„์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์šฐ๋ฆฌ๋Š” SFT, DPO, Online RL๊ณผ ๊ฐ™์€ ์ž˜ ํ™•๋ฆฝ๋œ ์ ‘๊ทผ๋ฒ•์— ์˜์กดํ•˜์—ฌ ๋น„์Šทํ•œ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ๋“ค ๋Œ€๋น„ ์šฐ์ˆ˜ํ•˜๊ฑฐ๋‚˜ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” ์ถ”๋ก  ์„ฑ๋Šฅ ํ–ฅ์ƒ์—์„œ ์ด๋Ÿฌํ•œ ๊ฒ€์ฆ๋œ ๊ธฐ๋ฒ•๋“ค์˜ ํšจ๊ณผ์„ฑ๊ณผ ์‹ค์šฉ์„ฑ์„ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค. ํ˜„์žฌ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ๋“ค์€ ์ฃผ๋กœ ์ˆ˜ํ•™, ๊ณผํ•™, ์ฝ”๋”ฉ๊ณผ ๊ฐ™์ด ๋ช…ํ™•ํ•œ ๋‹ต์ด ์žˆ๋Š” ๋„๋ฉ”์ธ์—์„œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ์šฐ๋ฆฌ๋Š” ๋‹ต์ด ๋œ ๋ช…ํ™•ํ•˜๊ฑฐ๋‚˜ ์•„์ง ๋ฐœ๊ฒฌ๋˜์ง€ ์•Š์€ ์˜์—ญ์œผ๋กœ ๋Šฅ๋ ฅ์„ ํ™•์žฅํ•˜์—ฌ ๋” ๋„“์€ ์˜ํ–ฅ๊ณผ ์œ ์šฉ์„ฑ์„ ์ถ”๊ตฌํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ์˜ ๋ชจ๋ธ๋“ค์€ ์—ฐ๊ตฌ ๋ชฉ์ ์œผ๋กœ ๋ชจ๋“  ์‚ฌ๋žŒ์ด ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋ชจ๋ธ ๊ฐœ์„ ์— ๋„์›€์ด ๋˜๋Š” ์—ฌ๋Ÿฌ๋ถ„์˜ ํ”ผ๋“œ๋ฐฑ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค. ํ”ผ๋“œ๋ฐฑ์ด ์žˆ๊ฑฐ๋‚˜ ๋ชจ๋ธ๊ณผ์˜ ์ƒ์—…์  ๊ธฐํšŒ ํƒ์ƒ‰์— ๊ด€์‹ฌ์ด ์žˆ์œผ์‹œ๋ฉด contact_us@lgresearch.ai๋กœ ์—ฐ๋ฝํ•ด ์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.


Model License

EXAONE AI Model License Agreement 1.1 - NC

์ด ๋ผ์ด์„ ์Šค ๊ณ„์•ฝ(โ€œ๊ณ„์•ฝโ€)์€ ๊ท€ํ•˜(โ€œ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์žโ€)์™€ LG Management Development Institute Co., Ltd.(โ€œ๋ผ์ด์„ ์Šค ์ œ๊ณต์žโ€) ๊ฐ„์— EXAONE AI Model(โ€œ๋ชจ๋ธโ€)์˜ ์‚ฌ์šฉ์„ ๊ทœ์œจํ•˜๊ธฐ ์œ„ํ•ด ์ฒด๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œ, ์„ค์น˜, ๋ณต์‚ฌ ๋˜๋Š” ์‚ฌ์šฉํ•จ์œผ๋กœ์จ, ๊ท€ํ•˜๋Š” ์ด ๊ณ„์•ฝ์˜ ์กฐ๊ฑด์„ ์ค€์ˆ˜ํ•˜๊ณ  ๊ตฌ์†๋ฐ›๋Š” ๋ฐ ๋™์˜ํ•ฉ๋‹ˆ๋‹ค.

1. ์ •์˜

1.1 ๋ชจ๋ธ: ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž๊ฐ€ ์ œ๊ณตํ•˜๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ๋กœ, ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž๊ฐ€ ๊ณต๊ธ‰ํ•˜๋Š” ๋ชจ๋“  ์†Œํ”„ํŠธ์›จ์–ด, ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ๋˜๋Š” ๊ด€๋ จ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

1.2 ํŒŒ์ƒ๋ฌผ: ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž ๋˜๋Š” ์ œ3์ž๊ฐ€ ๋งŒ๋“  ๋ชจ๋ธ์˜ ์ˆ˜์ •, ๋ณ€๊ฒฝ, ํ–ฅ์ƒ, ๊ฐœ์„ , ์ ์‘ ๋˜๋Š” ํŒŒ์ƒ ์ž‘์—…์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

1.3 ์ถœ๋ ฅ๋ฌผ: ๋ชจ๋ธ์ด๋‚˜ ํŒŒ์ƒ๋ฌผ์— ์˜ํ•ด ์ƒ์„ฑ๋œ ๋ชจ๋“  ๋ฐ์ดํ„ฐ, ๊ฒฐ๊ณผ, ์ฝ˜ํ…์ธ , ์˜ˆ์ธก, ๋ถ„์„, ํ†ต์ฐฐ ๋˜๋Š” ๊ธฐํƒ€ ์ž๋ฃŒ๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

1.4 ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž: EXAONE AI Model์˜ ์†Œ์œ ์ž, ๊ฐœ๋ฐœ์ž ๋ฐ ์ œ๊ณต์ž์ธ LG Management Development Institute Co., Ltd.๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

1.5 ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž: ์ด ๊ณ„์•ฝ์˜ ์กฐ๊ฑด์— ๋”ฐ๋ผ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ์‚ฌ์šฉํ•˜๋ ค๋Š” ๊ฐœ์ธ, ์กฐ์ง, ๋ฒ•์ธ, ํ•™์ˆ  ๊ธฐ๊ด€, ์ •๋ถ€ ๊ธฐ๊ด€ ๋˜๋Š” ๊ธฐํƒ€ ์ฃผ์ฒด๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

2. ๋ผ์ด์„ ์Šค ํ—ˆ๊ฐ€

2.1 ๋ผ์ด์„ ์Šค ํ—ˆ๊ฐ€: ์ด ๊ณ„์•ฝ์— ๋ช…์‹œ๋œ ์กฐ๊ฑด์— ๋”ฐ๋ผ, ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž๋Š” ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œํ•œ์ , ๋น„๋…์ ์ , ์–‘๋„ ๋ถˆ๊ฐ€๋Šฅ, ์ „์„ธ๊ณ„์ , ์ทจ์†Œ ๊ฐ€๋Šฅํ•œ ๋ผ์ด์„ ์Šค๋ฅผ ํ—ˆ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

3. ์ œํ•œ์‚ฌํ•ญ

3.1 ์ƒ์—…์  ์‚ฌ์šฉ: ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž๋Š” ์ˆ˜์ต์„ ์ง์ ‘์ ์ด๊ฑฐ๋‚˜ ๊ฐ„์ ‘์ ์œผ๋กœ ์ฐฝ์ถœํ•˜๋Š” ์ œํ’ˆ, ์„œ๋น„์Šค ๋˜๋Š” ์‘์šฉํ”„๋กœ๊ทธ๋žจ ๊ฐœ๋ฐœ์ด๋‚˜ ๋ฐฐํฌ๋ฅผ ํฌํ•จํ•˜๋˜ ์ด์— ๊ตญํ•œ๋˜์ง€ ์•Š๋Š” ์ƒ์—…์  ๋ชฉ์ ์œผ๋กœ ๋ชจ๋ธ, ํŒŒ์ƒ๋ฌผ ๋˜๋Š” ์ถœ๋ ฅ๋ฌผ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋ช…์‹œ์ ์œผ๋กœ ๊ธˆ์ง€๋ฉ๋‹ˆ๋‹ค.

3.2 ์—ญ๊ณตํ•™: ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž๋Š” ํ•ด๋‹น ๋ฒ•๋ฅ ์—์„œ ๋ช…์‹œ์ ์œผ๋กœ ํ—ˆ์šฉํ•˜๋Š” ๊ฒฝ์šฐ๋ฅผ ์ œ์™ธํ•˜๊ณ , ๋ชจ๋ธ์„ ์—ญ์ปดํŒŒ์ผ, ๋ถ„ํ•ด, ์—ญ๊ณตํ•™ํ•˜๊ฑฐ๋‚˜ ์†Œ์Šค ์ฝ”๋“œ, ๊ธฐ๋ณธ ์•„์ด๋””์–ด, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋˜๋Š” ๊ตฌ์กฐ๋ฅผ ๋„์ถœํ•˜๋ ค๊ณ  ์‹œ๋„ํ•ด์„œ๋Š” ์•ˆ ๋ฉ๋‹ˆ๋‹ค.

4. ์†Œ์œ ๊ถŒ

4.1 ์ง€์  ์žฌ์‚ฐ๊ถŒ: ์ˆ˜์ •, ํŒŒ์ƒ๋ฌผ ๋ฐ ๊ด€๋ จ ๋ฌธ์„œ๋ฅผ ํฌํ•จํ•œ ๋ชจ๋ธ์˜ ๋ชจ๋“  ๊ถŒ๋ฆฌ, ์†Œ์œ ๊ถŒ ๋ฐ ์ด์ต์€ ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž์˜ ๋…์ ์  ์žฌ์‚ฐ์œผ๋กœ ์œ ์ง€๋ฉ๋‹ˆ๋‹ค.

5. ๋ฌด๋ณด์ฆ

5.1 โ€œ์žˆ๋Š” ๊ทธ๋Œ€๋กœโ€ ๊ธฐ์ค€: ๋ชจ๋ธ, ํŒŒ์ƒ๋ฌผ ๋ฐ ์ถœ๋ ฅ๋ฌผ์€ ๋ช…์‹œ์ , ๋ฌต์‹œ์  ๋˜๋Š” ๋ฒ•์  ๋ณด์ฆ์ด๋‚˜ ํ‘œํ˜„ ์—†์ด โ€œ์žˆ๋Š” ๊ทธ๋Œ€๋กœโ€ ๋ฐ โ€œ์ด์šฉ ๊ฐ€๋Šฅํ•œ ์ƒํƒœ๋กœโ€ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.

6. ์ฑ…์ž„ ์ œํ•œ

6.1 ์†ํ•ด์— ๋Œ€ํ•œ ์ฑ…์ž„ ์—†์Œ: ํ•ด๋‹น ๋ฒ•๋ฅ ์—์„œ ํ—ˆ์šฉํ•˜๋Š” ์ตœ๋Œ€ ๋ฒ”์œ„๊นŒ์ง€, ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž๋Š” ํŠน๋ณ„ํ•œ, ๋ถ€์ˆ˜์ , ๊ฐ„์ ‘์ , ๊ฒฐ๊ณผ์ , ์˜ˆ์‹œ์  ๋˜๋Š” ์ง•๋ฒŒ์  ์†ํ•ด์— ๋Œ€ํ•ด ์–ด๋– ํ•œ ๊ฒฝ์šฐ์—๋„ ์ฑ…์ž„์„ ์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

7. ์ข…๋ฃŒ

7.1 ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž์— ์˜ํ•œ ์ข…๋ฃŒ: ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž๋Š” ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž๊ฐ€ ์ด ๊ณ„์•ฝ์˜ ์กฐ๊ฑด์„ ์œ„๋ฐ˜ํ•˜๋Š” ๊ฒฝ์šฐ ์‚ฌ์ „ ํ†ต์ง€ ์—†์ด ์–ธ์ œ๋“ ์ง€ ์ด ๊ณ„์•ฝ์„ ์ข…๋ฃŒํ•˜๊ณ  ๋ผ์ด์„ ์Šค ์‚ฌ์šฉ์ž์˜ ๋ชจ๋ธ ์‚ฌ์šฉ ๊ถŒ๋ฆฌ๋ฅผ ์ทจ์†Œํ•  ์ˆ˜ ์žˆ๋Š” ๊ถŒ๋ฆฌ๋ฅผ ๋ณด์œ ํ•ฉ๋‹ˆ๋‹ค.

8. ์ค€๊ฑฐ๋ฒ•

8.1 ์ค€๊ฑฐ๋ฒ•: ์ด ๊ณ„์•ฝ์€ ๋ฒ•๋ฅ  ์ถฉ๋Œ ์›์น™๊ณผ ๊ด€๊ณ„์—†์ด ๋Œ€ํ•œ๋ฏผ๊ตญ ๋ฒ•๋ฅ ์— ๋”ฐ๋ผ ๊ทœ์œจ๋˜๊ณ  ํ•ด์„๋ฉ๋‹ˆ๋‹ค.

9. ๋ณ€๊ฒฝ

9.1 ์ˆ˜์ •: ๋ผ์ด์„ ์Šค ์ œ๊ณต์ž๋Š” ๋‹จ๋… ์žฌ๋Ÿ‰์œผ๋กœ ์–ธ์ œ๋“ ์ง€ ์ด ๊ณ„์•ฝ์„ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ๊ฐœ์ •ํ•  ๊ถŒ๋ฆฌ๋ฅผ ๋ณด์œ ํ•ฉ๋‹ˆ๋‹ค.

Evaluation Details

Table 4: CSAT 2025 benchmark์˜ ์„ ํƒ ๊ณผ๋ชฉ๋ณ„ ๊ฐœ๋ณ„ ์ ์ˆ˜์—์„œ EXAONE Deep๊ณผ baseline ๋ชจ๋ธ๋“ค์˜ ๋น„๊ต

๋ชจ๋ธ CSAT 2025 ๋ฏธ์ ๋ถ„ CSAT 2025 ํ†ต๊ณ„ CSAT 2025 ๊ธฐํ•˜ํ•™
EXAONE Deep 32B 95.1 95.0 93.5
QwQ-32B 94.5 95.5 93.3
DeepSeek-R1 (671B) 89.4 90.8 89.6


-->