[Paper Review] EXAONE 3.5: Series of Large Language Models for Real-world Use Cases
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-EXAONE-3.5-Series-of-Large-Language-Models-for-Real-world-Use-Cases
1
AN, Soyoung, et al. EXAONE 3.5: Series of Large Language Models for Real-world Use Cases. arXiv e-prints, 2024, arXiv: 2412.04862.
Abstract
์ด ๊ธฐ์ ๋ณด๊ณ ์๋ LG AI Research์์ ๊ฐ๋ฐํ๊ณ ๊ณต๊ฐํ EXAONE 3.5 instruction-tuned ์ธ์ด ๋ชจ๋ธ๋ค์ ์๊ฐํฉ๋๋ค. EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ์ 32B, 7.8B, 2.4B์ ์ธ ๊ฐ์ง ๊ตฌ์ฑ์ผ๋ก ์ ๊ณต๋ฉ๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ๋ค์๊ณผ ๊ฐ์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ํน์ง์ผ๋ก ํฉ๋๋ค: 1) ์ค์ ์๋๋ฆฌ์ค์์ ํ์ํ instruction following ๋ฅ๋ ฅ์ผ๋ก 7๊ฐ benchmark์์ ์ต๊ณ ์ ์ ๋ฌ์ฑ, 2) ๋ฐ์ด๋ long-context ์ดํด๋ ฅ์ผ๋ก 4๊ฐ benchmark์์ ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ, 3) 9๊ฐ ์ผ๋ฐ benchmark์์ ์ ์ฌํ ํฌ๊ธฐ์ ์ต์ ์คํ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ ๋ฌ์ฑ. EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ์ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๋๊ตฌ๋ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ https://huggingface.co/LGAI-EXAONE ์์ ๋ค์ด๋ก๋ํ ์ ์์ต๋๋ค. ์์ ์ ์ด์ฉ์ ์ํด์๋ LG AI Research์ ๊ณต์ ์ฐ๋ฝ์ฒ๋ก ๋ฌธ์ํ์๊ธฐ ๋ฐ๋๋๋ค: contact_us@lgresearch.ai.
-
์๋ก
78์ต ๋งค๊ฐ๋ณ์๋ฅผ ๊ฐ์ง EXAONE 3.0 instruction-tuned ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ๊ตญ์ด์ ์์ด์์ ๊ฐ๋ ฅํ ์ด์ค์ธ์ด ๋ฅ๋ ฅ๊ณผ ํ์ํ ์ค์ ์ฑ๋ฅ ๋ฐ instruction-following ์๋ จ๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ถ์ ์ดํ, ํ์ ๊ณ์ ์ฐ์ ๊ณ์์ ๋ค์ํ ํผ๋๋ฐฑ์ ๋ฐ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ํ์ ์ฐ๊ตฌ์๋ค์ ๊ณ ์ฑ๋ฅ ์ปดํจํ ์ธํ๋ผ์ ๋ํ ์ ํ์ ์ธ ์ ๊ทผ์ผ๋ก ์ธํด ์ ์ฌ์ GPU์์ ํ๋ จํ๊ณ ๋ฐฐํฌํ ์ ์๋ ๋ ์์ ๋ชจ๋ธ์ ํ์์ฑ์ ๊ฐ์กฐํ์ต๋๋ค. ์ฐ์ ๊ณ์์๋ ๋น์ฉ ํจ์จ์ฑ์ ์ ์งํ๋ฉด์๋ ํฅ์๋ ์ฑ๋ฅ์ ์ ๊ณตํ๋ ๋ ํฐ ๋ชจ๋ธ๊ณผ ๊ธฐ๊ธฐ ๋ด ๋ฐฐํฌ์ ์ ํฉํ ๋ ์์ ๋ชจ๋ธ์ ๋ํ ๊ฐํ ์์๋ฅผ ํํํ์ต๋๋ค. ๋ํ, ์ฐธ์กฐ ๋ฌธ์๋ ์น ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ต๋ณ์ ์์ฑํ๋ retrieval-augmented generation (RAG) ๊ธฐ์ ์ ์ฑํ์ด ์ฆ๊ฐํ๋ฉด์, ๋ ๊ธด context๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ ๋ชจ๋ธ์ ๋ํ ์๋นํ ์์๊ฐ ์์์ต๋๋ค.
์ด ๋ณด๊ณ ์์์๋ ์ฌ์ฉ์์ ๋ค์ํ ์๊ตฌ๋ฅผ ์ถฉ์กฑํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ 24์ต์์ 320์ต ๋งค๊ฐ๋ณ์์ ์ด๋ฅด๋ instruction-tuned ์ธ์ด ๋ชจ๋ธ ์ปฌ๋ ์ ์ธ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์๊ฐํฉ๋๋ค. EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ๋ค์์ ํฌํจํฉ๋๋ค: 1) ์ํ ๋๋ ์์์ด ์ ํ๋ ๊ธฐ๊ธฐ์์์ ๋ฐฐํฌ์ ์ต์ ํ๋ 24์ต ๋ชจ๋ธ, 2) ์ด์ ๋ฒ์ ๊ณผ ํฌ๊ธฐ๋ ๋์ผํ์ง๋ง ํฅ์๋ ์ฑ๋ฅ์ ์ ๊ณตํ๋ 78์ต ๋ชจ๋ธ, 3) ํ์ํ ์ฑ๋ฅ์ ์ ๊ณตํ๋ 320์ต ๋ชจ๋ธ. ๋ชจ๋ ๋ชจ๋ธ์ ์ต๋ 32K ํ ํฐ์ long-context ์ฒ๋ฆฌ๋ฅผ ์ง์ํฉ๋๋ค. ๊ฐ ๋ชจ๋ธ์ ์ค์ ์ฌ์ฉ ์ฌ๋ก์ long-context ์ฒ๋ฆฌ์์ ์ต์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ ์ฌํ ํฌ๊ธฐ์ ์ต๊ทผ ์ถ์๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ผ๋ฐ ๋๋ฉ์ธ์์ ๊ฒฝ์๋ ฅ์ ์ ์งํฉ๋๋ค.
EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ถ์๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ด ์์ฑํ AI์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๊ณ ์ธ๊ฐ์ ์ถ์ ํฅ์์ํค๋ ํ์ ์ ์ธ ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์ ์๊ฐ์ ๋ฐ๊ธฐ๋ฅผ ํฌ๋งํฉ๋๋ค. ์ด๋ LG AI Research์ ์ฌ๋ช ์ธ โ๋ ๋์ ์ถ์ ์ํ AI ๋ฐ์ โ๊ณผ ์ผ์นํฉ๋๋ค.
-
๋ชจ๋ธ ํ๋ จ
์ด ์น์ ์์๋ ๋ชจ๋ธ ๊ตฌ์ฑ์ ๋ํ ์์ธํ ์ ๋ณด์ pre-training ๋ฐ post-training ๋จ๊ณ์์ ์ฌ์ฉ๋ ๋ฐฉ๋ฒ๋ค, ๊ทธ๋ฆฌ๊ณ ๊ฐ ํ๋ จ ๋จ๊ณ๋ณ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ ๊ณผ์ ์ ์ค๋ช ํฉ๋๋ค.
2.1 ๋ชจ๋ธ ๊ตฌ์ฑ
EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ต์ decoder-only Transformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ, ์์ธํ ๊ตฌ์ฑ์ Table 1์ ์ค๋ช ๋์ด ์์ต๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ๊ตฌ์กฐ์ ์ผ๋ก EXAONE 3.0 78์ต ๋ชจ๋ธ๊ณผ ๋์ผํ์ง๋ง ์ฃผ๋ก ํฌ๊ธฐ ๊ด๋ จ ๊ตฌ์ฑ์์ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ์ฃผ๋ชฉํ ์ ์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ด long-context fine-tuning์ ์ฑํํ์ฌ ์ต๋ context ๊ธธ์ด๋ฅผ EXAONE 3.0์ 4,096 ํ ํฐ์์ 32,768 ํ ํฐ์ผ๋ก ํ์ฅํ๋ค๋ ๊ฒ์ ๋๋ค. ์ธ ๋ชจ๋ธ ๋ชจ๋ ๋๋ต 50% ํ๊ตญ์ด์ 50% ์์ด๋ก ๊ตฌ์ฑ๋ ๋์ผํ ์ดํ๋ฅผ ๊ณต์ ํฉ๋๋ค.
Table 1: EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ๊ตฌ์ฑ
๋ชจ๋ธ ํฌ๊ธฐ | 32B | 7.8B | 2.4B |
---|---|---|---|
d_model | 5,120 | 4,096 | 2,560 |
๋ ์ด์ด ์ | 64 | 32 | 30 |
Pre-normalization | True | True | True |
Non-linearity | SwiGLU | SwiGLU | SwiGLU |
Feedforward dimension | 27,392 | 14,336 | 7,168 |
Head type | GQA | GQA | GQA |
Head ์ | 40 | 32 | 32 |
KV head ์ | 8 | 8 | 8 |
Head ํฌ๊ธฐ | 128 | 128 | 80 |
์ต๋ ์ํ์ค ๊ธธ์ด | 32,768 | 32,768 | 32,768 |
RoPE theta | 1,000,000 | 1,000,000 | 1,000,000 |
Tokenizer | BBPE | BBPE | BBPE |
์ดํ ํฌ๊ธฐ | 102,400 | 102,400 | 102,400 |
Tied word embedding | False | False | True |
2.2 Pre-training
Pre-training ์ฝํผ์ค ๋ฐ์ดํฐ์ ์๊ณผ ๊ณ์ฐ ์์์ Table 2์ ํ์๋์ด ์์ต๋๋ค. ๋ฐ์ดํฐ ๊ตฌ์ฑ๊ณผ ๋ชจ๋ธ ํ๋ จ ์ ๊ทผ๋ฒ์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: 1) ์ผ๋ฐ ๋๋ฉ์ธ์์์ ์ฑ๋ฅ ํฅ์์ ๋ชฉํ๋ก ๊ฐ๋ฅํ ํ ๋ค์ํ ์์ค์์ ์์งํ๊ณ ์ฒ๋ฆฌ๋ ๋๊ท๋ชจ ํ๋ จ ์ฝํผ์ค๋ฅผ ๊ธฐ๋ฐ์ผ๋ก 1๋จ๊ณ pre-training์ ์ํํฉ๋๋ค. ๊ทธ ํ, 2) ํ๊ฐ๋ฅผ ํตํด ๊ฐํ๊ฐ ํ์ํ ๋๋ฉ์ธ์ ๋ํด ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ 2๋จ๊ณ pre-training์ ์ํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, 2๋จ๊ณ์์๋ long-context ์ดํด ๋ฅ๋ ฅ ํฅ์์ ์ค์ ์ ๋ก๋๋ค.
Table 2: EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ ๊ตฌ์ถ์ ์ํ ํ๋ จ ๋ฐ์ดํฐ ์ฝํผ์ค ํฌ๊ธฐ ๋ฐ ๊ณ์ฐ๋
๋ชจ๋ธ ํฌ๊ธฐ | 32B | 7.8B | 2.4B |
---|---|---|---|
ํ๋ จ ํ ํฐ | 6.5T | 9T | 6.5T |
๊ณ์ฐ๋ (FLOPs) | 1.25 ร 10ยฒโด | 4.21 ร 10ยฒยณ | 9.36 ร 10ยฒยฒ |
2.2.1 Context ๊ธธ์ด ํ์ฅ
Context ๊ธธ์ด๋ฅผ ํ์ฅํ๊ธฐ ์ํด long-context fine-tuning ๊ธฐ์ ์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ธ์ด 1๋จ๊ณ pre-training์์ ํ์ตํ ๋ด์ฉ์ ์์ด๋ฒ๋ฆฌ๋ catastrophic forgetting ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด replay-based ๋ฐฉ๋ฒ์ ์ ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, 2๋จ๊ณ pre-training ์ค์๋ 1๋จ๊ณ์์ ์ฌ์ฉ๋ ๋ฐ์ดํฐ์ ์ผ๋ถ๋ฅผ ์ฌ์ฌ์ฉํฉ๋๋ค. ์ต๋ context ๊ธธ์ด๋ฅผ ์ด๊ณผํ๋ ๋ฌธ์๋ค์ด 1๋จ๊ณ์์๋ ๋ ์์ ์ฒญํฌ๋ก ๋ถํ ๋์์ง๋ง, 2๋จ๊ณ์์๋ ๋ชจ๋ธ์ context ๊ธธ์ด๋ฅผ ํ์ฅํ๊ธฐ ์ํด ์๋ณธ ์ฝํผ์ค๋ฅผ ์ฒญํฌ๋ก ๋๋์ง ์๊ณ ํ๋ จํฉ๋๋ค.
2.2.2 Decontamination
๋๊ท๋ชจ ์น ํฌ๋กค๋ง ์ฝํผ์ค์ ํน์ฑ์, test-set ์์ ๋ค์ด ์ข ์ข ํ๋ จ ์ฝํผ์ค์ ๋ํ๋ฉ๋๋ค. ์ด๋ฌํ ์ค์ผ๋ ์์ ๋ค์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํด์น๊ณ ํ ์คํธ ๋ฉํธ๋ฆญ์ ํผ๋์ค๋ฝ๊ฒ ํ์ฌ ์ฌ์ฉ์์๊ฒ ๋ถ๊ณต์ ํ ํ๊ฐ๋ฅผ ์ ์ํ ๊ฐ๋ฅ์ฑ์ด ์์ต๋๋ค. ์ค์ผ๋ ์์ ๋ค์ด EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ ํดํ๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๋ชจ๋ ๋์ benchmark ํ ์คํธ ๋ฐ์ดํฐ์ ๋ํด ์๊ฒฉํ decontamination ๊ณผ์ ์ ์ ์ฉํ๊ณ ํ๋ จ ํ์ดํ๋ผ์ธ์์ ์ค์ผ๋ ์์ ๋ค์ ์ ๊ฑฐํ์ต๋๋ค.
๋ ์๊ฒฉํ ๊ธฐ์ค์ ์ ์ฉํ ๊ฐ๋จํ์ง๋ง ๊ฐ๋ ฅํ substring-level matching ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ์ ์ฒด decontamination ๊ณผ์ ์ Appendix C์ Figure 4์ ์ค๋ช ๋์ด ์์ต๋๋ค. ๋จผ์ ์ํ๋ฒณ๊ณผ ์ซ์๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ค๋ฅธ ๋ฌธ์๋ฅผ ์ ๊ฑฐํ์ฌ ๋ชจ๋ test-set ์์ ๋ค์ ์ ๊ทํํ ๋ค์, sliding window ํฌ๊ธฐ S = 50๊ณผ stride 1์ ์ฌ์ฉํ์ฌ ๋ชจ๋ ๊ณ ์ ํ substring์ ์ถ์ถํฉ๋๋ค. ํ๋ จ ์์ ๊ฐ ์ค์ผ๋์๋์ง ํ๋จํ๊ธฐ ์ํด, ์ ๊ทํ๋ ํ๋ จ ์์ ์์ N = 10๊ฐ์ substring์ ๋ฌด์์๋ก ์ํ๋งํ์ฌ substring pool์ ์กด์ฌํ๋์ง ํ์ธํฉ๋๋ค.
2.2.3 ํ๋ จ ๋น์ฉ
๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ pre-training ๊ณ์ฐ ๋น์ฉ์ ๊ณ ๋ คํ ๋, ์ ํ๋ ์์์ผ๋ก ๊ฐ๋ฅํ ํ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ ํ๋ จ์ ํจ์จ์ ์ผ๋ก ๋ง๋๋ ๊ฒ์ด ํ์ํฉ๋๋ค. Table 3์ EXAONE 3.5 32B ์ธ์ด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ํฌ๊ธฐ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค ๊ฐ์ pre-training์ ํ์ํ ์ด ๊ณ์ฐ๋์ ๋น๊ตํฉ๋๋ค. ์ด ๊ณ์ฐ๋์ ๋ชจ๋ธ ํฌ๊ธฐ์ ํ๋ จ ํ ํฐ ์์ ๊ณฑ์ผ๋ก ๋จ์ ๊ทผ์ฌํ ๋, ์๋ฅผ ๋ค์ด Qwen 2.5 32B๋ EXAONE 3.5 32B๋ณด๋ค 2.77๋ฐฐ ๋ง์ ๊ณ์ฐ์ด ํ์ํฉ๋๋ค. EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฃผ๋ชฉํ ๋งํ ํน์ง ์ค ํ๋๋ ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ฎ์ ๋น์ฉ์ผ๋ก ํ๋ จ๋์์์๋ ๋ถ๊ตฌํ๊ณ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค๋ ๊ฒ์ ๋๋ค(Section 3 ์ฐธ์กฐ).
Table 3: ๋ชจ๋ธ ๊ตฌ์ถ์ ์ํ ์ด ๊ณ์ฐ๋ ๋น๊ต
๋ชจ๋ธ | ๋ชจ๋ธ ํฌ๊ธฐ | ํ๋ จ ํ ํฐ | ๊ณ์ฐ๋ (๋น์จ) |
---|---|---|---|
EXAONE 3.5 | 32B | 6.5T | 1.00 |
Qwen 2.5 | 32B | 18T | 2.77 |
Gemma 2 | 27B | 13T | 1.69 |
Yi 1.5 | 34B | 3.6T | 0.59 |
2.3 Post-training
Pre-training ์ดํ, ๋ชจ๋ธ๋ค์ instruction-following ๋ฅ๋ ฅ์ ๊ฐํํ๊ณ ์ธ๊ฐ์ ์ ํธ๋์ ์ผ์น์ํค๊ธฐ ์ํ ์ถ๊ฐ ๊ณผ์ ์ ๊ฑฐ์น๋ฉฐ, ์ด๋ supervised fine-tuning (SFT)๊ณผ preference optimization์ผ๋ก ์ ์๋ ค์ ธ ์์ต๋๋ค.
2.3.1 Supervised Fine-tuning
์๋กญ๊ฑฐ๋ ๋ณด์ง ๋ชปํ instruction์์ ์ ์ํํ๊ธฐ ์ํด, ๋ชจ๋ธ์ ๋ค์ํ ๋๋ฉ์ธ์์ ๋ค์ํ ๋์ด๋์ instruction-response ๋ฐ์ดํฐ์ ์์ผ๋ก ํ๋ จ๋์ด์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ ๊ด๋ฒ์ํ ๋ถ์ผ๋ฅผ ๋ค๋ฃจ๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๊ธฐ ์ํด, Figure 1์ ํ์๋ ๋ฐ์ ๊ฐ์ด ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ฌ์ฉํ์ฌ 800๋ง ์น ์ฝํผ์ค์์ ํต์ฌ ์ง์์ ์ถ์ถํ์ต๋๋ค. ๊ทธ ๋ค์ ์ถ์ถ๋ ์ง์ ๋ถ๋ฅ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก instruction-tuning ๋ฐ์ดํฐ์ ์ ์์ฑํ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก, instruction evolution ๋ฐฉ๋ฒ์ ํ์ฉํ์ฌ ๋ค์ํ ๋ณต์ก์ฑ๊ณผ ๋์ด๋๋ฅผ ๊ฐ์ง instruction๋ค์ด ์์ฑ๋ ์ ์๋๋ก ๋ณต์ก์ฑ ์์ค์ ๋ค์ํํ์ต๋๋ค.
2.3.2 Preference Optimization
DPO์ SimPO์ ๊ฐ์ Direct alignment algorithms (DAAs)๋ฅผ ์ฌ์ฉํ์ฌ supervised fine-tuning ํ ๋ชจ๋ธ์ ํ๋ จ์์ผ ์ธ๊ฐ์ ์ ํธ๋์ ์ผ์น์ํต๋๋ค. ํฉ์ฑ ๋ฐ์ดํฐ์ ์ฌ์ ์์ง๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จ์ ์ํ preference ๋ฐ์ดํฐ๋ฅผ ์์ฑํฉ๋๋ค. ์๋ต ์์ฑ์ ์ํด, preference ๋ฐ์ดํฐ์์ ๊ฐ์ ธ์จ ํ๋กฌํํธ x์ ๋ํด ์ฌ๋ฌ ๋ชจ๋ธ์์ N๊ฐ์ ์๋ต์ ์ํ๋งํ๊ณ reward ๋ชจ๋ธ์ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต๊ณ ์๋ต์ yw๋ก, ์ต์ ์๋ต์ yl๋ก ์ ํํ์ฌ preference ๋ฐ์ดํฐ {x, yw, yl}๋ฅผ ์์ฑํฉ๋๋ค. Preference ๋ฐ์ดํฐ๋ฅผ ๊ฒ์ฆํ๊ธฐ ์ํด, ์ถ๊ฐ reward ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ reward ๋ชจ๋ธ์ ์์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ผ์น๋๋ฅผ ๊ณ์ฐํ๊ณ ์๊ณ๊ฐ ์ดํ์ ์ผ์น๋๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํฉ๋๋ค. ์ฐ๋ฆฌ์ preference optimization์ M0๊ฐ SFT ๋ชจ๋ธ์์ ์ด๊ธฐํ๋๋ ์ฌ๋ฌ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋์ด DAAs๋ฅผ ํตํด ๋ชจ๋ธ M1๊ณผ M2๋ฅผ ์์ฐจ์ ์ผ๋ก ํ๋ จํฉ๋๋ค. ์ด๋ฌํ ๋จ๊ณ๋ณ ํ์ดํ๋ผ์ธ์ ํตํด DAAs ํ๋ จ ๊ณผ์ ์ค ๋ฐ์ํ ์ ์๋ over-optimization์ ์ํํ ์ ์์ต๋๋ค.
2.4 ๋ฐ์ดํฐ ์ปดํ๋ผ์ด์ธ์ค
AI ๋ชจ๋ธ ๊ฐ๋ฐ์๋ ๋๋์ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ฉฐ, ์ด ๋ฐ์ดํฐ์ ํ๋๊ณผ ํ์ฉ์ ์ ์๊ถ ์นจํด, ์ง์ ์ฌ์ฐ๊ถ ์นจํด, ๊ฐ์ธ์ ๋ณด ๋ณดํธ ์๋ฐ ๋ฑ ๋ค์ํ ๋ฒ์ ๋ฌธ์ ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. ์ด๋ฌํ ์ํ์ ์ต์ํํ๊ธฐ ์ํด, LG AI Research๋ ๋ฐ์ดํฐ ์์ง, AI ๋ชจ๋ธ ํ๋ จ, ์ ๋ณด ์ ๊ณต์ ์ ์ฒด ๊ณผ์ ์ ๊ฑธ์ณ AI Compliance ๊ฒํ ๋ฅผ ์ํํฉ๋๋ค. ๋ ์์ธํ ์ ๋ณด๋ EXAONE 3.0 ๊ธฐ์ ๋ณด๊ณ ์์ LG AI ์ค๋ฆฌ ์์น์ ์ฐธ์กฐํ์๊ธฐ ๋ฐ๋๋๋ค.
-
ํ๊ฐ
์ด ์น์ ์์๋ ๋ค์ํ benchmark ๋ฐ์ดํฐ์ ์์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ํ๊ฐ ์ค์ ๊ณผ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํฉ๋๋ค. ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ benchmark ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด ์ต๊ทผ ์ถ์๋ ์คํ ์ธ์ด ๋ชจ๋ธ๋ค์ ๋ฒ ์ด์ค๋ผ์ธ์ผ๋ก ์ ํํ์ต๋๋ค. ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๊ทธ๋ค์ ์์ธํ ์ ๋ณด๋ Appendix D.1์ ์ค๋ช ๋์ด ์์ต๋๋ค.
3.1 Benchmarks
์ฌ์ฉ์ ์๋์ ๋ค์ํ ํน์ฑ์ ๊ณ ๋ คํ ๋, instruction-tuned ๋ชจ๋ธ์ด ๋ฌด์์ด๋ ์ฌ์ฉ์์ ์ฟผ๋ฆฌ์ ๋ง์ถฐ ์๋ต์ ์์ฑํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ํฌ๊ด์ ์ด๊ณ ๋ค์ํ ์๋๋ฆฌ์ค์์ ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ ํ๊ฐํ๊ธฐ ์ํด, ๋ช ๊ฐ์ง ์์ฒด benchmark์ ํจ๊ป 12๊ฐ ์ด์์ ํ๊ฐ benchmark๋ฅผ ์ ํํ์ต๋๋ค. Table 4๋ ์ธ ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ทธ๋ฃนํํ ์ ์๋ ๋ชจ๋ benchmark๋ฅผ ์์ฝํฉ๋๋ค:
โข ์ค์ ์ฌ์ฉ ์ฌ๋ก (Section 3.3): ๋ค์ํ ์ฌ์ฉ์ instruction์ ์ดํดํ๊ณ ์ํํ๋ ๋ฅ๋ ฅ์ด ํ์ํ benchmark๋ค
โข Long Context (Section 3.4): long context๋ฅผ ์ดํดํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ benchmark๋ค
โข ์ผ๋ฐ ๋๋ฉ์ธ (Section 3.5): LLM๋ค์ด ๊ฐ์ ธ์ผ ํ ์ผ๋ฐ ๋๋ฉ์ธ ๋ฅ๋ ฅ์ ํฌ๊ดํ๋ benchmark๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ด ์นดํ
๊ณ ๋ฆฌ๋ ์ํ ๋ฌธ์ ๋ฅผ ํธ๋ ๋ฅ๋ ฅ, ์์ค ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ, LLM์ ๋ด์ฅ๋ parametric knowledge๋ฅผ ์ธก์ ํ๋ benchmark๋ค์ ํฌํจํฉ๋๋ค.
3.2 ์ ์ฒด ์ฑ๋ฅ
์ธ ์นดํ ๊ณ ๋ฆฌ์ ๋ํ ์ ์ฒด ์ฑ๋ฅ ๊ฒฐ๊ณผ๊ฐ Table 5์ ์ ์๋์ด ์์ต๋๋ค. 32B์ 78์ต ํฌ๊ธฐ์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ฌ ์ค์ ์ฌ์ฉ ์ฌ๋ก์ Long Context ์นดํ ๊ณ ๋ฆฌ์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์ผ๋ฐ ๋๋ฉ์ธ ์นดํ ๊ณ ๋ฆฌ์์๋ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ฐ์ฅ ์์ ๋ชจ๋ธ์ธ EXAONE 3.5 24์ต์ ์ธ ์นดํ ๊ณ ๋ฆฌ ๋ชจ๋์์ ์ ์ฌํ ํฌ๊ธฐ์ ๋ฒ ์ด์ค๋ผ์ธ๋ค์ ๋ฅ๊ฐํ์ฌ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋๋๊ฒ๋, 24์ต ๋ชจ๋ธ์ ์์ ํฌ๊ธฐ์๋ ๋ถ๊ตฌํ๊ณ ์ผ๋ฐ ๋๋ฉ์ธ์์ Qwen 2.5 7B๋ฅผ ์ ์ธํ๊ณ ๋ ๋ ํฐ ํฌ๊ธฐ(<90์ต)์ ๋ฒ ์ด์ค๋ผ์ธ๋ค๊ณผ ๋น๊ตํด๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ต๊ทผ smaller large language models (sLLM)์ ๋ํ ์์ ์ฆ๊ฐ๋ฅผ ๊ณ ๋ คํ ๋, EXAONE 3.5 24์ต ๋ชจ๋ธ์ด ํ์ ์ ๋ฐ ์ฐ์ ์ ์ฌ์ฉ์์ ๋์ ๊ฒฝ์๋ ฅ์ ๊ฐ์ถ ์ ์๋ค๊ณ ๋ฏฟ์ต๋๋ค.
3.3 ์ค์ ์ฌ์ฉ ์ฌ๋ก
์ค์ ์ฌ์ฉ ์ฌ๋ก ์นดํ ๊ณ ๋ฆฌ์ ๊ฒฝ์ฐ, ์ฌ์ฉ์๊ฐ ์ฑ๋ด ๋ชจ๋ธ์ ์ ์ถํ ์ ์๋ ์ค์ ์ฟผ๋ฆฌ๋ฅผ ๋ํ๋ด๋ 7๊ฐ์ benchmark๋ฅผ ์ปดํ์ผํ์ต๋๋ค. MT-BENCH, KOMT-BENCH, LOGICKOR์์๋ multi-turn์ผ๋ก ๊ตฌ์ฑ๋ ๋ชจ๋ธ์ ์๋ต์ด judge ๋ชจ๋ธ์ ์ํด ํ๊ฐ๋ฉ๋๋ค. ARENA-HARD์ ALPACAEVAL์ ๊ฒฝ์ฐ, ๋์ ์ธ์ด ๋ชจ๋ธ์ ์๋ต์ด ์ฐธ์กฐ ๋ชจ๋ธ(๊ฐ๊ฐ gpt-4-0314์ gpt-4-1106-preview)์ ์๋ต๊ณผ judge ๋ชจ๋ธ์ ์ํด ๋น๊ต๋์ด ์น๋ฅ ์ ๊ธฐ๋กํฉ๋๋ค. LIVEBENCH (ver. 2024-08-31)์ IFEVAL (prompt-strict)๋ ๋ชจ๋ธ์ ์๋ต์ด ground-truth ์๋ต๊ณผ ์ผ์น์์ผ ์ฌ์ฉ์ instruction์ ์ผ๋ง๋ ์ ๋ถํฉํ๋์ง ํ๊ฐํฉ๋๋ค.
Table 6์ ์ ์๋ ๋ฐ์ ๊ฐ์ด, ์ฐ๋ฆฌ์ ์ธ ๋ชจ๋ธ์ 32B ๋ชจ๋ธ์ LIVEBENCH๋ฅผ ์ ์ธํ๊ณ ๋ ์ ์ฌํ ํฌ๊ธฐ์ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ์์ ๋ชจ๋ benchmark์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ํ, ์์ด์ ํ๊ตญ์ด benchmark ๋ชจ๋์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํจ์ผ๋ก์จ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ๋ฐ์ด๋ ์ด์ค์ธ์ด ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค.
3.4 Long Context
Long context๋ฅผ ์ฒ๋ฆฌํ๊ณ ์ดํดํ๋ ๋ฅ๋ ฅ์ ๋ ๋ณต์กํ ์๋๋ฆฌ์ค์์์ ํ์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฏ๋ก ํ๋ LLM๋ค์๊ฒ ์ ์ ์ค์ํด์ง๊ณ ์์ต๋๋ค. EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ long context ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด, long context ์ ๋ ฅ์ ์ํ ํฉ์ฑ ์์ ์ ์ํด ์ค๊ณ๋ benchmark์ ํจ๊ป ๋ค์ํ retrieval-augmented generation (RAG) benchmark๋ค์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ค์ ํ๊ฐํฉ๋๋ค.
3.4.1 Needle-in-a-Haystack
Needle-in-a-Haystack (NIAH)๋ ๋ชจ๋ธ์ด ๊ธด ๋ฌธ์ ๋ด์ ๋ฌด์์ ์์น์ ์จ๊ฒจ์ง ์ ๋ณด๋ฅผ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ์ฐพ๊ณ ๊ฒ์ํ ์ ์๋์ง ํ๊ฐํ๋ benchmark ์ญํ ์ ํฉ๋๋ค. 32K ํ ํฐ๊น์ง long context์์ ์ ๋ณด๋ฅผ ์ฒ๋ฆฌํ๊ณ ๊ฒ์ํ๋ ๋ชจ๋ธ๋ค์ ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ์ต๋๋ค. ๋ํ, NIAH๋ฅผ ํ๊ตญ์ด๋ก ํ์ฅํ์ฌ ์์ด์ ํ๊ตญ์ด context ๋ชจ๋์์ ๋ชจ๋ธ๋ค์ long context ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ ํ์ฉํ์ต๋๋ค.
Figure 3์ ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ด ์์ด์ ํ๊ตญ์ด ๋ชจ๋์์ ํ ์คํธ๋ ๋ชจ๋ ๋ฌธ์ ๊น์ด์ context ๊ธธ์ด์์ ๋์ ์ ๋ณด ๊ฒ์์ ๊ฑฐ์ ์๋ฒฝํ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ ํนํ ์ ํํ ์ ๋ณด ๊ฒ์๊ณผ ๋ณต์กํ ์ถ๋ก ์ ์๊ตฌํ๋ ์์ ์์ ๊ฐ๋ ฅํ long context ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ๊ฐ์กฐํฉ๋๋ค.
3.4.2 Long Context Understanding
Long context ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด, LONGBENCH์ LONGRAG๋ฅผ ํฌํจํ benchmark๋ค์ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ๋ค์ ํ๊ฐํ์ต๋๋ค. LongRAG์์ unanswerable case๋ฅผ ํ์ฅํ์ฌ ๋ ๋์ ์ ์ผ๋ก ๋ง๋ค์์ต๋๋ค. ๋ํ ํ๊ตญ์ด์์์ long context ์ดํด๋ฅผ ํ๊ฐํ๊ธฐ ์ํด LONGRAG์ ํ๊ตญ์ด ๋ฒ์ ์ธ KO-LONGRAG๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. ์ค์ ์น ๊ฒ์ ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ ค์ด ์ง๋ฌธ์ ๋ต๋ณํด์ผ ํ๋ ๋ ํ์ค์ ์ธ RAG ์๋๋ฆฌ์ค๋ฅผ ์ํด KO-WEBRAG benchmark๋ฅผ ๊ตฌ์ถํ์ต๋๋ค.
Table 7์ ํ์๋ ๋ฐ์ ๊ฐ์ด, EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ 32B์ 78์ต ๋ชจ๋ธ์ LongBench๋ฅผ ์ ์ธํ๊ณ ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. benchmark ์ ์ฒด์ ํ๊ท ์์ ์ฐ๋ฆฌ์ ์ธ ๋ชจ๋ธ์ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฅ๊ฐํ์ฌ, ๋ณต์กํ๊ณ ํ์ฅ๋ context๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋ฅ๋ ฅ์ ํ์ธํ์ต๋๋ค.
3.5 ์ผ๋ฐ ๋๋ฉ์ธ
์ธ์ด ๋ชจ๋ธ๋ค์ ์ด์ ์ํ ๋ฌธ์ ํด๊ฒฐ์ด๋ ์์ค ์ฝ๋ ํ๋ก๊ทธ๋จ ์์ฑ๊ณผ ๊ฐ์ ๋ค์ํ ์ผ๋ฐ ๋๋ฉ์ธ์์ ์ธ๊ฐ ์์ค์ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ๋ ๊ฒ์ด ๊ธฐ๋๋ฉ๋๋ค. ์ผ๋ฐ ๋๋ฉ์ธ์์์ ์ ์ฒด ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด, ์ธ ๊ฐ์ง ์ฃผ์ ๋๋ฉ์ธ์์ 9๊ฐ์ benchmark๋ฅผ ์ ํํ์ต๋๋ค: 1) ์ํ์ ์ํ GSM8K (CoT)์ MATH (CoT), 2) ์ฝ๋ฉ์ ์ํ HUMANEVAL (Evalplus base)์ MBPP (Evalplus base), 3) LLM์ ๋ด์ฅ๋ ์ง์๋์ ํ๊ฐํ๊ธฐ ์ํ MMLU (CoT), KMMLU (CoT), GPQA (CoT), ARC-C, BBH (CoT).
์ฑ๋ด ๋ชจ๋ธ์ด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ์๋ก๋ถํฐ ๋จ์ผ ์ฟผ๋ฆฌ๋ฅผ ๋ฐ๋ ์ค์ ์๋๋ฆฌ์ค๋ฅผ ๋ ์ ์๋ฎฌ๋ ์ด์ ํ๊ธฐ ์ํด, ์ผ๋ฐ ๋๋ฉ์ธ ์นดํ ๊ณ ๋ฆฌ์ ๋ชจ๋ benchmark๋ฅผ 0-shot ์ค์ ์ ์ฌ์ฉํ์ฌ ํ๊ฐํ์ต๋๋ค. ์ด๋ฅผ ์ํด ํน์ ๋ต๋ณ ํ์์ ์๊ตฌํ๋ instruction์ผ๋ก ์ธ์ด ๋ชจ๋ธ๋ค์ ํ๋กฌํํธ๋ฅผ ์ ๊ณตํ๊ณ ์๋ต์์ ์ต์ข ๋ต๋ณ์ ํ์ฑํ์ต๋๋ค. ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด, ๋ชจ๋ ๋ชจ๋ธ์์ ๋์ผํ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
Table 8์ ์ผ๋ฐ ๋๋ฉ์ธ ์นดํ ๊ณ ๋ฆฌ์ benchmark๋ค์์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค๊ณผ ๋ฒ ์ด์ค๋ผ์ธ ๋ชจ๋ธ๋ค์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. benchmark ์ ์ฒด์ ํ๊ท ์์, 32B์ 78์ต ํฌ๊ธฐ์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ ์ฌํ ํฌ๊ธฐ์ ๋ฒ ์ด์ค๋ผ์ธ๋ค๊ณผ ๋น๊ตํ์ฌ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. ๋ฐ๋ฉด, EXAONE 3.5 24์ต ๋ชจ๋ธ์ ํ๊ท ์ ์์์ ๋ชจ๋ ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฅ๊ฐํ์ต๋๋ค.
-
์ฑ ์๊ฐ ์๋ AI
EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ๊ด๋ฒ์ํ ์ฌ์ฉ์๋ค์๊ฒ ์ ๊ณต๋ ๊ฒ์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ๋ฐ์ดํฐ ๊ฑฐ๋ฒ๋์ค, ์ค๋ฆฌ์ ๊ณ ๋ ค์ฌํญ, ์ํ ๊ด๋ฆฌ๋ฅผ ํฌ๊ดํ๋ ์ฑ ์๊ฐ ์๋ AI ๊ฐ๋ฐ ํ๋ ์์ํฌ์ ๋ฐ๋ผ ๊ฐ๋ฐ๋์์ต๋๋ค. ์คํ ๋ชจ๋ธ์ ํน์ฑ์ ๊ฒฐ๊ตญ ๋ค์ํ ๋๋ฉ์ธ์์ ๊ด๋ฒ์ํ๊ฒ ์ฌ์ฉ๋ ๊ฒ์ด๋ฏ๋ก, LG AI ์ค๋ฆฌ ์์น์์ ์๊ตฌํ๋ ์ธ๊ฐ์ฑ, ๊ณต์ ์ฑ, ์์ ์ฑ, ์ฑ ์์ฑ, ํฌ๋ช ์ฑ์ ๋ณด์ฅํ๋ฉด์ ์ฌํ์ ์ด์ต์ ์ต๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
4.1 ์ด์ต
EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ AI ์ฐ๊ตฌ ๋ฐ์ ์ ๋ชฉํ๋ก ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๊ฐ๋ฐฉ๋์ด ์์ต๋๋ค. EXAONE 3.0 78์ต ๋ชจ๋ธ ์ถ์ ์ดํ ๋ฐ์ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก, ์ด์ 24์ต, 78์ต, 320์ต์ ๋ ๋ค์ํ ํฌ๊ธฐ์ ๋ชจ๋ธ์ ์ ๊ณตํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฐ๊ตฌ์๋ค์ด ์ฐ๊ตฌ ๋ชฉ์ ๊ณผ ์ปดํจํ ํ๊ฒฝ์ ์ต์ ํ๋ ๋ชจ๋ธ์ ์ ํํ ์ ์๊ฒ ๋ฉ๋๋ค. ์ด๋ฌํ ์ ์ฐ์ฑ์ด ๊ธฐ์ด ์ฐ๊ตฌ๋ถํฐ ๋๋ฉ์ธ ํนํ ์ ํ๋ฆฌ์ผ์ด์ ๊น์ง ๊ด๋ฒ์ํ ์คํํธ๋ผ์ ์ง์ํ๊ธฐ๋ฅผ ํฌ๋งํฉ๋๋ค. ๋ํ ์ด์ ๋ฒ์ ๋ณด๋ค ์๋นํ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋ฐ์ผ๋ก ์์ฑํ AI์ ๋ฐ์ ์ ๊ธ์ ์ ์ผ๋ก ๊ธฐ์ฌํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.
์ถ์์ ์ ๋ขฐ์ฑ์ ๋ณด์ฅํ๊ธฐ ์ํด, ๊ณ ํ์ง ๋ฐ์ดํฐ๋ฅผ ๋ณด์ฅํ๋ ํ์คํ๋ ๋ฐ์ดํฐ ์ปดํ๋ผ์ด์ธ์ค ํ๋กํ ์ฝ์ ๊ตฌํํ์ต๋๋ค. ์ด๋ฌํ ํ์คํ๋ ์ ๊ทผ๋ฒ์ ์ฐ๊ตฌ์๋ค์ด ํฅํ ๋ค์ํ ์ฐ๊ตฌ ๋ถ์ผ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ ์ ์๋ ์ ๋ขฐํ ์ ์๋ ๊ธฐ๋ฐ์ ์ ๊ณตํฉ๋๋ค.
์ธ๋ถ ์ฌ์ฉ์๋ค์ด ๋ค์ํ ๋๋ฉ์ธ์์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ํ์ฉํ ์ ์์ง๋ง, ๊ตฌ์ฒด์ ์ธ ์ฌ์ฉ์ ์๊ตฌ๋ฅผ ์ ํํ ์๋ณํ๋ ๊ฒ์ ์ด๋ ค์ ์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ด๋ฒ์ํ ๋๋ฉ์ธ์์์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๋ํ ๊ด๋ฒ์ํ ๊ฒํ ๋ฅผ ์ํํ์ต๋๋ค. ๋ํ, ๋น์ฆ๋์ค ๋ฐ ์ฐ๊ตฌ ํ์ ํฌํจํ LG ๊ณ์ด์ฌ๋ค๊ณผ ๊ธด๋ฐํ ํ๋ ฅํ์ฌ ํน์ ์ฌ์ฉ์ ์๊ตฌ์ฌํญ์ ๋ ์ ๋ง์ถ์์ต๋๋ค.
4.2 ์ํ๊ณผ ์ํ
์คํ ๋ชจ๋ธ์ AI ์ปค๋ฎค๋ํฐ์ ๊ธ์ ์ ์ผ๋ก ๊ธฐ์ฌํ ์ ์์ง๋ง, ์ฑ ์๊ฐ ์๋ ์ฌ์ฉ์ ๋ณด์ฅํ๋ ๋ฐ ์ด๋ ค์์ด ์์ต๋๋ค. ์ฌํ์ ์ผ๋ก ์์ธ๋ ์ง๋จ์ ๋ํ ์๋ํ์ง ์์ ๋ถํ๋ฑ๊ณผ ์ฐจ๋ณ, ์ ํดํ ์ฝํ ์ธ ์์ฑ, ์ฌ์ฉ์์ ์ ์์ ์ค์ฉ๊ณผ ๊ฐ์ ์ ์ฌ์ ์ํ์ ์๋ณํ๊ธฐ ์ํด AI ์ค๋ฆฌ ์ํฅ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค. ์ด ํ๊ฐ๋ฅผ ํตํด ์๋ณ๋ ์ ์ฌ์ ์ํ์ ์ํํ๊ธฐ ์ํด ๋ค์ํ ์ ์ฑ ๊ณผ ์ฐ๊ตฌ ์ด๋์ ํฐ๋ธ๋ฅผ ์ฑํํ์ต๋๋ค.
์ฒซ์งธ, ๋ฐ์ดํฐ ์ธก๋ฉด์์๋ ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๋ณด์์ ๊ฐํํ๊ธฐ ์ํด ๋ชจ๋ ํ๋ณด ๋ฐ์ดํฐ์ ์ ๋ํ ๋ฒ์ ์ํ ํ๊ฐ๋ฅผ ์ค์ํ์ต๋๋ค. ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๊ฐ ๋ฐ์ดํฐ์ ์ ํ๋ จ ์ ํฉ์ฑ์ ๊ฒฐ์ ํ๊ณ ์ ๊ฒฉํ ๋ฐ์ดํฐ์ ์์ ๋ฏผ๊ฐํ ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๋ ๋น์๋ณํ ๊ณผ์ ์ ์ํํ์ต๋๋ค. ํ๋ จ ๋ฐ์ดํฐ์ ํธํฅ์ ์ต์ํํ๊ณ ๋ฐ์ดํฐ ํ์ง์ ๋ณด์ฅํ๊ธฐ ์ํด, ๋ชจ๋ ์ ์ฒ๋ฆฌ ๋จ๊ณ๋ฅผ ๋ฌธ์ํํ๊ณ ํ์คํ๋ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋กํ ์ฝ์ ์ฑํํ์ต๋๋ค. ๋ชจ๋ ๋ฐ์ดํฐ์ ๋ํ์ฑ์ ๊ฒ์ฆํ๋ ์ค์ง์ ์ธ ์ด๋ ค์์ ๊ณ ๋ คํ์ฌ, ์๊ท๋ชจ ๋ฐ์ดํฐ ์ํ์ ๋ํ ์ ์ฑ์ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค. ์ ๋์ ํ๊ฐ๋ฅผ ์ํด์๋ ๋ชจ๋ธ ํ๋ จ ์๋ฃ ํ ์ฑ๋ฅ ํ๊ฐ๋ฅผ ํตํด ๋ฐ์ดํฐ ๋ถ๋ถ์งํฉ์ ๊ฒ์ฆํ์ฌ ๋ฐ์ดํฐ ๊ด๋ จ ์ํ์ ์ต์ํํ๋ ค๊ณ ๋ ธ๋ ฅํ์ต๋๋ค. ๋ํ, ๋ชจ๋ธ ๊ฐ๋ฐ์ ์ฌ์ฉ๋ ์คํ์์ค ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค์ ์ ์คํ ๊ฒํ ํ์ต๋๋ค.
AI ์ค๋ฆฌ์ ๊ณ ๋ ค์ฌํญ๊ณผ ๊ท์ ์๊ตฌ์ฌํญ์ ์์ค์ ์ฌ์ฉ์์ ๋ค์ํ ์๊ตฌ์ ํน์ฑ(์: ๊ฑฐ์ฃผ ๊ตญ๊ฐ, ์ฐ๋ น ๋ฑ)์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๊ธ๋ก๋ฒ AI ๊ท์ ๋ฅผ ์ง์์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๊ณ ์ ์ฌ์ ์ธ ๊ท์ ์๋ฐ์ ํผํ๊ธฐ ์ํด ํ์์ ๋ฐ๋ผ ์ฆ๊ฐ์ ์ธ ์กฐ์น๋ฅผ ์ทจํ ๊ฒ์ ๋๋ค. AI ๋ชจ๋ธ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ํฌ๋ช ์ฑ ๋ถ์กฑ์ ์ฌ์ฉ์์ ์ดํด๊ด๊ณ์๋ค ์ฌ์ด์ ์ ๋ขฐ๋ฅผ ๊ฐ์์ํฌ ์ ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ์ฝ์ ๊ณผ ๊ฐ์ ์์ญ์ ์๋ณํ๊ธฐ ์ํด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ง์์ ์ผ๋ก ๋ถ์ํ๊ณ ํ๊ฐํฉ๋๋ค. AI ๋ชจ๋ธ์ ์์ฌ๊ฒฐ์ ๊ณผ์ ์ ์์ ํ ์ค๋ช ํ๋ ๊ฒ์ ์ฌ์ ํ ์ด๋ ต์ง๋ง, ์ง์์ ์ธ ์ฐ๊ตฌ๋ฅผ ํตํด ์ค๋ช ๊ฐ๋ฅ์ฑ์ ๋ฐ์ ์ํค๊ธฐ ์ํด ๋ ธ๋ ฅํ๊ณ ์์ต๋๋ค.
4.3 ์์ ์ฑ
ํ๊ตญ ๊ณผํ๊ธฐ์ ์ ๋ณดํต์ ๋ถ์ ํ๊ตญ์ ๋ณดํ์งํฅ์(NIA)์์ ์ ๊ณตํ๋ ์ 3์ ๋ฐ์ดํฐ์ ์ธ ํ๊ตญ์ด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ์ ๋ขฐ์ฑ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ค๋ฆฌ์ ๋ณด์์ ๋ํ ํฌ๊ด์ ์ธ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ์ธ์ด ๋ชจ๋ธ์ ๋ฌดํด์ฑ์ ํ๊ฐํ๊ธฐ ์ํด ํน๋ณํ ์ค๊ณ๋์์ต๋๋ค. ํ๊ฐ ๊ฒฐ๊ณผ๋ Table 9์ ์ ์๋์ด ์์ต๋๋ค. ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด, ๋ชจ๋ธ์๊ฒ 5๊ฐ ์ต์ ์ค ํ๋๋ฅผ ์ ํํ๋๋ก ์์ฒญํ์ต๋๋ค. ์ ํ๋ ์ต์ ์ด ์ ๋ต ์งํฉ์ ํฌํจ๋๋ฉด ์ ๋ต์ผ๋ก ์ ์๋ฅผ ๋งค๊ฒผ์ต๋๋ค. ์ ๊ณต๋ ๋ฐ์ดํฐ์ ์์ ์ฒ์ ๋ ์ต์ ์ โ๊ฑฐ์งโ์ผ๋ก, ๋๋จธ์ง ์ธ ๊ฐ๋ โ์ฐธโ์ผ๋ก ๋ผ๋ฒจ์ด ๋ถ์ด ์์์ต๋๋ค. ์ต์ ์์๋ก ์ธํ ์ ์ฌ์ ํธํฅ์ ์ํํ๊ธฐ ์ํด, ๊ฐ ํ๊ฐ๋ง๋ค ์ต์ ์์๋ฅผ ๋ฌด์์๋ก ์์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ ์ ํดํ ๋ฐ์์ ํํฐ๋งํ๋ ๋ฐ ํจ๊ณผ์ฑ์ ๋ณด์ฌ์ฃผ์์ง๋ง, ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์ต๋๋ค.
-
ํ๊ณ
EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ๊ธฐ์กด์ ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ๋ค๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก ํน์ ํ ํ๊ณ๊ฐ ์์ผ๋ฉฐ ๋๋๋ก ๋ถ์ ์ ํ ์๋ต์ ์์ฑํ ์ ์์ต๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ํ ํฐ์ ์ถ๋ ฅ ํ๋ฅ ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ต์ ์์ฑํ๋ฉฐ, ์ด๋ ํ๋ จ ๋ฐ์ดํฐ์์์ ํ์ต ์ค์ ๊ฒฐ์ ๋ฉ๋๋ค. ํ๋ จ ๋ฐ์ดํฐ์์ ๊ฐ์ธ์ , ์ ํดํ, ํธํฅ๋ ์ ๋ณด๋ฅผ ์ ์ธํ๊ธฐ ์ํด ๋ชจ๋ ๋ ธ๋ ฅ์ ๊ธฐ์ธ์์ง๋ง, ์ผ๋ถ ๋ฌธ์ ๊ฐ ์๋ ์ฝํ ์ธ ๊ฐ ์ฌ์ ํ ํฌํจ๋์ด ๋ฐ๋์งํ์ง ์์ ์๋ต์ผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค. EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ด ์์ฑํ๋ ํ ์คํธ๋ LG AI Research์ ๊ฒฌํด๋ฅผ ๋ฐ์ํ์ง ์๋๋ค๋ ์ ์ ์ ์ํ์๊ธฐ ๋ฐ๋๋๋ค.
โข ๊ฐ์ธ์ , ์ ํดํ ๋๋ ๊ธฐํ ๋ถ์ ์ ํ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋ถ์ ์ ํ ๋ต๋ณ์ด ์์ฑ๋ ์ ์์ต๋๋ค.
โข ๋์ด, ์ฑ๋ณ, ์ธ์ข
๋ฑ๊ณผ ๊ด๋ จ๋ ํธํฅ๋ ์๋ต์ด ์์ฑ๋ ์ ์์ต๋๋ค.
โข ์์ฑ๋ ์๋ต์ ํ๋ จ ๋ฐ์ดํฐ์ ํต๊ณ์ ํฌ๊ฒ ์์กดํ๋ฏ๋ก, ์๋ฏธ์ ์ผ๋ก๋ ๊ตฌ๋ฌธ์ ์ผ๋ก ์๋ชป๋ ๋ฌธ์ฅ์ด ์์ฑ๋ ์ ์์ต๋๋ค.
โข ๋ชจ๋ธ๋ค์ด ์ต์ ์ ๋ณด๋ฅผ ๋ฐ์ํ์ง ์์ผ๋ฏ๋ก, ์๋ต์ด ๊ฑฐ์ง์ด๊ฑฐ๋ ๋ชจ์์ ์ผ ์ ์์ต๋๋ค.
LG AI Research๋ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค๋ก๋ถํฐ ๋ฐ์ํ ์ ์๋ ์ ์ฌ์ ์ํ์ ์ค์ด๊ธฐ ์ํด ๋ ธ๋ ฅํฉ๋๋ค. ์ฌ์ฉ์๋ค์ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฌ์ฉํ ๋ LG AI์ ์ค๋ฆฌ ์์น์ ์๋ฐํ๋ ๋ถ์ ์ ํ ์ถ๋ ฅ ์์ฑ์ ์ ๋ํ ์ ์๋ ์ ์์ ํ๋(์: ๋ถ๋ฒ ์ ๋ณด ์ ๋ ฅ)์ ์ฐธ์ฌํด์๋ ์ ๋ฉ๋๋ค.
-
๋ฐฐํฌ
Appendix์ Section B๋ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค ์ฌ์ฉ์ ์ํ ๋ผ์ด์ ์ค ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ธ์ด ๋ชจ๋ธ์ ๋ฒ์ ํ์ฉ์ ์ํด์๋ ๋ผ์ด์ ์ค ์ ๋ณด๋ฅผ ์ดํดํ๋ ๊ฒ์ด ํ์์ ์ ๋๋ค.
-
๊ฒฐ๋ก
ํ๊ณ์ ์ฐ์ ๊ณ์ ์ฆ๊ฐํ๋ ๊ด์ฌ์ ์๋ตํ์ฌ, ์ค์ ์ฌ์ฉ ์ฌ๋ก์ long-context ์ดํด์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ EXAONE 3.5 ์ธ์ด ๋ชจ๋ธ๋ค์ ์ถ์ํ๊ฒ ๋์ด ๊ธฐ์ฉ๋๋ค. ์ด ๋ชจ๋ธ๋ค์ ์ธ ๊ฐ์ง ํฌ๊ธฐ(32B, 7.8B, 2.4B)๋ก ์ ๊ณต๋ฉ๋๋ค.
์ค์ ์ฌ์ฉ ์ฌ๋ก ์๋๋ฆฌ์ค์์ ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ์ ๊ฒ์ฆํ๊ธฐ ์ํด, ๋ค์ํ instruction ์ดํด๊ฐ ํ์ํ 7๊ฐ์ benchmark์์ ๋ชจ๋ธ๋ค์ ํ๊ฐํ์ต๋๋ค. Long-context ์ดํด๋ฅผ ํ๊ฐํ๊ธฐ ์ํด, 4๊ฐ์ benchmark์์ ๋ชจ๋ธ๋ค์ ํ๊ฐํ์ต๋๋ค. ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ ๋ ์นดํ ๊ณ ๋ฆฌ ๋ชจ๋์์ ์ผ๊ด๋๊ฒ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ํ, ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ ์ํ ๋ฌธ์ ํด๊ฒฐ๊ณผ ์ฝ๋ ์์ฑ์ ํฌํจํ ์ผ๋ฐ ๋๋ฉ์ธ์์ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ํนํ, ์ฐ๋ฆฌ์ 24์ต ๋ชจ๋ธ์ ์ผ๋ฐ ๋๋ฉ์ธ์์ ํ๊ท ์ ์ 1์๋ฅผ ์ฐจ์งํ์ต๋๋ค.
์ฐ๋ฆฌ ๋ชจ๋ธ๋ค์ ์ฐ๊ตฌ ๋ชฉ์ ์ผ๋ก ๋ชจ๋ ๋ถ๋ค์๊ฒ ์ ๊ณต๋๋ฉฐ, ๋ชจ๋ธ ๊ฐ์ ์ ๋์์ด ๋ ํผ๋๋ฐฑ์ ํ์ํฉ๋๋ค. ํผ๋๋ฐฑ์ด ์๊ฑฐ๋ ์ฐ๋ฆฌ ๋ชจ๋ธ๋ค๊ณผ์ ์์ ์ ๊ธฐํ ํ์์ ๊ด์ฌ์ด ์์ผ์๋ฉด contact_us@lgresearch.ai๋ก ์ฐ๋ฝํด ์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.