[Paper Review] Qwen Technical Report
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Paper-Review-Qwen-Technical-Report
1
BAI, Jinze, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023.
๐ก QWEN์ ์ค๊ตญ์ด๋ก โ์ฒ ๊ฐ์ ์ง๋ฌธโ์ ์๋ฏธํ๋ Qianwen์ ๋ณ๋ช ์ ๋๋ค. โQWENโ์ ๋ฐ์์ ๋งฅ๋ฝ๊ณผ ๋งํ๋ ๊ฐ์ธ์ ๋ฐ๋ผ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ํ ๊ฐ์ง ๊ฐ๋ฅํ ๋ฐ์ ๋ฐฉ๋ฒ์ /kwEn/์ ๋๋ค.
์ ๊ทธ๋ฅ ํ์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค!ใ ใ
์ด๋ก
Large Language Model(LLM)๋ค์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ๋ฅผ ํ์ ํ์ผ๋ฉฐ, ์ด์ ์๋ ์ธ๊ฐ์๊ฒ๋ง ๊ฐ๋ฅํ๋ค๊ณ ์ฌ๊ฒจ์ก๋ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ๋ค์ ๊ฐ๋ฅํ๊ฒ ํ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ Large Language Model ์๋ฆฌ์ฆ์ ์ฒซ ๋ฒ์งธ ๋ฒ์ ์ธ QWENยน์ ์๊ฐํฉ๋๋ค. QWEN์ ๋ค์ํ parameter ์๋ฅผ ๊ฐ์ง ๊ฐ๋ณ ๋ชจ๋ธ๋ค์ ํฌํจํ๋ ํฌ๊ด์ ์ธ ์ธ์ด ๋ชจ๋ธ ์๋ฆฌ์ฆ์ ๋๋ค. ์ฌ๊ธฐ์๋ ๊ธฐ๋ณธ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ์ธ QWEN๊ณผ ์ธ๊ฐ ์ ๋ ฌ ๊ธฐ๋ฒ์ผ๋ก fine-tuning๋ ์ฑํ ๋ชจ๋ธ์ธ QWEN-CHAT์ด ํฌํจ๋ฉ๋๋ค. ๊ธฐ๋ณธ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ฌ๋ฌ downstream task์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ์ง์์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ฉฐ, ์ฑํ ๋ชจ๋ธ๋ค, ํนํ Reinforcement Learning from Human Feedback(RLHF)๋ก ํ๋ จ๋ ๋ชจ๋ธ๋ค์ ๋งค์ฐ ๊ฒฝ์๋ ฅ์ด ์์ต๋๋ค. ์ฑํ ๋ชจ๋ธ๋ค์ agent application ์์ฑ์ ์ํ ๊ณ ๊ธ tool ์ฌ์ฉ ๋ฐ ๊ณํ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์ผ๋ฉฐ, code interpreter ํ์ฉ๊ณผ ๊ฐ์ ๋ณต์กํ ์์ ์์๋ ๋ ํฐ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ๋ํ, ๊ธฐ๋ณธ ์ธ์ด ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ๊ตฌ์ถ๋ ์ฝ๋ฉ ์ ๋ฌธ ๋ชจ๋ธ์ธ CODE-QWEN๊ณผ CODE-QWEN-CHAT, ๊ทธ๋ฆฌ๊ณ ์ํ ์ค์ฌ ๋ชจ๋ธ์ธ MATH-QWEN-CHAT์ ๊ฐ๋ฐํ์ต๋๋ค. ์ด๋ค ๋ชจ๋ธ์ ์คํ์์ค ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋ ํ์ ํ ํฅ์๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ์์ฉ ๋ชจ๋ธ๋ค์๋ ์ฝ๊ฐ ๋ค์ฒ์ง๋๋ค.
-
์๋ก
Large Language Model(LLM)(Radford et al., 2018; Devlin et al., 2018; Raffel et al., 2020; Brown et al., 2020; OpenAI, 2023; Chowdhery et al., 2022; Anil et al., 2023; Thoppilan et al., 2022; Touvron et al., 2023a;b)๋ค์ ๋ณต์กํ ์ถ๋ก ๊ณผ ๋ฌธ์ ํด๊ฒฐ ์์ ์ ์ํ ๊ฐ๋ ฅํ ๊ธฐ๋ฐ์ ์ ๊ณตํจ์ผ๋ก์จ ์ธ๊ณต์ง๋ฅ(AI) ๋ถ์ผ๋ฅผ ํ์ ํ์ต๋๋ค. ์ด๋ค ๋ชจ๋ธ์ ๋ฐฉ๋ํ ์ง์์ ์ ๊ฒฝ๋ง์ ์์ถํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ด, ๋งค์ฐ ๋ค์ํ agent๋ก ํ์ฉ๋ฉ๋๋ค. ์ฑํ ์ธํฐํ์ด์ค๋ฅผ ํตํด LLM๋ค์ ์ด์ ์๋ ์ธ๊ฐ์ ์ ์ ๋ฌผ๋ก ์ฌ๊ฒจ์ก๋ ์์ ๋ค, ํนํ ์ฐฝ์์ฑ๊ณผ ์ ๋ฌธ์ฑ์ด ํ์ํ ์์ ๋ค์ ์ํํ ์ ์์ต๋๋ค(OpenAI, 2022; Ouyang et al., 2022; Anil et al., 2023; Google, 2023; Anthropic, 2023a;b). ์ด๋ค์ ์ธ๊ฐ๊ณผ ์์ฐ์ด ๋ํ์ ์ฐธ์ฌํ๊ณ , ์ง๋ฌธ์ ๋ตํ๊ณ , ์ ๋ณด๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ฌ์ง์ด ์ด์ผ๊ธฐ, ์, ์์ ๊ณผ ๊ฐ์ ์ฐฝ์๋ฌผ์ ์์ฑํ ์ ์์ต๋๋ค. ์ด๋ก ์ธํด ์ฑ๋ด๊ณผ ๊ฐ์ ๋์ฐ๋ฏธ๋ถํฐ ์ธ์ด ๋ฒ์ญ๊ณผ ์์ฝ ๋๊ตฌ์ ์ด๋ฅด๊ธฐ๊น์ง ๋ค์ํ ์ ํ๋ฆฌ์ผ์ด์ ์ด ๊ฐ๋ฐ๋์์ต๋๋ค.
LLM๋ค์ ์ธ์ด ์์ ์๋ง ์ ํ๋์ง ์์ต๋๋ค. ์ด๋ค์ ๋ํ ์ผ๋ฐ์ ์ธ agent๋ก์ ๊ธฐ๋ฅํ๋ฉฐ(Reed et al., 2022; Bai et al., 2022a; Wang et al., 2023a; AutoGPT, 2023; Hong et al., 2023), ์ธ๋ถ ์์คํ , ๋๊ตฌ, ๋ชจ๋ธ๊ณผ ํ๋ ฅํ์ฌ ์ธ๊ฐ์ด ์ค์ ํ ๋ชฉํ๋ฅผ ๋ฌ์ฑํฉ๋๋ค. ์๋ฅผ ๋ค์ด, LLM๋ค์ ๋ฉํฐ๋ชจ๋ฌ ์ง์์ฌํญ์ ์ดํดํ๊ณ (OpenAI, 2023; Bai et al., 2023; Liu et al., 2023a; Ye et al., 2023; Dai et al., 2023; Peng et al., 2023b), ์ฝ๋๋ฅผ ์คํํ๋ฉฐ(Chen et al., 2021; Zheng et al., 2023; Li et al., 2023d), ๋๊ตฌ๋ฅผ ์ฌ์ฉํ (Schick et al., 2023; LangChain, Inc., 2023; AutoGPT, 2023) ์ ์์ต๋๋ค. ์ด๋ ์์จ์ฃผํ์ฐจ์ ๋ก๋ด๊ณตํ๋ถํฐ ์๋ฃ์ ๊ธ์ต์ ์ด๋ฅด๊ธฐ๊น์ง AI ์ ํ๋ฆฌ์ผ์ด์ ์ ์์ ํ ์๋ก์ด ๊ฐ๋ฅ์ฑ์ ์ด์ด์ค๋๋ค.
์ธ์์ ์ธ ๋ฅ๋ ฅ์๋ ๋ถ๊ตฌํ๊ณ , LLM๋ค์ ์ฌํ์ฑ, ์กฐ์์ฑ, ๊ทธ๋ฆฌ๊ณ ์๋น์ค ์ ๊ณต์ ์ฒด์ ๋ํ ์ ๊ทผ์ฑ์ด ๋ถ์กฑํ๋ค๋ ๋นํ์ ๋ฐ๊ณ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ฐ๋ฆฌ์ LLM ์๋ฆฌ์ฆ์ ์ด๊ธฐ ๋ฒ์ ์ธ QWEN์ ์๊ฐํ๊ฒ ๋์ด ๊ธฐ์ฉ๋๋ค. QWEN์ ์ค๊ตญ์ด๋ก โ์ฒ ๊ฐ์ ์ง๋ฌธโ์ ์๋ฏธํ๋ Qianwen์์ ํ์๋ ์ด๋ฆ์ผ๋ก, ๋ค์ํ ์ง๋ฌธ์ ์์ฉํ๋ค๋ ๊ฐ๋ ์ ์ ๋ฌํฉ๋๋ค. QWEN์ ๋ค์ํ parameter ์๋ฅผ ๊ฐ์ง ๊ฐ๋ณ ๋ชจ๋ธ๋ค์ ํฌํจํ๋ ํฌ๊ด์ ์ธ ์ธ์ด ๋ชจ๋ธ ์๋ฆฌ์ฆ์ ๋๋ค. ๋ชจ๋ธ ์๋ฆฌ์ฆ์๋ ๊ธฐ๋ณธ ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ๋ค, ์ฆ supervised finetuning(SFT), reinforcement learning with human feedback(RLHF) ๋ฑ์ ์ธ๊ฐ ์ ๋ ฌ ๊ธฐ๋ฒ์ผ๋ก fine-tuning๋ ์ฑํ ๋ชจ๋ธ๋ค, ๊ทธ๋ฆฌ๊ณ ์ฝ๋ฉ ๋ฐ ์ํ ์ ๋ฌธ ๋ชจ๋ธ๋ค์ด ํฌํจ๋ฉ๋๋ค.
-
์ฌ์ ํ๋ จ (Pretraining)
์ฌ์ ํ๋ จ ๋จ๊ณ์์๋ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ์ธ์๊ณผ ๊ทธ ๋ค์ํ ๋ณต์ก์ฑ์ ๋ํ ํฌ๊ด์ ์ธ ์ดํด๋ฅผ ์ต๋ํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๊ธฐ๋ณธ์ ์ธ ์ธ์ด ๋ฅ๋ ฅ๋ฟ๋ง ์๋๋ผ ์ฐ์ , ์ฝ๋ฉ, ๋ ผ๋ฆฌ์ ์ถ๋ก ๊ณผ ๊ฐ์ ๊ณ ๊ธ ๊ธฐ์ ๋ ํฌํจ๋ฉ๋๋ค.
2.1 ๋ฐ์ดํฐ
๋ฐ์ดํฐ ํฌ๊ธฐ๋ ๊ฒฌ๊ณ ํ Large Language Model์ ๊ฐ๋ฐํ๋ ๋ฐ ์ค์ํ ์์์์ด ์ด์ ์ฐ๊ตฌ์์ ๊ฐ์กฐ๋์์ต๋๋ค(Hoffmann et al., 2022; Touvron et al., 2023b). ํจ๊ณผ์ ์ธ ์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋ฐ์ดํฐ๊ฐ ๋ค์ํ๊ณ ๊ด๋ฒ์ํ ์ ํ, ๋๋ฉ์ธ, ์์ ์ ๋ค๋ฃจ๋๋ก ํ๋ ๊ฒ์ด ํ์์ ์ ๋๋ค. ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ์ ์ ์ด๋ฌํ ์๊ตฌ์ฌํญ์ ์ถฉ์กฑํ๋๋ก ์ค๊ณ๋์์ผ๋ฉฐ, ๊ณต๊ฐ ์น ๋ฌธ์, ๋ฐฑ๊ณผ์ฌ์ , ์์ , ์ฝ๋ ๋ฑ์ ํฌํจํฉ๋๋ค. ๋ํ, ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ์ ์ ๋ค๊ตญ์ด์ด๋ฉฐ, ์์ด์ ์ค๊ตญ์ด๊ฐ ์๋นํ ๋ถ๋ถ์ ์ฐจ์งํฉ๋๋ค.
์ฌ์ ํ๋ จ ๋ฐ์ดํฐ์ ํ์ง์ ๋ณด์ฅํ๊ธฐ ์ํด ํฌ๊ด์ ์ธ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ์ ์ฐจ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค. ๊ณต๊ฐ ์น ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ, HTML์์ ํ ์คํธ๋ฅผ ์ถ์ถํ๊ณ ์ธ์ด ์๋ณ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ธ์ด๋ฅผ ๊ฒฐ์ ํฉ๋๋ค. ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ๋์ด๊ธฐ ์ํด ์ ๊ทํ ํ ์ ํํ ์ผ์น ์ค๋ณต ์ ๊ฑฐ์ MinHash ๋ฐ LSH ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ์ ์ฌ ์ค๋ณต ์ ๊ฑฐ ๊ธฐ๋ฒ์ ์ ์ฉํฉ๋๋ค. ์ ํ์ง ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๊ธฐ ์ํด ๊ท์น ๊ธฐ๋ฐ๊ณผ ๊ธฐ๊ณ ํ์ต ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ์กฐํฉ์ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ธ์ด ๋ชจ๋ธ, ํ ์คํธ ํ์ง ํ๊ฐ ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ ์ ์ฌ์ ์ผ๋ก ๋ถ์พํ๊ฑฐ๋ ๋ถ์ ์ ํ ๋ด์ฉ์ ์๋ณํ๋ ๋ชจ๋ธ์ ํฌํจํ ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ด์ฉ์ ํ๊ฐํฉ๋๋ค.
2.2 ํ ํฐํ (Tokenization)
์ดํ ์ค๊ณ๋ ํ๋ จ ํจ์จ์ฑ๊ณผ downstream task ์ฑ๋ฅ์ ์๋นํ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ GPT-3.5์ GPT-4๋ฅผ ๋ฐ๋ผ byte pair encoding(BPE)์ ํ ํฐํ ๋ฐฉ๋ฒ์ผ๋ก ํ์ฉํฉ๋๋ค. ์คํ์์ค fast BPE tokenizer์ธ tiktoken(Jain, 2022)์ ์์์ ์ผ๋ก ํ์ฌ cl100k base ์ดํ๋ฅผ ์ ํํฉ๋๋ค. ํนํ ์ค๊ตญ์ด์์ ๋ค๊ตญ์ด downstream task์ ๋ํ ๋ชจ๋ธ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ค๊ตญ์ด ๋ฌธ์์ ๋จ์ด, ๊ทธ๋ฆฌ๊ณ ๋ค๋ฅธ ์ธ์ด์ ๋จ์ด๋ค๋ก ์ดํ๋ฅผ ํ์ฅํฉ๋๋ค. ๋ํ Touvron et al.(2023a;b)์ ๋ฐ๋ผ ์ซ์๋ฅผ ๋จ์ผ ์๋ฆฟ์๋ก ๋ถํ ํฉ๋๋ค. ์ต์ข ์ดํ ํฌ๊ธฐ๋ ์ฝ 152K์ ๋๋ค.
2.3 ์ํคํ ์ฒ
QWEN์ ์์ ๋ ๋ฒ์ ์ Transformer ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ฌ ์ค๊ณ๋์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ต๊ณ ์ ์คํ์์ค LLM์ผ๋ก ๋๋ฆฌ ์ธ์ ๋ฐ๋ LLaMA(Touvron et al., 2023a)์ ์ต๊ทผ ์คํ์์ค ์ ๊ทผ๋ฒ์ ์ฑํํ์ต๋๋ค. ์ํคํ ์ฒ์ ๋ํ ์์ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์๋ฒ ๋ฉ ๋ฐ ์ถ๋ ฅ ํ๋ก์ ์ : ์๋น ์คํ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ด๋ผ๋ ๋๊ฐ๋ฅผ ์น๋ฅด๋๋ผ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด ์ ๋ ฅ ์๋ฒ ๋ฉ๊ณผ ์ถ๋ ฅ ํ๋ก์ ์ ์ ๊ฐ์ค์น๋ฅผ ์ฐ๊ฒฐํ์ง ์๋ untied embedding ์ ๊ทผ๋ฒ์ ์ ํํ์ต๋๋ค.
- ์์น ์๋ฒ ๋ฉ: ๋ชจ๋ธ์ ์์น ์ ๋ณด๋ฅผ ํตํฉํ๊ธฐ ์ํ ์ ํธ ์ต์ ์ผ๋ก RoPE(Rotary Positional Embedding)(Su et al., 2021)๋ฅผ ์ ํํ์ต๋๋ค. RoPE๋ ๋๋ฆฌ ์ฑํ๋์์ผ๋ฉฐ ํ๋ Large Language Model, ํนํ PaLM(Chowdhery et al., 2022; Anil et al., 2023)๊ณผ LLaMA(Touvron et al., 2023a;b)์์ ์ฑ๊ณต์ ์ ์ฆํ์ต๋๋ค.
- ๋ฐ์ด์ด์ค: Chowdhery et al.(2022)์ ๋ฐ๋ผ ๋๋ถ๋ถ์ ์ธต์์ ๋ฐ์ด์ด์ค๋ฅผ ์ ๊ฑฐํ์ง๋ง, ๋ชจ๋ธ์ ์ธ์ฝ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด attention์ QKV layer์๋ ๋ฐ์ด์ด์ค๋ฅผ ์ถ๊ฐํ์ต๋๋ค(Su, 2023b).
- Pre-Norm & RMSNorm: ํ๋ Transformer ๋ชจ๋ธ์์ pre-normalization์ด ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ ๊ทผ๋ฒ์ผ๋ก, post-normalization๊ณผ ๋น๊ตํ์ ๋ ํ๋ จ ์์ ์ฑ์ ํฅ์์ํค๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ํ Ba et al.(2016)์์ ์ค๋ช ๋ ์ ํต์ ์ธ layer normalization ๊ธฐ๋ฒ์ RMSNorm(Jiang et al., 2023)์ผ๋ก ๊ต์ฒดํ์ต๋๋ค.
- ํ์ฑํ ํจ์: Swish(Ramachandran et al., 2017)์ Gated Linear Unit(Dauphin et al., 2017)์ ์กฐํฉ์ธ SwiGLU(Shazeer, 2020)๋ฅผ ํ์ฑํ ํจ์๋ก ์ ํํ์ต๋๋ค.
2.4 ํ๋ จ
QWEN์ ํ๋ จํ๊ธฐ ์ํด Radford et al.(2018)์์ ์ค๋ช ๋ ์๋ํ๊ท ์ธ์ด ๋ชจ๋ธ๋ง์ ํ์ค ์ ๊ทผ๋ฒ์ ๋ฐ๋ฆ ๋๋ค. ์ด๋ ์ด์ ํ ํฐ๋ค์ด ์ ๊ณตํ๋ ๋งฅ๋ฝ์ ๋ฐํ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋๋ก ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ ๋๋ค. 2048์ ๋งฅ๋ฝ ๊ธธ์ด๋ก ๋ชจ๋ธ์ ํ๋ จํฉ๋๋ค. ๋ฐ์ดํฐ ๋ฐฐ์น๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ฌธ์๋ค์ ์๊ณ ๋ณํฉํ ํ, ์ง์ ๋ ๋งฅ๋ฝ ๊ธธ์ด๋ก ์๋ฆ ๋๋ค. ๊ณ์ฐ ํจ์จ์ฑ์ ํฅ์์ํค๊ณ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ธฐ ์ํด attention ๋ชจ๋์์ Flash Attention์ ์ฌ์ฉํฉ๋๋ค(Dao et al., 2022). ์ฌ์ ํ๋ จ ์ต์ ํ๋ฅผ ์ํด ํ์ค optimizer์ธ AdamW(Kingma & Ba, 2014; Loshchilov & Hutter, 2017)๋ฅผ ์ฑํํฉ๋๋ค.
2.5 ๋งฅ๋ฝ ๊ธธ์ด ํ์ฅ
Transformer ๋ชจ๋ธ๋ค์ attention ๋ฉ์ปค๋์ฆ์ ๋งฅ๋ฝ ๊ธธ์ด์ ์๋นํ ์ ์ฝ์ด ์์ต๋๋ค. ๋งฅ๋ฝ ๊ธธ์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ quadratic-complexity ๊ณ์ฐ์ด ๊ณ์ฐ ๋ฐ ๋ฉ๋ชจ๋ฆฌ ๋น์ฉ์ ๊ธ๊ฒฉํ ์ฆ๊ฐ์ํต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ถ๋ก ์ค์๋ง ์ ์ฉ๋๋ ๊ฐ๋จํ ํ๋ จ ์๋ ๊ธฐ๋ฒ๋ค์ ๊ตฌํํ์ฌ ๋ชจ๋ธ์ ๋งฅ๋ฝ ๊ธธ์ด๋ฅผ ํ์ฅํ์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ ์ฃผ์ ๊ธฐ๋ฒ ์ค ํ๋๋ NTK-aware interpolation(bloc97, 2023)์ ๋๋ค.
2.6 ์คํ ๊ฒฐ๊ณผ
๋ชจ๋ธ๋ค์ zero-shot ๋ฐ few-shot ํ์ต ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ผ๋ จ์ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ ์ฒ ์ ํ benchmark ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค. QWEN์ ์ต๊ทผ ์คํ์์ค ๊ธฐ๋ณธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ผ๋ฉฐ, ์ฌ๊ธฐ์๋ LLaMA(Touvron et al., 2023a), LLAMA 2(Touvron et al., 2023b), MPT(Mosaic ML, 2023), Falcon(Almazrouei et al., 2023) ๋ฑ์ด ํฌํจ๋ฉ๋๋ค.
ํ๊ฐ๋ 7๊ฐ์ ์ธ๊ธฐ ์๋ benchmark๋ฅผ ๋ค๋ฃจ๋ฉฐ, ์ด๋ MMLU(5-shot)(Hendrycks et al., 2020), C-Eval(5-shot)(Huang et al., 2023), GSM8K(8-shot)(Cobbe et al., 2021), MATH(4-shot)(Hendrycks et al., 2021), HumanEval(0-shot)(Chen et al., 2021), MBPP(0-shot)(Austin et al., 2021), ๊ทธ๋ฆฌ๊ณ BBH(Big Bench Hard)(3 shot)(Suzgun et al., 2022)์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ๋ ์ธ ๊ฐ์ QWEN ๋ชจ๋ธ๋ค์ด ๋ชจ๋ downstream task์์ ํ์ํ ์ฑ๋ฅ์ ๋ณด์์ ๋ณด์ฌ์ค๋๋ค. ์ฃผ๋ชฉํ ์ ์ LLaMA2-70B์ ๊ฐ์ ๋ ํฐ ๋ชจ๋ธ๋ค์กฐ์ฐจ QWEN-14B์ ์ํด 3๊ฐ ์์ ์์ ์๋๋นํ๋ค๋ ๊ฒ์ ๋๋ค. QWEN-7B๋ ํ๋ฅญํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, LLaMA2-13B๋ฅผ ๋ฅ๊ฐํ๊ณ Baichuan2-13B์ ๋น์ทํ ๊ฒฐ๊ณผ๋ฅผ ๋ฌ์ฑํฉ๋๋ค.
-
์ ๋ ฌ (Alignment)
์ฌ์ ํ๋ จ๋ Large Language Model๋ค์ ์ธ๊ฐ ํ๋๊ณผ ์ ๋ ฌ๋์ง ์๋ ๊ฒ์ผ๋ก ๋ฐํ์ก์ผ๋ฉฐ, ๋๋ถ๋ถ์ ๊ฒฝ์ฐ AI ๋์ฐ๋ฏธ๋ก ์ฌ์ฉํ๊ธฐ์ ๋ถ์ ํฉํฉ๋๋ค. ์ต๊ทผ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด supervised finetuning(SFT)๊ณผ reinforcement learning from human feedback(RLHF)์ ๊ฐ์ ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ฌ์ฉ์ด ์ธ์ด ๋ชจ๋ธ๋ค์ ์์ฐ์ค๋ฌ์ด ๋ํ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํฌ ์ ์์ต๋๋ค.
3.1 Supervised Finetuning
์ธ๊ฐ ํ๋์ ์ดํดํ๊ธฐ ์ํ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์ฌ์ ํ๋ จ๋ LLM์ ์ง์์ ์๋ต์ ๋ชจ๋ ํฌํจํ๋ ์ฑํ ์คํ์ผ ๋ฐ์ดํฐ์ ๋ํด fine-tuningํ๋ SFT๋ฅผ ์ํํ๋ ๊ฒ์ ๋๋ค.
3.1.1 ๋ฐ์ดํฐ
Supervised finetuning ๋ฐ์ดํฐ์ ์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ๋ฌ ์คํ์ผ์ ๋ํ๋ฅผ ์ฃผ์์ผ๋ก ๋ฌ์์ต๋๋ค. ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ค(Wei et al., 2022a)์ด ์์ฐ์ด๋ก ๋ ์ง๋ฌธ, ์ง์์ฌํญ, ๋ต๋ณ์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ํฌํจํ๋ ๋ฐ๋ฉด, ์ฐ๋ฆฌ์ ์ ๊ทผ๋ฒ์ ์ธ๊ฐ ์คํ์ผ์ ๋ํ๋ฅผ ์ฃผ์์ผ๋ก ๋ค๋ ๊ฒ๊น์ง ๋ ๋์๊ฐ๋๋ค. Ouyang et al.(2022)์์ ์๊ฐ์ ๋ฐ์ ์ด๋ฌํ ๊ดํ์ ๋ค์ํ ์์ ์ ๋ํ ์์ฐ์ด ์์ฑ์ ์ด์ ์ ๋ง์ถค์ผ๋ก์จ ๋ชจ๋ธ์ ์ ์ฉ์ฑ์ ํฅ์์ํค๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค.
3.1.2 ํ๋ จ
์ฌ์ ํ๋ จ๊ณผ ์ผ๊ด๋๊ฒ, SFT๋ฅผ ์ํ ํ๋ จ ์์ ์ผ๋ก๋ ๋ค์ ํ ํฐ ์์ธก์ ์ ์ฉํฉ๋๋ค. ์์คํ ๊ณผ ์ฌ์ฉ์ ์ ๋ ฅ์ ๋ํด loss mask๋ฅผ ์ ์ฉํฉ๋๋ค. ๋ชจ๋ธ์ ํ๋ จ ๊ณผ์ ์ AdamW optimizer๋ฅผ ํ์ฉํ๋ฉฐ, hyperparameter๋ ฮฒ1์ 0.9๋ก, ฮฒ2๋ฅผ 0.95๋ก, ฮต์ 10โปโธ๋ก ์ค์ ํฉ๋๋ค. sequence length๋ 2048๋ก ์ ํ๋๊ณ , batch size๋ 128์ ๋๋ค.
3.2 Reinforcement Learning from Human Feedback
SFT๊ฐ ํจ๊ณผ์ ์์ด ์ ์ฆ๋์์ง๋ง, ์ผ๋ฐํ ๋ฐ ์ฐฝ์์ฑ ๋ฅ๋ ฅ์ด ์ ํ์ ์ด๊ณ overfitting์ ์ทจ์ฝํ ์ ์์์ ์ธ์ ํฉ๋๋ค. ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Ouyang et al.(2022); Christiano et al.(2017)์ ์ ๊ทผ๋ฒ์ ๋ฐ๋ผ SFT ๋ชจ๋ธ๋ค์ ์ธ๊ฐ ์ ํธ๋์ ๋ ์ ์ ๋ ฌํ๊ธฐ ์ํด Reinforcement Learning from Human Feedback(RLHF)์ ๊ตฌํํ์ต๋๋ค.
3.2.1 Reward Model
์ฑ๊ณต์ ์ธ reward model์ ๋ง๋ค๊ธฐ ์ํด์๋ Large Language Model(LLM)์ ๊ตฌ์ถํ๋ ๊ฒ์ฒ๋ผ ๋จผ์ ์ฌ์ ํ๋ จ์ ๊ฑฐ์น ํ fine-tuning์ ํด์ผ ํฉ๋๋ค. preference model pretraining(PMP)(Bai et al., 2022b)๋ก ์๋ ค์ง ์ด ์ฌ์ ํ๋ จ ๊ณผ์ ์๋ ๋น๊ต ๋ฐ์ดํฐ์ ๋ฐฉ๋ํ ๋ฐ์ดํฐ์ ์ด ํ์ํฉ๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋จ์ผ ์ง์์ ๋ํ ๋ ๊ฐ์ ์๋ก ๋ค๋ฅธ ์๋ต๊ณผ ํด๋น ์ ํธ๋๋ฅผ ํฌํจํ๋ ์ํ ์๋ค๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Fine-tuning ๋จ๊ณ์์๋ ๋ค์ํ prompt๋ค์ ์์งํ๊ณ QWEN ๋ชจ๋ธ๋ค๋ก๋ถํฐ์ ์๋ต์ ๋ํ ์ธ๊ฐ ํผ๋๋ฐฑ์ ๋ฐํ์ผ๋ก reward model์ ์กฐ์ ํฉ๋๋ค. ์ฌ์ฉ์ prompt๋ค์ ๋ค์์ฑ๊ณผ ๋ณต์ก์ฑ์ด ์ ์ ํ ๊ณ ๋ ค๋๋๋ก ํ๊ธฐ ์ํด ์ฝ 6600๊ฐ์ ์์ธํ ํ๊ทธ๋ฅผ ๊ฐ์ง ๋ถ๋ฅ ์์คํ ์ ๋ง๋ค๊ณ , reward model์ ์ฃผ์์ ์ํ prompt๋ฅผ ์ ํํ ๋ ๋ค์์ฑ๊ณผ ๋ณต์ก์ฑ์ ๋ชจ๋ ๊ณ ๋ คํ๋ ๊ท ํ ์กํ ์ํ๋ง ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ์ต๋๋ค.
3.2.2 ๊ฐํํ์ต
์ฐ๋ฆฌ์ Proximal Policy Optimization(PPO) ๊ณผ์ ์๋ ๋ค ๊ฐ์ ๋ชจ๋ธ์ด ๊ด๋ จ๋ฉ๋๋ค: policy model, value model, reference model, ๊ทธ๋ฆฌ๊ณ reward model์ ๋๋ค. PPO ์ ์ฐจ๋ฅผ ์์ํ๊ธฐ ์ ์ policy model์ ์ ๋ฐ์ดํธ๋ฅผ ์ผ์ ์ค์งํ๊ณ 50 step ๋์ value model ์ ๋ฐ์ดํธ์๋ง ์ง์คํฉ๋๋ค.
PPO ์์ ์ค์๋ ๊ฐ ์ง์์ ๋ํด ๋์์ ๋ ๊ฐ์ ์๋ต์ ์ํ๋งํ๋ ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ์ด ์ ๋ต์ ๋ด๋ถ benchmark ํ๊ฐ๋ฅผ ๋ฐํ์ผ๋ก ๋ ํจ๊ณผ์ ์์ด ์ ์ฆ๋์์ต๋๋ค. KL divergence ๊ณ์๋ฅผ 0.04๋ก ์ค์ ํ๊ณ ์คํ ํ๊ท ์ ๋ฐํ์ผ๋ก reward๋ฅผ ์ ๊ทํํฉ๋๋ค.
3.3 ์ ๋ ฌ๋ ๋ชจ๋ธ๋ค์ ์๋ ๋ฐ ์ธ๊ฐ ํ๊ฐ
์ ๋ ฌ๋ ๋ชจ๋ธ๋ค์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด MMLU(Hendrycks et al., 2020), C-Eval(Huang et al., 2023), GSM8K(Cobbe et al., 2021), HumanEval(Chen et al., 2021), BBH(Suzgun et al., 2022)๋ฅผ ํฌํจํ ์ ํ๋ฆฝ๋ benchmark๋ค์์ ๋ค๋ฅธ ์ ๋ ฌ๋ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ต๋ฅผ ์ํํ์ต๋๋ค.
๊ฒฐ๊ณผ๋ ์ธ๊ฐ์ ์ง์์ฌํญ์ ์ดํดํ๊ณ ์ ์ ํ ์๋ต์ ์์ฑํ๋ ๋ฐ ์์ด์ ์ฐ๋ฆฌ์ ์ ๋ ฌ๋ ๋ชจ๋ธ๋ค์ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. QWEN-14B-Chat์ ๋ชจ๋ ๋ฐ์ดํฐ์ ์์ ChatGPT(OpenAI, 2022)์ LLAMA 2-CHAT-70B(Touvron et al., 2023b)๋ฅผ ์ ์ธํ ๋ชจ๋ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋ฅ๊ฐํฉ๋๋ค.
์ธ๊ฐ ํ๊ฐ๋ฅผ ์ํด ์ง์, ์ธ์ด ์ดํด, ์ฐฝ์์ ๊ธ์ฐ๊ธฐ, ์ฝ๋ฉ, ์ํ์ ํฌํจํ ๋ค์ํ ์ฃผ์ ๋ฅผ ๋ค๋ฃจ๋ 300๊ฐ์ ์ค๊ตญ์ด ์ง์์ฌํญ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์คํ๊ฒ ์ ๋ณ๋ ๋ฐ์ดํฐ์ ์ ๋ง๋ค์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ RLHF ๋ชจ๋ธ์ด SFT ๋ชจ๋ธ๋ค๋ณด๋ค ์๋นํ ์ฐจ์ด๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ ๋ช ํํ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ RLHF๊ฐ ๋ชจ๋ธ์ด ์ธ๊ฐ์๊ฒ ๋ ์ ํธ๋๋ ์๋ต์ ์์ฑํ๋๋ก ๊ฒฉ๋ คํ ์ ์์์ ๋ํ๋ ๋๋ค.
3.4 Tool Use, Code Interpreter, ๊ทธ๋ฆฌ๊ณ Agent
๋ค์ฉ๋๋ก ์ค๊ณ๋ QWEN ๋ชจ๋ธ๋ค์ tool ์ฌ์ฉ๊ณผ ๊ณํ ๊ธฐ์ ์ ํ์ฉํ์ฌ ์ผ์ ์์ ์ (๋ฐ)์๋ํํ๋ ๋ฐ ๋์์ ์ฃผ๋ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ฐ๋ผ์ ์ด๋ค์ ๋ค์ํ ์์ ์ ๊ฐ์ํํ๋ ๋ฐ ๋์์ด ๋๋ agent๋ ๋ถ์กฐ์ข ์ฌ ์ญํ ์ ํ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ QWEN์ ๋ค์ ์์ญ์์์ ์๋ จ๋๋ฅผ ํ๊ตฌํฉ๋๋ค:
- ReAct prompting์ ํตํ ์ฒ์ ๋ณด๋ ๋๊ตฌ ํ์ฉ(Yao et al., 2022)
- ์ํ ์ถ๋ก , ๋ฐ์ดํฐ ๋ถ์ ๋ฑ์ ํฅ์์ํค๊ธฐ ์ํ Python code interpreter ์ฌ์ฉ
- ์ธ๊ฐ๊ณผ ์ํธ์์ฉํ๋ฉด์ Hugging Face์ ๋ฐฉ๋ํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ ์ปฌ๋ ์ ์ ์ ๊ทผํ๋ agent๋ก์ ๊ธฐ๋ฅ
QWEN์ agent๋ ๋ถ์กฐ์ข ์ฌ๋ก์์ ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด SFT์ self-instruct(Wang et al., 2023c) ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, self-instruction์ ์ํด QWEN์ in-context learning ๋ฅ๋ ฅ์ ํ์ฉํฉ๋๋ค. ๋ช ๊ฐ์ง ์์๋ฅผ ์ ๊ณตํจ์ผ๋ก์จ QWEN์ด ๋ ๊ด๋ จ์ฑ ์๋ ์ง์๋ฅผ ์์ฑํ๊ณ ReAct(Yao et al., 2022)์ ๊ฐ์ ํน์ ํ์์ ๋ฐ๋ฅด๋ ์ถ๋ ฅ์ ์์ฑํ๋๋ก ์ ๋ํ ์ ์์ต๋๋ค.
-
CODE-QWEN: ์ฝ๋ฉ ์ ๋ฌธ ๋ชจ๋ธ
๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ์ ๋ํ ํ๋ จ์ ํนํ ์ฝ๋ ์ฌ์ ํ๋ จ๊ณผ fine-tuning์ ๊ฒฝ์ฐ์ ๋งค์ฐ ํจ๊ณผ์ ์์ด ์ ์ฆ๋์์ต๋๋ค. ์ฝ๋ ๋ฐ์ดํฐ๋ก ๊ฐํ๋ ํ๋ จ์ ๋ฐ์ ์ธ์ด ๋ชจ๋ธ์ ์ฝ๋ฉ, ๋๋ฒ๊น , ํด์ ๋ฑ์ ์์ ์ ์ ์ฉํ ๋๊ตฌ ์ญํ ์ ํ ์ ์์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ์์๋ ์ฌ์ ํ๋ จ๊ณผ ์ ๋ ฌ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ผ๋ จ์ ์ผ๋ฐ์ฃผ์ ๋ชจ๋ธ๋ค์ ๊ฐ๋ฐํ์ต๋๋ค. ์ด ๊ธฐ๋ฐ ์์ QWEN์ ๊ธฐ๋ณธ ์ธ์ด ๋ชจ๋ธ๋ค์ ํ์ฉํ์ฌ ์ฝ๋ฉ์ ์ํ ๋๋ฉ์ธ๋ณ ๋ชจ๋ธ๋ค์ ๋ง๋ค์์ผ๋ฉฐ, ์ฌ๊ธฐ์๋ ์ง์์ ์ธ ์ฌ์ ํ๋ จ ๋ชจ๋ธ์ธ CODE-QWEN๊ณผ supervised fine-tuning ๋ชจ๋ธ์ธ CODE-QWEN-CHAT์ด ํฌํจ๋ฉ๋๋ค. ๋ ๋ชจ๋ธ ๋ชจ๋ 140์ต ๋ฐ 70์ต parameter ๋ฒ์ ์ด ์์ต๋๋ค.
4.1 ์ฝ๋ ์ฌ์ ํ๋ จ
์ฝ๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ฌ์ ํ๋ จ์ ์์กดํ๋ ๊ฒ์ ๋ค์ฉ๋ ๋์ฐ๋ฏธ๋ก์ ๊ธฐ๋ฅํ๋ ๋ฅ๋ ฅ์ ์๋นํ ์์ค์ํฌ ์ ์๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ฝ๋ ๋ฐ์ดํฐ๋ง์ผ๋ก ์ฌ์ ํ๋ จ์ ์ด์ ์ ๋ง์ถ ์ด์ ์ ๊ทผ๋ฒ๋ค๊ณผ๋ ๋ฌ๋ฆฌ(Li et al., 2022; 2023d), ์ฐ๋ฆฌ๋ ํ ์คํธ์ ์ฝ๋ ๋ฐ์ดํฐ์ ์กฐํฉ์ผ๋ก ํ๋ จ๋ ๊ธฐ๋ณธ ๋ชจ๋ธ QWEN์์ ์์ํ์ฌ ์ฝ๋ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ์ ๊ณ์ํ๋ ๋ค๋ฅธ ์ ๊ทผ๋ฒ(Roziere et al., 2023)์ ์ทจํฉ๋๋ค. ์ด ์ฝ 900์ต ๊ฐ์ ํ ํฐ์ผ๋ก ๋ชจ๋ธ์ ๊ณ์ ์ฌ์ ํ๋ จํฉ๋๋ค.
4.2 ์ฝ๋ Supervised Fine-tuning
์ผ๋ จ์ ์คํ์ ์คํ์ ์ํํ ํ, ๋ค๋จ๊ณ SFT ์ ๋ต์ด ๋ค๋ฅธ ๋ฐฉ๋ฒ๋ค๊ณผ ๋น๊ตํ์ ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ์ฐ์ถํจ์ ํ์ธํ์ต๋๋ค. supervised fine-tuning ๋จ๊ณ์์ ์ฝ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ CODE-QWEN์ผ๋ก ์ด๊ธฐํ๋ ๋ชจ๋ธ CODE-QWEN-CHAT์ AdamW(Kingma & Ba, 2014; Loshchilov & Hutter, 2017) optimizer๋ก ์ต์ ํ๋ฉ๋๋ค.
4.3 ํ๊ฐ
CODE-QWEN ๋ชจ๋ธ๋ค์ ์์ฉ ๋ฐ ์คํ์์ค ์ธ์ด ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ต๋๋ค. ์ด ๋น๊ต๋ HumanEval(Chen et al., 2021), MBPP(Austin et al., 2021), ๊ทธ๋ฆฌ๊ณ ๋ค๊ตญ์ด ์ฝ๋ ์์ฑ benchmark์ธ HUMANEVALPACK(Muennighoff et al., 2023)์ ํ ์คํธ ์ ์์์ pass@1 ์ฑ๋ฅ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
๋ถ์ ๊ฒฐ๊ณผ ํน์ ๋ชจ๋ธ๋ค, ํนํ CODE-QWEN๊ณผ CODE-QWEN-CHAT์ด ์ ์ฌํ parameter ์๋ฅผ ๊ฐ์ง ์ด์ baseline๋ค์ ํฌ๊ฒ ๋ฅ๊ฐํจ์ ๋ณด์ฌ์ค๋๋ค. ์ค์ ๋ก, ์ด๋ค ๋ชจ๋ธ์ Starcoder(Li et al., 2023d)์ ๊ฐ์ ๋ ํฐ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ๊ณผ๋ ๊ฒฝ์ํฉ๋๋ค.
-
MATH-QWEN: ์ํ์ ์ถ๋ก ์ ๋ฌธ ๋ชจ๋ธ
QWEN ์ฌ์ ํ๋ จ๋ ์ธ์ด ๋ชจ๋ธ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋ ์ํ ์ ๋ฌธ ๋ชจ๋ธ ์๋ฆฌ์ฆ์ธ MATH-QWEN-CHAT์ ๋ง๋ค์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, ์ฐ์ ๊ณผ ์ํ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๊ณ ์ธ๊ฐ ํ๋๊ณผ ์ ๋ ฌ๋ ๋์ฐ๋ฏธ ๋ชจ๋ธ๋ค์ ๊ฐ๋ฐํ์ต๋๋ค. 140์ต๊ณผ 70์ต parameter๋ฅผ ๊ฐ๊ฐ ๊ฐ์ง ๋ ๊ฐ์ง ๋ฒ์ ์ธ MATH-QWEN-14B-CHAT๊ณผ MATH-QWEN-7B-CHAT์ ์ถ์ํฉ๋๋ค.
5.1 ํ๋ จ
์ํ์ ์ถ๋ก ์ ์ํด ํ์ฅ๋ ์ํ ์ง๋ ๋ฐ์ดํฐ์ ์์ math SFT๋ฅผ ์ํํ์ฌ ์ฑํ ๋ชจ๋ธ์ธ MATH-QWEN-CHAT์ ์ง์ ํ๋ํฉ๋๋ค. math SFT ๋ฐ์ดํฐ์ ํ๊ท ๊ธธ์ด๊ฐ ๋ ์งง๊ธฐ ๋๋ฌธ์ ๋ ๋น ๋ฅธ ํ๋ จ์ ์ํด sequence length 1024๋ฅผ ์ฌ์ฉํฉ๋๋ค.
5.2 ํ๊ฐ
GSM8K(Grade school math)(Cobbe et al., 2021), MATH(Challenging competition math problems)(Hendrycks et al., 2021), Math401(Arithmetic ability)(Yuan et al., 2023b), Math23K(Chinese grade school math)(Wang et al., 2017)์ ํ ์คํธ ์ ์์ ๋ชจ๋ธ๋ค์ ํ๊ฐํฉ๋๋ค.
MATH-QWEN-CHAT ๋ชจ๋ธ๋ค์ ์ ์ฌํ ํฌ๊ธฐ์ ์คํ์์ค ๋ชจ๋ธ๋ค ๋ฐ QWEN-CHAT ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋ ๋ ๋์ ์ํ์ ์ถ๋ก ๊ณผ ์ฐ์ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ์์ฉ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋, MATH-QWEN-7B-CHAT์ MATH์์ Minerva-8B๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. MATH-QWEN-14B-CHAT์ GSM8K์ MATH์์ Minerva-62B์ GPT-3.5๋ฅผ ์ถ๊ฒฉํ๊ณ ์์ผ๋ฉฐ, ์ฐ์ ๋ฅ๋ ฅ๊ณผ ์ค๊ตญ ์ํ ๋ฌธ์ ์์ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค.
-
๊ด๋ จ ์ฐ๊ตฌ
6.1 Large Language Models
LLM์ ํฅ๋ฏธ๋ Transformer ์ํคํ ์ฒ(Vaswani et al., 2017)์ ๋์ ์ผ๋ก ์์๋์์ผ๋ฉฐ, ์ด๋ Radford et al.(2018); Devlin et al.(2018); Liu et al.(2019) ๋ฑ์ ์ฐ๊ตฌ์๋ค์ ์ํด ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฌ์ ํ๋ จ์ ์ ์ฉ๋์์ต๋๋ค. ChatGPT(OpenAI, 2022)์ ํ์๊ณผ ์ดํ GPT-4(OpenAI, 2023)์ ์ถ์๋ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์์ ๋ ๊ฐ์ ์ญ์ฌ์ ์๊ฐ์ ๊ธฐ๋กํ์ผ๋ฉฐ, Large Language Model(LLM)๋ค์ด ์ธ๊ฐ๊ณผ ์ํตํ ์ ์๋ ํจ๊ณผ์ ์ธ AI ๋์ฐ๋ฏธ๋ก ๊ธฐ๋ฅํ ์ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
6.2 ์ ๋ ฌ
์ปค๋ฎค๋ํฐ๋ LLM์ ๋ํ ์ ๋ ฌ์ ๋๋ผ์ด ํจ๊ณผ์ ๊น์ ์ธ์์ ๋ฐ์์ต๋๋ค. ์ด์ ์๋ ์ ๋ ฌ ์๋ LLM๋ค์ด ์ข ์ข ๋ฐ๋ณต์ ์ธ ์์ฑ, ํ๊ฐ, ์ธ๊ฐ ์ ํธ๋๋ก๋ถํฐ์ ์ผํ๊ณผ ๊ฐ์ ๋ฌธ์ ๋ค๋ก ์ด๋ ค์์ ๊ฒช์์ต๋๋ค. 2021๋ ์ดํ, ์ฐ๊ตฌ์๋ค์ downstream task์์ LLM์ ์ฑ๋ฅ์ ํฅ์์ํค๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ๊ธฐ ์ํด ๋ถ์ง๋ฐํ ๋ ธ๋ ฅํด์์ต๋๋ค.
6.3 Tool Use์ Agents
LLM์ ๊ณํ ๊ธฐ๋ฅ์ ํตํด Schick et al.(2023)์ด ๋ณด์ฌ์ค ๋ฐ์ ๊ฐ์ด in-context learning์ ํตํด API๋ agent ๋ฅ๋ ฅ๊ณผ ๊ฐ์ ๋๊ตฌ๋ฅผ ํธ์ถํ ์ ์์ต๋๋ค. Yao et al.(2022)์ ๋ชจ๋ธ์ด ์ด๋ค ๋๊ตฌ๋ฅผ ์ฌ์ฉํ ์ง์ ๋ํ ์๊ฐ์ ์์ฑํ๊ณ , API ๊ด์ฐฐ๋ก๋ถํฐ์ ์ ๋ ฅ์ ๋ฐ์๋ค์ด๋ฉฐ, ์๋ต์ ์์ฑํ ์ ์๊ฒ ํ๋ ์์ฑ ํ์์ธ ReAct๋ฅผ ๋์ ํ์ต๋๋ค.
6.4 ์ฝ๋ฉ์ ์ํ LLM
์ด์ ์ฐ๊ตฌ๋ค์ LLM๋ค์ด ํนํ ๋ฐฉ๋ํ ์์ parameter๋ฅผ ๊ฐ์ง ๋ชจ๋ธ๋ค์์ ์ฝ๋ ์ดํด์ ์์ฑ์์ ๋ฐ์ด๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค(Chowdhery et al., 2022; Anil et al., 2023; Rae et al., 2021; Hoffmann et al., 2022). ๋ํ, ์ฌ๋ฌ LLM๋ค์ด ์ฝ๋ฉ ๊ด๋ จ ๋ฐ์ดํฐ์ ๋ํด ์ฌ์ ํ๋ จ, ์ง์์ ์ธ ์ฌ์ ํ๋ จ, ๋๋ fine-tuning๋์ด ์ผ๋ฐ ๋ชฉ์ LLM๋ค๊ณผ ๋น๊ตํ์ ๋ ํ์ ํ ํฅ์๋ ์ฑ๋ฅ์ ์ป์์ต๋๋ค.
6.5 ์ํ์ ์ํ LLM
ํน์ ๋ชจ๋ธ ๊ท๋ชจ๋ฅผ ๊ฐ์ง LLM๋ค์ด ์ํ์ ์ถ๋ก ์ ์ํํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์์์ด ๋ฐ๊ฒฌ๋์์ต๋๋ค(Wei et al., 2022b; Suzgun et al., 2022). ์ํ ๊ด๋ จ ์์ ์์ LLM๋ค์ด ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋๋ก ๊ฒฉ๋ คํ๊ธฐ ์ํด, ์ฐ๊ตฌ์๋ค์ chain-of-thought prompting(Wei et al., 2022c)๊ณผ scratchpad(Nye et al., 2021) ๊ฐ์ ๊ธฐ๋ฒ๋ค์ ์ฌ์ฉํ์ผ๋ฉฐ, ์ด๋ ์ ๋งํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
-
๊ฒฐ๋ก
๋ณธ ๋ณด๊ณ ์์์๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์ ์ต์ ๋ฐ์ ์ ๋ณด์ฌ์ฃผ๋ QWEN ์๋ฆฌ์ฆ์ Large Language Model๋ค์ ์๊ฐํฉ๋๋ค. 140์ต, 70์ต, 18์ต parameter๋ฅผ ๊ฐ์ง ์ด๋ค ๋ชจ๋ธ์ ์์กฐ ๊ฐ์ ํ ํฐ์ ํฌํจํ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋์์ผ๋ฉฐ, SFT์ RLHF์ ๊ฐ์ ์ต์ฒจ๋จ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ fine-tuning๋์์ต๋๋ค.
๋ํ, QWEN ์๋ฆฌ์ฆ์๋ CODE-QWEN, CODE-QWEN-CHAT, MATH-QWEN-CHAT๊ณผ ๊ฐ์ ์ฝ๋ฉ๊ณผ ์ํ์ ์ํ ์ ๋ฌธ ๋ชจ๋ธ๋ค์ด ํฌํจ๋์ด ์์ผ๋ฉฐ, ์ด๋ค์ ๊ฐ๊ฐ์ ๋ถ์ผ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ ์ํด ๋๋ฉ์ธ๋ณ ๋ฐ์ดํฐ๋ก ํ๋ จ๋์์ต๋๋ค. ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ QWEN ์๋ฆฌ์ฆ๊ฐ ๊ธฐ์กด ์คํ์์ค ๋ชจ๋ธ๋ค๊ณผ ๊ฒฝ์๋ ฅ์ด ์์ผ๋ฉฐ, ํฌ๊ด์ ์ธ benchmark์ ์ธ๊ฐ ํ๊ฐ์์ ์ผ๋ถ ์์ฉ ๋ชจ๋ธ๋ค์ ์ฑ๋ฅ๊ณผ๋ ์ผ์นํจ์ ๋ณด์ฌ์ค๋๋ค.
์ฐ๋ฆฌ๋ QWEN์ ๊ฐ๋ฐฉ์ ์ ๊ทผ์ด ์ปค๋ฎค๋ํฐ ๋ด์์ ํ๋ ฅ๊ณผ ํ์ ์ ์ด์งํ์ฌ, ์ฐ๊ตฌ์๋ค๊ณผ ๊ฐ๋ฐ์๋ค์ด ์ฐ๋ฆฌ์ ์์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ผ์ ์ธ์ด ๋ชจ๋ธ๋ก ๊ฐ๋ฅํ ๊ฒ์ ๊ฒฝ๊ณ๋ฅผ ๋ํ๊ฒ ๋ ๊ฒ์ด๋ผ๊ณ ๋ฏฟ์ต๋๋ค. ์ด๋ค ๋ชจ๋ธ์ ๊ณต๊ฐํจ์ผ๋ก์จ, ์ฐ๋ฆฌ๋ ์ด ๋ถ์ผ๋ฅผ ๋์ฑ ๋ฐ์ ์ํค๊ณ ํ์ค์ ์ธ ์ค์ ์์ ๋์ ๋ ๋ณ์์ ๊ธฐ๋ฒ๋ค์ ๋ํ ์ฐ๋ฆฌ์ ์ดํด์ ๊ธฐ์ฌํ ์๋ก์ด ์ฐ๊ตฌ์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์๊ฐ์ ์ฃผ๊ธฐ๋ฅผ ํฌ๋งํฉ๋๋ค.