[Paper Review] Qwen Technical Report

Posted by Euisuk's Dev Log on August 29, 2025

[Paper Review] Qwen Technical Report

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Paper-Review-Qwen-Technical-Report

https://arxiv.org/abs/2309.16609

1
BAI, Jinze, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023.

๐Ÿ’ก QWEN์€ ์ค‘๊ตญ์–ด๋กœ โ€œ์ฒœ ๊ฐœ์˜ ์งˆ๋ฌธโ€์„ ์˜๋ฏธํ•˜๋Š” Qianwen์˜ ๋ณ„๋ช…์ž…๋‹ˆ๋‹ค. โ€œQWENโ€์˜ ๋ฐœ์Œ์€ ๋งฅ๋ฝ๊ณผ ๋งํ•˜๋Š” ๊ฐœ์ธ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•œ ๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ๋ฐœ์Œ ๋ฐฉ๋ฒ•์€ /kwEn/์ž…๋‹ˆ๋‹ค. ์ „ ๊ทธ๋ƒฅ ํ€œ์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค! ใ…Žใ…Ž

์ดˆ๋ก

Large Language Model(LLM)๋“ค์€ ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ๋ฅผ ํ˜์‹ ํ–ˆ์œผ๋ฉฐ, ์ด์ „์—๋Š” ์ธ๊ฐ„์—๊ฒŒ๋งŒ ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ์—ฌ๊ฒจ์กŒ๋˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ์ž‘์—…๋“ค์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” Large Language Model ์‹œ๋ฆฌ์ฆˆ์˜ ์ฒซ ๋ฒˆ์งธ ๋ฒ„์ „์ธ QWENยน์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. QWEN์€ ๋‹ค์–‘ํ•œ parameter ์ˆ˜๋ฅผ ๊ฐ€์ง„ ๊ฐœ๋ณ„ ๋ชจ๋ธ๋“ค์„ ํฌํ•จํ•˜๋Š” ํฌ๊ด„์ ์ธ ์–ธ์–ด ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ๊ธฐ๋ณธ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ์ธ QWEN๊ณผ ์ธ๊ฐ„ ์ •๋ ฌ ๊ธฐ๋ฒ•์œผ๋กœ fine-tuning๋œ ์ฑ„ํŒ… ๋ชจ๋ธ์ธ QWEN-CHAT์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๊ธฐ๋ณธ ์–ธ์–ด ๋ชจ๋ธ๋“ค์€ ์—ฌ๋Ÿฌ downstream task์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ง€์†์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ฑ„ํŒ… ๋ชจ๋ธ๋“ค, ํŠนํžˆ Reinforcement Learning from Human Feedback(RLHF)๋กœ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ๋“ค์€ ๋งค์šฐ ๊ฒฝ์Ÿ๋ ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฑ„ํŒ… ๋ชจ๋ธ๋“ค์€ agent application ์ƒ์„ฑ์„ ์œ„ํ•œ ๊ณ ๊ธ‰ tool ์‚ฌ์šฉ ๋ฐ ๊ณ„ํš ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, code interpreter ํ™œ์šฉ๊ณผ ๊ฐ™์€ ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋„ ๋” ํฐ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ธ์ƒ์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ๊ธฐ๋ณธ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฐ”ํƒ•์œผ๋กœ ๊ตฌ์ถ•๋œ ์ฝ”๋”ฉ ์ „๋ฌธ ๋ชจ๋ธ์ธ CODE-QWEN๊ณผ CODE-QWEN-CHAT, ๊ทธ๋ฆฌ๊ณ  ์ˆ˜ํ•™ ์ค‘์‹ฌ ๋ชจ๋ธ์ธ MATH-QWEN-CHAT์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์€ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์ƒ์šฉ ๋ชจ๋ธ๋“ค์—๋Š” ์•ฝ๊ฐ„ ๋’ค์ฒ˜์ง‘๋‹ˆ๋‹ค.

  1. ์„œ๋ก 

Large Language Model(LLM)(Radford et al., 2018; Devlin et al., 2018; Raffel et al., 2020; Brown et al., 2020; OpenAI, 2023; Chowdhery et al., 2022; Anil et al., 2023; Thoppilan et al., 2022; Touvron et al., 2023a;b)๋“ค์€ ๋ณต์žกํ•œ ์ถ”๋ก ๊ณผ ๋ฌธ์ œ ํ•ด๊ฒฐ ์ž‘์—…์„ ์œ„ํ•œ ๊ฐ•๋ ฅํ•œ ๊ธฐ๋ฐ˜์„ ์ œ๊ณตํ•จ์œผ๋กœ์จ ์ธ๊ณต์ง€๋Šฅ(AI) ๋ถ„์•ผ๋ฅผ ํ˜์‹ ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์€ ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ์‹ ๊ฒฝ๋ง์— ์••์ถ•ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์–ด, ๋งค์šฐ ๋‹ค์–‘ํ•œ agent๋กœ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ฑ„ํŒ… ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ด LLM๋“ค์€ ์ด์ „์—๋Š” ์ธ๊ฐ„์˜ ์ „์œ ๋ฌผ๋กœ ์—ฌ๊ฒจ์กŒ๋˜ ์ž‘์—…๋“ค, ํŠนํžˆ ์ฐฝ์˜์„ฑ๊ณผ ์ „๋ฌธ์„ฑ์ด ํ•„์š”ํ•œ ์ž‘์—…๋“ค์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(OpenAI, 2022; Ouyang et al., 2022; Anil et al., 2023; Google, 2023; Anthropic, 2023a;b). ์ด๋“ค์€ ์ธ๊ฐ„๊ณผ ์ž์—ฐ์–ด ๋Œ€ํ™”์— ์ฐธ์—ฌํ•˜๊ณ , ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ณ , ์ •๋ณด๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์‹ฌ์ง€์–ด ์ด์•ผ๊ธฐ, ์‹œ, ์Œ์•…๊ณผ ๊ฐ™์€ ์ฐฝ์ž‘๋ฌผ์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์ฑ—๋ด‡๊ณผ ๊ฐ€์ƒ ๋„์šฐ๋ฏธ๋ถ€ํ„ฐ ์–ธ์–ด ๋ฒˆ์—ญ๊ณผ ์š”์•ฝ ๋„๊ตฌ์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ ๋‹ค์–‘ํ•œ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์ด ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

LLM๋“ค์€ ์–ธ์–ด ์ž‘์—…์—๋งŒ ์ œํ•œ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋“ค์€ ๋˜ํ•œ ์ผ๋ฐ˜์ ์ธ agent๋กœ์„œ ๊ธฐ๋Šฅํ•˜๋ฉฐ(Reed et al., 2022; Bai et al., 2022a; Wang et al., 2023a; AutoGPT, 2023; Hong et al., 2023), ์™ธ๋ถ€ ์‹œ์Šคํ…œ, ๋„๊ตฌ, ๋ชจ๋ธ๊ณผ ํ˜‘๋ ฅํ•˜์—ฌ ์ธ๊ฐ„์ด ์„ค์ •ํ•œ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, LLM๋“ค์€ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ง€์‹œ์‚ฌํ•ญ์„ ์ดํ•ดํ•˜๊ณ (OpenAI, 2023; Bai et al., 2023; Liu et al., 2023a; Ye et al., 2023; Dai et al., 2023; Peng et al., 2023b), ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๋ฉฐ(Chen et al., 2021; Zheng et al., 2023; Li et al., 2023d), ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ• (Schick et al., 2023; LangChain, Inc., 2023; AutoGPT, 2023) ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ž์œจ์ฃผํ–‰์ฐจ์™€ ๋กœ๋ด‡๊ณตํ•™๋ถ€ํ„ฐ ์˜๋ฃŒ์™€ ๊ธˆ์œต์— ์ด๋ฅด๊ธฐ๊นŒ์ง€ AI ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์˜ ์™„์ „ํžˆ ์ƒˆ๋กœ์šด ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค.

์ธ์ƒ์ ์ธ ๋Šฅ๋ ฅ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , LLM๋“ค์€ ์žฌํ˜„์„ฑ, ์กฐ์ž‘์„ฑ, ๊ทธ๋ฆฌ๊ณ  ์„œ๋น„์Šค ์ œ๊ณต์—…์ฒด์— ๋Œ€ํ•œ ์ ‘๊ทผ์„ฑ์ด ๋ถ€์กฑํ•˜๋‹ค๋Š” ๋น„ํŒ์„ ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์šฐ๋ฆฌ์˜ LLM ์‹œ๋ฆฌ์ฆˆ์˜ ์ดˆ๊ธฐ ๋ฒ„์ „์ธ QWEN์„ ์†Œ๊ฐœํ•˜๊ฒŒ ๋˜์–ด ๊ธฐ์ฉ๋‹ˆ๋‹ค. QWEN์€ ์ค‘๊ตญ์–ด๋กœ โ€œ์ฒœ ๊ฐœ์˜ ์งˆ๋ฌธโ€์„ ์˜๋ฏธํ•˜๋Š” Qianwen์—์„œ ํŒŒ์ƒ๋œ ์ด๋ฆ„์œผ๋กœ, ๋‹ค์–‘ํ•œ ์งˆ๋ฌธ์„ ์ˆ˜์šฉํ•œ๋‹ค๋Š” ๊ฐœ๋…์„ ์ „๋‹ฌํ•ฉ๋‹ˆ๋‹ค. QWEN์€ ๋‹ค์–‘ํ•œ parameter ์ˆ˜๋ฅผ ๊ฐ€์ง„ ๊ฐœ๋ณ„ ๋ชจ๋ธ๋“ค์„ ํฌํ•จํ•˜๋Š” ํฌ๊ด„์ ์ธ ์–ธ์–ด ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์—๋Š” ๊ธฐ๋ณธ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ๋“ค, ์ฆ‰ supervised finetuning(SFT), reinforcement learning with human feedback(RLHF) ๋“ฑ์˜ ์ธ๊ฐ„ ์ •๋ ฌ ๊ธฐ๋ฒ•์œผ๋กœ fine-tuning๋œ ์ฑ„ํŒ… ๋ชจ๋ธ๋“ค, ๊ทธ๋ฆฌ๊ณ  ์ฝ”๋”ฉ ๋ฐ ์ˆ˜ํ•™ ์ „๋ฌธ ๋ชจ๋ธ๋“ค์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

  1. ์‚ฌ์ „ํ›ˆ๋ จ (Pretraining)

์‚ฌ์ „ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ๋Š” ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์„ธ์ƒ๊ณผ ๊ทธ ๋‹ค์–‘ํ•œ ๋ณต์žก์„ฑ์— ๋Œ€ํ•œ ํฌ๊ด„์ ์ธ ์ดํ•ด๋ฅผ ์Šต๋“ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ๊ธฐ๋ณธ์ ์ธ ์–ธ์–ด ๋Šฅ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‚ฐ์ˆ , ์ฝ”๋”ฉ, ๋…ผ๋ฆฌ์  ์ถ”๋ก ๊ณผ ๊ฐ™์€ ๊ณ ๊ธ‰ ๊ธฐ์ˆ ๋„ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

2.1 ๋ฐ์ดํ„ฐ

๋ฐ์ดํ„ฐ ํฌ๊ธฐ๋Š” ๊ฒฌ๊ณ ํ•œ Large Language Model์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋ฐ ์ค‘์š”ํ•œ ์š”์†Œ์ž„์ด ์ด์ „ ์—ฐ๊ตฌ์—์„œ ๊ฐ•์กฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค(Hoffmann et al., 2022; Touvron et al., 2023b). ํšจ๊ณผ์ ์ธ ์‚ฌ์ „ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ๋‹ค์–‘ํ•˜๊ณ  ๊ด‘๋ฒ”์œ„ํ•œ ์œ ํ˜•, ๋„๋ฉ”์ธ, ์ž‘์—…์„ ๋‹ค๋ฃจ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ์…‹์€ ์ด๋Ÿฌํ•œ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ถฉ์กฑํ•˜๋„๋ก ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ๊ณต๊ฐœ ์›น ๋ฌธ์„œ, ๋ฐฑ๊ณผ์‚ฌ์ „, ์„œ์ , ์ฝ”๋“œ ๋“ฑ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ์…‹์€ ๋‹ค๊ตญ์–ด์ด๋ฉฐ, ์˜์–ด์™€ ์ค‘๊ตญ์–ด๊ฐ€ ์ƒ๋‹นํ•œ ๋ถ€๋ถ„์„ ์ฐจ์ง€ํ•ฉ๋‹ˆ๋‹ค.

์‚ฌ์ „ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์˜ ํ’ˆ์งˆ์„ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ ์ ˆ์ฐจ๋ฅผ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ณต๊ฐœ ์›น ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ, HTML์—์„œ ํ…์ŠคํŠธ๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์–ธ์–ด ์‹๋ณ„ ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์–ธ์–ด๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด ์ •๊ทœํ™” ํ›„ ์ •ํ™•ํ•œ ์ผ์น˜ ์ค‘๋ณต ์ œ๊ฑฐ์™€ MinHash ๋ฐ LSH ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•œ ์œ ์‚ฌ ์ค‘๋ณต ์ œ๊ฑฐ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ €ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„ํ„ฐ๋งํ•˜๊ธฐ ์œ„ํ•ด ๊ทœ์น™ ๊ธฐ๋ฐ˜๊ณผ ๊ธฐ๊ณ„ ํ•™์Šต ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ์กฐํ•ฉ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์–ธ์–ด ๋ชจ๋ธ, ํ…์ŠคํŠธ ํ’ˆ์งˆ ํ‰๊ฐ€ ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ  ์ž ์žฌ์ ์œผ๋กœ ๋ถˆ์พŒํ•˜๊ฑฐ๋‚˜ ๋ถ€์ ์ ˆํ•œ ๋‚ด์šฉ์„ ์‹๋ณ„ํ•˜๋Š” ๋ชจ๋ธ์„ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‚ด์šฉ์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

2.2 ํ† ํฐํ™” (Tokenization)

์–ดํœ˜ ์„ค๊ณ„๋Š” ํ›ˆ๋ จ ํšจ์œจ์„ฑ๊ณผ downstream task ์„ฑ๋Šฅ์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” GPT-3.5์™€ GPT-4๋ฅผ ๋”ฐ๋ผ byte pair encoding(BPE)์„ ํ† ํฐํ™” ๋ฐฉ๋ฒ•์œผ๋กœ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์˜คํ”ˆ์†Œ์Šค fast BPE tokenizer์ธ tiktoken(Jain, 2022)์„ ์‹œ์ž‘์ ์œผ๋กœ ํ•˜์—ฌ cl100k base ์–ดํœ˜๋ฅผ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ์ค‘๊ตญ์–ด์—์„œ ๋‹ค๊ตญ์–ด downstream task์— ๋Œ€ํ•œ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์ค‘๊ตญ์–ด ๋ฌธ์ž์™€ ๋‹จ์–ด, ๊ทธ๋ฆฌ๊ณ  ๋‹ค๋ฅธ ์–ธ์–ด์˜ ๋‹จ์–ด๋“ค๋กœ ์–ดํœ˜๋ฅผ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ Touvron et al.(2023a;b)์„ ๋”ฐ๋ผ ์ˆซ์ž๋ฅผ ๋‹จ์ผ ์ž๋ฆฟ์ˆ˜๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค. ์ตœ์ข… ์–ดํœ˜ ํฌ๊ธฐ๋Š” ์•ฝ 152K์ž…๋‹ˆ๋‹ค.

2.3 ์•„ํ‚คํ…์ฒ˜

QWEN์€ ์ˆ˜์ •๋œ ๋ฒ„์ „์˜ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์ตœ๊ณ ์˜ ์˜คํ”ˆ์†Œ์Šค LLM์œผ๋กœ ๋„๋ฆฌ ์ธ์ •๋ฐ›๋Š” LLaMA(Touvron et al., 2023a)์˜ ์ตœ๊ทผ ์˜คํ”ˆ์†Œ์Šค ์ ‘๊ทผ๋ฒ•์„ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. ์•„ํ‚คํ…์ฒ˜์— ๋Œ€ํ•œ ์ˆ˜์ •์‚ฌํ•ญ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ์ž„๋ฒ ๋”ฉ ๋ฐ ์ถœ๋ ฅ ํ”„๋กœ์ ์…˜: ์˜ˆ๋น„ ์‹คํ—˜ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ, ๋ฉ”๋ชจ๋ฆฌ ๋น„์šฉ์ด๋ผ๋Š” ๋Œ€๊ฐ€๋ฅผ ์น˜๋ฅด๋”๋ผ๋„ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ๊ณผ ์ถœ๋ ฅ ํ”„๋กœ์ ์…˜์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์—ฐ๊ฒฐํ•˜์ง€ ์•Š๋Š” untied embedding ์ ‘๊ทผ๋ฒ•์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์œ„์น˜ ์ž„๋ฒ ๋”ฉ: ๋ชจ๋ธ์— ์œ„์น˜ ์ •๋ณด๋ฅผ ํ†ตํ•ฉํ•˜๊ธฐ ์œ„ํ•œ ์„ ํ˜ธ ์˜ต์…˜์œผ๋กœ RoPE(Rotary Positional Embedding)(Su et al., 2021)๋ฅผ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. RoPE๋Š” ๋„๋ฆฌ ์ฑ„ํƒ๋˜์—ˆ์œผ๋ฉฐ ํ˜„๋Œ€ Large Language Model, ํŠนํžˆ PaLM(Chowdhery et al., 2022; Anil et al., 2023)๊ณผ LLaMA(Touvron et al., 2023a;b)์—์„œ ์„ฑ๊ณต์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ๋ฐ”์ด์–ด์Šค: Chowdhery et al.(2022)์„ ๋”ฐ๋ผ ๋Œ€๋ถ€๋ถ„์˜ ์ธต์—์„œ ๋ฐ”์ด์–ด์Šค๋ฅผ ์ œ๊ฑฐํ–ˆ์ง€๋งŒ, ๋ชจ๋ธ์˜ ์™ธ์‚ฝ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด attention์˜ QKV layer์—๋Š” ๋ฐ”์ด์–ด์Šค๋ฅผ ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค(Su, 2023b).
  • Pre-Norm & RMSNorm: ํ˜„๋Œ€ Transformer ๋ชจ๋ธ์—์„œ pre-normalization์ด ๊ฐ€์žฅ ๋„๋ฆฌ ์‚ฌ์šฉ๋˜๋Š” ์ ‘๊ทผ๋ฒ•์œผ๋กœ, post-normalization๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ํ›ˆ๋ จ ์•ˆ์ •์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Ba et al.(2016)์—์„œ ์„ค๋ช…๋œ ์ „ํ†ต์ ์ธ layer normalization ๊ธฐ๋ฒ•์„ RMSNorm(Jiang et al., 2023)์œผ๋กœ ๊ต์ฒดํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜: Swish(Ramachandran et al., 2017)์™€ Gated Linear Unit(Dauphin et al., 2017)์˜ ์กฐํ•ฉ์ธ SwiGLU(Shazeer, 2020)๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

2.4 ํ›ˆ๋ จ

QWEN์„ ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•ด Radford et al.(2018)์—์„œ ์„ค๋ช…๋œ ์ž๋™ํšŒ๊ท€ ์–ธ์–ด ๋ชจ๋ธ๋ง์˜ ํ‘œ์ค€ ์ ‘๊ทผ๋ฒ•์„ ๋”ฐ๋ฆ…๋‹ˆ๋‹ค. ์ด๋Š” ์ด์ „ ํ† ํฐ๋“ค์ด ์ œ๊ณตํ•˜๋Š” ๋งฅ๋ฝ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. 2048์˜ ๋งฅ๋ฝ ๊ธธ์ด๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๋ฐฐ์น˜๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ฌธ์„œ๋“ค์„ ์„ž๊ณ  ๋ณ‘ํ•ฉํ•œ ํ›„, ์ง€์ •๋œ ๋งฅ๋ฝ ๊ธธ์ด๋กœ ์ž๋ฆ…๋‹ˆ๋‹ค. ๊ณ„์‚ฐ ํšจ์œจ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ณ  ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์„ ์ค„์ด๊ธฐ ์œ„ํ•ด attention ๋ชจ๋“ˆ์—์„œ Flash Attention์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค(Dao et al., 2022). ์‚ฌ์ „ํ›ˆ๋ จ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•ด ํ‘œ์ค€ optimizer์ธ AdamW(Kingma & Ba, 2014; Loshchilov & Hutter, 2017)๋ฅผ ์ฑ„ํƒํ•ฉ๋‹ˆ๋‹ค.

2.5 ๋งฅ๋ฝ ๊ธธ์ด ํ™•์žฅ

Transformer ๋ชจ๋ธ๋“ค์€ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜์˜ ๋งฅ๋ฝ ๊ธธ์ด์— ์ƒ๋‹นํ•œ ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋งฅ๋ฝ ๊ธธ์ด๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ quadratic-complexity ๊ณ„์‚ฐ์ด ๊ณ„์‚ฐ ๋ฐ ๋ฉ”๋ชจ๋ฆฌ ๋น„์šฉ์„ ๊ธ‰๊ฒฉํžˆ ์ฆ๊ฐ€์‹œํ‚ต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์ถ”๋ก  ์ค‘์—๋งŒ ์ ์šฉ๋˜๋Š” ๊ฐ„๋‹จํ•œ ํ›ˆ๋ จ ์—†๋Š” ๊ธฐ๋ฒ•๋“ค์„ ๊ตฌํ˜„ํ•˜์—ฌ ๋ชจ๋ธ์˜ ๋งฅ๋ฝ ๊ธธ์ด๋ฅผ ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•œ ์ฃผ์š” ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š” NTK-aware interpolation(bloc97, 2023)์ž…๋‹ˆ๋‹ค.

2.6 ์‹คํ—˜ ๊ฒฐ๊ณผ

๋ชจ๋ธ๋“ค์˜ zero-shot ๋ฐ few-shot ํ•™์Šต ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์ผ๋ จ์˜ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•œ ์ฒ ์ €ํ•œ benchmark ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. QWEN์„ ์ตœ๊ทผ ์˜คํ”ˆ์†Œ์Šค ๊ธฐ๋ณธ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์—๋Š” LLaMA(Touvron et al., 2023a), LLAMA 2(Touvron et al., 2023b), MPT(Mosaic ML, 2023), Falcon(Almazrouei et al., 2023) ๋“ฑ์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค.

ํ‰๊ฐ€๋Š” 7๊ฐœ์˜ ์ธ๊ธฐ ์žˆ๋Š” benchmark๋ฅผ ๋‹ค๋ฃจ๋ฉฐ, ์ด๋Š” MMLU(5-shot)(Hendrycks et al., 2020), C-Eval(5-shot)(Huang et al., 2023), GSM8K(8-shot)(Cobbe et al., 2021), MATH(4-shot)(Hendrycks et al., 2021), HumanEval(0-shot)(Chen et al., 2021), MBPP(0-shot)(Austin et al., 2021), ๊ทธ๋ฆฌ๊ณ  BBH(Big Bench Hard)(3 shot)(Suzgun et al., 2022)์ž…๋‹ˆ๋‹ค.

์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” ์„ธ ๊ฐœ์˜ QWEN ๋ชจ๋ธ๋“ค์ด ๋ชจ๋“  downstream task์—์„œ ํƒ์›”ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ฃผ๋ชฉํ•  ์ ์€ LLaMA2-70B์™€ ๊ฐ™์€ ๋” ํฐ ๋ชจ๋ธ๋“ค์กฐ์ฐจ QWEN-14B์— ์˜ํ•ด 3๊ฐœ ์ž‘์—…์—์„œ ์••๋„๋‹นํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. QWEN-7B๋„ ํ›Œ๋ฅญํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, LLaMA2-13B๋ฅผ ๋Šฅ๊ฐ€ํ•˜๊ณ  Baichuan2-13B์™€ ๋น„์Šทํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ฌ์„ฑํ•ฉ๋‹ˆ๋‹ค.

  1. ์ •๋ ฌ (Alignment)

์‚ฌ์ „ํ›ˆ๋ จ๋œ Large Language Model๋“ค์€ ์ธ๊ฐ„ ํ–‰๋™๊ณผ ์ •๋ ฌ๋˜์ง€ ์•Š๋Š” ๊ฒƒ์œผ๋กœ ๋ฐํ˜€์กŒ์œผ๋ฉฐ, ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ AI ๋„์šฐ๋ฏธ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ์— ๋ถ€์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์ตœ๊ทผ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด supervised finetuning(SFT)๊ณผ reinforcement learning from human feedback(RLHF)์™€ ๊ฐ™์€ ์ •๋ ฌ ๊ธฐ๋ฒ•์˜ ์‚ฌ์šฉ์ด ์–ธ์–ด ๋ชจ๋ธ๋“ค์˜ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋Œ€ํ™” ๋Šฅ๋ ฅ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3.1 Supervised Finetuning

์ธ๊ฐ„ ํ–‰๋™์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์‚ฌ์ „ํ›ˆ๋ จ๋œ LLM์„ ์งˆ์˜์™€ ์‘๋‹ต์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ์ฑ„ํŒ… ์Šคํƒ€์ผ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด fine-tuningํ•˜๋Š” SFT๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

3.1.1 ๋ฐ์ดํ„ฐ

Supervised finetuning ๋ฐ์ดํ„ฐ์…‹์˜ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด ์—ฌ๋Ÿฌ ์Šคํƒ€์ผ์˜ ๋Œ€ํ™”๋ฅผ ์ฃผ์„์œผ๋กœ ๋‹ฌ์•˜์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐ์ดํ„ฐ์…‹๋“ค(Wei et al., 2022a)์ด ์ž์—ฐ์–ด๋กœ ๋œ ์งˆ๋ฌธ, ์ง€์‹œ์‚ฌํ•ญ, ๋‹ต๋ณ€์œผ๋กœ ๊ตฌ์„ฑ๋œ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จํ•˜๋Š” ๋ฐ˜๋ฉด, ์šฐ๋ฆฌ์˜ ์ ‘๊ทผ๋ฒ•์€ ์ธ๊ฐ„ ์Šคํƒ€์ผ์˜ ๋Œ€ํ™”๋ฅผ ์ฃผ์„์œผ๋กœ ๋‹ค๋Š” ๊ฒƒ๊นŒ์ง€ ๋” ๋‚˜์•„๊ฐ‘๋‹ˆ๋‹ค. Ouyang et al.(2022)์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ ์ด๋Ÿฌํ•œ ๊ด€ํ–‰์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋Œ€ํ•œ ์ž์—ฐ์–ด ์ƒ์„ฑ์— ์ดˆ์ ์„ ๋งž์ถค์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์œ ์šฉ์„ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

3.1.2 ํ›ˆ๋ จ

์‚ฌ์ „ํ›ˆ๋ จ๊ณผ ์ผ๊ด€๋˜๊ฒŒ, SFT๋ฅผ ์œ„ํ•œ ํ›ˆ๋ จ ์ž‘์—…์œผ๋กœ๋„ ๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก์„ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์‹œ์Šคํ…œ๊ณผ ์‚ฌ์šฉ์ž ์ž…๋ ฅ์— ๋Œ€ํ•ด loss mask๋ฅผ ์ ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์˜ ํ›ˆ๋ จ ๊ณผ์ •์€ AdamW optimizer๋ฅผ ํ™œ์šฉํ•˜๋ฉฐ, hyperparameter๋Š” ฮฒ1์„ 0.9๋กœ, ฮฒ2๋ฅผ 0.95๋กœ, ฮต์„ 10โปโธ๋กœ ์„ค์ •ํ•ฉ๋‹ˆ๋‹ค. sequence length๋Š” 2048๋กœ ์ œํ•œ๋˜๊ณ , batch size๋Š” 128์ž…๋‹ˆ๋‹ค.

3.2 Reinforcement Learning from Human Feedback

SFT๊ฐ€ ํšจ๊ณผ์ ์ž„์ด ์ž…์ฆ๋˜์—ˆ์ง€๋งŒ, ์ผ๋ฐ˜ํ™” ๋ฐ ์ฐฝ์˜์„ฑ ๋Šฅ๋ ฅ์ด ์ œํ•œ์ ์ด๊ณ  overfitting์— ์ทจ์•ฝํ•  ์ˆ˜ ์žˆ์Œ์„ ์ธ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Ouyang et al.(2022); Christiano et al.(2017)์˜ ์ ‘๊ทผ๋ฒ•์„ ๋”ฐ๋ผ SFT ๋ชจ๋ธ๋“ค์„ ์ธ๊ฐ„ ์„ ํ˜ธ๋„์™€ ๋” ์ž˜ ์ •๋ ฌํ•˜๊ธฐ ์œ„ํ•ด Reinforcement Learning from Human Feedback(RLHF)์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค.

3.2.1 Reward Model

์„ฑ๊ณต์ ์ธ reward model์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” Large Language Model(LLM)์„ ๊ตฌ์ถ•ํ•˜๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋จผ์ € ์‚ฌ์ „ํ›ˆ๋ จ์„ ๊ฑฐ์นœ ํ›„ fine-tuning์„ ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. preference model pretraining(PMP)(Bai et al., 2022b)๋กœ ์•Œ๋ ค์ง„ ์ด ์‚ฌ์ „ํ›ˆ๋ จ ๊ณผ์ •์—๋Š” ๋น„๊ต ๋ฐ์ดํ„ฐ์˜ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์€ ๋‹จ์ผ ์งˆ์˜์— ๋Œ€ํ•œ ๋‘ ๊ฐœ์˜ ์„œ๋กœ ๋‹ค๋ฅธ ์‘๋‹ต๊ณผ ํ•ด๋‹น ์„ ํ˜ธ๋„๋ฅผ ํฌํ•จํ•˜๋Š” ์ƒ˜ํ”Œ ์Œ๋“ค๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค.

Fine-tuning ๋‹จ๊ณ„์—์„œ๋Š” ๋‹ค์–‘ํ•œ prompt๋“ค์„ ์ˆ˜์ง‘ํ•˜๊ณ  QWEN ๋ชจ๋ธ๋“ค๋กœ๋ถ€ํ„ฐ์˜ ์‘๋‹ต์— ๋Œ€ํ•œ ์ธ๊ฐ„ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ”ํƒ•์œผ๋กœ reward model์„ ์กฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž prompt๋“ค์˜ ๋‹ค์–‘์„ฑ๊ณผ ๋ณต์žก์„ฑ์ด ์ ์ ˆํžˆ ๊ณ ๋ ค๋˜๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด ์•ฝ 6600๊ฐœ์˜ ์ƒ์„ธํ•œ ํƒœ๊ทธ๋ฅผ ๊ฐ€์ง„ ๋ถ„๋ฅ˜ ์‹œ์Šคํ…œ์„ ๋งŒ๋“ค๊ณ , reward model์˜ ์ฃผ์„์„ ์œ„ํ•œ prompt๋ฅผ ์„ ํƒํ•  ๋•Œ ๋‹ค์–‘์„ฑ๊ณผ ๋ณต์žก์„ฑ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜๋Š” ๊ท ํ˜• ์žกํžŒ ์ƒ˜ํ”Œ๋ง ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค.

3.2.2 ๊ฐ•ํ™”ํ•™์Šต

์šฐ๋ฆฌ์˜ Proximal Policy Optimization(PPO) ๊ณผ์ •์—๋Š” ๋„ค ๊ฐœ์˜ ๋ชจ๋ธ์ด ๊ด€๋ จ๋ฉ๋‹ˆ๋‹ค: policy model, value model, reference model, ๊ทธ๋ฆฌ๊ณ  reward model์ž…๋‹ˆ๋‹ค. PPO ์ ˆ์ฐจ๋ฅผ ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— policy model์˜ ์—…๋ฐ์ดํŠธ๋ฅผ ์ผ์‹œ ์ค‘์ง€ํ•˜๊ณ  50 step ๋™์•ˆ value model ์—…๋ฐ์ดํŠธ์—๋งŒ ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.

PPO ์ž‘์—… ์ค‘์—๋Š” ๊ฐ ์งˆ์˜์— ๋Œ€ํ•ด ๋™์‹œ์— ๋‘ ๊ฐœ์˜ ์‘๋‹ต์„ ์ƒ˜ํ”Œ๋งํ•˜๋Š” ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ์ „๋žต์€ ๋‚ด๋ถ€ benchmark ํ‰๊ฐ€๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋” ํšจ๊ณผ์ ์ž„์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. KL divergence ๊ณ„์ˆ˜๋ฅผ 0.04๋กœ ์„ค์ •ํ•˜๊ณ  ์‹คํ–‰ ํ‰๊ท ์„ ๋ฐ”ํƒ•์œผ๋กœ reward๋ฅผ ์ •๊ทœํ™”ํ•ฉ๋‹ˆ๋‹ค.

3.3 ์ •๋ ฌ๋œ ๋ชจ๋ธ๋“ค์˜ ์ž๋™ ๋ฐ ์ธ๊ฐ„ ํ‰๊ฐ€

์ •๋ ฌ๋œ ๋ชจ๋ธ๋“ค์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๊ธฐ ์œ„ํ•ด MMLU(Hendrycks et al., 2020), C-Eval(Huang et al., 2023), GSM8K(Cobbe et al., 2021), HumanEval(Chen et al., 2021), BBH(Suzgun et al., 2022)๋ฅผ ํฌํ•จํ•œ ์ž˜ ํ™•๋ฆฝ๋œ benchmark๋“ค์—์„œ ๋‹ค๋ฅธ ์ •๋ ฌ๋œ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ต๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ๋Š” ์ธ๊ฐ„์˜ ์ง€์‹œ์‚ฌํ•ญ์„ ์ดํ•ดํ•˜๊ณ  ์ ์ ˆํ•œ ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์žˆ์–ด์„œ ์šฐ๋ฆฌ์˜ ์ •๋ ฌ๋œ ๋ชจ๋ธ๋“ค์˜ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. QWEN-14B-Chat์€ ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์—์„œ ChatGPT(OpenAI, 2022)์™€ LLAMA 2-CHAT-70B(Touvron et al., 2023b)๋ฅผ ์ œ์™ธํ•œ ๋ชจ๋“  ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์ธ๊ฐ„ ํ‰๊ฐ€๋ฅผ ์œ„ํ•ด ์ง€์‹, ์–ธ์–ด ์ดํ•ด, ์ฐฝ์˜์  ๊ธ€์“ฐ๊ธฐ, ์ฝ”๋”ฉ, ์ˆ˜ํ•™์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ์ฃผ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” 300๊ฐœ์˜ ์ค‘๊ตญ์–ด ์ง€์‹œ์‚ฌํ•ญ์œผ๋กœ ๊ตฌ์„ฑ๋œ ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ๋ณ„๋œ ๋ฐ์ดํ„ฐ์…‹์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” RLHF ๋ชจ๋ธ์ด SFT ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์ƒ๋‹นํ•œ ์ฐจ์ด๋กœ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ž„์„ ๋ช…ํ™•ํžˆ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ด๋Š” RLHF๊ฐ€ ๋ชจ๋ธ์ด ์ธ๊ฐ„์—๊ฒŒ ๋” ์„ ํ˜ธ๋˜๋Š” ์‘๋‹ต์„ ์ƒ์„ฑํ•˜๋„๋ก ๊ฒฉ๋ คํ•  ์ˆ˜ ์žˆ์Œ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

3.4 Tool Use, Code Interpreter, ๊ทธ๋ฆฌ๊ณ  Agent

๋‹ค์šฉ๋„๋กœ ์„ค๊ณ„๋œ QWEN ๋ชจ๋ธ๋“ค์€ tool ์‚ฌ์šฉ๊ณผ ๊ณ„ํš ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ์ผ์ƒ ์ž‘์—…์„ (๋ฐ˜)์ž๋™ํ™”ํ•˜๋Š” ๋ฐ ๋„์›€์„ ์ฃผ๋Š” ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋“ค์€ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ๊ฐ„์†Œํ™”ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜๋Š” agent๋‚˜ ๋ถ€์กฐ์ข…์‚ฌ ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” QWEN์˜ ๋‹ค์Œ ์˜์—ญ์—์„œ์˜ ์ˆ™๋ จ๋„๋ฅผ ํƒ๊ตฌํ•ฉ๋‹ˆ๋‹ค:

  • ReAct prompting์„ ํ†ตํ•œ ์ฒ˜์Œ ๋ณด๋Š” ๋„๊ตฌ ํ™œ์šฉ(Yao et al., 2022)
  • ์ˆ˜ํ•™ ์ถ”๋ก , ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋“ฑ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ Python code interpreter ์‚ฌ์šฉ
  • ์ธ๊ฐ„๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉด์„œ Hugging Face์˜ ๋ฐฉ๋Œ€ํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ ์ปฌ๋ ‰์…˜์— ์ ‘๊ทผํ•˜๋Š” agent๋กœ์„œ ๊ธฐ๋Šฅ

QWEN์˜ agent๋‚˜ ๋ถ€์กฐ์ข…์‚ฌ๋กœ์„œ์˜ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•ด SFT์— self-instruct(Wang et al., 2023c) ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, self-instruction์„ ์œ„ํ•ด QWEN์˜ in-context learning ๋Šฅ๋ ฅ์„ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋ช‡ ๊ฐ€์ง€ ์˜ˆ์‹œ๋ฅผ ์ œ๊ณตํ•จ์œผ๋กœ์จ QWEN์ด ๋” ๊ด€๋ จ์„ฑ ์žˆ๋Š” ์งˆ์˜๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ReAct(Yao et al., 2022)์™€ ๊ฐ™์€ ํŠน์ • ํ˜•์‹์„ ๋”ฐ๋ฅด๋Š” ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋„๋ก ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  1. CODE-QWEN: ์ฝ”๋”ฉ ์ „๋ฌธ ๋ชจ๋ธ

๋„๋ฉ”์ธ๋ณ„ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ›ˆ๋ จ์€ ํŠนํžˆ ์ฝ”๋“œ ์‚ฌ์ „ํ›ˆ๋ จ๊ณผ fine-tuning์˜ ๊ฒฝ์šฐ์— ๋งค์šฐ ํšจ๊ณผ์ ์ž„์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋กœ ๊ฐ•ํ™”๋œ ํ›ˆ๋ จ์„ ๋ฐ›์€ ์–ธ์–ด ๋ชจ๋ธ์€ ์ฝ”๋”ฉ, ๋””๋ฒ„๊น…, ํ•ด์„ ๋“ฑ์˜ ์ž‘์—…์— ์œ ์šฉํ•œ ๋„๊ตฌ ์—ญํ• ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ์—์„œ๋Š” ์‚ฌ์ „ํ›ˆ๋ จ๊ณผ ์ •๋ ฌ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ์ผ๋ จ์˜ ์ผ๋ฐ˜์ฃผ์˜ ๋ชจ๋ธ๋“ค์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ธฐ๋ฐ˜ ์œ„์— QWEN์˜ ๊ธฐ๋ณธ ์–ธ์–ด ๋ชจ๋ธ๋“ค์„ ํ™œ์šฉํ•˜์—ฌ ์ฝ”๋”ฉ์„ ์œ„ํ•œ ๋„๋ฉ”์ธ๋ณ„ ๋ชจ๋ธ๋“ค์„ ๋งŒ๋“ค์—ˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์—๋Š” ์ง€์†์ ์ธ ์‚ฌ์ „ํ›ˆ๋ จ ๋ชจ๋ธ์ธ CODE-QWEN๊ณผ supervised fine-tuning ๋ชจ๋ธ์ธ CODE-QWEN-CHAT์ด ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ๋‘ ๋ชจ๋ธ ๋ชจ๋‘ 140์–ต ๋ฐ 70์–ต parameter ๋ฒ„์ „์ด ์žˆ์Šต๋‹ˆ๋‹ค.

4.1 ์ฝ”๋“œ ์‚ฌ์ „ํ›ˆ๋ จ

์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ์— ์˜์กดํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์šฉ๋„ ๋„์šฐ๋ฏธ๋กœ์„œ ๊ธฐ๋Šฅํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ƒ๋‹นํžˆ ์ƒ์‹ค์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ์— ์ดˆ์ ์„ ๋งž์ถ˜ ์ด์ „ ์ ‘๊ทผ๋ฒ•๋“ค๊ณผ๋Š” ๋‹ฌ๋ฆฌ(Li et al., 2022; 2023d), ์šฐ๋ฆฌ๋Š” ํ…์ŠคํŠธ์™€ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ์˜ ์กฐํ•ฉ์œผ๋กœ ํ›ˆ๋ จ๋œ ๊ธฐ๋ณธ ๋ชจ๋ธ QWEN์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ฝ”๋“œ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ์„ ๊ณ„์†ํ•˜๋Š” ๋‹ค๋ฅธ ์ ‘๊ทผ๋ฒ•(Roziere et al., 2023)์„ ์ทจํ•ฉ๋‹ˆ๋‹ค. ์ด ์•ฝ 900์–ต ๊ฐœ์˜ ํ† ํฐ์œผ๋กœ ๋ชจ๋ธ์„ ๊ณ„์† ์‚ฌ์ „ํ›ˆ๋ จํ•ฉ๋‹ˆ๋‹ค.

4.2 ์ฝ”๋“œ Supervised Fine-tuning

์ผ๋ จ์˜ ์‹คํ—˜์  ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•œ ํ›„, ๋‹ค๋‹จ๊ณ„ SFT ์ „๋žต์ด ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ์‚ฐ์ถœํ•จ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค. supervised fine-tuning ๋‹จ๊ณ„์—์„œ ์ฝ”๋“œ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ CODE-QWEN์œผ๋กœ ์ดˆ๊ธฐํ™”๋œ ๋ชจ๋ธ CODE-QWEN-CHAT์€ AdamW(Kingma & Ba, 2014; Loshchilov & Hutter, 2017) optimizer๋กœ ์ตœ์ ํ™”๋ฉ๋‹ˆ๋‹ค.

4.3 ํ‰๊ฐ€

CODE-QWEN ๋ชจ๋ธ๋“ค์„ ์ƒ์šฉ ๋ฐ ์˜คํ”ˆ์†Œ์Šค ์–ธ์–ด ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋น„๊ต๋Š” HumanEval(Chen et al., 2021), MBPP(Austin et al., 2021), ๊ทธ๋ฆฌ๊ณ  ๋‹ค๊ตญ์–ด ์ฝ”๋“œ ์ƒ์„ฑ benchmark์ธ HUMANEVALPACK(Muennighoff et al., 2023)์˜ ํ…Œ์ŠคํŠธ ์…‹์—์„œ์˜ pass@1 ์„ฑ๋Šฅ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

๋ถ„์„ ๊ฒฐ๊ณผ ํŠน์ˆ˜ ๋ชจ๋ธ๋“ค, ํŠนํžˆ CODE-QWEN๊ณผ CODE-QWEN-CHAT์ด ์œ ์‚ฌํ•œ parameter ์ˆ˜๋ฅผ ๊ฐ€์ง„ ์ด์ „ baseline๋“ค์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ, ์ด๋“ค ๋ชจ๋ธ์€ Starcoder(Li et al., 2023d)์™€ ๊ฐ™์€ ๋” ํฐ ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ๊ณผ๋„ ๊ฒฝ์Ÿํ•ฉ๋‹ˆ๋‹ค.

  1. MATH-QWEN: ์ˆ˜ํ•™์  ์ถ”๋ก  ์ „๋ฌธ ๋ชจ๋ธ

QWEN ์‚ฌ์ „ํ›ˆ๋ จ๋œ ์–ธ์–ด ๋ชจ๋ธ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ตฌ์ถ•๋œ ์ˆ˜ํ•™ ์ „๋ฌธ ๋ชจ๋ธ ์‹œ๋ฆฌ์ฆˆ์ธ MATH-QWEN-CHAT์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, ์‚ฐ์ˆ ๊ณผ ์ˆ˜ํ•™์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ณ  ์ธ๊ฐ„ ํ–‰๋™๊ณผ ์ •๋ ฌ๋œ ๋„์šฐ๋ฏธ ๋ชจ๋ธ๋“ค์„ ๊ฐœ๋ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. 140์–ต๊ณผ 70์–ต parameter๋ฅผ ๊ฐ๊ฐ ๊ฐ€์ง„ ๋‘ ๊ฐ€์ง€ ๋ฒ„์ „์ธ MATH-QWEN-14B-CHAT๊ณผ MATH-QWEN-7B-CHAT์„ ์ถœ์‹œํ•ฉ๋‹ˆ๋‹ค.

5.1 ํ›ˆ๋ จ

์ˆ˜ํ•™์  ์ถ”๋ก ์„ ์œ„ํ•ด ํ™•์žฅ๋œ ์ˆ˜ํ•™ ์ง€๋„ ๋ฐ์ดํ„ฐ์…‹์—์„œ math SFT๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ์ฑ„ํŒ… ๋ชจ๋ธ์ธ MATH-QWEN-CHAT์„ ์ง์ ‘ ํš๋“ํ•ฉ๋‹ˆ๋‹ค. math SFT ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท  ๊ธธ์ด๊ฐ€ ๋” ์งง๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋น ๋ฅธ ํ›ˆ๋ จ์„ ์œ„ํ•ด sequence length 1024๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

5.2 ํ‰๊ฐ€

GSM8K(Grade school math)(Cobbe et al., 2021), MATH(Challenging competition math problems)(Hendrycks et al., 2021), Math401(Arithmetic ability)(Yuan et al., 2023b), Math23K(Chinese grade school math)(Wang et al., 2017)์˜ ํ…Œ์ŠคํŠธ ์…‹์—์„œ ๋ชจ๋ธ๋“ค์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

MATH-QWEN-CHAT ๋ชจ๋ธ๋“ค์€ ์œ ์‚ฌํ•œ ํฌ๊ธฐ์˜ ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค ๋ฐ QWEN-CHAT ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ๋” ๋‚˜์€ ์ˆ˜ํ•™์  ์ถ”๋ก ๊ณผ ์‚ฐ์ˆ  ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ƒ์šฉ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, MATH-QWEN-7B-CHAT์€ MATH์—์„œ Minerva-8B๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. MATH-QWEN-14B-CHAT์€ GSM8K์™€ MATH์—์„œ Minerva-62B์™€ GPT-3.5๋ฅผ ์ถ”๊ฒฉํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์‚ฐ์ˆ  ๋Šฅ๋ ฅ๊ณผ ์ค‘๊ตญ ์ˆ˜ํ•™ ๋ฌธ์ œ์—์„œ ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค.

  1. ๊ด€๋ จ ์—ฐ๊ตฌ

6.1 Large Language Models

LLM์˜ ํฅ๋ฏธ๋Š” Transformer ์•„ํ‚คํ…์ฒ˜(Vaswani et al., 2017)์˜ ๋„์ž…์œผ๋กœ ์‹œ์ž‘๋˜์—ˆ์œผ๋ฉฐ, ์ด๋Š” Radford et al.(2018); Devlin et al.(2018); Liu et al.(2019) ๋“ฑ์˜ ์—ฐ๊ตฌ์ž๋“ค์— ์˜ํ•ด ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์‚ฌ์ „ํ›ˆ๋ จ์— ์ ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ChatGPT(OpenAI, 2022)์˜ ํƒ„์ƒ๊ณผ ์ดํ›„ GPT-4(OpenAI, 2023)์˜ ์ถœ์‹œ๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ถ„์•ผ์—์„œ ๋‘ ๊ฐœ์˜ ์—ญ์‚ฌ์  ์ˆœ๊ฐ„์„ ๊ธฐ๋กํ–ˆ์œผ๋ฉฐ, Large Language Model(LLM)๋“ค์ด ์ธ๊ฐ„๊ณผ ์†Œํ†ตํ•  ์ˆ˜ ์žˆ๋Š” ํšจ๊ณผ์ ์ธ AI ๋„์šฐ๋ฏธ๋กœ ๊ธฐ๋Šฅํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

6.2 ์ •๋ ฌ

์ปค๋ฎค๋‹ˆํ‹ฐ๋Š” LLM์— ๋Œ€ํ•œ ์ •๋ ฌ์˜ ๋†€๋ผ์šด ํšจ๊ณผ์— ๊นŠ์€ ์ธ์ƒ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค. ์ด์ „์—๋Š” ์ •๋ ฌ ์—†๋Š” LLM๋“ค์ด ์ข…์ข… ๋ฐ˜๋ณต์ ์ธ ์ƒ์„ฑ, ํ™˜๊ฐ, ์ธ๊ฐ„ ์„ ํ˜ธ๋„๋กœ๋ถ€ํ„ฐ์˜ ์ผํƒˆ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋“ค๋กœ ์–ด๋ ค์›€์„ ๊ฒช์—ˆ์Šต๋‹ˆ๋‹ค. 2021๋…„ ์ดํ›„, ์—ฐ๊ตฌ์ž๋“ค์€ downstream task์—์„œ LLM์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•์„ ๊ฐœ๋ฐœํ•˜๊ธฐ ์œ„ํ•ด ๋ถ€์ง€๋Ÿฐํžˆ ๋…ธ๋ ฅํ•ด์™”์Šต๋‹ˆ๋‹ค.

6.3 Tool Use์™€ Agents

LLM์˜ ๊ณ„ํš ๊ธฐ๋Šฅ์„ ํ†ตํ•ด Schick et al.(2023)์ด ๋ณด์—ฌ์ค€ ๋ฐ”์™€ ๊ฐ™์ด in-context learning์„ ํ†ตํ•ด API๋‚˜ agent ๋Šฅ๋ ฅ๊ณผ ๊ฐ™์€ ๋„๊ตฌ๋ฅผ ํ˜ธ์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Yao et al.(2022)์€ ๋ชจ๋ธ์ด ์–ด๋–ค ๋„๊ตฌ๋ฅผ ์‚ฌ์šฉํ• ์ง€์— ๋Œ€ํ•œ ์ƒ๊ฐ์„ ์ƒ์„ฑํ•˜๊ณ , API ๊ด€์ฐฐ๋กœ๋ถ€ํ„ฐ์˜ ์ž…๋ ฅ์„ ๋ฐ›์•„๋“ค์ด๋ฉฐ, ์‘๋‹ต์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ์ƒ์„ฑ ํ˜•์‹์ธ ReAct๋ฅผ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค.

6.4 ์ฝ”๋”ฉ์„ ์œ„ํ•œ LLM

์ด์ „ ์—ฐ๊ตฌ๋“ค์€ LLM๋“ค์ด ํŠนํžˆ ๋ฐฉ๋Œ€ํ•œ ์ˆ˜์˜ parameter๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ๋“ค์—์„œ ์ฝ”๋“œ ์ดํ•ด์™€ ์ƒ์„ฑ์—์„œ ๋›ฐ์–ด๋‚œ ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค(Chowdhery et al., 2022; Anil et al., 2023; Rae et al., 2021; Hoffmann et al., 2022). ๋˜ํ•œ, ์—ฌ๋Ÿฌ LLM๋“ค์ด ์ฝ”๋”ฉ ๊ด€๋ จ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์‚ฌ์ „ํ›ˆ๋ จ, ์ง€์†์ ์ธ ์‚ฌ์ „ํ›ˆ๋ จ, ๋˜๋Š” fine-tuning๋˜์–ด ์ผ๋ฐ˜ ๋ชฉ์  LLM๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ํ˜„์ €ํžˆ ํ–ฅ์ƒ๋œ ์„ฑ๋Šฅ์„ ์–ป์—ˆ์Šต๋‹ˆ๋‹ค.

6.5 ์ˆ˜ํ•™์„ ์œ„ํ•œ LLM

ํŠน์ • ๋ชจ๋ธ ๊ทœ๋ชจ๋ฅผ ๊ฐ€์ง„ LLM๋“ค์ด ์ˆ˜ํ•™์  ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์ด ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค(Wei et al., 2022b; Suzgun et al., 2022). ์ˆ˜ํ•™ ๊ด€๋ จ ์ž‘์—…์—์„œ LLM๋“ค์ด ๋” ๋‚˜์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋„๋ก ๊ฒฉ๋ คํ•˜๊ธฐ ์œ„ํ•ด, ์—ฐ๊ตฌ์ž๋“ค์€ chain-of-thought prompting(Wei et al., 2022c)๊ณผ scratchpad(Nye et al., 2021) ๊ฐ™์€ ๊ธฐ๋ฒ•๋“ค์„ ์‚ฌ์šฉํ–ˆ์œผ๋ฉฐ, ์ด๋Š” ์œ ๋งํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

  1. ๊ฒฐ๋ก 

๋ณธ ๋ณด๊ณ ์„œ์—์„œ๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์˜ ์ตœ์‹  ๋ฐœ์ „์„ ๋ณด์—ฌ์ฃผ๋Š” QWEN ์‹œ๋ฆฌ์ฆˆ์˜ Large Language Model๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. 140์–ต, 70์–ต, 18์–ต parameter๋ฅผ ๊ฐ€์ง„ ์ด๋“ค ๋ชจ๋ธ์€ ์ˆ˜์กฐ ๊ฐœ์˜ ํ† ํฐ์„ ํฌํ•จํ•œ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ํ›ˆ๋ จ๋˜์—ˆ์œผ๋ฉฐ, SFT์™€ RLHF์™€ ๊ฐ™์€ ์ตœ์ฒจ๋‹จ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ fine-tuning๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, QWEN ์‹œ๋ฆฌ์ฆˆ์—๋Š” CODE-QWEN, CODE-QWEN-CHAT, MATH-QWEN-CHAT๊ณผ ๊ฐ™์€ ์ฝ”๋”ฉ๊ณผ ์ˆ˜ํ•™์„ ์œ„ํ•œ ์ „๋ฌธ ๋ชจ๋ธ๋“ค์ด ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ด๋“ค์€ ๊ฐ๊ฐ์˜ ๋ถ„์•ผ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๊ธฐ ์œ„ํ•ด ๋„๋ฉ”์ธ๋ณ„ ๋ฐ์ดํ„ฐ๋กœ ํ›ˆ๋ จ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” QWEN ์‹œ๋ฆฌ์ฆˆ๊ฐ€ ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฝ์Ÿ๋ ฅ์ด ์žˆ์œผ๋ฉฐ, ํฌ๊ด„์ ์ธ benchmark์™€ ์ธ๊ฐ„ ํ‰๊ฐ€์—์„œ ์ผ๋ถ€ ์ƒ์šฉ ๋ชจ๋ธ๋“ค์˜ ์„ฑ๋Šฅ๊ณผ๋„ ์ผ์น˜ํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๋Š” QWEN์˜ ๊ฐœ๋ฐฉ์  ์ ‘๊ทผ์ด ์ปค๋ฎค๋‹ˆํ‹ฐ ๋‚ด์—์„œ ํ˜‘๋ ฅ๊ณผ ํ˜์‹ ์„ ์ด‰์ง„ํ•˜์—ฌ, ์—ฐ๊ตฌ์ž๋“ค๊ณผ ๊ฐœ๋ฐœ์ž๋“ค์ด ์šฐ๋ฆฌ์˜ ์ž‘์—…์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์‚ผ์•„ ์–ธ์–ด ๋ชจ๋ธ๋กœ ๊ฐ€๋Šฅํ•œ ๊ฒƒ์˜ ๊ฒฝ๊ณ„๋ฅผ ๋„“ํžˆ๊ฒŒ ๋  ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์Šต๋‹ˆ๋‹ค. ์ด๋“ค ๋ชจ๋ธ์„ ๊ณต๊ฐœํ•จ์œผ๋กœ์จ, ์šฐ๋ฆฌ๋Š” ์ด ๋ถ„์•ผ๋ฅผ ๋”์šฑ ๋ฐœ์ „์‹œํ‚ค๊ณ  ํ˜„์‹ค์ ์ธ ์„ค์ •์—์„œ ๋„์ž…๋œ ๋ณ€์ˆ˜์™€ ๊ธฐ๋ฒ•๋“ค์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ์ดํ•ด์— ๊ธฐ์—ฌํ•  ์ƒˆ๋กœ์šด ์—ฐ๊ตฌ์™€ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์˜๊ฐ์„ ์ฃผ๊ธฐ๋ฅผ ํฌ๋งํ•ฉ๋‹ˆ๋‹ค.



-->