[Day 2] Reinforcement Fine-Tuning (RFT) ์๊ฐ
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/Day-2-OpenAI-Reinforcement-Fine-Tuning
์๋
ํ์ธ์!! ์ด์ (12 Days of OpenAI: Day 1)์์ O1 ๋ชจ๋ธ
์ ๊ณต์ ์ถ์ํ๋ฉฐ, ChatGPT์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ ์ ๋ขฐ์ฑ์ ๊ฐํํ Pro ํ๋์ ์๊ฐํ๋๋ฐ์!!
์ค๋์ ๊ทธ ๋ค์ ๋จ๊ณ(12 Days of OpenAI: Day 2)๋ก, โ๊ฐํ ํ์ต ๊ธฐ๋ฐ ํ์ธํ๋(Reinforcement Fine-Tuning, ์ดํ RFT)โ์ ํ์ฉํ ์ต์ฒจ๋จ ๋ชจ๋ธ ์ปค์คํฐ๋ง์ด์ ์ด์ ์๋ฃจ์ ์ ๋ฏธ๋ฆฌ ์ ๋ณด์ ๋๋ค.
์ด ๊ธฐ์ ์ ๊ณ ๊ธ ์ฌ์ฉ์, ์ฐ๊ตฌ์, ๊ธฐ์
๊ณ ๊ฐ ๋ชจ๋๊ฐ ์์ ๋ง์ ์ ๋ฌธ ๋ถ์ผ ๋ฐ์ดํฐ๋ก O1 ๋ชจ๋ธ์ ๋จ๋ จ์์ผ, ๋ง์น ๊ณ ๊ธ ๊ณผ์ธ ์ ์๋์ฒ๋ผ ํน์ ๋๋ฉ์ธ
์ ๋ํ โ์ ๋ฌธ๊ฐ๊ธ ์ถ๋ก ๋ชจ๋ธโ์ ๋ง๋ค์ด ๋ผ ์ ์์ต๋๋ค.
Reinforcement Fine-Tuning(RFT)๋ ๋ฌด์์ธ๊ฐ?
๊ธฐ์กด์ ํ์ธํ๋(Fine-Tuning)์ ์ฃผ๋ก ์ง๋ํ์ต ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ์ฆ, ๋ชจ๋ธ์๊ฒ ํน์ ์คํ์ผ, ์ด์กฐ, ํฌ๋งท์ ๋ชจ๋ฐฉํ๋๋ก ํ์ต์ํค๋ ๋ฐฉ์์ ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํน์ ์์ ๋ฅผ ๋ฐ๋ผํ๋ โ๋ชจ๋ฐฉ ํ์ตโ ์์ค์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ RFT๋ ํ ๋จ๊ณ ๋ ๋์๊ฐ๋๋ค. RFT๋ ๋จ์ํ ์ ๋ต ์์ ๋ฅผ ๋ฐ๋ผํ๋ ๊ฒ์ด ์๋๋ผ, ๊ฐํ ํ์ต(Reinforcement Learning, RL) ๊ธฐ๋ฒ์ ํตํด ๋ชจ๋ธ์ด ์๋ก์ด ์ถ๋ก ์ ๋ต์ ์ต๋ํ๋๋ก ๋ง๋ญ๋๋ค.
์ด๋ฏธ์ง ์ถ์ฒ : A short note on Reinforced Fine-Tuning or ReFT by Nilesh Barla (Medium)
์ด ๋ฐฉ๋ฒ์ ํต์ฌ์ ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ณผ์ ์ ํ๊ฐํ๋ โ์ฑ์ ๊ธฐ(Grader)โ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. ๋ชจ๋ธ์ด ํน์ ๋ฌธ์ (์ ๋ ฅ ํ ์คํธ, ์ง๋ฌธ, ์ฆ์ ๋ฐ์ดํฐ, ๊ณผํ์ ๋ฌธํ ๋ฑ)์ ๋ต๋ณ์ ๋ด๋์ผ๋ฉด, ์ฑ์ ๊ธฐ๋ ๊ทธ ๋ต๋ณ์ ์ ํ๋๋ฅผ ์ ์ํํฉ๋๋ค. ๊ทธ ํ, ๊ฐํ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ฌ๋ฐ๋ฅธ ์ถ๋ก ๊ฒฝ๋ก์ ๋์ ๋ณด์์, ์๋ชป๋ ์ถ๋ก ๊ฒฝ๋ก์ ๋ฎ์ ๋ณด์์ ํ ๋นํ์ฌ ๋ชจ๋ธ์ด ์ค์ค๋ก ๋ ๋์ ์ถ๋ก ์ ๋ต์ ๊ฐ๋ฐํ๋๋ก ํฉ๋๋ค.
RFT์ ํน์ง
-
๋จ ์๋์ ๋ฐ์ดํฐ๋ก๋ ์๋ก์ด ์ถ๋ก ์ ๋ต ์ต๋:
๊ธฐ์กด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ์๋ง~์์ญ๋ง ๊ฐ ์ด์์ ์์ ๊ฐ ํ์ํ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, RFT๋ ์์ญ ๊ฐ~์๋ฐฑ ๊ฐ ๋จ์์ โ๊ณ ํ์ง ๊ณจ๋ ๋ฐ์ดํฐ์ โ์ผ๋ก๋ ๋์ ์ ๋ฌธ์ฑ์ ๊ฐ์ง ๋ชจ๋ธ์ ๋ง๋ค ์ ์์ต๋๋ค. ์์ ๊ท๋ชจ์ ์ ๋ฌธ ๋ฐ์ดํฐ์ ์ผ๋ก๋ ์๋ก์ด ์ถ๋ก ํจํด์ ์ต๋ํ์ฌ, ์ฐ๊ตฌ๋ ์ ๋ฌธ๋ถ์ผ์์ ๋ง์ถคํ ์ ๋ฌธ๊ฐ ๋ชจ๋ธ์ ๋น ๋ฅด๊ฒ ๊ฐ๋ฐํ ์ ์์ต๋๋ค.
-
์ ๋ต์ โ๋ง์ถ๋ ๊ฒโ ๊ทธ ์ด์์ ํ์ต:
๋จ์ํ ์ ๋ต์ ๋ฐ๋ผํ๋ ๊ฒ์ด ์๋๋ผ, ๋ต๋ณ์ ๋์ถํ๋ ์ถ๋ก ๊ณผ์ ์์ฒด๋ฅผ ๊ฐ์ ํฉ๋๋ค. ์ด๋ก์จ ๋ชจ๋ธ์ ์๋ก์ด ๋ฌธ์ ๋ ๋ณํ๋ ์ํฉ์๋ ์ ์ฐํ๊ฒ ๋์ฒํ๊ณ , ์ด์ ์ ๋ณด์ง ๋ชปํ ์ ํ์ ์ง๋ฌธ์๋ ์ผ๊ด๋ ๋ ผ๋ฆฌ ํ๋ฆ์ ์ ์ํ ์ ์๊ฒ ๋ฉ๋๋ค.
-
OpenAI ๋ด๋ถ ๋ชจ๋ธ ๊ฐ๋ฐ ๋ ธํ์ฐ ๊ณต์ :
GPT-4, O1 ์๋ฆฌ์ฆ์ ๊ฐ์ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๋ OpenAI๋ ๋ด๋ถ์ ์ผ๋ก ๊ฐํ ํ์ต ๊ธฐ๋ฒ์ ํ์ฉํด์์ต๋๋ค. ์ด์ ๊ทธ ๋์ผํ RL ํ์ดํ๋ผ์ธ์ ๊ณ ๊ฐ๊ณผ ์ฐ๊ตฌ ์ปค๋ฎค๋ํฐ์ ๊ฐ๋ฐฉํ์ฌ, ๋ชจ๋๊ฐ ๊ณ ๊ธ AI ๊ฐ๋ฐ ๊ธฐ์ ์ ์ ๊ทผํ ์ ์๊ฒ ๋ฉ๋๋ค.
์ค์ ์ ์ฉ ์ฌ๋ก: ํฌ์์งํ ์ ์ ์ ๋ณ์ด ๋ถ์
์ด๋ฒ ๋ผ์ด๋ธ ๋ฐ๋ชจ์์๋ ์ํ๋์์ค์ฝ Berkeley Lab
์ ์ฐ๊ตฌ์๋ค๊ณผ ํ๋ ฅํ ์ฌ๋ก๊ฐ ์๊ฐ๋์์ต๋๋ค. ์ ์ ์ ๋ณ์ด๋ก ์ธํ ํฌ์์งํ ์ง๋จ์ ๋ค์๊ณผ ๊ฐ์ ๊ณผ์ ๊ฐ ์์ต๋๋ค.
- ๋ณต์กํ ์ํ์ ์ ๋ฌธ์ฑ ํ์: ํน์ ์งํ์ ์ ๋ฐํ๋ ์ ์ ์ ๋ณ์ด๋ฅผ ํ๋ณํ๋ ค๋ฉด ๊ด๋ฒ์ํ ์๋ฌผํ์ ์ง์๊ณผ ์์ ์ ๋ณด๊ฐ ํ์ํฉ๋๋ค.
- ๋ถ์์ ํ๊ณ ์ฐ๋ฐ์ ์ธ ์ฆ์ ์ ๋ณด ์ฒ๋ฆฌ: ํ์์ ์ฆ์์ ๋ชจ๋ ๋ช ํํ์ง ์๊ณ , ์กฐ๊ฑด๋ณ๋ก ์ฆ์์ด ๋ฐฐ์ ๋๋ ๊ฒฝ์ฐ(Absent Symptoms)๋ ๋ง์ต๋๋ค.
์ด๋ฌํ ๊ณ ๋์ด๋ ์์ ์ RFT๋ฅผ ํ์ฉํ ๊ฒฐ๊ณผ, ์ด์ ๊น์ง ๋ชจ๋ธ์ด ๋จ์ ๋ชจ๋ฐฉ ํ์ต์ผ๋ก๋ ํด๊ฒฐํ๊ธฐ ์ด๋ ค์ ๋ โ์ถ๋ก ์ ์์ฌ๊ฒฐ์ โ์ ๋ชจ๋ธ์ด ์ค์ค๋ก ๊ฐ์ ํ๋ ๋ชจ์ต์ ๋ณด์์ต๋๋ค.
Demo
- ์ค์ ์ฌ๋ก์์ O1-mini ๋ชจ๋ธ(๊ธฐ๋ณธ์ ์ผ๋ก ๋ ์๊ณ ์ ๋ ดํ ๋ชจ๋ธ)์ RFT๋ก ๊ฐํ ํ์ตํ ๊ฒฐ๊ณผ, ์ ๋ฌธ ๋ถ์ผ ์๋ฌผ์ ๋ณดํ์ ๋ฌธ์ ์ ๋ํด O1 ๋ชจ๋ธ ์์ค, ํน์ ๊ทธ ์ด์์ผ๋ก ์ถ๋ก ์ ํ๋๊ฐ ๊ฐ์ ๋์์ต๋๋ค. (Demo ๋ด์ฉ)
๋ฐ๋ชจ์์ ๊ฐํํ์ต ๊ธฐ๋ฐ ํ์ธํ๋(Reinforcement Fine-Tuning, RFT)์ ์ํด ์ฌ์ฉ๋๋ ํ์ต ๋ฐ์ดํฐ์ ์ ๋ํด ๋ค์๊ณผ ๊ฐ์ด ์ค๋ช ํ๊ณ ์์ต๋๋ค.
-
๋ฐ์ดํฐ ๊ตฌ์กฐ:
ํ์ธํ๋์ ํ์ฉํ๋ ๋ฐ์ดํฐ๋ JSONL(JSON Lines) ํ์์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๊ฐ ์ค์ ํ๋์ ํ์ต ์์ ๋ฅผ ๋ํ๋ด๋ฉฐ, ํ ์ค์ ํ๋์ JSON ๊ฐ์ฒด๊ฐ ๋ค์ด ์์ต๋๋ค. ์ฆ, ์ฌ๋ฌ ๊ฐ์ โ๋ฌธ์ -์ ๋ตโ ์์ด ์ค ๋จ์๋ก ๋ ๋ฆฝ์ ์ผ๋ก ์ ๋ฆฌ๋์ด ์์ต๋๋ค.
-
์์ ๊ตฌ์ฑ ์์ (์ ๊ทธ๋ฆผ ์ฐธ๊ณ ):
๊ฐ ์์ (๋ฐ์ดํฐ ํฌ์ธํธ)๋ ๋ค์๊ณผ ๊ฐ์ ์ ๋ณด๋ฅผ ๋ด์ต๋๋ค.
- ์ ๋ ฅ ์ ๋ณด(Case Report): ์๋ฅผ ๋ค์ด, ํ์์ ๋์ด, ์ฆ์, ํน์ ์ฆ์์ด ๊ฒฐํ(Absent)๋ ์ํฉ ๋ฑ ๋๋ฉ์ธ ํนํ๋ ์์ธํ ์ปจํ ์คํธ๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ์ง์์ฌํญ(Instructions): ๋ชจ๋ธ์ด ํด์ผ ํ ์ผ์ ๋ช ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด โ์ฃผ์ด์ง ์ฆ์์ ์ ๋ฐํ ์ ์๋ ์ ์ ์ ๋ชฉ๋ก์ ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ๋์ ์์๋ก ์ ์ํ๋ผโ์ ๊ฐ์ ํํ์ ๋๋ค.
- ์ ๋ต(Correct Answer): ํด๋น ์ ๋ ฅ ์ํฉ์์ ์ค์ ๋ก ์ ๋ต์ผ๋ก ๊ฐ์ฃผ๋๋ ํ๊น ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ธ์ ํ๊ฐํ๋ ๊ธฐ์ค์ผ๋ก ํ์ฉ๋๋ฉฐ, ํ์ต ์์๋ ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ํ ๋ณด์(์ ์) ๊ณ์ฐ์ ์ฌ์ฉ๋ฉ๋๋ค.
-
ํ์ต ๋ฐฉ์:
์ด JSONL ํ์ผ ๋ด ๊ฐ ์์ ๋ ๊ฐํํ์ต ๊ธฐ๋ฐ ํ์ธํ๋ ๊ณผ์ ์์ โ๋ฌธ์ -์ง์์ฌํญ-์ ๋ตโ ํํ๋ก ๋ชจ๋ธ์๊ฒ ์ ์๋ฉ๋๋ค. ๋ชจ๋ธ์ ์ง์์ฌํญ์ ๋ฐ๋ฅธ ๋ต์ ๋ด๋๊ณ , ๊ทธ ๋ต์ด ์ ๋ต๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์๊ฐ ๋งค๊ฒจ์ง๋๋ค. ์ด ์ ์(๋ณด์)๋ฅผ ํตํด ๋ชจ๋ธ์ ์ ์ฐจ ๋ ๋์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ฐพ๊ณ , ์ ๋ฌธ์ ์ธ ๋ฌธ์ ์๋ ํจ์จ์ ์ผ๋ก ๋์ํ ์ ์๋๋ก ํ์ตํฉ๋๋ค.
๐ค (์ฌํ) ์ด๋ป๊ฒ ํ์ตํ๋๊ฐ?
๋ชจ๋ธ์ด ์ฒ์์ผ๋ก ํด๋น ์ง๋ฌธ(์: โ์ด๋ฐ ์ฆ์์ ์ ๋ฐํ๋ ์ ์ ์๋ฅผ ์์๋ณ๋ก ๋์ดํ๊ณ ์ค๋ช ํ๋ผโ)์ ๋ํ ๋ต๋ณ์ ๋ด๋์์ ๋, ๊ทธ ๋ต๋ณ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ๊ฐํํ์ต ๊ธฐ๋ฐ ํ์ธํ๋(Reinforcement Fine-Tuning, RFT) ๊ณผ์ ์ ๊ฑฐ์น๊ฒ ๋ฉ๋๋ค.
์ด ๊ณผ์ ์ ํฌ๊ฒ ๋ค์ ๋จ๊ณ๋ก ์์ฝํ ์ ์์ต๋๋ค.
1. ๋ชจ๋ธ ์ถ๋ ฅ ์์ฑ:
๋ชจ๋ธ์ ์ฃผ์ด์ง ์ ๋ ฅ(์ฆ์, ๋ถ์ฌ ์ฆ์, ์ง์์ฌํญ)์ ๋ฐํ์ผ๋ก ๊ฐ๋ฅํ ์ ์ ์ ํ๋ณด ๋ฆฌ์คํธ๋ฅผ ์์ธกํฉ๋๋ค.
์ด๋ ์์ง ํ์ต ์๋ฃ๋ ์ต์ข ์ํ๊ฐ ์๋๋ผ, ํ์ฌ ํ์ธํ๋ ๊ณผ์ ์ค ๋ชจ๋ธ์ด ๊ฐ์ง ํ๋ผ๋ฏธํฐ๋ก๋ถํฐ ์์ฑ๋ ์ฒซ ๋ฒ์งธ ์๋ต์ ๋๋ค.
2. ์ฑ์ (Grading)์ ํตํ ๋ณด์ ๊ณ์ฐ:
RFT์์๋ ๋ชจ๋ธ ์ถ๋ ฅ์ ๋ํด ์ฃผ์ด์ง Grader(์ฑ์ ๊ธฐ)๊ฐ ์ ๋ต๊ณผ์ ์ผ์น๋๋ฅผ ์ ์๋ก ํ์ฐํด์ค๋๋ค. ์ด ์ ์(๋ณด์)๋ฅผ ํตํด ๋ชจ๋ธ์ โ์ด๋ป๊ฒ ๋ฌธ์ ๋ฅผ ์ ๊ทผํด์ผ ์ ๋ต์ ๊ฐ๊น๊ฒ ๊ฐ ์ ์๋์งโ๋ฅผ ํ์ตํฉ๋๋ค.
- ๋ง์ฝ ๋ชจ๋ธ์ด ์ ๋ต ์ ์ ์๋ฅผ ์ฒซ ๋ฒ์งธ ํ๋ณด๋ก ์ ํํ ์ ์ํ๋ค๋ฉด ๋์ ๋ณด์์ ์ค๋๋ค(์: ๋ณด์ ์ ์ 1์ ๊ทผ์ ).
- ์ ๋ต ์ ์ ์๊ฐ ์์ ๋ค์ฏ ๋ฒ์งธ ์์๋ง ๋ค์ด์๋ค๋ฉด ์ค๊ฐ ์ ๋ ๋ณด์์, ์ ๋ต์ ์ ํ ๋ชป ๋ง์ถ๋ฉด ๋ฎ์ ๋ณด์์ ๋ถ์ฌํ๋ ์์ผ๋ก ์ค์ฝ์ด๋ฅผ ๋งค๊น๋๋ค.
- ๋ง์ฝ ๋ชจ๋ธ์ด
Training set
์์๋ง ์ธ ์ ์๋ ํน์ํ ๋จ์๋ฅผ ์๊ธฐํ๋ค๋ฉด,Validation set
์์๋ ๊ทธ ๋จ์๊ฐ ์์ฉํ์ง ์์ ๋ฎ์ ๋ณด์์ ๋ฐ๊ฒ ๋ฉ๋๋ค.
3. ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํตํ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ:
์ฑ์ ๊ฒฐ๊ณผ(๋ณด์ ์ ์)๋ฅผ ๋ฐํ์ผ๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ์๋ํฉ๋๋ค. ๋ชจ๋ธ์ด ์ ๋ต์ ๊ฐ๊น์ด ์ถ๋ก ๊ณผ์ ์ ๋ฐ์์๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ ๊ทธ๋ฌํ ์ถ๋ก ํจํด์ ๊ฐํํ๊ณ , ๋ถํ์ํ๊ฑฐ๋ ์ค๋ฅ๋ฅผ ์ผ๊ธฐํ๋ ์ถ๋ก ๊ฒฝ๋ก๋ ์ ์ฐจ ์ต์ ๋๋๋ก ์กฐ์ ๋ฉ๋๋ค.
- ์ด ๊ณผ์ ์ ์ ์ฑ ๊ฒฝ์ฌ์ ์ฑ (Policy Gradient)๋ Proximal Policy Optimization(PPO) ๊ฐ์ RL ๊ธฐ๋ฒ์ ํ์ฉํ ์ ์์ต๋๋ค.
- ํต์ฌ์ ๋ชจ๋ธ์ด ๋จ์ํ ๋ฐ์ดํฐ๋ก๋ถํฐ โ์ ๋ต ๋ฌธ์ฅโ์ ์๊ธฐํ๋ ๊ฒ์ด ์๋๋ผ, โ์ด ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ์ ๊ทผํด์ผ ํ๋์งโ์ ๋ํ ์ถ๋ก ์ ๋ต์ ์ค์ค๋ก ๊ฐ์ ํ๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
4. ๋ฐ๋ณต ํ์ต ๋ฐ ์ฑ๋ฅ ๊ฐ์ :
์ฒซ ๋ฒ์งธ ๋ต๋ณ์ ๋ํด ํ๋ผ๋ฏธํฐ๊ฐ ๊ฐฑ์ ๋ ํ, ๋ชจ๋ธ์ ๋ ๋ฒ์งธ, ์ธ ๋ฒ์งธ, โฆ, ์๋ง์ ์์ ๋ค์ ๊ฑธ์ณ ๋ฐ๋ณต์ ์ผ๋ก ๊ฐ์ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
- ๊ฐ ์์ ๋ง๋ค ๋ณด์์ ํตํด ๋ชจ๋ธ์ ์ถ๋ก ์ ๋ต์ด ์ ์ง์ ์ผ๋ก ํฅ์๋ฉ๋๋ค.
๐ฌ KEY-POINT
์ ํต์ ์ธ ์ง๋ํ์ต(Supervised Learning) ํ์ธํ๋์ ์ฃผ์ด์ง ์ ๋ ฅ์ ๋์ํ๋ ์ ๋ต ์ถ๋ ฅ์ ํ๋ด ๋ด๋ ๋ฐ ์ด์ ์ ๋ก๋๋ค. ์ด ๊ฒฝ์ฐ ๋ชจ๋ธ์ ํน์ ํจํด์ ์๊ธฐํ๊ฑฐ๋, ํ์ต ๋ฐ์ดํฐ์๋ง ํนํ๋ ๊ท์น์ ํ์ฑํ ๊ฐ๋ฅ์ฑ์ด ๋์ต๋๋ค.
๋ฐ๋ฉด, RFT(Reinforcement Fine-Tuning)์์๋ ๋ชจ๋ธ์ด ๋จ์ํ ์ ๋ต์ ๋ฐ๋ผ ํ๋ ๊ฒ์ด ์๋, โ์ ๋ต์ ์ ๋ํ๋ ์ถ๋ก ๊ณผ์ ์์ฒดโ๋ฅผ ๊ฐํํ์ต ๊ธฐ๋ฒ์ ํตํด ๊ฐ์ ํ๊ฒ ๋ฉ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ฐ์ดํฐ ์ ๋ฐ์ ๋ด์ฌํ ๋
ผ๋ฆฌ์ ํจํด
, ์ธ๊ณผ ๊ด๊ณ
, ์ถ๋ก ์ ๋ต
๋ฑ์ ํ์
ํ๋๋ก ์ ๋ํ๊ธฐ ๋๋ฌธ์ ์๋ก์ด ๋ฐ์ดํฐ(Validation set)์์๋ ํด๋น ์ถ๋ก ์ ๋ต์ ์ ์ฉํ ์ ์๊ฒ ๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, Day 2์ ๋ฐ๋ชจ์์ ์ฌ์ฉ๋ ํฌ๊ท์งํ ์ ์ ์ ์์ธก ๋ฌธ์ ์์๋
Train ๋ฐ์ดํฐ
์Validation ๋ฐ์ดํฐ
์ ๋ฑ์ฅํ๋ ์ค์ ์ ์ ์ ๋ชฉ๋ก์ด ๊ฒน์น์ง ์๋๋ก ๊ตฌ์ฑ๋์์ต๋๋ค. - ์ด๋ ๋ชจ๋ธ์ด ํน์ ์งํ-์ ์ ์ ๋์ ๊ด๊ณ๋ฅผ ๋จ์ ์๊ธฐํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋ค๊ณ , ๋์ ์งํ ์ฆ์์ ํน์ง์ ๋ถ์ํ๋ ์ผ๋ฐ์ ์ธ ์ถ๋ก ๋ฐฉ๋ฒ์ ํ์ตํ๋๋ก ์ ๋ํฉ๋๋ค.
๐ฌ ์ฑ๋ฅ ๋ณํ ์ ๋ฆฌ
- Top-1 ์ ํ๋ ๊ฐ์ : RFT(Reinforcement Fine-Tuning)๋ฅผ ์ ์ฉํ ํ, ๋ชจ๋ธ์ด โ๊ฐ์ฅ ๊ฐ๋ฅ์ฑ ๋์ ์์ธ ์ ์ ์โ๋ฅผ ์ฒซ ๋ฒ์งธ ํ๋ณด๋ก ์ ํํ ์ง๋ชฉํ๋ ๋น์จ์ด ๊ธฐ์กด O1-mini ๋๋น ํฌ๊ฒ ์์นํ์์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋จ์ํ ํจํด ํ์ต์ ๋์ด, ์ฃผ์ด์ง ๋ฌธ์ ์ ๋ํด ๋ ๋ช ํํ๊ณ ์ง์ ์ ์ธ ์ถ๋ก ์ ๋ต์ ํ์ฑํ์์ ๋ณด์ฌ์ค๋๋ค.
- Top-5 ์ ๋ต ํฌํจ๋ ํฅ์: ๋ชจ๋ธ์ด ์์ 5๊ฐ ํ๋ณด ๋ด์ ์ค์ ์ ๋ต ์ ์ ์๋ฅผ ํฌํจ์ํฌ ํ๋ฅ ์ญ์ ํ์ ํ ์ฆ๊ฐํ์์ต๋๋ค. ์ด๋ก์จ ๋ชจ๋ธ์ ์ด์ ๋ณด๋ค ํ๋ถํ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ํ์ํ๊ณ , ๋ต๋ณ์ ๋ค์์ฑ๊ณผ ์ ํ์ฑ์ ํจ๊ป ํฅ์์ํค๋ ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ฒ ๋์์์ ์๋ฏธํฉ๋๋ค.
์ด๋ฌํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ชจ๋ธ์ด ๋จ์ํ ๊ณผ๊ฑฐ ์ ๋ต์ ์๊ธฐํ๊ฑฐ๋ ํน์ ํจํด์ ๊ธฐ๊ณ์ ์ผ๋ก ์ฌํํ๋ ๊ฒ์ด ์๋๋ผ, โ์ด๋ป๊ฒ ์๊ฐํด์ผ ํ๋๊ฐโ์ ๋ํ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํ ํ์ต์ ํตํด ํ๋ํ ๊ฒฐ๊ณผ๋ผ๊ณ ํ ์ ์์ต๋๋ค.
RFT๊ฐ ์ ์ฉํ ๋ถ์ผ
RFT๋ ๋จ์ ์ง์์๋ต์ ๋์ด, ๋ค์๊ณผ ๊ฐ์ ๊ณ ๋์ด๋ ์ ๋ฌธ ๋ถ์ผ์์ ํนํ ๋๋ณด์ ๋๋ค.
- ์๋ฃยท์๋ช ๊ณผํ: ํฌ๊ท ์งํ ์ ์ ์ ๋ถ์, ๋ณต์กํ ์ง๋จ ํ๋กํ ์ฝ ์ต์ ํ.
- ๋ฒ๋ฅ : ํน์ ๋ฒ๋ น ํ๋ก ๋ถ์ ๋ฐ ๊ทผ๊ฑฐ ์ ์, ๊ณ์ฝ์ ๋ด ๋ฆฌ์คํฌ ์๋ณ.
- ๊ธ์ต: ๋ณต์กํ ๊ธ์ต ๊ท์ ํด์, ์๊ณ ๋ฆฌ์ฆ ํธ๋ ์ด๋ฉ ์ ๋ต ๊ฐ์ .
- ์์ง๋์ด๋ง & ์ฐ์ ์์ฉ: ๋ณต์กํ ์ค๊ณ ๋ฌธ์ , ๋๊ท๋ชจ ์ฝ๋ฉ ํ ์คํธ ์์ฑ ๋ฐ ์๋ฃจ์ ๊ฒ์ฆ.
- AI ์์ ์ฑ(Safety) ๋ฐ ํ์ ์ฐ๊ตฌ: ํน์ํ ๊ธฐ์ค์ ๋ง์กฑํ๋ ๋ชจ๋ธ ์ฑ๋ฅ ๊ฐ์ .
์ด๋ฐ ์์ญ์์ ๋ชจ๋ธ์ ๊ณง ์ ๋ฌธ ์ง์์ ์ฒดํํ ๊ณ ๊ธ ์ด์์คํดํธ๋ก ์งํํ ๊ฒ์ ๋๋ค.
RFT Research Program
OpenAI๋ RFT์ ์ ์ฌ๋ ฅ์ ์ต๋ํํ๊ธฐ ์ํด Alpha ํ๋ก๊ทธ๋จ์ ํ์ฅํ๊ณ ์์ต๋๋ค. ์ด ํ๋ก๊ทธ๋จ์ ๋ค์๊ณผ ๊ฐ์ ๋์์๊ฒ ์ถ์ฒ๋ฉ๋๋ค.
- ์ฐ๊ตฌ๊ธฐ๊ด ๋ฐ ๋ํ๊ต: ํน์ ์ ๊ณต ๋ถ์ผ ๋ฌธ์ ์ ์ต์ ํ๋ AI ์ฐ๊ตฌ ๋๊ตฌ ๊ตฌ์ถ.
- ๊ธฐ์ ๋ฐ ์ฐ์ ํํธ๋: ๋ณต์กํ ๋ด์ฌ์ ์ ๋ฌด ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ ํ๊ณ ์๋ํ.
- ML ์์ง๋์ดยท๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ: ์๊ท๋ชจ ๋ฐ์ดํฐ๋ก ๊ณ ์ ๋ฐ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ณ ์ ํ๋ ์ ๋ฌธ๊ฐ.
ํ๋ก๊ทธ๋จ ์ฐธ์ฌ์๋ RFT API์ ๋ํ ์ฌ์ ์ก์ธ์ค๋ฅผ ๋ฐ์ ๋ค์ํ ๋๋ฉ์ธ๋ณ ํ์คํฌ๋ฅผ ๋ชจ๋ธ์๊ฒ ํ์ต์์ผ๋ณผ ์ ์์ต๋๋ค. ๋ํ ํผ๋๋ฐฑ์ ํตํด ํฅํ RFT ๊ณต์ ์ถ์ ์์ ์ ๋์ฑ ์์ ์ ์ด๊ณ ๊ฐ๋ ฅํ API๋ฅผ ์ ๊ณตํ ์ ์๊ฒ ๋ฉ๋๋ค.
์ฐธ์ฌ ๋ฐฉ๋ฒ: ๋ค์ ๋งํฌ(https://openai.com/form/rft-research-program/)๋ฅผ ํตํด ์ง์์๋ฅผ ์ ์ถํ ์ ์์ต๋๋ค. OpenAI์์ ์ ํ๋ ์์ ํํธ๋๋ฅผ ์ ๋ณํ์ฌ, RFT ์ํ ํ ์คํธ ๊ธฐํ๋ฅผ ์ค๋ค๊ณ ํฉ๋๋ค.
๋ง๋ฌด๋ฆฌ
RFT์ ๋ฑ์ฅ์ AI๋ฅผ ๋จ์ํ ์ง๋ฌธ-์๋ต ์์คํ ์์ โํน์ ์ ๋ฌธ ์์ญ์ ๋ํ ์ง์ง โ์ถ๋ก ํํธ๋โโ๋ก ํ ๋จ๊ณ ๋์ด์ฌ๋ฆฌ๋ ์ด์ ํ์ ๋๋ค. ์ด๋ ํ๋ฉด์ ์ ๋ณด ๋ณต์ ์์ ๋ฒ์ด๋, ๋ชจ๋ธ์ด ์ค์ ์ธ๊ณ์ ๋ณต์กํ ๋ฌธ์ ์ ๋ง๊ฒ reasoning capability๋ฅผ ์ค์ค๋ก ๊ฐํํ๋ ํ์ ์ ๋ณํ์ ๋๋ค. ํฅํ RFT๋ฅผ ์ด์ฉํด ๋ชจ๋ ์ฐ๊ตฌ์, ๊ธฐ์ , ๊ธฐ๊ด์ ์์ ๋ง์ ์ ๋ฌธ ๋ชจ๋ธ ์์ฝ์์คํ ์ ๊ตฌ์ถํ ์ ์์ ๊ฒ์ ๋๋ค.
๋ด์ผ(12 Days of OpenAI: Day 3)์๋ ์ด๋ค ํ์ ์ ๋ณด์ฌ์ค์ง ๊ธฐ๋๋ฉ๋๋ค. ๋งค์ผ ์๋ก ๊ณต๊ฐ๋๋ ์ ๊ธฐ์ ์ ํตํด OpenAI๋ ๋ช ํํ ๋น์ ์ ์ ์ํ๊ณ ์์ต๋๋ค. AI๊ฐ ๋จ์ ๋์ฐ๋ฏธ๋ฅผ ๋์ด, ์ ๋ฌธ์ฑยท์ ๋ฐ์ฑยท์์ ์ฑ์ ๊ฐ์ถ ์ฐจ์ธ๋ ํํธ๋๋ก ์ฑ์ฅํ๋ ๊ทธ ๊ณผ์ ์ ํจ๊ป ํด๋ณด์๊ธฐ ๋ฐ๋๋๋ค.