OpenAI o3-mini: ์๋ก์ด ๋น์ฉ ํจ์จ์ AI ๋ชจ๋ธ ์ถ์
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/openAI-o3-mini-release
-
๊ฐ์
๊ธ์ผ ChatGPT์ API์์ o3-mini ๋ฐ o3-mini-high๋ฅผ ๊ณต๊ฐํ์์ต๋๋ค.
์๋ โ๋ธ๋ก๊ทธ ํฌ์คํธโ์
๐ข Weโre releasing OpenAI o3-mini, the newest, most cost-efficient model in our reasoning series, available in both ChatGPT and the API today. Previewed in December 2024โ , this powerful and fast model advances the boundaries of what small models can achieve, delivering exceptional STEM capabilitiesโwith particular strength in science, math, and codingโall while maintaining the low cost and reduced latency of OpenAI o1-mini. - OpenAI blog
์๋ โX ๊ฒ์๋ฌผโ๊ณผ ํจ๊ป ์๊ฐ๋์๋๋ฐ์.
Image Source: Sam Altmanโs X post
(๋ฒ์ญ) Sam Altmanโs X post
o3-mini ์ถ์! ์ค๋งํธํ๊ณ ๋น ๋ฅธ ๋ชจ๋ธ.
ChatGPT ๋ฐ API๋ก ์ ๊ณต๋ฉ๋๋ค.
์น์ ๊ฒ์ํ๋ฉด ์๊ฐ์ ์ ์ ์์ต๋๋ค.
๋ฌด๋ฃ ๊ณ์ธต ์ฌ์ฉ์์๊ฒ ์ ๊ณต๋ฉ๋๋ค! โ์ด์ โ ๋ฒํผ์ ํด๋ฆญํ์ธ์.
ChatGPT ํ๋ฌ์ค๋ฅผ ์ฌ์ฉํ๋ฉด ๋ ์ด์ฌํ ์๊ฐํ๊ณ ๋ ๋์ ๋ต๋ณ์ ์ ๊ณตํ๋ โo3-mini-highโ๋ฅผ ์ ํํ ์ ์์ต๋๋ค.
โ๋ฌด๋ฃ ๊ณ์ธต ์ฌ์ฉ์์๊ฒ ์ ๊ณต๋ฉ๋๋ค! โ์ด์ โ ๋ฒํผ์ ํด๋ฆญํ์ธ์.โ์์ ๋งํ๋ ๊ธฐ๋ฅ์ ์๋ ๊ทธ๋ฆผ์์ ์ค๋ช ํ๋ Reason๐ก ๋ฒํผ์ ๋๋ค.
Image Source: OpenAIโs X post
โ STEM capabilities๋?
STEM ์ญ๋์ Science, Technology, Engineering, and Mathematics (STEM)์ ์ฐ๊ตฌํ์ฌ ์ป์ ๊ธฐ์ ๊ณผ ์ง์์ ์๋ฏธํฉ๋๋ค.
- ์๋ฅผ ๋ค์ด:
- ๋ฌธ์ ํด๊ฒฐ: ๋ฌธ์ ๋ฅผ ์๋ณํ๊ณ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ
- ์ฐฝ์์ฑ: ์์๋ ฅ์ ํ์ฉํ์ฌ ์๋ฃจ์ ์ ๊ฐ๋ฐํ๋ ๋ฅ๋ ฅ
- ๋นํ์ ์ฌ๊ณ : ์ ๋ณด๋ฅผ ๋ถ์ํ๊ณ ๊ฒฐ๋ก ์ ๋๋ฌํ๋ ๋ฅ๋ ฅ
- ํ์ํฌ: ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด ๋ค๋ฅธ ์ฌ๋๋ค๊ณผ ํ๋ ฅํ๋ ๋ฅ๋ ฅ
- ์ปค๋ฎค๋์ผ์ด์ : ์ ๋ณด๋ฅผ ๋ช ํํ๊ฒ ์ ๋ฌํ๋ ๋ฅ๋ ฅ
- ์ฐ๊ตฌ: ์๋ก์ด ์ ๋ณด๋ฅผ ๋ฐ๊ฒฌํ๋ ๋ฅ๋ ฅ
- ๋ฐ์ดํฐ ๋ถ์: ์ ๋ณด๋ฅผ ๊ฒํ ํ๊ณ ๊ฒฐ๋ก ์ ๋๋ฌํ๋ ๋ฅ๋ ฅ
- ์ํ: ๊ณ ๊ธ ์ํ ๊ธฐ์ ์ ์ฌ์ฉํ์ฌ ๋ณต์กํ ๋ฐฉ์ ์์ ํธ๋ ๋ฅ๋ ฅ
- ๋์์ธ ์ฌ๊ณ : ๋ฌธ์ ์ ๋ํ ์ ์ฌ์ ํด๊ฒฐ์ฑ ์ ์๋ณํ๋ ๋ฅ๋ ฅ
- ํธ๊ธฐ์ฌ: ์ง๋ฌธ์ ํตํด ๋ ๋ง์ ์ ๋ณด๋ฅผ ๋ฐฐ์ธ ์ ์๋ ๋ฅ๋ ฅ
- ๊ณ ๊ฐ ์๋น์ค: ๊ณ ๊ฐ์๊ฒ ์ ํ์ ์ ๊ณตํ๋ ๊ธฐ๋ฅ
- ๋ฆฌ๋์ญ: ๋ค๋ฅธ ์ฌ๋๋ค์๊ฒ ์ํฅ์ ๋ฏธ์น๊ณ , ํ์ํ๋ฉฐ, ๊ฐ๋ฑ์ ๋์ฒํ ์ ์๋ ๋ฅ๋ ฅ
o3-mini chatGPT ์ ๊ณต ์ต์
ChatGPT์์ o3-mini๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ค๊ฐ(Medium) reasoning effort์ ์ฌ์ฉํ์ฌ ์๋์ ์ ํ์ฑ ๊ฐ์ ๊ท ํ์ ์ ๊ณตํฉ๋๋ค.
- ์ด๋ฅผ ํตํด ์ผ๋ฐ์ ์ธ ์ง์์๋ต, ์ฝ๋ฉ, ์ํ, ๊ณผํ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ๋น ๋ฅด๋ฉด์๋ ๋์ ์ ํ๋์ ์๋ต์ ๊ธฐ๋ํ ์ ์์ต๋๋ค.
๋ํ, o3-mini-high ์ต์ ๋ ์ ๊ณต๋๋ฉฐ, ์ด๋ ๋ ๋์ ์ง๋ฅ์ ๊ฐ์ถ ๋ชจ๋ธ๋ก, ๋ณด๋ค ๊น์ด ์๋ ์ถ๋ก ๊ณผ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ์ ์ ํฉํฉ๋๋ค.
- ๋ค๋ง, ์๋ต ์์ฑ ์๊ฐ์ด ๋ค์ ์ฆ๊ฐํ ์ ์๊ธฐ ๋๋ฌธ์, ๋ณด๋ค ์ ๊ตํ ๋ถ์์ด๋ ๋ณต์กํ ์ํ ๋ฐ ์ฝ๋ฉ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฐ ๋ ์ ์ฉํฉ๋๋ค.
Reasoning Effort API ์ต์
OpenAI o3-mini๋ API ํธ์ถ ์ ์ธ ๊ฐ์ง reasoning effort ์์ค(Low, Medium, High)์ ์กฐ์ ํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ ์์ ์ ํน์ฑ์ ๋ง์ถฐ ๋ชจ๋ธ์ ์ฐ์ฐ๋๊ณผ ์๋ต ํ์ง์ ์ต์ ํํ ์ ์์ต๋๋ค.
-
Low Reasoning Effort:
- ๋น ๋ฅธ ์๋ต์ด ํ์ํ ๊ฒฝ์ฐ ์ ํฉ (์: ๋จ์ ์์ฝ, ๊ธฐ๋ณธ์ ์ธ ์ฝ๋ ์์ฑ).
-
Medium Reasoning Effort (๊ธฐ๋ณธ๊ฐ):
- ์๋์ ์ ํ์ฑ์ ๊ท ํ์ ์ ์งํ๋ฉฐ, ์ผ๋ฐ์ ์ธ AI ํ์ฉ์ ์ ํฉ (์: ์ค๊ฐ ๋์ด๋์ ์ํ ๋ฌธ์ ํด๊ฒฐ, ๋ ผ๋ฆฌ์ ์ธ ์ง๋ฌธ ์๋ต).
-
High Reasoning Effort:
- ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ์ ์ํด ๋ ๊น์ด ์๋ ์ถ๋ก ์ํ (์: ๊ณ ๊ธ ์๊ณ ๋ฆฌ์ฆ ๋ฌธ์ ํด๊ฒฐ, ๊ณผํ์ ๋ถ์, ๋ ผ๋ฆฌ์ ์ฌ๊ณ ์๊ตฌ).
์ ๋ฃ ์ฌ์ฉ์๋ค์ ๊ธฐ๋ณธ์ ์ผ๋ก o3-mini(Medium reasoning effort)์ ์ฌ์ฉํ๊ฒ ๋๋ฉฐ, ํ์์ ๋ฐ๋ผ o3-mini-high์ ์ ํํ์ฌ ๋์ฑ ์ ๋ฐํ AI ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
- ํนํ Pro ์ฌ์ฉ์๋ค์ o3-mini์ o3-mini-high์ ์ ํ ์์ด ์์ ๋กญ๊ฒ ํ์ฉํ ์ ์์ด, ๋ค์ํ ์ํฉ์ ๋ง์ถฐ ์ต์ ์ ๋ชจ๋ธ์ ์ ํํ์ฌ ์ฌ์ฉํ ์ ์์ต๋๋ค.
API๋ฅผ ํตํด reasoning effort ์ต์ ์ ์กฐ์ ํ๋ฉด ๋ณต์กํ ์์ ์์๋ ๋ ๊ฐ๋ ฅํ ์ถ๋ก ์ฑ๋ฅ์ ๋ฐํํ๊ณ , ๋น ๋ฅธ ์์ ์์๋ ์๋ต ์๋๋ฅผ ์ต์ ํํ ์ ์์ต๋๋ค.
o3-mini ํน์ง ์ ๋ฆฌ
OpenAI์ ์ต์ AI ๋ชจ๋ธ o3-mini์ ํน์ง์ ์ ๋ฆฌํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค:
- ๋น์ฉ ํจ์จ์ ์ธ ์ต์ reasoning ๋ชจ๋ธ๋ก, ๊ณ ๊ธ ์ํ ๋ฐ ์ฝ๋ฉ ๋ฌธ์ ์์ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํจ.
- ํจ์ ํธ์ถ(Function Calling), ๊ตฌ์กฐํ๋ ์ถ๋ ฅ(Structured Outputs), ๊ฐ๋ฐ์ ๋ฉ์์ง ์ง์ ๋ฑ ๋ค์ํ ๊ธฐ๋ฅ์ ์ง์ํ์ฌ ์ ์ฐ์ฑ์ ๋์.
- ์ธ ๊ฐ์ง reasoning effort ์ ๊ณต: Low, Medium, High, ์ด๋ฅผ ํตํด ์ฌ์ฉ์๋ ์๋ต ์๋์ ์ ํ์ฑ ๊ฐ์ ๊ท ํ์ ์กฐ์ ๊ฐ๋ฅ.
- ์คํธ๋ฆฌ๋ฐ ์ง์ (๋จ, ๋น์ (์ด๋ฏธ์ง) ๊ธฐ๋ฅ ์์), ๋ฐ๋ผ์ ์๊ฐ์ ์ดํด๊ฐ ํ์ํ ์์ ์์๋ OpenAI o1 ๋ชจ๋ธ ์ฌ์ฉ ๊ถ์ฅ.
- ChatGPT ๋ฐ API(Chat Completions, Assistants, Batch API)์์ ์ฌ์ฉ ๊ฐ๋ฅํ์ฌ ๋ค์ํ ๊ฐ๋ฐ ํ๊ฒฝ์์ ํ์ฉ ๊ฐ๋ฅ.
- Plus ๋ฐ Team ์ฌ์ฉ์์ ๋ฉ์์ง ์ ํ์ด ๊ธฐ์กด o1-mini์ 50๊ฐ์์ 150๊ฐ๋ก ์ฆ๊ฐ, ์ด๋ฅผ ํตํด ๋ ๋ง์ ์ฟผ๋ฆฌ๋ฅผ ์คํํ ์ ์์.
- ๊ฒ์ ๊ธฐ๋ฅ ์ถ๊ฐ(์น ๋งํฌ ์ ๊ณต)๋ก ์ต์ ์ ๋ณด๋ฅผ ๋์ฑ ์ ํํ๊ฒ ์ ๊ณตํ ์ ์์.
- ๋ฌด๋ฃ ์ฌ์ฉ์๋ โReasonโ ๋ชจ๋ ์ ํ์ ํตํด ์ฌ์ฉ ๊ฐ๋ฅ, ์ด๋ OpenAI reasoning ๋ชจ๋ธ ์ค ์ฒ์์ผ๋ก ๋ฌด๋ฃ ์ฌ์ฉ์์๊ฒ ์ ๊ณต๋จ.
o1, o1-mini, o3, o3-mini ๋น๊ต
OpenAI๋ ๋ค์ํ AI ๋ชจ๋ธ์ ๊ฐ๋ฐํด์์ผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ ์ธก๋ฉด์์ ์ฐจ๋ณ์ ์ ๊ฐ์ง๋๋ค.
- ์๋๋
o1
,o1-mini
,o3
,o3-mini
์ ์ฃผ์ ๋น๊ต ์ฌํญ์ ๋๋ค.
๋ชจ๋ธ | ์ฃผ์ ํน์ง | ์ฑ๋ฅ | ๋น์ฉ | ํ์ฉ๋ |
---|---|---|---|---|
o1 | ์ผ๋ฐ์ ์ธ AI ์ถ๋ก ๋ชจ๋ธ | ์ค๊ฐ ์์ค | ์ค๊ฐ | ๋ฒ์ฉ์ ์ฌ์ฉ ๊ฐ๋ฅ |
o1-mini | ์๋์ ๋น์ฉ ์ต์ ํ ๋ชจ๋ธ | ์ค๊ฐ์์ ๋ฎ์ ์์ค | ๋ฎ์ | ๋น ๋ฅธ ์๋ต๊ณผ ์ ๋น์ฉ ์๊ตฌ ํ๊ฒฝ |
o3 | ๊ณ ๊ธ AI ์ถ๋ก ๋ชจ๋ธ | ์ต๊ณ ์์ค | ๋์ | ์ฐ๊ตฌ ๋ฐ ๋ณต์กํ ๋ฌธ์ ํด๊ฒฐ |
o3-mini | o3์ ๋น์ฉ ํจ์จ์ ๋ฒ์ | ๋์ ์์ค | ๋ฎ์ | STEM, ์ฝ๋ฉ, ๋น์ฉ ์ ๊ฐ ํ์ ํ๊ฒฝ |
โ ํ ์ ๋ฆฌ:
- o1์ ๋ฒ์ฉ์ ์ธ AI ๋ชจ๋ธ๋ก ํ์ฉ๋๋ฉฐ, ๊ท ํ ์กํ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
- o1-mini๋ ์ ๋น์ฉ๊ณผ ๋น ๋ฅธ ์๋ต์ ์ํ๋ ์ฌ์ฉ์์๊ฒ ์ ํฉํฉ๋๋ค.
- o3๋ ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ์ ๊ณตํ์ง๋ง, ๋์ ๋น์ฉ์ด ์๋ฐ๋ฉ๋๋ค.
- o3-mini๋ o3์ ์ฅ์ ์ ์ ์งํ๋ฉด์๋ ๋ ๋ฎ์ ๋น์ฉ๊ณผ ํจ์จ์ ์ธ ์ฑ๋ฅ์ ์ ๊ณตํฉ๋๋ค.
๋น์ฉ ๋ถ์
์๋๋ openAI pricing ์ฌ์ดํธ์์ ๊ฐ๊ฒฉํ๋ฅผ ๊ฐ์ ธ์จ ๊ฒ์ ๋๋ค. (asof 25.02.01)
Image Source : https://openai.com/api/pricing/
o1๊ณผ o3-mini์ ๊ฐ๊ฒฉ๋ง ๋น๊ตํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค:
Image Source : https://openai.com/api/pricing/
Input/Ouput Token ๋น๊ต
๋ค์์ ํ์กดํ๋ openAI reasoning model๋ค์ ๋ํ ์ ๋ณด์ ๋๋ค.
Model | Context Window (tokens) | Max Output Tokens |
---|---|---|
o1 | 200,000 | 100,000 |
o1-mini | 128,000 | 65,536 |
o3-mini | 200,000 | 100,000 |
Table Source: https://platform.openai.com/docs/models#o1
-
์ฃผ์ ์ฑ๋ฅ ๋ถ์
์์์ ํน์ง์ ์ดํด๋ดค๋ค๋ฉด ์ด์ benchmark ๋ฐ์ดํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๋ฒ ์ดํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค.
๋ค์ ์ฃผ์ ์ฑ๋ฅ ๋ถ์์ ์๋ ํ์ด์ง์ ๊ทผ๊ฑฐํ์ฌ ์์ฑ๋์์ต๋๋ค.
2.1 ์ํ(Mathematics) ์ฑ๋ฅ
AIME 2024 ํ๊ฐ ๊ฒฐ๊ณผ
- ๋ฎ์ reasoning effort: o1-mini์ ์ ์ฌํ ์ฑ๋ฅ.
- ์ค๊ฐ reasoning effort: o1๊ณผ ๋น์ทํ ์ฑ๋ฅ.
- ๋์ reasoning effort: o1 ๋ฐ o1-mini๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ.
(์ฐธ๊ณ ) N/A๋ ๋ณ๋ค๋ฅธ model specification์ด ์๋ ๊ฒฝ์ฐ N/A๋ก ๊ธฐ๋กํจ
๋ชจ๋ธ | low | mid | high | N/A |
---|---|---|---|---|
o1-mini | - | - | - | 63.6 |
o1 | - | - | - | 83.3 |
o3-mini | 60.0 | 79.6 | 87.3 | - |
โ ํ ํด์:
- AIME(American Invitational Mathematics Examination) 2024์์ ๋์ reasoning effort์์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๊ธฐ๋กํ์์ผ๋ฉฐ, ์ค๊ฐ effort์์๋ o1 ์์ค์ ๊ทผ์ฌํ๋ ์ฑ๋ฅ์ ์ ์งํจ.
- ์ด๋ ๋ณต์กํ ์ํ์ ๋ฌธ์ ํด๊ฒฐ์์ o3-mini๊ฐ ์๋นํ ๊ฒฝ์๋ ฅ์ ๊ฐ์ถ์์์ ์๋ฏธํจ.
2.2 ๊ณผํ(Science) ์ฑ๋ฅ
PhD ์์ค ๊ณผํ ๋ฌธ์ (GPQA Diamond)
- ๋ฎ์ reasoning effort: o1-mini๋ณด๋ค ์ฐ์.
- ๋์ reasoning effort: o1๊ณผ ์ ์ฌํ ์ฑ๋ฅ.
(์ฐธ๊ณ ) N/A๋ ๋ณ๋ค๋ฅธ model specification์ด ์๋ ๊ฒฝ์ฐ N/A๋ก ๊ธฐ๋กํจ
๋ชจ๋ธ | low | mid | high | N/A |
---|---|---|---|---|
o1-mini | - | - | - | 60.0 |
o1 | - | - | - | 78.0 |
o3-mini | 70.6 | 76.8 | 79.7 | - |
โ ํ ํด์:
- GPQA(Google PhD-level Question Answering) ํ๊ฐ์์ o3-mini๋ ๋ฎ์ reasoning effort์์๋ ๋์ ์ฑ๋ฅ์ ์ ์งํ๋ฉฐ, ๋์ reasoning effort์์๋ o1 ์์ค๊ณผ ๋๋ฑํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์.
- ์ด๋ ์๋ฌผํ, ํํ, ๋ฌผ๋ฆฌํ ๋ฑ์ ๊ณผํ ๋ถ์ผ์์ ๊ฐ๋ ฅํ ๋ถ์ ๋ฐ ๋ ผ๋ฆฌ์ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ถ๊ณ ์์์ ์๋ฏธํจ.
2.3 ์๊ณ ๋ฆฌ์ฆ ๋ฐ ์ปดํํฐ์ ์ฝ๋ฉ ์ฑ๋ฅ (Codeforces)
(์ฐธ๊ณ ) Elo ์ ์๋ ์ฒด์ค, e์คํฌ์ธ , ํ๋ก๊ทธ๋๋ฐ ๋ํ(Codeforces ๋ฑ)์ ๊ฐ์ ๊ฒฝ์ ํ๊ฒฝ์์ ์ฐธ๊ฐ์์ ์๋์ ์ธ ์ค๋ ฅ์ ํ๊ฐํ๋ ๋ฐฉ์์ ๋๋ค. ์ด ์ ์๋ ๊ฒฝ๊ธฐ ๊ฒฐ๊ณผ์ ๋ฐ๋ผ ๋์ ์ผ๋ก ๋ณํ๋ฉฐ, ๋ ๊ฐํ ์๋๋ฅผ ์ด๊ธฐ๋ฉด ์ ์๊ฐ ๋ ํฌ๊ฒ ์ค๋ฅด๊ณ , ์ฝํ ์๋์๊ฒ ์ง๋ฉด ์ ์๊ฐ ํฌ๊ฒ ๊ฐ์ํ๋ ํน์ง์ด ์์ต๋๋ค.
๋ชจ๋ธ | Elo ์ ์ |
---|---|
o1-preview | 1258 |
o1 | 1891 |
o1-mini | 1650 |
o3-mini (low) | 1831 |
o3-mini (medium) | 2036 |
o3-mini (high) | 2130 |
โ ํ ํด์:
- o3-mini (high) ๋ชจ๋ธ์ 2130 Elo๋ฅผ ๊ธฐ๋กํ์ฌ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋ฉฐ, o1-mini๋ณด๋ค 500 Elo ์ด์ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค.
2.4 ๊ณ ๊ธ ์ํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ (FrontierMath)
(์ฐธ๊ณ ) FrontierMath๋ ๊ณ ๊ธ ์ํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ด๋ฉฐ, ์ฌ๊ธฐ์
Pass@k
๋ AI ๋ชจ๋ธ์ด ์ํ ๋ฌธ์ ๋ฅผ ์ผ๋ง๋ ์ ํด๊ฒฐํ ์ ์๋์ง ์ธก์ ํ๋ ํต์ฌ ์งํ์ ๋๋ค.
Pass@1
: AI๊ฐ ํ ๋ฒ์ ์๋๋ก ์ ๋ต์ ๋ง์ถ ํ๋ฅPass@4
: AI๊ฐ 4๋ฒ ์๋ํ๋ ๋์ ์ ๋ต์ ๋ง์ถ ํ๋ฅPass@8
: AI๊ฐ 8๋ฒ ์๋ํ๋ ๋์ ์ ๋ต์ ๋ง์ถ ํ๋ฅ
๋ชจ๋ธ | Pass@1 | Pass@4 | Pass@8 |
---|---|---|---|
o3-mini (high) | 9.2% | 16.6% | 20.0% |
o1-mini | 5.8% | 9.9% | 12.8% |
o1 | 5.5% | 10% | 12.8% |
โ ํ ํด์:
- o3-mini ๋ชจ๋ธ์ Pass@1, Pass@4, Pass@8 ์ฑ๋ฅ์ด ๋ชจ๋ o1-mini์ o1์ ํฌ๊ฒ ์ด๊ณผ, ํนํ ์ํ์ reasoning์ ํ์๋ก ํ๋ ๋ฌธ์ ์์ ์ ์๋ฏธํ ์ฑ๋ฅ ํฅ์์ ๋ณด์.
2.5 ์ผ๋ฐ ์ง์ ๋ฐ ์ํ ์ง์ (General Knowledge)
(์ฐธ๊ณ ) General Knowledge ํ๊ฐ์๋ ์ฌ๋ฌ ์๋ธํ ์คํฌ๊ฐ ํฌํจ๋๋ฉฐ, ์ฃผ์ ํ๊ฐ ํญ๋ชฉ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- General(MMLU): ๋ค์ํ ๋ถ์ผ์ ์ผ๋ฐ ์ง์์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ
- Math(Math) : ๊ธฐ์ด ๋ฐ ๊ณ ๊ธ ์ํ ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ
- Math(MGSM) : Multi-step math ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ
- Factuality(SimpleQA) : ๊ฐ๋จํ ์ฌ์ค ์ง๋ฌธ์ ๋ํ ์ ๋ต๋ฅ
Category | Eval | o1-mini | o3-mini (low) | o3-mini (medium) | o3-mini (high) |
---|---|---|---|---|---|
General | MMLU (pass@1) | 85.2 | 84.9 | 85.9 | 86.9 |
Math | Math (pass@1) | 90.0 | 95.8 | 97.3 | 97.9 |
Math | MGSM (pass@1) | 89.9 | 55.1 | 90.8 | 92.0 |
Factuality | SimpleQA | 7.6 | 13.0 | 13.4 | 13.8 |
โ ํ ํด์:
- MMLU(์ผ๋ฐ ์ง์)์์๋ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ์ ์ฌํ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์ํ(MGSM) ์ฑ๋ฅ์์ o3-mini๊ฐ ํ์ฐํ ํฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์.
2.6 ์ธ๊ฐ ํ๊ฐ ๊ฒฐ๊ณผ (Human Preference Evaluation)
(์ฐธ๊ณ ) Human Preference Evaluation์ ์ค์ (์ธ๊ฐ) ์ฌ์ฉ์๋ค์ด AI ๋ชจ๋ธ์ด ์์ฑํ ์๋ต์ ๋น๊ตํ์ฌ ์ด๋ ๋ชจ๋ธ์ด ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๋์ง ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ ๋๋ค.
- ์ด ํ ์คํฌ๋ ๋จ์ํ ์์น ๊ธฐ๋ฐ ํ๊ฐ(MAE, BLEU, Pass@k ๋ฑ)์ ๋ฌ๋ฆฌ, ์ค์ ์ฌ์ฉ์์ ์ฃผ๊ด์ ์ธ ์ ํธ๋ ๋ฐ ์ดํด๋๋ฅผ ๋ฐ์ํ์ฌ AI ๋ชจ๋ธ์ ํ๊ฐํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
ํ๊ฐ ํญ๋ชฉ | ํ๊ฐ ๊ธฐ์ค | o1-mini | o3-mini (medium) |
---|---|---|---|
STEM ์์ญ | Win Rate (%) | 50% | 58~60% |
๋น-STEM ์์ญ | Win Rate (%) | 50% | 58~60% |
์๊ฐ ์ ์ฝ ์ํฉ | Win Rate (%) | 50% | 54~58% |
Major Error Rate | ์ค๋ฅ์จ (%) | ์ฝ 27% | ์ฝ 17% (39% ๊ฐ์) |
โ ํ ํด์:
- STEM ๋ฐ ๋น-STEM ๋๋ฉ์ธ์์ o3-mini (medium) ๋ชจ๋ธ์ด ๊ธฐ์กด o1-mini ๋ชจ๋ธ๋ณด๋ค ๋ ์ ํธ๋๋ ์๋ต์ ์์ฑ.
- ์๊ฐ ์ ์ฝ์ด ์๋ ๊ฒฝ์ฐ์๋ o3-mini ๋ชจ๋ธ์ด ๋ ๋์ ์ ๋ต๋ฅ ์ ๋ณด์, ์ฆ ๋น ๋ฅด๊ณ ์ ํํ ์๋ต์ ์ ๊ณตํ ๊ฐ๋ฅ์ฑ์ด ๋์.
- Major Error Rate(์ค๋ํ ์ค๋ฅ ๋น์จ)๊ฐ ๊ธฐ์กด ๋ชจ๋ธ ๋๋น 39% ๊ฐ์, ์ฆ ๋ ์ ๋ขฐํ ์ ์๋ ์ ๋ณด๋ฅผ ์ ๊ณต.
2.7 ์ฝ๋ ์์ฑ ๋ฐ ์ปดํ๋ฆฌ์ ์ฑ๋ฅ (LiveBench Coding)
(์ฐธ๊ณ ) LiveBench Coding ํ ์คํฌ๋ AI ๋ชจ๋ธ์ด ์ค์ ์ฝ๋๋ฅผ ์์ฑ(Generation)ํ๊ณ ์์ฑ(Completion)ํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ ๋๋ค.
- ์ผ๋ฐ์ ์ธ ์ฝ๋ ์์ฑ(Code Generation)๋ฟ๋ง ์๋๋ผ, ๋ ผ๋ฆฌ์ ์ถ๋ก (Reasoning)๊ณผ ๋ณต์กํ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ ์คํธํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
- ์๋ 3๊ฐ์ง ํญ๋ชฉ์ ๋ํด์ ํ ์คํธ๋ฅผ ์ํํฉ๋๋ค:
- Average Score : ์ ๋ฐ์ ์ธ ์ฝ๋ ์์ฑ ๋ฐ ์์ฑ ์ฑ๋ฅ
- LCB Generation : ๋ ผ๋ฆฌ์ ์ผ๋ก ์ผ๊ด๋ ์ฝ๋ ๋ธ๋ก ์์ฑ ๋ฅ๋ ฅ
- Code Completion : ์ฝ๋ ์๋ ์์ฑ(Completion) ๋ฅ๋ ฅ
๋ชจ๋ธ | Reasoning Level | Average | LCB Generation | Code Completion |
---|---|---|---|---|
o3-mini | low | 0.618 | 0.756 | 0.48 |
o3-mini | medium | 0.723 | 0.846 | 0.60 |
o3-mini | high | 0.846 | 0.820 | 0.833 |
o1 | high | 0.674 | 0.628 | 0.72 |
โ ํ ํด์:
- o3-mini (high) ๋ชจ๋ธ์ ์ฝ๋ ์๋ ์์ฑ(Code Completion)์์ ๊ธฐ์กด o1 ๋ชจ๋ธ์ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ๊ฐ๋ฐ ์์ฐ์ฑ์ ๋์ผ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ํ์ธ.
2.8 ์ํํธ์จ์ด ์์ง๋์ด๋ง ์ฑ๋ฅ (SWE-bench Verified)
(์ฐธ๊ณ ) SWE-bench Verified๋ AI ๋ชจ๋ธ์ ์ํํธ์จ์ด ์์ง๋์ด๋ง(Software Engineering) ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฒค์น๋งํฌ์ ๋๋ค.
- ์ด ํ ์คํฌ๋ AI๊ฐ ์ค์ ์ฝ๋ ๋ฒ ์ด์ค์์ ๋ฒ๊ทธ๋ฅผ ์์ ํ๊ณ , ๊ธฐ๋ฅ์ ๊ฐ์ ํ๋ฉฐ, ๋ฌธ์ ํด๊ฒฐ์ ์ํํ๋ ๋ฅ๋ ฅ์ ์ธก์ ํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
๋ชจ๋ธ | ์ ํ๋ |
---|---|
o1-preview | 41.3% |
o1 | 48.9% |
o3-mini (low) | 40.8% |
o3-mini (medium) | 42.9% |
o3-mini (high) | 49.3% |
โ ํ ํด์:
- ์ํํธ์จ์ด ์์ง๋์ด๋ง ๋ฌธ์ ํด๊ฒฐ์์ o3-mini (high) ๋ชจ๋ธ์ด o1 ๋ชจ๋ธ์ ์ด๊ณผํ๋ ์ฑ๋ฅ์ ๋ณด์.
2.9 ์๋ต ์๋ ๋น๊ต (Latency)
๋ชจ๋ธ | Time to First Token (ms) |
---|---|
o1-mini | ์ฝ 10,000ms |
o3-mini (medium) | ์ฝ 7,500ms |
โ ํ ํด์:
- o3-mini ๋ชจ๋ธ์ ๋น ๋ฅธ ์๋ต ์๊ฐ์ผ๋ก ์ค์๊ฐ ์ํธ์์ฉ ์ฑ๋ฅ์ด ํฅ์๋จ.
๊ฒฐ๋ก
OpenAI์ ์๋ก์ด AI ๋ชจ๋ธ์ธ o3-mini๋ ๊ธฐ์กด ๋ชจ๋ธ(o1-mini, o1)๊ณผ ๋น๊ตํ์ ๋, STEM(Science, Technology, Engineering, Mathematics) ๋ฐ ํ๋ก๊ทธ๋๋ฐ ์์ญ์์ ๋์ฑ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ฒ์ด ํน์ง์ ๋๋ค.
- ํนํ, ๋ณต์กํ ์ํ ๋ฌธ์ ํด๊ฒฐ, ์๊ณ ๋ฆฌ์ฆ ์ฝ๋ฉ, ๊ณผํ์ ๋ถ์์์ ์ฑ๋ฅ ํฅ์์ด ๋๋๋ฌ์ง๋ฉฐ, AI ๊ธฐ๋ฐ์ ๋ ผ๋ฆฌ์ ์ถ๋ก ๋ฅ๋ ฅ์ ํ์๋ก ํ๋ ๋ค์ํ ์์ ์ ์ ํฉํฉ๋๋ค.
์ฃผ์ ํน์ง ์์ฝ
- STEM & ํ๋ก๊ทธ๋๋ฐ ์ฑ๋ฅ ๊ฐํ: ์ํ(AIME, FrontierMath), ๊ณผํ(GPQA), ์ฝ๋ฉ(Codeforces, LiveBench) ๋ฑ์ ๋ฒค์น๋งํฌ์์ ๊ธฐ์กด o1, o1-mini ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๊ธฐ๋ก
- ์ธ๋ถํ๋ Reasoning Effort ์ค์ ๊ฐ๋ฅ: API์์ Low, Medium, High ์ต์ ์ ์ง์ํ์ฌ ์์ ํน์ฑ์ ๋ฐ๋ผ AI ์ฐ์ฐ๋๊ณผ ์๋ต ํ์ง์ ์ต์ ํ ๊ฐ๋ฅ
- ๋น์ฉ ํจ์จ์ ์ธ ๋ชจ๋ธ: ๊ณ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์๋ ๋น์ฉ์ด ๋ฎ์ ๊ฒฝ์ ์ ํ์ฉ๋๊ฐ ๋์
- ๋น ๋ฅธ ์๋ต ์๋: ๊ธฐ์กด ๋ชจ๋ธ ๋๋น Time to First Token (TTFT) ์ฑ๋ฅ ๊ฐ์ , ์ค์๊ฐ ์ํธ์์ฉ์ด ํ์ํ ํ๊ฒฝ์์ ์ ๋ฆฌํจ
- ๋ฌด๋ฃ ์ฌ์ฉ์๋ Reasoning ๊ธฐ๋ฅ ์ด์ฉ ๊ฐ๋ฅ: OpenAI์ reasoning ๋ชจ๋ธ ์ค ์ต์ด๋ก ๋ฌด๋ฃ ๊ณ์ธต์์๋ ์ผ๋ถ ๊ธฐ๋ฅ์ด ์ ๊ณต๋จ
o3-mini vs. DeepSeek
์ต๊ทผ ์ค๊ตญ์ AI ์คํํธ์ DeepSeek์ด ์๋ก์ด AI ๋ชจ๋ธ DeepSeek-R1์ ๊ณต๊ฐํ๋ฉฐ AI ์ ๊ณ์ ๊ฒฝ์์ด ๋์ฑ ์ฌํ๋๊ณ ์์ต๋๋ค. DeepSeek-R1์ ์คํ์์ค๋ก ์ ๊ณต๋๋ฉฐ, ๋น์ฉ ํจ์จ์ฑ๊ณผ ๊ณ ์ฑ๋ฅ์ ๋์์ ์ถ๊ตฌํ๋ ๋ชจ๋ธ๋ก์ ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
์ด์ ๋์ํ์ฌ OpenAI๋ o3-mini๋ฅผ ์ถ์ํ๋ฉฐ, STEM ๋ฐ ํ๋ก๊ทธ๋๋ฐ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ฉด์๋ ๋ฎ์ ๋น์ฉ๊ณผ ๋น ๋ฅธ ์๋ต ์๋๋ฅผ ์ ์งํ๋ ์ ๋ต์ ์ ํํ์ต๋๋ค.
- ํนํ, o3-mini๋ ๋ฌด๋ฃ ์ฌ์ฉ์๋ Reasoning ๋ชจ๋๋ฅผ ํ์ฉํ ์ ์๋๋ก ์ง์ํ์ฌ AI์ ์ ๊ทผ์ฑ์ ๋์ด๋ ๋ฐ ์ฃผ๋ ฅํ๊ณ ์์ต๋๋ค. ์ด๋ DeepSeek์ด ์คํ์์ค ์ ๋ต์ ์ทจํ ๊ฒ๊ณผ ์ ์ฌํ ๋ฐฉํฅ์ฑ์ ๊ฐ์ง๋ฉฐ, AI์ ๋ณด๊ธ ๋ฐ ํ์ฉ๋๋ฅผ ๊ทน๋ํํ๊ธฐ ์ํ ์์ง์์ผ๋ก ๋ณผ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก, o3-mini๋ AI ๊ฒฝ์ ๊ตฌ๋ ์์์ ๋น์ฉ ๋๋น ์ฑ๋ฅ์ด ๋ฐ์ด๋ ๋ชจ๋ธ๋ก ์๋ฆฌ ์ก์ผ๋ฉฐ, ๋ค์ํ ์ฌ์ฉ์๋ค์๊ฒ ํจ๊ณผ์ ์ธ AI ๋๊ตฌ๋ก ํ์ฉ๋ ์ ๋ง์ ๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค ๐