OpenAI o3-mini: ์ƒˆ๋กœ์šด ๋น„์šฉ ํšจ์œจ์  AI ๋ชจ๋ธ ์ถœ์‹œ

Posted by Euisuk's Dev Log on February 1, 2025

OpenAI o3-mini: ์ƒˆ๋กœ์šด ๋น„์šฉ ํšจ์œจ์  AI ๋ชจ๋ธ ์ถœ์‹œ

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/openAI-o3-mini-release

  1. ๊ฐœ์š”

๊ธˆ์ผ ChatGPT์™€ API์—์„œ o3-mini ๋ฐ o3-mini-high๋ฅผ ๊ณต๊ฐœํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์•„๋ž˜ โ€œ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธโ€œ์™€

๐Ÿ“ข Weโ€™re releasing OpenAI o3-mini, the newest, most cost-efficient model in our reasoning series, available in both ChatGPT and the API today. Previewed in December 2024โ , this powerful and fast model advances the boundaries of what small models can achieve, delivering exceptional STEM capabilitiesโ€”with particular strength in science, math, and codingโ€”all while maintaining the low cost and reduced latency of OpenAI o1-mini. - OpenAI blog

์•„๋ž˜ โ€œX ๊ฒŒ์‹œ๋ฌผโ€œ๊ณผ ํ•จ๊ป˜ ์†Œ๊ฐœ๋˜์—ˆ๋Š”๋ฐ์š”.

Image Source: Sam Altmanโ€™s X post

(๋ฒˆ์—ญ) Sam Altmanโ€™s X post

o3-mini ์ถœ์‹œ! ์Šค๋งˆํŠธํ•˜๊ณ  ๋น ๋ฅธ ๋ชจ๋ธ.

ChatGPT ๋ฐ API๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.

์›น์„ ๊ฒ€์ƒ‰ํ•˜๋ฉด ์ƒ๊ฐ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฌด๋ฃŒ ๊ณ„์ธต ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค! โ€œ์ด์œ โ€ ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜์„ธ์š”.

ChatGPT ํ”Œ๋Ÿฌ์Šค๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋” ์—ด์‹ฌํžˆ ์ƒ๊ฐํ•˜๊ณ  ๋” ๋‚˜์€ ๋‹ต๋ณ€์„ ์ œ๊ณตํ•˜๋Š” โ€œo3-mini-highโ€๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

โ€œ๋ฌด๋ฃŒ ๊ณ„์ธต ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค! โ€œ์ด์œ โ€ ๋ฒ„ํŠผ์„ ํด๋ฆญํ•˜์„ธ์š”.โ€์—์„œ ๋งํ•˜๋Š” ๊ธฐ๋Šฅ์€ ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ์„ค๋ช…ํ•˜๋Š” Reason๐Ÿ’ก ๋ฒ„ํŠผ์ž…๋‹ˆ๋‹ค.

Image Source: OpenAIโ€™s X post

โ“ STEM capabilities๋ž€?

STEM ์—ญ๋Ÿ‰์€ Science, Technology, Engineering, and Mathematics (STEM)์„ ์—ฐ๊ตฌํ•˜์—ฌ ์–ป์€ ๊ธฐ์ˆ ๊ณผ ์ง€์‹์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

  • ์˜ˆ๋ฅผ ๋“ค์–ด:
    • ๋ฌธ์ œ ํ•ด๊ฒฐ: ๋ฌธ์ œ๋ฅผ ์‹๋ณ„ํ•˜๊ณ  ํ•ด๊ฒฐํ•˜๋Š” ๋Šฅ๋ ฅ
    • ์ฐฝ์˜์„ฑ: ์ƒ์ƒ๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ์†”๋ฃจ์…˜์„ ๊ฐœ๋ฐœํ•˜๋Š” ๋Šฅ๋ ฅ
    • ๋น„ํŒ์  ์‚ฌ๊ณ : ์ •๋ณด๋ฅผ ๋ถ„์„ํ•˜๊ณ  ๊ฒฐ๋ก ์— ๋„๋‹ฌํ•˜๋Š” ๋Šฅ๋ ฅ
    • ํŒ€์›Œํฌ: ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค๊ณผ ํ˜‘๋ ฅํ•˜๋Š” ๋Šฅ๋ ฅ
    • ์ปค๋ฎค๋‹ˆ์ผ€์ด์…˜: ์ •๋ณด๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ์ „๋‹ฌํ•˜๋Š” ๋Šฅ๋ ฅ
    • ์—ฐ๊ตฌ: ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ๋ฐœ๊ฒฌํ•˜๋Š” ๋Šฅ๋ ฅ
    • ๋ฐ์ดํ„ฐ ๋ถ„์„: ์ •๋ณด๋ฅผ ๊ฒ€ํ† ํ•˜๊ณ  ๊ฒฐ๋ก ์— ๋„๋‹ฌํ•˜๋Š” ๋Šฅ๋ ฅ
    • ์ˆ˜ํ•™: ๊ณ ๊ธ‰ ์ˆ˜ํ•™ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ณต์žกํ•œ ๋ฐฉ์ •์‹์„ ํ‘ธ๋Š” ๋Šฅ๋ ฅ
    • ๋””์ž์ธ ์‚ฌ๊ณ : ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ž ์žฌ์  ํ•ด๊ฒฐ์ฑ…์„ ์‹๋ณ„ํ•˜๋Š” ๋Šฅ๋ ฅ
    • ํ˜ธ๊ธฐ์‹ฌ: ์งˆ๋ฌธ์„ ํ†ตํ•ด ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ
    • ๊ณ ๊ฐ ์„œ๋น„์Šค: ๊ณ ๊ฐ์—๊ฒŒ ์ œํ’ˆ์„ ์ œ๊ณตํ•˜๋Š” ๊ธฐ๋Šฅ
    • ๋ฆฌ๋”์‹ญ: ๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์—๊ฒŒ ์˜ํ–ฅ์„ ๋ฏธ์น˜๊ณ , ํ˜‘์ƒํ•˜๋ฉฐ, ๊ฐˆ๋“ฑ์— ๋Œ€์ฒ˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ

o3-mini chatGPT ์ œ๊ณต ์˜ต์…˜

ChatGPT์—์„œ o3-mini๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์ค‘๊ฐ„(Medium) reasoning effort์„ ์‚ฌ์šฉํ•˜์—ฌ ์†๋„์™€ ์ •ํ™•์„ฑ ๊ฐ„์˜ ๊ท ํ˜•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

  • ์ด๋ฅผ ํ†ตํ•ด ์ผ๋ฐ˜์ ์ธ ์งˆ์˜์‘๋‹ต, ์ฝ”๋”ฉ, ์ˆ˜ํ•™, ๊ณผํ•™ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋น ๋ฅด๋ฉด์„œ๋„ ๋†’์€ ์ •ํ™•๋„์˜ ์‘๋‹ต์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜ํ•œ, o3-mini-high ์˜ต์…˜๋„ ์ œ๊ณต๋˜๋ฉฐ, ์ด๋Š” ๋” ๋†’์€ ์ง€๋Šฅ์„ ๊ฐ–์ถ˜ ๋ชจ๋ธ๋กœ, ๋ณด๋‹ค ๊นŠ์ด ์žˆ๋Š” ์ถ”๋ก ๊ณผ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

  • ๋‹ค๋งŒ, ์‘๋‹ต ์ƒ์„ฑ ์‹œ๊ฐ„์ด ๋‹ค์†Œ ์ฆ๊ฐ€ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ๋ณด๋‹ค ์ •๊ตํ•œ ๋ถ„์„์ด๋‚˜ ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์œ ์šฉํ•ฉ๋‹ˆ๋‹ค.

Reasoning Effort API ์˜ต์…˜

OpenAI o3-mini๋Š” API ํ˜ธ์ถœ ์‹œ ์„ธ ๊ฐ€์ง€ reasoning effort ์ˆ˜์ค€(Low, Medium, High)์„ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋Š” ์ž‘์—…์˜ ํŠน์„ฑ์— ๋งž์ถฐ ๋ชจ๋ธ์˜ ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ์‘๋‹ต ํ’ˆ์งˆ์„ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • Low Reasoning Effort:

    • ๋น ๋ฅธ ์‘๋‹ต์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ ์ ํ•ฉ (์˜ˆ: ๋‹จ์ˆœ ์š”์•ฝ, ๊ธฐ๋ณธ์ ์ธ ์ฝ”๋“œ ์ƒ์„ฑ).
  • Medium Reasoning Effort (๊ธฐ๋ณธ๊ฐ’):

    • ์†๋„์™€ ์ •ํ™•์„ฑ์˜ ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋ฉฐ, ์ผ๋ฐ˜์ ์ธ AI ํ™œ์šฉ์— ์ ํ•ฉ (์˜ˆ: ์ค‘๊ฐ„ ๋‚œ์ด๋„์˜ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ, ๋…ผ๋ฆฌ์ ์ธ ์งˆ๋ฌธ ์‘๋‹ต).
  • High Reasoning Effort:

    • ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์œ„ํ•ด ๋” ๊นŠ์ด ์žˆ๋Š” ์ถ”๋ก  ์ˆ˜ํ–‰ (์˜ˆ: ๊ณ ๊ธ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฌธ์ œ ํ•ด๊ฒฐ, ๊ณผํ•™์  ๋ถ„์„, ๋…ผ๋ฆฌ์  ์‚ฌ๊ณ  ์š”๊ตฌ).

์œ ๋ฃŒ ์‚ฌ์šฉ์ž๋“ค์€ ๊ธฐ๋ณธ์ ์œผ๋กœ o3-mini(Medium reasoning effort)์„ ์‚ฌ์šฉํ•˜๊ฒŒ ๋˜๋ฉฐ, ํ•„์š”์— ๋”ฐ๋ผ o3-mini-high์„ ์„ ํƒํ•˜์—ฌ ๋”์šฑ ์ •๋ฐ€ํ•œ AI ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ํŠนํžˆ Pro ์‚ฌ์šฉ์ž๋“ค์€ o3-mini์™€ o3-mini-high์„ ์ œํ•œ ์—†์ด ์ž์œ ๋กญ๊ฒŒ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์–ด, ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์— ๋งž์ถฐ ์ตœ์ ์˜ ๋ชจ๋ธ์„ ์„ ํƒํ•˜์—ฌ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

API๋ฅผ ํ†ตํ•ด reasoning effort ์˜ต์…˜์„ ์กฐ์ ˆํ•˜๋ฉด ๋ณต์žกํ•œ ์ž‘์—…์—์„œ๋Š” ๋” ๊ฐ•๋ ฅํ•œ ์ถ”๋ก  ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๊ณ , ๋น ๋ฅธ ์ž‘์—…์—์„œ๋Š” ์‘๋‹ต ์†๋„๋ฅผ ์ตœ์ ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

o3-mini ํŠน์ง• ์ •๋ฆฌ

OpenAI์˜ ์ตœ์‹  AI ๋ชจ๋ธ o3-mini์˜ ํŠน์ง•์„ ์ •๋ฆฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • ๋น„์šฉ ํšจ์œจ์ ์ธ ์ตœ์‹  reasoning ๋ชจ๋ธ๋กœ, ๊ณ ๊ธ‰ ์ˆ˜ํ•™ ๋ฐ ์ฝ”๋”ฉ ๋ฌธ์ œ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ.
  • ํ•จ์ˆ˜ ํ˜ธ์ถœ(Function Calling), ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ(Structured Outputs), ๊ฐœ๋ฐœ์ž ๋ฉ”์‹œ์ง€ ์ง€์› ๋“ฑ ๋‹ค์–‘ํ•œ ๊ธฐ๋Šฅ์„ ์ง€์›ํ•˜์—ฌ ์œ ์—ฐ์„ฑ์„ ๋†’์ž„.
  • ์„ธ ๊ฐ€์ง€ reasoning effort ์ œ๊ณต: Low, Medium, High, ์ด๋ฅผ ํ†ตํ•ด ์‚ฌ์šฉ์ž๋Š” ์‘๋‹ต ์†๋„์™€ ์ •ํ™•์„ฑ ๊ฐ„์˜ ๊ท ํ˜•์„ ์กฐ์ ˆ ๊ฐ€๋Šฅ.
  • ์ŠคํŠธ๋ฆฌ๋ฐ ์ง€์› (๋‹จ, ๋น„์ „(์ด๋ฏธ์ง€) ๊ธฐ๋Šฅ ์—†์Œ), ๋”ฐ๋ผ์„œ ์‹œ๊ฐ์  ์ดํ•ด๊ฐ€ ํ•„์š”ํ•œ ์ž‘์—…์—์„œ๋Š” OpenAI o1 ๋ชจ๋ธ ์‚ฌ์šฉ ๊ถŒ์žฅ.
  • ChatGPT ๋ฐ API(Chat Completions, Assistants, Batch API)์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๊ฐœ๋ฐœ ํ™˜๊ฒฝ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅ.
  • Plus ๋ฐ Team ์‚ฌ์šฉ์ž์˜ ๋ฉ”์‹œ์ง€ ์ œํ•œ์ด ๊ธฐ์กด o1-mini์˜ 50๊ฐœ์—์„œ 150๊ฐœ๋กœ ์ฆ๊ฐ€, ์ด๋ฅผ ํ†ตํ•ด ๋” ๋งŽ์€ ์ฟผ๋ฆฌ๋ฅผ ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ์Œ.
  • ๊ฒ€์ƒ‰ ๊ธฐ๋Šฅ ์ถ”๊ฐ€(์›น ๋งํฌ ์ œ๊ณต)๋กœ ์ตœ์‹  ์ •๋ณด๋ฅผ ๋”์šฑ ์ •ํ™•ํ•˜๊ฒŒ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ์Œ.
  • ๋ฌด๋ฃŒ ์‚ฌ์šฉ์ž๋„ โ€˜Reasonโ€™ ๋ชจ๋“œ ์„ ํƒ์„ ํ†ตํ•ด ์‚ฌ์šฉ ๊ฐ€๋Šฅ, ์ด๋Š” OpenAI reasoning ๋ชจ๋ธ ์ค‘ ์ฒ˜์Œ์œผ๋กœ ๋ฌด๋ฃŒ ์‚ฌ์šฉ์ž์—๊ฒŒ ์ œ๊ณต๋จ.

o1, o1-mini, o3, o3-mini ๋น„๊ต

OpenAI๋Š” ๋‹ค์–‘ํ•œ AI ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•ด์™”์œผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ์€ ์„ฑ๋Šฅ๊ณผ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ์ฐจ๋ณ„์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

  • ์•„๋ž˜๋Š” o1, o1-mini, o3, o3-mini์˜ ์ฃผ์š” ๋น„๊ต ์‚ฌํ•ญ์ž…๋‹ˆ๋‹ค.
๋ชจ๋ธ ์ฃผ์š” ํŠน์ง• ์„ฑ๋Šฅ ๋น„์šฉ ํ™œ์šฉ๋„
o1 ์ผ๋ฐ˜์ ์ธ AI ์ถ”๋ก  ๋ชจ๋ธ ์ค‘๊ฐ„ ์ˆ˜์ค€ ์ค‘๊ฐ„ ๋ฒ”์šฉ์  ์‚ฌ์šฉ ๊ฐ€๋Šฅ
o1-mini ์†๋„์™€ ๋น„์šฉ ์ตœ์ ํ™” ๋ชจ๋ธ ์ค‘๊ฐ„์—์„œ ๋‚ฎ์€ ์ˆ˜์ค€ ๋‚ฎ์Œ ๋น ๋ฅธ ์‘๋‹ต๊ณผ ์ €๋น„์šฉ ์š”๊ตฌ ํ™˜๊ฒฝ
o3 ๊ณ ๊ธ‰ AI ์ถ”๋ก  ๋ชจ๋ธ ์ตœ๊ณ  ์ˆ˜์ค€ ๋†’์Œ ์—ฐ๊ตฌ ๋ฐ ๋ณต์žกํ•œ ๋ฌธ์ œ ํ•ด๊ฒฐ
o3-mini o3์˜ ๋น„์šฉ ํšจ์œจ์  ๋ฒ„์ „ ๋†’์€ ์ˆ˜์ค€ ๋‚ฎ์Œ STEM, ์ฝ”๋”ฉ, ๋น„์šฉ ์ ˆ๊ฐ ํ•„์š” ํ™˜๊ฒฝ

โœ… ํ‘œ ์ •๋ฆฌ:

  • o1์€ ๋ฒ”์šฉ์ ์ธ AI ๋ชจ๋ธ๋กœ ํ™œ์šฉ๋˜๋ฉฐ, ๊ท ํ˜• ์žกํžŒ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • o1-mini๋Š” ์ €๋น„์šฉ๊ณผ ๋น ๋ฅธ ์‘๋‹ต์„ ์›ํ•˜๋Š” ์‚ฌ์šฉ์ž์—๊ฒŒ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.
  • o3๋Š” ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•˜์ง€๋งŒ, ๋†’์€ ๋น„์šฉ์ด ์ˆ˜๋ฐ˜๋ฉ๋‹ˆ๋‹ค.
  • o3-mini๋Š” o3์˜ ์žฅ์ ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋” ๋‚ฎ์€ ๋น„์šฉ๊ณผ ํšจ์œจ์ ์ธ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋น„์šฉ ๋ถ„์„

์•„๋ž˜๋Š” openAI pricing ์‚ฌ์ดํŠธ์—์„œ ๊ฐ€๊ฒฉํ‘œ๋ฅผ ๊ฐ€์ ธ์˜จ ๊ฒƒ์ž…๋‹ˆ๋‹ค. (asof 25.02.01)

Image Source : https://openai.com/api/pricing/

o1๊ณผ o3-mini์˜ ๊ฐ€๊ฒฉ๋งŒ ๋น„๊ตํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค:

Image Source : https://openai.com/api/pricing/

Input/Ouput Token ๋น„๊ต

๋‹ค์Œ์€ ํ˜„์กดํ•˜๋Š” openAI reasoning model๋“ค์— ๋Œ€ํ•œ ์ •๋ณด์ž…๋‹ˆ๋‹ค.

Model Context Window (tokens) Max Output Tokens
o1 200,000 100,000
o1-mini 128,000 65,536
o3-mini 200,000 100,000

Table Source: https://platform.openai.com/docs/models#o1


  1. ์ฃผ์š” ์„ฑ๋Šฅ ๋ถ„์„

์œ„์—์„œ ํŠน์ง•์„ ์‚ดํŽด๋ดค๋‹ค๋ฉด ์ด์ œ benchmark ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ•œ๋ฒˆ ์‚ดํŽด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๋‹ค์Œ ์ฃผ์š” ์„ฑ๋Šฅ ๋ถ„์„์€ ์•„๋ž˜ ํŽ˜์ด์ง€์— ๊ทผ๊ฑฐํ•˜์—ฌ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

2.1 ์ˆ˜ํ•™(Mathematics) ์„ฑ๋Šฅ

AIME 2024 ํ‰๊ฐ€ ๊ฒฐ๊ณผ

  • ๋‚ฎ์€ reasoning effort: o1-mini์™€ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ.
  • ์ค‘๊ฐ„ reasoning effort: o1๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ.
  • ๋†’์€ reasoning effort: o1 ๋ฐ o1-mini๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ.

(์ฐธ๊ณ ) N/A๋Š” ๋ณ„๋‹ค๋ฅธ model specification์ด ์—†๋Š” ๊ฒฝ์šฐ N/A๋กœ ๊ธฐ๋กํ•จ

๋ชจ๋ธ low mid high N/A
o1-mini - - - 63.6
o1 - - - 83.3
o3-mini 60.0 79.6 87.3 -

โœ… ํ‘œ ํ•ด์„:

  • AIME(American Invitational Mathematics Examination) 2024์—์„œ ๋†’์€ reasoning effort์—์„œ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•˜์˜€์œผ๋ฉฐ, ์ค‘๊ฐ„ effort์—์„œ๋„ o1 ์ˆ˜์ค€์— ๊ทผ์‚ฌํ•˜๋Š” ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•จ.
  • ์ด๋Š” ๋ณต์žกํ•œ ์ˆ˜ํ•™์  ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ o3-mini๊ฐ€ ์ƒ๋‹นํ•œ ๊ฒฝ์Ÿ๋ ฅ์„ ๊ฐ–์ถ”์—ˆ์Œ์„ ์˜๋ฏธํ•จ.

2.2 ๊ณผํ•™(Science) ์„ฑ๋Šฅ

PhD ์ˆ˜์ค€ ๊ณผํ•™ ๋ฌธ์ œ(GPQA Diamond)

  • ๋‚ฎ์€ reasoning effort: o1-mini๋ณด๋‹ค ์šฐ์ˆ˜.
  • ๋†’์€ reasoning effort: o1๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ.

(์ฐธ๊ณ ) N/A๋Š” ๋ณ„๋‹ค๋ฅธ model specification์ด ์—†๋Š” ๊ฒฝ์šฐ N/A๋กœ ๊ธฐ๋กํ•จ

๋ชจ๋ธ low mid high N/A
o1-mini - - - 60.0
o1 - - - 78.0
o3-mini 70.6 76.8 79.7 -

โœ… ํ‘œ ํ•ด์„:

  • GPQA(Google PhD-level Question Answering) ํ‰๊ฐ€์—์„œ o3-mini๋Š” ๋‚ฎ์€ reasoning effort์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉฐ, ๋†’์€ reasoning effort์—์„œ๋Š” o1 ์ˆ˜์ค€๊ณผ ๋™๋“ฑํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž„.
  • ์ด๋Š” ์ƒ๋ฌผํ•™, ํ™”ํ•™, ๋ฌผ๋ฆฌํ•™ ๋“ฑ์˜ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ ๊ฐ•๋ ฅํ•œ ๋ถ„์„ ๋ฐ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๊ณ  ์žˆ์Œ์„ ์˜๋ฏธํ•จ.

2.3 ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๋ฐ ์ปดํŽ˜ํ‹ฐ์…˜ ์ฝ”๋”ฉ ์„ฑ๋Šฅ (Codeforces)

(์ฐธ๊ณ ) Elo ์ ์ˆ˜๋Š” ์ฒด์Šค, e์Šคํฌ์ธ , ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๋Œ€ํšŒ(Codeforces ๋“ฑ)์™€ ๊ฐ™์€ ๊ฒฝ์Ÿ ํ™˜๊ฒฝ์—์„œ ์ฐธ๊ฐ€์ž์˜ ์ƒ๋Œ€์ ์ธ ์‹ค๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ์ ์ˆ˜๋Š” ๊ฒฝ๊ธฐ ๊ฒฐ๊ณผ์— ๋”ฐ๋ผ ๋™์ ์œผ๋กœ ๋ณ€ํ•˜๋ฉฐ, ๋” ๊ฐ•ํ•œ ์ƒ๋Œ€๋ฅผ ์ด๊ธฐ๋ฉด ์ ์ˆ˜๊ฐ€ ๋” ํฌ๊ฒŒ ์˜ค๋ฅด๊ณ , ์•ฝํ•œ ์ƒ๋Œ€์—๊ฒŒ ์ง€๋ฉด ์ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ๊ฐ์†Œํ•˜๋Š” ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ Elo ์ ์ˆ˜
o1-preview 1258
o1 1891
o1-mini 1650
o3-mini (low) 1831
o3-mini (medium) 2036
o3-mini (high) 2130

โœ… ํ‘œ ํ•ด์„:

  • o3-mini (high) ๋ชจ๋ธ์€ 2130 Elo๋ฅผ ๊ธฐ๋กํ•˜์—ฌ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, o1-mini๋ณด๋‹ค 500 Elo ์ด์ƒ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์คŒ.

2.4 ๊ณ ๊ธ‰ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ (FrontierMath)

(์ฐธ๊ณ ) FrontierMath๋Š” ๊ณ ๊ธ‰ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ด๋ฉฐ, ์—ฌ๊ธฐ์„œ Pass@k๋Š” AI ๋ชจ๋ธ์ด ์ˆ˜ํ•™ ๋ฌธ์ œ๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ํ•ต์‹ฌ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.

  • Pass@1 : AI๊ฐ€ ํ•œ ๋ฒˆ์˜ ์‹œ๋„๋กœ ์ •๋‹ต์„ ๋งž์ถœ ํ™•๋ฅ 
  • Pass@4 : AI๊ฐ€ 4๋ฒˆ ์‹œ๋„ํ•˜๋Š” ๋™์•ˆ ์ •๋‹ต์„ ๋งž์ถœ ํ™•๋ฅ 
  • Pass@8 : AI๊ฐ€ 8๋ฒˆ ์‹œ๋„ํ•˜๋Š” ๋™์•ˆ ์ •๋‹ต์„ ๋งž์ถœ ํ™•๋ฅ 

๋ชจ๋ธ Pass@1 Pass@4 Pass@8
o3-mini (high) 9.2% 16.6% 20.0%
o1-mini 5.8% 9.9% 12.8%
o1 5.5% 10% 12.8%

โœ… ํ‘œ ํ•ด์„:

  • o3-mini ๋ชจ๋ธ์€ Pass@1, Pass@4, Pass@8 ์„ฑ๋Šฅ์ด ๋ชจ๋‘ o1-mini์™€ o1์„ ํฌ๊ฒŒ ์ดˆ๊ณผ, ํŠนํžˆ ์ˆ˜ํ•™์  reasoning์„ ํ•„์š”๋กœ ํ•˜๋Š” ๋ฌธ์ œ์—์„œ ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์ž„.

2.5 ์ผ๋ฐ˜ ์ง€์‹ ๋ฐ ์ˆ˜ํ•™ ์ง€์‹ (General Knowledge)

(์ฐธ๊ณ ) General Knowledge ํ‰๊ฐ€์—๋Š” ์—ฌ๋Ÿฌ ์„œ๋ธŒํ…Œ์Šคํฌ๊ฐ€ ํฌํ•จ๋˜๋ฉฐ, ์ฃผ์š” ํ‰๊ฐ€ ํ•ญ๋ชฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

  • General(MMLU): ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์˜ ์ผ๋ฐ˜ ์ง€์‹์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ
  • Math(Math) : ๊ธฐ์ดˆ ๋ฐ ๊ณ ๊ธ‰ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ
  • Math(MGSM) : Multi-step math ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ
  • Factuality(SimpleQA) : ๊ฐ„๋‹จํ•œ ์‚ฌ์‹ค ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ •๋‹ต๋ฅ 
Category Eval o1-mini o3-mini (low) o3-mini (medium) o3-mini (high)
General MMLU (pass@1) 85.2 84.9 85.9 86.9
Math Math (pass@1) 90.0 95.8 97.3 97.9
Math MGSM (pass@1) 89.9 55.1 90.8 92.0
Factuality SimpleQA 7.6 13.0 13.4 13.8

โœ… ํ‘œ ํ•ด์„:

  • MMLU(์ผ๋ฐ˜ ์ง€์‹)์—์„œ๋Š” ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋‚˜, ์ˆ˜ํ•™(MGSM) ์„ฑ๋Šฅ์—์„œ o3-mini๊ฐ€ ํ™•์—ฐํžˆ ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž„.

2.6 ์ธ๊ฐ„ ํ‰๊ฐ€ ๊ฒฐ๊ณผ (Human Preference Evaluation)

(์ฐธ๊ณ ) Human Preference Evaluation์€ ์‹ค์ œ (์ธ๊ฐ„) ์‚ฌ์šฉ์ž๋“ค์ด AI ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์‘๋‹ต์„ ๋น„๊ตํ•˜์—ฌ ์–ด๋А ๋ชจ๋ธ์ด ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.

  • ์ด ํ…Œ์Šคํฌ๋Š” ๋‹จ์ˆœํ•œ ์ˆ˜์น˜ ๊ธฐ๋ฐ˜ ํ‰๊ฐ€(MAE, BLEU, Pass@k ๋“ฑ)์™€ ๋‹ฌ๋ฆฌ, ์‹ค์ œ ์‚ฌ์šฉ์ž์˜ ์ฃผ๊ด€์ ์ธ ์„ ํ˜ธ๋„ ๋ฐ ์ดํ•ด๋„๋ฅผ ๋ฐ˜์˜ํ•˜์—ฌ AI ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.
ํ‰๊ฐ€ ํ•ญ๋ชฉ ํ‰๊ฐ€ ๊ธฐ์ค€ o1-mini o3-mini (medium)
STEM ์˜์—ญ Win Rate (%) 50% 58~60%
๋น„-STEM ์˜์—ญ Win Rate (%) 50% 58~60%
์‹œ๊ฐ„ ์ œ์•ฝ ์ƒํ™ฉ Win Rate (%) 50% 54~58%
Major Error Rate ์˜ค๋ฅ˜์œจ (%) ์•ฝ 27% ์•ฝ 17% (39% ๊ฐ์†Œ)

โœ… ํ‘œ ํ•ด์„:

  • STEM ๋ฐ ๋น„-STEM ๋„๋ฉ”์ธ์—์„œ o3-mini (medium) ๋ชจ๋ธ์ด ๊ธฐ์กด o1-mini ๋ชจ๋ธ๋ณด๋‹ค ๋” ์„ ํ˜ธ๋˜๋Š” ์‘๋‹ต์„ ์ƒ์„ฑ.
  • ์‹œ๊ฐ„ ์ œ์•ฝ์ด ์žˆ๋Š” ๊ฒฝ์šฐ์—๋„ o3-mini ๋ชจ๋ธ์ด ๋” ๋†’์€ ์ •๋‹ต๋ฅ ์„ ๋ณด์ž„, ์ฆ‰ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ์‘๋‹ต์„ ์ œ๊ณตํ•  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์Œ.
  • Major Error Rate(์ค‘๋Œ€ํ•œ ์˜ค๋ฅ˜ ๋น„์œจ)๊ฐ€ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ 39% ๊ฐ์†Œ, ์ฆ‰ ๋” ์‹ ๋ขฐํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ œ๊ณต.

2.7 ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์ปดํ”Œ๋ฆฌ์…˜ ์„ฑ๋Šฅ (LiveBench Coding)

(์ฐธ๊ณ ) LiveBench Coding ํ…Œ์Šคํฌ๋Š” AI ๋ชจ๋ธ์ด ์‹ค์ œ ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑ(Generation)ํ•˜๊ณ  ์™„์„ฑ(Completion)ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.

  • ์ผ๋ฐ˜์ ์ธ ์ฝ”๋“œ ์ƒ์„ฑ(Code Generation)๋ฟ๋งŒ ์•„๋‹ˆ๋ผ, ๋…ผ๋ฆฌ์  ์ถ”๋ก (Reasoning)๊ณผ ๋ณต์žกํ•œ ์ฝ”๋“œ ์ž‘์„ฑ ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.
  • ์•„๋ž˜ 3๊ฐ€์ง€ ํ•ญ๋ชฉ์— ๋Œ€ํ•ด์„œ ํ…Œ์ŠคํŠธ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค:
    • Average Score : ์ „๋ฐ˜์ ์ธ ์ฝ”๋“œ ์ƒ์„ฑ ๋ฐ ์™„์„ฑ ์„ฑ๋Šฅ
    • LCB Generation : ๋…ผ๋ฆฌ์ ์œผ๋กœ ์ผ๊ด€๋œ ์ฝ”๋“œ ๋ธ”๋ก ์ƒ์„ฑ ๋Šฅ๋ ฅ
    • Code Completion : ์ฝ”๋“œ ์ž๋™ ์™„์„ฑ(Completion) ๋Šฅ๋ ฅ
๋ชจ๋ธ Reasoning Level Average LCB Generation Code Completion
o3-mini low 0.618 0.756 0.48
o3-mini medium 0.723 0.846 0.60
o3-mini high 0.846 0.820 0.833
o1 high 0.674 0.628 0.72

โœ… ํ‘œ ํ•ด์„:

  • o3-mini (high) ๋ชจ๋ธ์€ ์ฝ”๋“œ ์ž๋™ ์™„์„ฑ(Code Completion)์—์„œ ๊ธฐ์กด o1 ๋ชจ๋ธ์„ ์ดˆ๊ณผํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๊ฐœ๋ฐœ ์ƒ์‚ฐ์„ฑ์„ ๋†’์ผ ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ํ™•์ธ.

2.8 ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ์„ฑ๋Šฅ (SWE-bench Verified)

(์ฐธ๊ณ ) SWE-bench Verified๋Š” AI ๋ชจ๋ธ์˜ ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง(Software Engineering) ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ์ž…๋‹ˆ๋‹ค.

  • ์ด ํ…Œ์Šคํฌ๋Š” AI๊ฐ€ ์‹ค์ œ ์ฝ”๋“œ ๋ฒ ์ด์Šค์—์„œ ๋ฒ„๊ทธ๋ฅผ ์ˆ˜์ •ํ•˜๊ณ , ๊ธฐ๋Šฅ์„ ๊ฐœ์„ ํ•˜๋ฉฐ, ๋ฌธ์ œ ํ•ด๊ฒฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.
๋ชจ๋ธ ์ •ํ™•๋„
o1-preview 41.3%
o1 48.9%
o3-mini (low) 40.8%
o3-mini (medium) 42.9%
o3-mini (high) 49.3%

โœ… ํ‘œ ํ•ด์„:

  • ์†Œํ”„ํŠธ์›จ์–ด ์—”์ง€๋‹ˆ์–ด๋ง ๋ฌธ์ œ ํ•ด๊ฒฐ์—์„œ o3-mini (high) ๋ชจ๋ธ์ด o1 ๋ชจ๋ธ์„ ์ดˆ๊ณผํ•˜๋Š” ์„ฑ๋Šฅ์„ ๋ณด์ž„.

2.9 ์‘๋‹ต ์†๋„ ๋น„๊ต (Latency)

๋ชจ๋ธ Time to First Token (ms)
o1-mini ์•ฝ 10,000ms
o3-mini (medium) ์•ฝ 7,500ms

โœ… ํ‘œ ํ•ด์„:

  • o3-mini ๋ชจ๋ธ์€ ๋น ๋ฅธ ์‘๋‹ต ์‹œ๊ฐ„์œผ๋กœ ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ.

๊ฒฐ๋ก 

OpenAI์˜ ์ƒˆ๋กœ์šด AI ๋ชจ๋ธ์ธ o3-mini๋Š” ๊ธฐ์กด ๋ชจ๋ธ(o1-mini, o1)๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, STEM(Science, Technology, Engineering, Mathematics) ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์˜์—ญ์—์„œ ๋”์šฑ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.

  • ํŠนํžˆ, ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ, ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ฝ”๋”ฉ, ๊ณผํ•™์  ๋ถ„์„์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋‘๋“œ๋Ÿฌ์ง€๋ฉฐ, AI ๊ธฐ๋ฐ˜์˜ ๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ•„์š”๋กœ ํ•˜๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

์ฃผ์š” ํŠน์ง• ์š”์•ฝ

  • STEM & ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์„ฑ๋Šฅ ๊ฐ•ํ™”: ์ˆ˜ํ•™(AIME, FrontierMath), ๊ณผํ•™(GPQA), ์ฝ”๋”ฉ(Codeforces, LiveBench) ๋“ฑ์˜ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด o1, o1-mini ๋Œ€๋น„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋ก
  • ์„ธ๋ถ„ํ™”๋œ Reasoning Effort ์„ค์ • ๊ฐ€๋Šฅ: API์—์„œ Low, Medium, High ์˜ต์…˜์„ ์ง€์›ํ•˜์—ฌ ์ž‘์—… ํŠน์„ฑ์— ๋”ฐ๋ผ AI ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ์‘๋‹ต ํ’ˆ์งˆ์„ ์ตœ์ ํ™” ๊ฐ€๋Šฅ
  • ๋น„์šฉ ํšจ์œจ์ ์ธ ๋ชจ๋ธ: ๊ณ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ๋„ ๋น„์šฉ์ด ๋‚ฎ์•„ ๊ฒฝ์ œ์  ํ™œ์šฉ๋„๊ฐ€ ๋†’์Œ
  • ๋น ๋ฅธ ์‘๋‹ต ์†๋„: ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ Time to First Token (TTFT) ์„ฑ๋Šฅ ๊ฐœ์„ , ์‹ค์‹œ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ์ด ํ•„์š”ํ•œ ํ™˜๊ฒฝ์—์„œ ์œ ๋ฆฌํ•จ
  • ๋ฌด๋ฃŒ ์‚ฌ์šฉ์ž๋„ Reasoning ๊ธฐ๋Šฅ ์ด์šฉ ๊ฐ€๋Šฅ: OpenAI์˜ reasoning ๋ชจ๋ธ ์ค‘ ์ตœ์ดˆ๋กœ ๋ฌด๋ฃŒ ๊ณ„์ธต์—์„œ๋„ ์ผ๋ถ€ ๊ธฐ๋Šฅ์ด ์ œ๊ณต๋จ

o3-mini vs. DeepSeek

์ตœ๊ทผ ์ค‘๊ตญ์˜ AI ์Šคํƒ€ํŠธ์—… DeepSeek์ด ์ƒˆ๋กœ์šด AI ๋ชจ๋ธ DeepSeek-R1์„ ๊ณต๊ฐœํ•˜๋ฉฐ AI ์—…๊ณ„์˜ ๊ฒฝ์Ÿ์ด ๋”์šฑ ์‹ฌํ™”๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. DeepSeek-R1์€ ์˜คํ”ˆ์†Œ์Šค๋กœ ์ œ๊ณต๋˜๋ฉฐ, ๋น„์šฉ ํšจ์œจ์„ฑ๊ณผ ๊ณ ์„ฑ๋Šฅ์„ ๋™์‹œ์— ์ถ”๊ตฌํ•˜๋Š” ๋ชจ๋ธ๋กœ์„œ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์— ๋Œ€์‘ํ•˜์—ฌ OpenAI๋Š” o3-mini๋ฅผ ์ถœ์‹œํ•˜๋ฉฐ, STEM ๋ฐ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๋ฉด์„œ๋„ ๋‚ฎ์€ ๋น„์šฉ๊ณผ ๋น ๋ฅธ ์‘๋‹ต ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋Š” ์ „๋žต์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํŠนํžˆ, o3-mini๋Š” ๋ฌด๋ฃŒ ์‚ฌ์šฉ์ž๋„ Reasoning ๋ชจ๋“œ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์ง€์›ํ•˜์—ฌ AI์˜ ์ ‘๊ทผ์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ์ฃผ๋ ฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” DeepSeek์ด ์˜คํ”ˆ์†Œ์Šค ์ „๋žต์„ ์ทจํ•œ ๊ฒƒ๊ณผ ์œ ์‚ฌํ•œ ๋ฐฉํ–ฅ์„ฑ์„ ๊ฐ€์ง€๋ฉฐ, AI์˜ ๋ณด๊ธ‰ ๋ฐ ํ™œ์šฉ๋„๋ฅผ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์›€์ง์ž„์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ์ ์œผ๋กœ, o3-mini๋Š” AI ๊ฒฝ์Ÿ ๊ตฌ๋„ ์†์—์„œ ๋น„์šฉ ๋Œ€๋น„ ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚œ ๋ชจ๋ธ๋กœ ์ž๋ฆฌ ์žก์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ์‚ฌ์šฉ์ž๋“ค์—๊ฒŒ ํšจ๊ณผ์ ์ธ AI ๋„๊ตฌ๋กœ ํ™œ์šฉ๋  ์ „๋ง์ž…๋‹ˆ๋‹ค.

์ฝ์–ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค ๐Ÿ˜Ž



-->