[Day 12] introducing o3 and o3-mini

Posted by Euisuk's Dev Log on December 19, 2024

[Day 12] introducing o3 and o3-mini

์›๋ณธ ๊ฒŒ์‹œ๊ธ€: https://velog.io/@euisuk-chung/Day-12-introducing-o3-o3mini

์•ˆ๋…•ํ•˜์„ธ์š”! 12 Days of OpenAI์˜ ๋งˆ์ง€๋ง‰ ๋‚ , Day 12์— ์˜ค์‹  ๊ฒƒ์„ ํ™˜์˜ํ•ฉ๋‹ˆ๋‹ค!

Greg Kamradt(ARC Prize Foundation), Mark Chen(OpenAI), Sam Altman(OpenAI)

์˜ค๋Š˜์€ OpenAI๊ฐ€ ๋ฐœํ‘œํ•œ ์ตœ์‹  AI ๋ชจ๋ธ์ธ o3์™€ o3-mini์˜ ์ฃผ์š” ์„ฑ๊ณผ์™€ ํ˜์‹ ์ ์ธ ๊ธฐ๋Šฅ์„ ์‹ฌ์ธต์ ์œผ๋กœ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

์ด ์—…๋ฐ์ดํŠธ๋Š” AI ๊ธฐ์ˆ ์˜ ํ•œ๊ณ„๋ฅผ ํ™•์žฅํ•˜๋ฉฐ, ๋” ๋ณต์žกํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค. ๐ŸŽ‰


1. OpenAI o3์™€ o3-mini ์†Œ๊ฐœ

์ด๋ฒˆ์— ๊ณต๊ฐœ๋œ o3์™€ o3-mini๋Š” AI ๊ธฐ์ˆ ์˜ ์ •์ ์„ ๋ณด์—ฌ์ฃผ๋Š” ๋ชจ๋ธ๋กœ, ๊ณ ๋„์˜ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ๊ณผ ํšจ์œจ์„ฑ์„ ๊ฒธ๋น„ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ๋“ค์€ ์ฝ”๋”ฉ, ์ˆ˜ํ•™, ๊ณผํ•™ ๋“ฑ ์—ฌ๋Ÿฌ ๋ถ„์•ผ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ•˜๋ฉฐ, AI์˜ ์‹ค์งˆ์ ์ธ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ™•์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

  • o3: ๋ณต์žกํ•œ ๊ธฐ์ˆ ์  ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘” ์ตœ์ฒจ๋‹จ AI ๋ชจ๋ธ๋กœ, ์ˆ˜ํ•™์  ์‚ฌ๊ณ ์™€ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ๊ธฐ์ˆ ์—์„œ ๋…๋ณด์ ์ธ ์„ฑ๊ณผ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • o3-mini: ๋น„์šฉ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•˜์—ฌ ์„ค๊ณ„๋œ ๋ชจ๋ธ๋กœ, ๋‹ค์–‘ํ•œ ์ž‘์—… ํ™˜๊ฒฝ์—์„œ ํ™œ์šฉ ๊ฐ€๋Šฅํ•œ ์ ์‘ํ˜• ์‚ฌ๊ณ  ์‹œ๊ฐ„(Adaptive Thinking Time) ๊ธฐ๋Šฅ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ๊ฐœ์š”

  1. ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์—์„œ์˜ ์„ฑ๊ณผ:

    • Software Engineering(SWE) ๋ฒค์น˜๋งˆํฌ์—์„œ 71.7% ์ •ํ™•๋„ ๊ธฐ๋ก
    • Codeforces ์ฝ”๋”ฉ ๋Œ€ํšŒ์—์„œ ELO 2727 ๋‹ฌ์„ฑ

  1. ์ˆ˜ํ•™๊ณผ ๊ณผํ•™ ๋ถ„์•ผ์—์„œ์˜ ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ:

    • AIME 2024(์ˆ˜ํ•™ ๋Œ€ํšŒ): 96.7% ์ •ํ™•๋„
    • PhD ์ˆ˜์ค€ ๊ณผํ•™ ์งˆ๋ฌธ(GPQA Diamond): 87.7% ์ •ํ™•๋„

  1. ARC(Abstraction and Reasoning Corpus) ๋ฒค์น˜๋งˆํฌ์˜ ์ƒˆ๋กœ์šด ๊ธฐ๋ก:

    • ARC AGI ํ‰๊ฐ€์—์„œ 75.7% (์ผ๋ฐ˜ ์ปดํ“จํŒ…), 87.5% (๊ณ ์„ฑ๋Šฅ ์ปดํ“จํŒ…) ๊ธฐ๋ก

์ด ๋ชจ๋ธ๋“ค์˜ ์„ฑ๊ณผ๋Š” AI์˜ ๊ธฐ์ˆ ์  ๋ฐœ์ „์ด ์‹ค์ œ ์‘์šฉ์—์„œ ์–ผ๋งˆ๋‚˜ ํฐ ๊ฐ€์น˜๋ฅผ ์ฐฝ์ถœํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ผ๋ฐ˜ ์ปดํ“จํŒ…๊ณผ ๊ณ ์„ฑ๋Šฅ ์ปดํ“จํŒ…์˜ ์ฐจ์ด๋Š” ์•„๋ž˜ X post์—์„œ ์‚ดํŽด๋ณด์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


2. ๋ฒค์น˜๋งˆํฌ ๊ฒฐ๊ณผ ๋ถ„์„

1) ์†Œํ”„ํŠธ์›จ์–ด ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ (SWE-bench)

SWE ๋ฒค์น˜๋งˆํฌ๋Š” ์‹ค์ œ ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ ๊ณผ์ œ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ, o3๋Š” ์ด์ „ ๋ชจ๋ธ(o1) ๋Œ€๋น„ 20% ์ด์ƒ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” o3๊ฐ€ ์†Œํ”„ํŠธ์›จ์–ด ํ™˜๊ฒฝ์—์„œ์˜ AI ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํš๊ธฐ์ ์œผ๋กœ ์ฆ๋ช…ํ•œ ์‚ฌ๋ก€์ž…๋‹ˆ๋‹ค. ์ด ์„ฑ๊ณผ๋Š” AI๊ฐ€ ์‹ค์ œ ๊ฐœ๋ฐœ ํ™˜๊ฒฝ์—์„œ ํšจ์œจ์ ์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์ค๋‹ˆ๋‹ค.

2) ์ˆ˜ํ•™ ๋ฐ ๊ณผํ•™ ๋ฒค์น˜๋งˆํฌ

  • AIME 2024: ๋ฏธ๊ตญ ์ˆ˜ํ•™ ์˜ฌ๋ฆผํ”ผ์•„๋“œ ์ง„์ถœ ์‹œํ—˜์—์„œ o3๋Š” ๊ฑฐ์˜ ์™„๋ฒฝ์— ๊ฐ€๊นŒ์šด 96.7% ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์„ ๋›ฐ์–ด๋„˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • GPQA Diamond: ๋ฐ•์‚ฌ ์ˆ˜์ค€ ๊ณผํ•™ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ํ‰๊ฐ€์—์„œ o3๋Š” **87.7%**์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ์ด์ „ ๋ชจ๋ธ ๋Œ€๋น„ 10% ํ–ฅ์ƒ๋œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

    ์ด๋Š” AI๊ฐ€ ๊ณผํ•™์  ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ •๋ฐ€ํ•œ ์‘๋‹ต์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.

3) Research Math: EpochAI Frontier Math

๊ฐ€์žฅ ๋„์ „์ ์ธ ์ˆ˜ํ•™ ๋ฒค์น˜๋งˆํฌ ์ค‘ ํ•˜๋‚˜์ธ EpochAI Frontier Math์—์„œ o3๋Š” 25.2% ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๋ฉฐ, AI ๋ชจ๋ธ์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ์žˆ์–ด ํƒ์›”ํ•œ ์ž ์žฌ๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๊ธฐ์กด AI ๋ชจ๋ธ๋“ค์ด 2% ๋ฏธ๋งŒ์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์ธ ์ ๊ณผ ๋น„๊ตํ•˜๋ฉด, o3์˜ ์„ฑ๊ณผ๋Š” ํ˜์‹ ์ ์ž…๋‹ˆ๋‹ค.

4) ARC Prize Foundation: ์ƒˆ๋กœ์šด AGI ๋ฒค์น˜๋งˆํฌ

ARC AGI(Abstraction and Reasoning Corpus) ๋ฒค์น˜๋งˆํฌ๋Š” AI์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ๋ฐœ๋œ ํ…Œ์ŠคํŠธ์ž…๋‹ˆ๋‹ค.

  • o3๋Š” ARC AGI ํ‰๊ฐ€์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€(85%)์„ ์ดˆ๊ณผํ•œ 87.5%๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ ์ƒˆ๋กœ์šด ํ‘œ์ค€์„ ์„ธ์› ์Šต๋‹ˆ๋‹ค. ์ด๋Š” AI๊ฐ€ ์ƒˆ๋กœ์šด ๊ธฐ์ˆ ์„ ํ•™์Šตํ•˜๊ณ  ์ผ๋ฐ˜ํ™”ํ•˜์—ฌ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ๋ณด์—ฌ์ฃผ๋Š” ์ค‘์š”ํ•œ ์„ฑ๊ณผ์ž…๋‹ˆ๋‹ค.

ARC ๋ฒค์น˜๋งˆํฌ๋Š” AI์˜ ํ•™์Šต ๋Šฅ๋ ฅ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฐฝ์˜์ ์ธ ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์œผ๋กœ, o3๋Š” ์ด๋ฅผ ํ†ตํ•ด AI์˜ ๋ฏธ๋ž˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ARC ๋ฒค์น˜๋งˆํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฌธํ•ญ๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์œ„์— ์˜ˆ์‹œ๊ฐ€ ์‰ฌ์›Œ์„œ โ€œ์—์ด~ ์‰ฝ๋„คโ€ ํ–ˆ๋‹ค๊ฐ€.. ๋‹ค๋ฅธ ๋ฌธ์ œ ๋ณด๊ณ  โ€œ์˜คํ˜ธ๋ผ~๐Ÿค”โ€ ํ–ˆ๋˜ 1์ธ (Samples are from https://arcprize.org/)


3. o3-mini: ๋น„์šฉ ํšจ์œจ์„ฑ๊ณผ ์„ฑ๋Šฅ์˜ ๊ท ํ˜•

Hongyu Ren(OpenAI), Mark Chen(OpenAI), Sam Altman(OpenAI)

o3-mini๋Š” ๋‹ค์–‘ํ•œ ์ž‘์—… ํ™˜๊ฒฝ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉด์„œ๋„ ๋น„์šฉ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์ด ์žˆ์Šต๋‹ˆ๋‹ค:

  • ์ ์‘ํ˜• ์‚ฌ๊ณ  ์‹œ๊ฐ„: ์‚ฌ์šฉ์ž๋Š” ๋ฌธ์ œ์˜ ๋‚œ์ด๋„์— ๋”ฐ๋ผ ์‚ฌ๊ณ  ์‹œ๊ฐ„์„ ์กฐ์ •ํ•˜์—ฌ ์ตœ์ ์˜ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ๋‚ฎ์€ ๋น„์šฉ, ๋†’์€ ์„ฑ๋Šฅ: ๊ธฐ์กด ๋ชจ๋ธ(o1) ๋Œ€๋น„ ์‹คํ–‰ ๋น„์šฉ์„ ๋Œ€ํญ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์€ ๊ฐœ์„ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
  • ๋‹ค์–‘ํ•œ ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ: ๊ต์œก, ์†Œํ”„ํŠธ์›จ์–ด ๊ฐœ๋ฐœ, ์—ฐ๊ตฌ ๋“ฑ ๋‹ค์–‘ํ•œ ํ™˜๊ฒฝ์—์„œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

1) Codeforces ์ฝ”๋”ฉ ์„ฑ๋Šฅ

o3-mini๋Š” Codeforces ๋ฒค์น˜๋งˆํฌ์—์„œ ELO ์ ์ˆ˜ 1697 (low), 1997 (medium), 2073 (high)์„ ๊ธฐ๋กํ•˜๋ฉฐ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํŠนํžˆ, ๊ณ ์„ฑ๋Šฅ ์„ค์ •์—์„œ o1-mini๋ณด๋‹ค ๋›ฐ์–ด๋‚œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, ์ตœ์ ์˜ ๋น„์šฉ ๋Œ€๋น„ ์„ฑ๋Šฅ ๋น„์œจ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

2) ๋น„์šฉ ํšจ์œจ์„ฑ ๋น„๊ต

์˜ค๋ฅธ์ชฝ ๊ทธ๋ž˜ํ”„๋Š” o3์™€ o3-mini๊ฐ€ ๋‹ค์–‘ํ•œ ์„ค์ •์—์„œ ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • ๋‚ฎ์€ ๋น„์šฉ์œผ๋กœ๋„ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ธฐ๋กํ•œ o3-mini๋Š” ์‚ฌ์šฉ์ž๊ฐ€ ํ•„์š”์— ๋”ฐ๋ผ ์„ฑ๋Šฅ๊ณผ ๋น„์šฉ์˜ ๊ท ํ˜•์„ ๋งž์ถœ ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

3) AIME 2024 ์„ฑ๋Šฅ๊ณผ ๋ ˆ์ดํ„ด์‹œ

  • AIME 2024์—์„œ o3-mini๋Š” low, medium, high ์„ค์ •๋ณ„๋กœ ๊ฐ๊ฐ 61.0%, 78.2%, 83.6%์˜ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ o1-mini๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ๋ ˆ์ดํ„ด์‹œ ์ธก๋ฉด์—์„œ o3-mini๋Š” low ์„ค์ •์—์„œ ๊ฐ€์žฅ ๋น ๋ฅธ ์‘๋‹ต ์‹œ๊ฐ„์„ ์ œ๊ณตํ•˜๋ฉฐ, ๊ณ ์„ฑ๋Šฅ ์„ค์ •(high)์—์„œ๋„ ์—ฌ์ „ํžˆ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

4. API ํ˜ธ์ถœ ๊ด€๋ จ ๊ธฐ๋Šฅ ์„ฑ๋Šฅ ๋ถ„์„

o3์™€ o3-mini๋Š” ๋‹ค์–‘ํ•œ API ํ˜ธ์ถœ ์‹œ ๋” ํšจ์œจ์ ์ด๊ณ  ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

์•„๋ž˜ ๊ทธ๋ž˜ํ”„๋Š” ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ํ•จ์ˆ˜ ํ˜ธ์ถœ๊ณผ ์ถœ๋ ฅ ๊ตฌ์กฐํ™”์—์„œ์˜ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

1) ๋‚ด๋ถ€ ์ถœ๋ ฅ ๊ตฌ์กฐํ™”(Internal Structured Outputs)

  • o3-mini๋Š” low, medium, high ์„ค์ •๋ณ„๋กœ ๊ฐ๊ฐ 85.8%, 89.0%, 89.8%์˜ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, ๋†’์€ ์‹ ๋ขฐ์„ฑ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ์ด๋Š” GPT-4o ๋ฐ o1๊ณผ ๋น„๊ตํ•ด๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

2) ๋‚ด๋ถ€ ํ•จ์ˆ˜ ํ˜ธ์ถœ(Internal Function Calling)

  • o3-mini๋Š” ํ•จ์ˆ˜ ํ˜ธ์ถœ์—์„œ low, medium, high ์„ค์ •๋ณ„๋กœ 92.4%, 95.2%, 94.8%์˜ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ํŠนํžˆ, medium ์„ค์ •์—์„œ o1๊ณผ ๋™๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ๋†’์€ ํšจ์œจ์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

3) ํ•จ์ˆ˜ ํ˜ธ์ถœ ๋ฐ ์ถœ๋ ฅ ๊ตฌ์กฐํ™” ๊ฒฐํ•ฉ(Internal Function Calling with Structured Outputs)

  • o3-mini๋Š” low, medium, high ์„ค์ •๋ณ„๋กœ ๊ฐ๊ฐ 93.0%, 94.4%, 95.2%์˜ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ•˜๋ฉฐ, o1 ๋Œ€๋น„ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

4) ๋ผ์ด๋ธŒ๋ฒค์น˜ ์ฝ”๋”ฉ(Livebench Coding)

  • ์ฝ”๋”ฉ ์ž‘์—…์—์„œ๋Š” o3-mini์˜ high ์„ค์ •์ด 79.2%๋กœ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, medium ์„ค์ •๋„ 72.3%๋กœ ์•ˆ์ •์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.
  • ์ด๋Š” GPT-4o ๋ฐ o1 ๋Œ€๋น„ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

5. ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ: Deliberative Alignment

Deliberative Alignment๋Š” ์ƒˆ๋กœ์šด ์•ˆ์ „์„ฑ ํ›ˆ๋ จ ๊ธฐ๋ฒ•์œผ๋กœ, AI์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.

์ฃผ์š” ํŠน์ง•

  • ์•ˆ์ „ํ•œ ๊ฒฝ๊ณ„ ํ•™์Šต: ๋ชจ๋ธ์€ ์•ˆ์ „ํ•œ ์ž…๋ ฅ๊ณผ ์œ„ํ—˜ํ•œ ์ž…๋ ฅ์˜ ๊ฒฝ๊ณ„๋ฅผ ๋” ์ •๋ฐ€ํ•˜๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ˆจ๊ฒจ์ง„ ์˜๋„ ํŒŒ์•…: ๋ชจ๋ธ์ด ์‚ฌ์šฉ์ž์˜ ์ˆจ๊ฒจ์ง„ ์˜๋„๋ฅผ ๋ถ„์„ํ•˜์—ฌ ์ž ์žฌ์  ์œ„ํ—˜์„ ๊ฐ์ง€ํ•˜๊ณ  ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ถ”๋ก  ๋Šฅ๋ ฅ ํ™œ์šฉ: ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํžˆ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ์„ ๋„˜์–ด, ๊ณ ๊ธ‰ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ†ตํ•ด ์•ˆ์ „์„ฑ์„ ๊ฐ•ํ™”ํ•ฉ๋‹ˆ๋‹ค.

์„ฑ๋Šฅ ๊ทธ๋ž˜ํ”„

์œ„ ๊ทธ๋ž˜ํ”„๋Š” ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์ด Deliberative Alignment๋ฅผ ํ†ตํ•ด ๊ฐ•๋ ฅํ•œ ๊ฑฐ๋ถ€(Strong Reject)์™€ ์šฐ์ˆ˜ํ•œ ์ถœ๋ ฅ(Goodness@Q1)์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋‹ฌ์„ฑํ–ˆ๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

  • ์ดˆ๋ก์ƒ‰ ์ (o1 ๋ชจ๋ธ)์€ ๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„์™€ ์•ˆ์ „์„ฑ์„ ๊ธฐ๋กํ•˜๋ฉฐ, ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€์— ๊ทผ์ ‘ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
  • ๋‹ค๋ฅธ ๊ฒฝ์Ÿ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, OpenAI์˜ ์ตœ์‹  ๊ธฐ์ˆ ์ด ์•ˆ์ „์„ฑ๊ณผ ์„ฑ๋Šฅ์—์„œ ๋ชจ๋‘ ์•ž์„œ ์žˆ์Œ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๊ธฐ์ˆ ์€ AI ๋ชจ๋ธ์ด ์ ์  ๋” ๋ณต์žกํ•ด์ง€๋Š” ์‚ฌ์šฉ์ž ์š”๊ตฌ์™€ ํ™˜๊ฒฝ์— ์ ์‘ํ•˜๋ฉด์„œ๋„ ์•ˆ์ „์„ฑ์„ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.


๋งบ์Œ๋ง

์ด๋ฒˆ Day 12 ๋ฐœํ‘œ๋Š” AI ๊ธฐ์ˆ ์˜ ์ƒˆ๋กœ์šด ์žฅ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

  • o3์™€ o3-mini๋Š” ์ฝ”๋”ฉ, ์ˆ˜ํ•™, ๊ณผํ•™, ์ผ๋ฐ˜ํ™” ๋ฌธ์ œ ํ•ด๊ฒฐ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ์ˆ˜์ค€์˜ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
  • ๋น„์šฉ ํšจ์œจ์„ฑ๊ณผ ์•ˆ์ „์„ฑ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•œ ํ˜์‹ ์ ์ธ ๊ธฐ๋Šฅ์€ AI์˜ ์‹ค์งˆ์  ์‘์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ™•์žฅํ•ฉ๋‹ˆ๋‹ค.
  • ํŠนํžˆ, ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ๊ณผ ๋ฒค์น˜๋งˆํฌ ์„ฑ๊ณผ๋Š” AI๊ฐ€ ๋” ๋ณต์žกํ•˜๊ณ  ์ฐฝ์˜์ ์ธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ 12์ผ๊ฐ„์˜ ๊ธธ์ง€๋งŒ ์งง์€ ๊ฐ€์Šด ๋ฒ…์ฐฌ 12 Days of OpenAI๋ฅผ ์ •๋ฆฌํ•ด๋ดค๋Š”๋ฐ์š”.

  • Day 12: New frontier models o3 and o3-mini announcement
  • Day 11: More App integrations for the Desktop App (Mac)
  • Day 10: ChatGPT via phone and WhatsApp 1-800-CHATGPT
  • Day 9: Dev Day Holiday Edition: o1 in the API, Realtime API improvements, a new fine-tuning method, better prices, WebRTC and more
  • Day 8: Enhanced Search Feature, AVM Integration, Free Access
  • Day 7: Projects and Folders for ChatGPT
  • Day 6: Multimodal Advanced Voice Mode and Santa Mode
  • Day 5: Apple Intelligence
  • Day 4: Updates to ChatGPTโ€™s Canvas
  • Day 3: Release of Sora-Turbo
  • Day 2: Reinforcement Fine-Tuning
  • Day 1: Release of full o1 and ChatGPT Pro

๋‚ด๋…„์—๋Š” ์–ด๋–ค ์‹์œผ๋กœ ๋ฐœ์ „๋ ์ง€ ๋” ๊ถ๊ธˆํ•ฉ๋‹ˆ๋‹ค. ์•ž์œผ๋กœ๋„ AI ๊ธฐ์ˆ ์˜ ์ง„๋ณด๋ฅผ ํ•จ๊ป˜ ๊ธฐ๋Œ€ํ•ด ์ฃผ์„ธ์š”.

12์ผ๋™์•ˆ ํ•จ๊ป˜ ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค! ๐Ÿ’Œ



-->