OpenAI, ๊ฐ๋ฐ์์ฉ API GPT 4.1 ๊ณต๊ฐ
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/OPENAI-GPT-4.1-๊ฐ๋ฐ์์ฉ-API-๊ณต๊ฐ
OpenAI๋ 2025๋ 4์, ๊ฐ๋ฐ์๋ฅผ ์ํ API ์ ์ฉ ๋ชจ๋ธ GPT-4.1 ์๋ฆฌ์ฆ๋ฅผ ๋ฐํํ์์ต๋๋ค. ์ด ์๋ฆฌ์ฆ๋ ์ธ ๊ฐ์ง ๋ชจ๋ธ(GPT-4.1, GPT-4.1 mini, GPT-4.1 nano)๋ก ๊ตฌ์ฑ๋๋ฉฐ, ์ ๋ฐ์ ์ธ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ ๋ฉด์์ GPT-4o ๋ฐ GPT-4.5๋ฅผ ๋ฅ๊ฐํฉ๋๋ค.
๋ณธ ํฌ์คํธ์์๋ ์ด ๋ชจ๋ธ๊ตฐ์ ์ฃผ์ ํน์ง, ๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ, ์ค์ ์ฌ๋ก, ๊ทธ๋ฆฌ๊ณ ๊ฐ๊ฒฉ ์ ์ฑ ๊น์ง ์ ๋ฐ์ ์ผ๋ก ์ ๋ฆฌํฉ๋๋ค.
-
๋ชจ๋ธ ๊ตฌ์ฑ ๋ฐ ํต์ฌ ํน์ง
๋ชจ๋ธ๋ช | ํน์ง |
---|---|
GPT-4.1 | ๊ณ ์ฑ๋ฅ ๋ฒ์ฉ ๋ชจ๋ธ, ์ฝ๋ ์์ฑ, ์ถ๋ก , ์ฅ๋ฌธ ๋ฌธ๋งฅ์ ํ์ |
GPT-4.1 mini | ๋น ๋ฅธ ์๋ต ์๋์ ๋ฎ์ ๋น์ฉ์ผ๋ก๋ ๋์ ์ง๋ฅ ์ ์ง |
GPT-4.1 nano | ์ด๊ฒฝ๋ ๋ชจ๋ธ, ๋ถ๋ฅ/์๋์์ฑ ๋ฑ ๊ฒฝ๋ ์์ ์ ์ ํฉ |
- ๋ชจ๋ ๋ชจ๋ธ์ ์ต๋ 100๋ง ํ ํฐ(long context) ์ง์
- ๊ฐ๋ฐ์ ์นํ์ ์ค๊ณ: format strictness, instruction following ๊ฐํ
- GPT-4.1 mini๋ GPT-4o๋ณด๋ค latency๋ ์ ๋ฐ, ๋น์ฉ์ 83% ๊ฐ์, ์ง๋ฅ์ ๋๋ฑ ์ด์
- GPT-4.1 nano๋ ์ด์ ๊ฐ($0.12/M token)๋ก๋ 1M context ์ฒ๋ฆฌ ๊ฐ๋ฅ
-
์ฃผ์ ์ฑ๋ฅ ๋ฒค์น๋งํฌ ์์ฝ
โถ SWE-bench Verified (์ค์ SW์์ง๋์ด๋ง ์์ ์ํ ๋ฅ๋ ฅ)
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 55% |
GPT-4o (2024-11) | 33% |
GPT-4.5 | 38% |
GPT-4.1 mini | 24% |
GPT-4o mini | 9% |
GPT-4.1์ GPT-4o ๋๋น +21.4%p ํฅ์. ์ ์ฒด ๋ฌธ์ ์ ์ ๋ฐ ์ด์์ ์ค์ ๋ก ํด๊ฒฐํจ.
โถ Aider Polyglot (๋ค๊ตญ์ด ์ฝ๋ฉ ๋ฅ๋ ฅ - diff/whole ํ์ ๋ชจ๋ ํ๊ฐ)
๋ชจ๋ธ | Whole | Diff |
---|---|---|
GPT-4.1 | 52% | 53% |
GPT-4o | 31% | 18% |
GPT-4.5 | - | 45% |
GPT-4.1 mini | 35% | 32% |
GPT-4.1 nano | 10% | 6% |
GPT-4o mini | 4% | 3% |
GPT-4.1์ diff ํ์์ ๋ํด GPT-4o ๋๋น 2๋ฐฐ ์ด์ ์ฑ๋ฅ ํฅ์.
โถ Instruction Following (Hard subset ๊ธฐ์ค)
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 49% |
GPT-4o | 29% |
GPT-4.1 mini | 45% |
GPT-4.1 nano | 32% |
GPT-4o mini | 27% |
ํฌ๋งท ์๊ตฌ, ๋ถ์ ๋ช ๋ น, ์์ ์ง์ ๋ฑ ๋ณต์กํ ์ง์ ๋ฐ๋ฅด๊ธฐ์์ GPT-4.1์ด ์๋์ .
โถ MultiChallenge (๋ฉํฐํด ๋ํ ํ๋ฆ ์ ์ง)
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 38% |
GPT-4o | 28% |
GPT-4.1 mini | 36% |
โถ IFEval (instruction formatting eval)
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 87% |
GPT-4o | 81% |
GPT-4.1 mini | 84% |
ํฌ๋งท์ ๋ช ํํ ์งํค๋ ๋ฅ๋ ฅ์์๋ GPT-4.1์ด ์ฐ์ํจ
-
Long Context (100๋ง ํ ํฐ ๋ฌธ๋งฅ ์ฒ๋ฆฌ ๋ฅ๋ ฅ)
-
Needle-in-a-Haystack ํ ์คํธ์์ ๋ชจ๋ depth์์ ์ ํํ โneedleโ ํ์ ์ฑ๊ณต
-
OpenAI MRCR (๋ณต์ ์ง์๋ฌธ ์ค ์ฌ๋ฐ๋ฅธ ๊ฒ ์ถ๋ก )์์๋ GPT-4.1์ด GPT-4o ๋๋น ํ์ํ ์ฑ๋ฅ
-
Graphwalks (๋ค๋จ๊ณ ๊ทธ๋ํ ์ถ๋ก ): GPT-4.1 ์ ํ๋ 62%๋ก GPT-4o(42%)๋ณด๋ค ํจ์ฌ ์ฐ์
์ค์ ์ ๋ฌด์์ ์๋ฐฑ ํ์ด์ง ๋ฌธ์/์ฝ๋๋ฒ ์ด์ค๋ฅผ ๋ค๋ฃฐ ์ ์๋๋ก ์ค๊ณ๋จ
-
Vision & ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ ์ฑ๋ฅ
โถ MMMU (์๊ฐ์ ์ฐจํธ/์ง๋ ์ถ๋ก )
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 75% |
GPT-4o | 69% |
GPT-4.1 mini | 73% |
GPT-4.1 nano | 55% |
GPT-4o mini | 56% |
โถ MathVista (์๊ฐ ์ํ ๋ฌธ์ ํด๊ฒฐ)
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 72% |
GPT-4o | 61% |
GPT-4.1 mini | 73% |
GPT-4.1 nano | 56% |
GPT-4o mini | 57% |
โถ CharXiv Reasoning (๋ ผ๋ฌธ ๊ธฐ๋ฐ ์๊ฐ ์ถ๋ก )
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 57% |
GPT-4o | 53% |
GPT-4.1 mini | 57% |
GPT-4.1 nano | 41% |
GPT-4o mini | 37% |
โถ Video-MME (30-60๋ถ ์๋ง ์๋ ์์ ๊ธฐ๋ฐ ์ถ๋ก )
๋ชจ๋ธ | ์ ํ๋ |
---|---|
GPT-4.1 | 72% |
GPT-4o | 65% |
GPT-4.1์ ๋ฉํฐ๋ชจ๋ฌ ๋น์ ๋ฐ ์์ ์ดํด์์๋ GPT-4o๋ณด๋ค ๋ฐ์ด๋ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉฐ, ํนํ mini ๋ชจ๋ธ์์๋ ํฐ ํฅ์์ ๋ณด์ฌ์ค
-
ํ๋ก ํธ์๋ ๋ฐ ์ค์ ์์ฉ
- Flashcard App ์์ฑ ํ ์คํธ์์ GPT-4.1์ ๋ ์์ฑ๋ ๋์ UI ๋ฐ ๊ธฐ๋ฅ ๊ตฌํ
- Extraneous edits (๋ถํ์ํ ์ฝ๋ ์์ ) ๋น์จ์ด GPT-4o: 9% โ GPT-4.1: 2%
- API ๊ฐ๋ฐ์ ๋์ ์๋ต ํ์ ์ ์ด(XML ๋ฑ) ์ํ ์ ํ๋๋ ๋ํญ ํฅ์
-
์ค์ ํ์ฉ ์ฌ๋ก (Alpha Tester)
- Windsurf: ๋ด๋ถ benchmark์์ GPT-4.1์ด GPT-4o ๋๋น 60% ๋ ๋์ ์ ์, ๋ถํ์ํ ํ์ผ ์์ 70% ๊ฐ์
- Qodo: PR ๋ฆฌ๋ทฐ ์๋ ์์ฑ์์ GPT-4.1์ด ๋ ๋์ ์ ์์ 55% ์ด์ ์์ฑ
- Thomson Reuters: ์ฅ๋ฌธ ๋ฒ๋ฅ ๋ฌธ์ ๋ฆฌ๋ทฐ์์ GPT-4.1์ 17% ๋ ๋์ ์ ํ๋ ํ๋ณด
- Carlyle: ๋์ฉ๋ ๊ธ์ต ๋ฌธ์์์ ์ ๋ฐ ์ ๋ณด ์ถ์ถ ์ ํ๋ 50% ํฅ์
-
๊ฐ๊ฒฉ ์ ์ฑ (2025๋ 4์ ๊ธฐ์ค)
๋ชจ๋ธ๋ช | Input | Cached Input | Output | Blended Pricing (์์) |
---|---|---|---|---|
gpt-4.1 | $2.00 | $0.50 | $8.00 | $1.84 |
gpt-4.1-mini | $0.40 | $0.10 | $1.60 | $0.42 |
gpt-4.1-nano | $0.10 | $0.025 | $0.40 | $0.12 |
- GPT-4.1์ GPT-4o ๋๋น 26% ๋ ์ ๋ ด
- Prompt caching ํ ์ธ์จ๋ 75%๋ก ์ฆ๊ฐ
- 100๋ง ํ ํฐ context์ ์ถ๊ฐ ๋น์ฉ ์์
-
๋ง๋ฌด๋ฆฌ
GPT-4.1 API ์๋ฆฌ์ฆ๋ ์ง๋ฅ, ์ถ๋ก , ๊ธด ๋ฌธ๋งฅ ์ฒ๋ฆฌ, ์ฝ๋ฉ, ์ง์ ๋ฐ๋ฅด๊ธฐ ๋ฑ ๊ฑฐ์ ๋ชจ๋ ์ธก๋ฉด์์ GPT-4o ๋ฐ GPT-4.5๋ฅผ ๋ฅ๊ฐํฉ๋๋ค. ํนํ, ์ค๋ฌด์์ ์๊ตฌ๋๋ ์ ํ์ฑ๊ณผ ํ์ ์ถฉ์ค๋, ๋ฉํฐํด ๋ํ ์ฒ๋ฆฌ์์์ ์ฐ์ํจ์ ์์ด์ ํธ ๊ธฐ๋ฐ AI ์์คํ ๊ตฌ์ถ์ ์ต์ ์ ๋๋ค.
์ ๋ ดํ ๊ฐ๊ฒฉ๊ณผ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๊ฐ์ถ GPT-4.1 ๋ชจ๋ธ๊ตฐ์ ์์ผ๋ก ๋ค์ํ ์ค์ AI ์์คํ ๋ฐ ์ ํ๋ฆฌ์ผ์ด์ ์์ ํต์ฌ ๋ชจ๋ธ๋ก ์๋ฆฌ ์ก์ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
โ ํต์ฌ ์์ฝ
๊ณ ์ฑ๋ฅ
: SWE-bench, Polyglot, MultiChallenge ๋ฑ ์ ๋ฒ์ ๋ฒค์น๋งํฌ์์ GPT-4o ๋๋น ๋ํญ ํฅ์์ฅ๋ฌธ ๋ฌธ๋งฅ ์ฒ๋ฆฌ
: ์ต๋ 1M tokens๊น์ง ์ ํํ ์ ๋ณด ๊ฒ์ ๋ฐ ์ถ๋ก ๊ฐ๋ฅ์ฐ์ํ instruction following
: ๋ณต์กํ ๋ช ๋ น ๊ตฌ์กฐ๋ ๋์ ์ ํ๋๋ก ์ํ๋ฉํฐ๋ชจ๋ฌ ์ญ๋ ๊ฐํ
: ์ด๋ฏธ์ง, ์์, ๋ ผ๋ฌธ, ๋์์ ์ฒ๋ฆฌ ์ฑ๋ฅ๊น์ง ์ ๋ฐฉ์ ๊ฐ์์ ๋ ดํ ๋น์ฉ
: GPT-4.1์ GPT-4o ๋๋น ํ๊ท 26% ์ด์ ๋น์ฉ ์ ๊ฐ๋ชจ๋ธ ์ ํ ์ ์ฐ์ฑ
: ํ์์ ๋ฐ๋ผ nano, mini, full๋ก ๊ตฌ์ฑ ๊ฐ๋ฅ
GPT-4.1์ GPT-4์ ๊ฐ์ ์ ๊ณ์นํ๋ฉด์๋ ์ค์ ๊ฐ๋ฐ ํ๊ฒฝ์์์ ์ค์ฉ์ฑ๊ณผ ์ ๋ฐ๋๋ฅผ ๋ํญ ๊ฐ์ ํ ๋ชจ๋ธ์ ๋๋ค. ๋์ ์ง๋ฅ๊ณผ ์ ๊ตํ ๋ช ๋ น ์ํ ๋ฅ๋ ฅ, ๊ธด ๋ฌธ๋งฅ ์ดํด, ๋ฉํฐ๋ชจ๋ฌ ์ฒ๋ฆฌ, ๋ฎ์ ๋น์ฉ๊น์ง ๋ชจ๋ ๊ฐ์ถ GPT-4.1์ API ๊ธฐ๋ฐ AI ์์คํ ๊ตฌ์ถ์ ์์ด ๊ฐ์ฅ ํ์ค์ ์ด๊ณ ๊ฐ๋ ฅํ ์ ํ์ง๋ก ์๋ฆฌ๋งค๊นํ๊ณ ์์ต๋๋ค.
๐ก (์ฐธ๊ณ ) ์ GPT 4.5 -> 4.1 ์ธ๊ฐ?
https://www.theverge.com/news/647896/openai-chatgpt-gpt-4-1-mini-nano-launch-availability
- OpenAI๋ GPT-4.5๋ฅผ ์ฐ๊ตฌ ํ๋ฆฌ๋ทฐ๋ก ์ ํ์ ์ผ๋ก ์ ๊ณตํ ํ, GPT-4.1์ ์ถ์์ ํจ๊ป GPT-4.5 ํ๋ฆฌ๋ทฐ๋ฅผ 7์ 14์ผ๋ถ๋ก ์ข ๋ฃํ ์์ ์ ๋๋ค. ์ด๋ GPT-4.1์ด ์ฑ๋ฅ๊ณผ ๋น์ฉ ์ธก๋ฉด์์ GPT-4.5๋ฅผ ๋ฅ๊ฐํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ์๋ฌธ ๋ฒ์ญ : โOpenAI๋ ๊ธฐ์กด GPT-4 ๋ชจ๋ธ์ ChatGPT์์ 4์ 30์ผ๋ถ๋ก ์ข ๋ฃํ๋ฉฐ, ์ต์ GPT-4o๊ฐ ์ด๋ฅผ ๋์ฒดํ ์์ฐ์ค๋ฌ์ด ํ์ ๋ชจ๋ธ์ด๋ผ๊ณ ๋ฐํํ์ต๋๋ค. ๋ํ API์์ ์ ๊ณต๋๋ GPT-4.5 ํ๋ฆฌ๋ทฐ๋ 7์ 14์ผ๋ถ๋ก ์ค๋จํ ์์ ์ ๋๋ค. ์ด๋ GPT-4.1์ด ๋ง์ ํต์ฌ ๊ธฐ๋ฅ์์ 4.5๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๊ฑฐ๋ ๋น์ทํ ์์ค์ ์ฑ๋ฅ์ ํจ์ฌ ๋ฎ์ ๋น์ฉ๊ณผ ์ง์ฐ ์๊ฐ(latency)์ผ๋ก ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ ๋๋ค.โ
GPT-4 (๊ธฐ์กด)
: ChatGPT์์ ๋ ์ด์ ์ฌ์ฉ๋์ง ์์ (4์ 30์ผ ์ข ๋ฃ)GPT-4.5 (ํ๋ฆฌ๋ทฐ)
: API์์ ํ ์คํธ ์ฉ๋๋ก๋ง ํ์์ ์ผ๋ก ์ ๊ณต๋์๊ณ , 7์ 14์ผ์ ์ข ๋ฃGPT-4.1
: ์ฌ์ค์ GPT-4.5๋ณด๋ค ์ฑ๋ฅ์ด ์ข๊ฑฐ๋ ๋น์ทํ๋ฉด์๋ ํจ์ฌ ๋น ๋ฅด๊ณ ์ ๋ ดํ๊ธฐ ๋๋ฌธ์, ๊ณต์ ํ์ ๋ชจ๋ธ๋ก ํ์ - ์ฆ, GPT-4.5๋ ์คํ์ ์ธ ์ค๊ฐ ๋ชจ๋ธ์ด์๊ณ , ์ด์ ๋ ๊ทธ๋ณด๋ค ๋ ํ์ค์ ์ด๊ณ ๊ฐ์ ๋ GPT-4.1์ด ๊ณต์ ๋ผ์ธ์ ์ผ๋ก ์๋ฆฌ ์ก์ ๊ฒ์ ๋๋ค.
-
APPENDIX
์๋๋ ์คํ ๊ฒฐ๊ณผํ ์ ๋ฆฌ ํญ๋ชฉ์ ๋๋ค.