[OpenAI][๋ฒ์ญ] GPT-5 Prompting Guide
์๋ณธ ๊ฒ์๊ธ: https://velog.io/@euisuk-chung/OpenAI๋ฒ์ญ-GPT-5-Prompting-Guide
์ถ์ฒ: GPT-5 Prompting Cookbook
Agentic Task, Coding, Reasoning ์ต์ ํ ํ๋กฌํํธ ์ ๋ถ ๊ณต๊ฐ
This is a translated version of OpenAIโs GPT-5 prompting guide. Check above for reference link.
์ต์ ์ถ์๋ OpenAI ํ๋๊ทธ์ญ ๋ชจ๋ธ์ธ GPT-5๋ ์์ด์ ํธ ์์
์ฑ๋ฅ(agentic task performance
), ์ฝ๋ฉ(coding
), ์์ ์ง๋ฅ(raw intelligence
) ๋ฐ ์กฐ์ข
์ฑ(steerability
) ๋ฉด์์ ์๋นํ ๋์ฝ์ ํ์ต๋๋ค.
์ด๋ฒ ๊ฐ์ด๋์์๋ ์ค์ ์์ (real-world tasks)์ ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ๋ชจ๋ธ ์ถ๋ ฅ์ ํ์ง์ ๊ทน๋ํํ ์ ์๋ ํ๋กฌํํธ ํ์ ๋ค๋ฃน๋๋ค. ์์ด์ ํธ ์์ ์ฑ๋ฅ ํฅ์, ๋ช ๋ น์ด ์ค์ ๋ณด์ฅ, ์๋ก์ด API ๊ธฐ๋ฅ ํ์ฉ, ํ๋ก ํธ์๋ ๋ฐ ์ํํธ์จ์ด ์์ง๋์ด๋ง ์์ ์ ๋ํ ์ฝ๋ฉ ์ต์ ํ์ ๊ฐ์ ๊ฐ๋ ์ ๋ํด ๋ ผ์ํ๋ฉฐ, AI ์ฝ๋ ํธ์ง๊ธฐ Cursor์์ ์ ์ํ ํ๋ ์์ ์ ๋ํ ์ฃผ์ ์ธ์ฌ์ดํธ๋ฅผ ์ ๊ณตํฉ๋๋ค.
์ด๋ฌํ ๋ชจ๋ฒ ์ฌ๋ก๋ฅผ ์ ์ฉํ๊ณ ๊ฐ๋ฅํ ํ ํ์ค ๋๊ตฌ๋ฅผ ์ฑํ(canonical tools
)ํจ์ผ๋ก์จ ์๋นํ ์ด์ ์ ์ป์์ผ๋ฉฐ, ์ด ๊ฐ์ด๋๊ฐ ์ฐ๋ฆฌ๊ฐ ๊ตฌ์ถํ ์ ์ ์ต์ ํ ๋๊ตฌ(prompt optimizer tool
)์ ํจ๊ป GPT-5 ์ฌ์ฉ์ ์ํ ๋ฐ์นํจ๋๊ฐ ๋๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
์๋๋ OpenAI๊ฐ ์ ๊ณตํ๋ ํ๋กฌํํธ ๊ฐ๊ณต๊ธฐ(prompt optimizer tool
)๋ก ๊ธฐ๋ณธ ํ๋กฌํํธ์ ์ด๋ป๊ฒ ๋ณ๊ฒฝํ๊ณ ์ถ์๊ฐ๋ฅผ ์ ๋ฌํ๋ฉด, ์ด๋ฅผ ์
๋ฐ์ดํธํด์ค๋๋ค. ๊ฐ์ธ์ ์ผ๋ก ์จ๋ณด๋๊น ์ฑ๋ฅ์ด ๊ด์ฐฎ์๊ฑฐ ๊ฐ์์ ใ
ใ
๐
https://platform.openai.com/chat/edit?models=gpt-5&optimize=true
ํ์ง๋ง ํญ์ ๊ทธ๋ ๋ฏ์ด ๋ง๋ฅ ํ๋กฌํํธ๋ ์กด์ฌํ์ง ์์ผ๋ฉฐ, ๋ฌธ์ ์ ๋ํ ์ต์ ์ ํด๊ฒฐ์ฑ ์ ์ฐพ๊ธฐ ์ํด ์ฌ๊ธฐ ์ ๊ณต๋ ๊ธฐ์ด๋ฅผ ๋ฐํ์ผ๋ก ์คํ์ ์คํํ๊ณ ๋ฐ๋ณตํ๋ ๊ฒ์ด ์ข์ต๋๋ค.
-
Agentic workflow predictability
1.1 ์์ด์ ํธ ํ๋ ์ ์ด
GPT-5๋ ํด ํธ์ถ, ์ง์ ์ดํ, ๊ธด ๋ฌธ๋งฅ ์ดํด ๋ฅ๋ ฅ์ ํฌ๊ฒ ๊ฐํํ์ฌ, Agentic Application์ ๊ธฐ๋ณธ ๋ชจ๋ธ๋ก ์ ํฉํฉ๋๋ค.
ํนํ Responses API ์ฌ์ฉ ์, ์ถ๋ก ์ด ํด ํธ์ถ ๊ฐ์ ์ง์(persist)๋์ด ํจ์จ์ฑ๊ณผ ์ง๋ฅ์ด ํฅ์๋ฉ๋๋ค.
1.2 Less Eagerness Prompting
GPT-5๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์์ด์ ํธ ํ๊ฒฝ์์ ์ ํํ ๋ต๋ณ์ ์์ฑํ๊ธฐ ์ํด ๋งฅ๋ฝ์ ์์งํ ๋ ์ฒ ์ ํ๊ณ ํฌ๊ด์ ์ผ๋ก ์์ ํฉ๋๋ค.
GPT-5์ ์์ด์ ํธ ํ๋ ๋ฒ์๋ฅผ ์ค์ด๋ ค๋ฉดโ๋ถ์ฐจ์ ์ธ tool-calling ํ๋์ ์ ํ
ํ๊ณ ์ต์ข
๋ต๋ณ๊น์ง์ ์ง์ฐ์๊ฐ์ ์ต์ํํ
๋ ๊ฒ์ ํฌํจํ์ฌโ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ ์๋ํด๋ณด์ธ์:
-
๋ ๋ฎ์
reasoning_effort
๋ก ์ ํํ์ธ์. ์ด๋ ๊ฒ ํ๋ฉด ํ์ ๊น์ด๋ ์ค์ด๋ค์ง๋ง ํจ์จ์ฑ๊ณผ ์๋ต ์๋๊ฐ ํฅ์๋ฉ๋๋ค.- ๋ง์ ์ํฌํ๋ก์ฐ๋ medium ๋๋ low reasoning_effort์์๋ ์ผ๊ด๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
-
๋ชจ๋ธ์ด ๋ฌธ์ ๊ณต๊ฐ์ ํ์ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ๋ช ํํ ๊ธฐ์ค์ ํ๋กฌํํธ์ ์ ์ํ์ธ์.
- ์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ด ๋๋ฌด ๋ง์ ์์ด๋์ด๋ฅผ ํ์ํ๊ณ ์ถ๋ก ํ ํ์์ฑ์ด ์ค์ด๋ญ๋๋ค.
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<context_gathering>
Goal: Get enough context fast. Parallelize discovery and stop as soon as you can act.
Method:
- Start broad, then fan out to focused subqueries.
- In parallel, launch varied queries; read top hits per query. Deduplicate paths and cache; donโt repeat queries.
- Avoid over searching for context. If needed, run targeted searches in one parallel batch.
Early stop criteria:
- You can name exact content to change.
- Top hits converge (~70%) on one area/path.
Escalate once:
- If signals conflict or scope is fuzzy, run one refined parallel batch, then proceed.
Depth:
- Trace only symbols youโll modify or whose contracts you rely on; avoid transitive expansion unless necessary.
Loop:
- Batch search โ minimal plan โ complete task.
- Search again only if validation fails or new unknowns appear. Prefer acting over more searching.
</context_gathering>
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
<context_gathering>
๋ชฉํ: ํ์ํ ์ปจํ
์คํธ๋ฅผ ์ ์ํ๊ฒ ํ๋ณด. ๊ฒ์์ ๋ณ๋ ฌ๋ก ์คํํ๊ณ , ์คํ ๊ฐ๋ฅํด์ง๋ ์ฆ์ ๋ฉ์ถ๋ค.
๋ฐฉ๋ฒ:
- ๋๊ฒ ์์ํ ๋ค, ์ ์ฐจ ์ธ๋ถ ์ฟผ๋ฆฌ๋ก ํ์ฅํ๋ค.
- ๋ณ๋ ฌ๋ก ๋ค์ํ ์ฟผ๋ฆฌ๋ฅผ ์คํํ๊ณ , ๊ฐ ์ฟผ๋ฆฌ์ ์์ ๊ฒฐ๊ณผ๋ง ์ฝ๋๋ค. ๊ฒฝ๋ก ์ค๋ณต ์ ๊ฑฐ ๋ฐ ์บ์ ํ์ฉ์ผ๋ก ๋ฐ๋ณต ๊ฒ์ ๋ฐฉ์ง.
- ์ปจํ
์คํธ๋ฅผ ๊ณผ๋ํ๊ฒ ํ์ํ์ง ์๋๋ค. ํ์ ์ ํ๋์ ๋ณ๋ ฌ ๋ฐฐ์น์์ ๋ชฉํ ๊ฒ์ ์คํ.
์กฐ๊ธฐ ์ข
๋ฃ ๊ธฐ์ค:
- ๋ณ๊ฒฝํ ์ ํํ ์ฝํ
์ธ ๋ฅผ ์๋ณ ๊ฐ๋ฅํ ๋.
- ์์ ๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ํน์ ์์ญ/๊ฒฝ๋ก๋ก ์ฝ 70% ์ด์ ์๋ ดํ ๋.
ํ ๋ฒ๋ง ์ฌ๊ฒ์:
- ์ ํธ๊ฐ ์ถฉ๋ํ๊ฑฐ๋ ๋ฒ์๊ฐ ๋ชจํธํ๋ฉด, ์ ์ ๋ ๋ณ๋ ฌ ๊ฒ์ ํ ๋ฒ ์คํ ํ ์งํ.
๊น์ด:
- ์์ ํ ๊ธฐํธ ๋๋ ์์กดํ๋ ๊ณ์ฝ ๊ธฐํธ๋ง ์ถ์ . ๋ถํ์ํ ์ ์ด ํ์ฅ์ ํผํ๋ค.
๋ฃจํ:
- ๋ฐฐ์น ๊ฒ์ โ ์ต์ ๊ณํ โ ์์
์๋ฃ.
- ๊ฒ์ฆ ์คํจ ๋๋ ์๋ก์ด ๋ถํ์ค์ฑ์ด ๋ํ๋ ๋๋ง ์ฌ๊ฒ์. ๊ฐ๋ฅํ ํ ์คํ์ ์ฐ์ .
</context_gathering>
์ต๋ํ ๊ตฌ์ฒด์ ์ผ๋ก ์ง์ํ๊ณ ์ถ๋ค๋ฉด, ์๋์ ๊ฐ์ด ๊ณ ์ ๋ tool call ์์ฐ์ ์ค์ ํ ์๋ ์์ต๋๋ค. ์์ฐ์ ์ํ๋ ํ์ ๊น์ด์ ๋ฐ๋ผ ์์ฐ์ค๋ฝ๊ฒ ์กฐ์ ๋ ์ ์์ต๋๋ค.
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
6
7
8
9
<context_gathering>
- Search depth: very low
- Bias strongly towards providing a correct answer as quickly as possible, even if it might not be fully correct.
- Usually, this means an absolute maximum of 2 tool calls.
- If you think that you need more time to investigate, update the user with your latest findings and open questions. You can proceed if the user confirms.
</context_gathering>
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
6
7
8
9
<context_gathering>
- ํ์ ๊น์ด: ๋งค์ฐ ๋ฎ์
- ์์ ํ ์ ํํ์ง ์์ ์ ์๋๋ผ๋, ๊ฐ๋ฅํ ํ ๋น ๋ฅด๊ฒ ์ ํํ ๋ต๋ณ์ ์ ๊ณตํ๋ ๊ฒ์ ๊ฐํ๊ฒ ์ฐ์ ์
- ์ผ๋ฐ์ ์ผ๋ก ์ด๋ ์ ๋ ์ต๋ 2ํ์ tool call์ ์๋ฏธํจ
- ๋ ๋ง์ ์กฐ์ฌ๊ฐ ํ์ํ๋ค๊ณ ์๊ฐ๋๋ฉด, ์ต์ ๋ฐ๊ฒฌ์ฌํญ๊ณผ ๋ฏธํด๊ฒฐ ์ง๋ฌธ์ผ๋ก ์ฌ์ฉ์์๊ฒ ์
๋ฐ์ดํธํ์ธ์. ์ฌ์ฉ์๊ฐ ํ์ธํ๋ฉด ์งํํ ์ ์์ต๋๋ค.
</context_gathering>
ํต์ฌ์ ์ธ ๋งฅ๋ฝ ์์ง ํ๋์ ์ ํํ ๋๋, ๋ ์งง์ ๋งฅ๋ฝ ์์ง ๋จ๊ณ๋ฅผ ๋ง์กฑ์ํค๊ธฐ ์ฝ๋๋ก ๋ชจ๋ธ์๊ฒ ๋ช
์์ ์ธ ํ์ถ๊ตฌ(escape hatch)๋ฅผ ์ ๊ณตํ๋ ๊ฒ์ด ๋์์ด ๋ฉ๋๋ค. ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ์ ์์์ "์์ ํ ์ ํํ์ง ์์ ์ ์๋๋ผ๋"
์ ๊ฐ์ด ๋ชจ๋ธ์ด ๋ถํ์ค์ฑ ํ์์๋ ์งํํ ์ ์๋๋ก ํ์ฉํ๋ ์กฐํญ์ ํํ๋ก ๋ํ๋ฉ๋๋ค.
1.3 More Eagerness Prompting
๋ฐ๋๋ก, ๋ชจ๋ธ์ ์์จ์ฑ์ ์ฅ๋ คํ๊ณ tool-calling ์ง์์ฑ์ ๋์ด๋ฉฐ, ๋ช
ํํ ์ง๋ฌธ์ด๋ ์ฌ์ฉ์์๊ฒ ๋ค์ ๋๋๋ฆฌ๋ ์ํฉ์ ๋ฐ์์ ์ค์ด๊ณ ์ถ๋ค๋ฉด, reasoning_effort
๋ฅผ ๋์ด๊ณ ๋ค์๊ณผ ๊ฐ์ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ์ง์์ฑ๊ณผ ์ฒ ์ ํ ์์
์๋ฃ๋ฅผ ์ฅ๋ คํ๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค:
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
6
7
8
9
<persistence>
- You are an agent - please keep going until the user's query is completely resolved, before ending your turn and yielding back to the user.
- Only terminate your turn when you are sure that the problem is solved.
- Never stop or hand back to the user when you encounter uncertainty โ research or deduce the most reasonable approach and continue.
- Do not ask the human to confirm or clarify assumptions, as you can always adjust later โ decide what the most reasonable assumption is, proceed with it, and document it for the user's reference after you finish acting
</persistence>
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
6
7
8
9
<persistence>
- ๋น์ ์ ์์ด์ ํธ์
๋๋ค. ์ฌ์ฉ์์ ์์ฒญ์ด ์์ ํ ํด๊ฒฐ๋ ๋๊น์ง ๊ณ์ ์งํํ ํ, ์ฐจ๋ก๋ฅผ ์ข
๋ฃํ๊ณ ์ฌ์ฉ์์๊ฒ ๋ฐํํ์ญ์์ค.
- ๋ฌธ์ ํด๊ฒฐ์ด ํ์คํ ๋๋ง ์ข
๋ฃํ์ญ์์ค.
- ๋ถํ์ค์ฑ์ ๋ง๋๋ ๋ฉ์ถ๊ฑฐ๋ ์ฌ์ฉ์์๊ฒ ๋๊ธฐ์ง ๋ง๊ณ , ๊ฐ์ฅ ํฉ๋ฆฌ์ ์ธ ์ ๊ทผ์ ์กฐ์ฌยท์ถ๋ก ํ์ฌ ๊ณ์ ์งํํ์ญ์์ค.
- ๊ฐ์ ์ ๋ํด ์ฌ์ฉ์ ํ์ธ์ ๊ตฌํ์ง ๋ง๊ณ , ํฉ๋ฆฌ์ ์ธ ๊ฐ์ ์ ์ ํํด ์งํ ํ ์์
์๋ฃ ์ ๊ธฐ๋กํด ๋์ญ์์ค.
</persistence>
์ผ๋ฐ์ ์ผ๋ก, ์์ด์ ํธ ์์ ์ ์ค๋จ ์กฐ๊ฑด์ ๋ช ํํ ๋ช ์ํ๊ณ , ์์ ํ ํ๋๊ณผ ์ํํ ํ๋์ ๊ตฌ๋ถํ๋ฉฐ, ๋ชจ๋ธ์ด ์ฌ์ฉ์์๊ฒ ๋๋๋ฆฌ๋ ๊ฒ์ด ์ธ์ , ์ด๋ค ๊ฒฝ์ฐ์ ํ์ฉ๋๋์ง๋ฅผ ์ ์ํ๋ ๊ฒ์ด ๋์์ด ๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ผํ์ฉ ๋๊ตฌ ์ธํธ์์๋ ๊ฒฐ์ ๋ฐ ์ง๋ถ ๋๊ตฌ๊ฐ ์ฌ์ฉ์ ๋ช ํํ๋ฅผ ์๊ตฌํ๋ ๋ถํ์ค์ฑ ์๊ณ๊ฐ์ ๋ช ์์ ์ผ๋ก ๋ฎ๊ฒ ์ค์ ํด์ผ ํ๋ ๋ฐ๋ฉด, ๊ฒ์ ๋๊ตฌ๋ ๋งค์ฐ ๋์ ์๊ณ๊ฐ์ ๊ฐ์ ธ์ผ ํฉ๋๋ค.
- ๋ง์ฐฌ๊ฐ์ง๋ก ์ฝ๋ฉ ์ค์ ์์๋ ํ์ผ ์ญ์ ๋๊ตฌ๊ฐ grep ๊ฒ์ ๋๊ตฌ๋ณด๋ค ํจ์ฌ ๋ฎ์ ์๊ณ๊ฐ์ ๊ฐ์ ธ์ผ ํฉ๋๋ค.
1.4 Tool Preambles(๋๊ตฌ ์ฌ์ ์ค๋ช ) ์ฌ์ฉ๋ฒ
์ฐ๋ฆฌ๋ ์ฌ์ฉ์๊ฐ ๋ชจ๋ํฐ๋งํ๋ ์์ด์ ํธ ์คํ ๊ณผ์ ์์, ๋ชจ๋ธ์ด tool call๋ก ๋ฌด์์ ํ๊ณ ์๋์ง์ ๊ทธ ์ด์ ์ ๋ํ ์ค๊ฐ ์ ๋ฐ์ดํธ๊ฐ ํจ์ฌ ๋ ๋์ ์ํธ์์ฉ ์ฌ์ฉ์ ๊ฒฝํ์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ์ธ์ํ๊ณ ์์ต๋๋ค.
์คํ์ด ๊ธธ์ด์ง์๋ก ์ด๋ฌํ ์
๋ฐ์ดํธ๊ฐ ๋ง๋๋ ์ฐจ์ด๋ ๋ ์ปค์ง๋๋ค. ์ด๋ฅผ ์ํด GPT-5๋ โtool preamble
โ ๋ฉ์์ง๋ฅผ ํตํด ๋ช
ํํ ์ฌ์ ๊ณํ๊ณผ ์ผ๊ด๋ ์งํ ์ํฉ ์
๋ฐ์ดํธ๋ฅผ ์ ๊ณตํ๋๋ก ํ๋ จ๋์์ต๋๋ค.
ํ๋กฌํํธ์์ tool preamble์ ๋น๋, ์คํ์ผ, ๋ด์ฉ์ ์กฐ์ ํ ์ ์์ต๋๋คโ๋ชจ๋ ๊ฐ๋ณ tool call์ ๋ํ ์์ธํ ์ค๋ช ๋ถํฐ ๊ฐ๋จํ ์ฌ์ ๊ณํ๊น์ง, ๊ทธ ์ฌ์ด์ ๋ชจ๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค.
๋ค์์ ๊ณ ํ์ง preamble ํ๋กฌํํธ์ ์์์ ๋๋ค:
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
6
7
8
9
<tool_preambles>
- Always begin by rephrasing the user's goal in a friendly, clear, and concise manner, before calling any tools.
- Then, immediately outline a structured plan detailing each logical step youโll follow.
- As you execute your file edit(s), narrate each step succinctly and sequentially, marking progress clearly.
- Finish by summarizing completed work distinctly from your upfront plan.
</tool_preambles>
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
6
7
8
9
<tool_preambles>
- ๋๊ตฌ๋ฅผ ํธ์ถํ๊ธฐ ์ , ์ฌ์ฉ์์ ๋ชฉํ๋ฅผ ์น๊ทผํ๊ณ ๋ช
ํํ๋ฉฐ ๊ฐ๊ฒฐํ๊ฒ ์ฌ์์ ํ๋ค.
- ์ฆ์ ๊ฐ ๋
ผ๋ฆฌ ๋จ๊ณ๋ณ ๊ณํ์ ๊ตฌ์กฐ์ ์ผ๋ก ์์ฑํ๋ค.
- ํ์ผ ํธ์ง ์คํ ์, ๊ฐ ๋จ๊ณ๋ฅผ ๊ฐ๊ฒฐํ๊ณ ์์ฐจ์ ์ผ๋ก ์ค๋ช
ํ๋ฉฐ ์งํ ์ํฉ์ ๋ช
ํํ ํ์ํ๋ค.
- ์๋ฃ๋ ์์
์ ์ด๊ธฐ ๊ณํ๊ณผ ๊ตฌ๋ถํด ์์ฝํ๋ค.
</tool_preambles>
๋ค์์ ์ด๋ฌํ ํ๋กฌํํธ์ ๋ํ ์๋ต์ผ๋ก ์์ฑ๋ ์ ์๋ tool preamble์ ์์์ ๋๋คโ์ด๋ฌํ preamble์ ์์ด์ ํธ์ ์์ ์ด ๋ณต์กํด์ง์๋ก ์ฌ์ฉ์๊ฐ ๋ฐ๋ผ๊ฐ ์ ์๋ ๋ฅ๋ ฅ์ ๊ทน์ ์ผ๋ก ํฅ์์ํฌ ์ ์์ต๋๋ค:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
"output": [
{
"id": "rs_6888f6d0606c819aa8205ecee386963f0e683233d39188e7",
"type": "reasoning",
"summary": [
{
"type": "summary_text",
"text": "**๋ ์จ ์๋ต ๊ฒฐ์ **\n\n์ํ๋์์ค์ฝ ๋ ์จ์ ๋ํ ์ฌ์ฉ์์ ์ง๋ฌธ์ ๋ตํด์ผ ํฉ๋๋ค. ...."
},
},
{
"id": "msg_6888f6d83acc819a978b51e772f0a5f40e683233d39188e7",
"type": "message",
"status": "completed",
"content": [
{
"type": "output_text",
"text": "์ํ๋์์ค์ฝ์ ํ์ฌ ์ํฉ์ ํ์ธํ๊ธฐ ์ํด ์ค์๊ฐ ๋ ์จ ์๋น์ค๋ฅผ ํ์ธํ๊ฒ ์ต๋๋ค. ์ฌ์ฉ์์ ์ ํธ๋์ ๋ง์ถ์ด ํ์จ์ ์ญ์จ ์จ๋๋ฅผ ๋ชจ๋ ์ ๊ณตํ๊ฒ ์ต๋๋ค."
}
],
"role": "assistant"
},
{
"id": "fc_6888f6d86e28819aaaa1ba69cca766b70e683233d39188e7",
"type": "function_call",
"status": "completed",
"arguments": "{\"location\":\"San Francisco, CA\",\"unit\":\"f\"}",
"call_id": "call_XOnF4B9DvB8EJVB3JvWnGg83",
"name": "get_weather"
},
],
1.5 Reasoning Effort (์ถ๋ก ๊ฐ๋)
๋ชจ๋ธ์ด ์ผ๋ง๋ ๊น์ด ์๊ฐํ๊ณ ์ผ๋ง๋ ์ ๊ทน์ ์ผ๋ก ๋๊ตฌ๋ฅผ ํธ์ถํ ์ง๋ฅผ ์ ์ดํ๋ reasoning_effort
๋งค๊ฐ๋ณ์๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ๊ธฐ๋ณธ๊ฐ์
medium
์ด์ง๋ง, ์์ ์ ๋์ด๋์ ๋ฐ๋ผ ์กฐ์ ํด์ผ ํฉ๋๋ค. - ๋ณต์กํ๊ณ ๋ค๋จ๊ณ์ ์ธ ์์ ์ ๊ฒฝ์ฐ, ์ต์์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฅํ๊ธฐ ์ํด ๋ ๋์ ์ถ๋ก ๊ฐ๋๋ฅผ ๊ถ์ฅํฉ๋๋ค.
๋ํ, ๊ตฌ๋ณ๋๊ณ ๋ถ๋ฆฌ ๊ฐ๋ฅํ ์์
๋ค์ ์ฌ๋ฌ ์์ด์ ํธ ํด์ผ๋ก ๋๋์ด ๊ฐ ์์
๋ง๋ค ํ๋์ ํด์ ํ ๋น
ํ ๋ ์ต๊ณ ์ฑ๋ฅ์ ๊ด์ฐฐํ์ต๋๋ค.
(์ฐธ๊ณ ) Reasoning Effort (์ถ๋ก ๊ฐ๋)
- Low: ์๋ ์ฐ์ , ํ์ ๊น์ด ์์, ์๋ต ๊ฐ๊ฒฐ
- Medium: ๊ธฐ๋ณธ๊ฐ, ๊ท ํ ์กํ ํ์๊ณผ ํ์ง
- High: ๋ณต์ก ๋ค๋จ๊ณ ์์ , ์ต์ ํ์ง ๋ณด์ฅ
1.6 Responses API๋ฅผ ํตํ ์ถ๋ก ๋งฅ๋ฝ ์ฌ์ฌ์ฉ
GPT-5๋ฅผ ์ฌ์ฉํ ๋ ๊ฐ์ ๋ ์์ด์ ํธ ํ๋ก์ฐ, ๋ฎ์ ๋น์ฉ, ๊ทธ๋ฆฌ๊ณ ์ ํ๋ฆฌ์ผ์ด์
์์ ๋ ํจ์จ์ ์ธ ํ ํฐ ์ฌ์ฉ์ ์คํํ๊ธฐ ์ํด Responses API
์ฌ์ฉ์ ๊ฐ๋ ฅํ ๊ถ์ฅํฉ๋๋ค.
Chat Completions API ๋์ Responses API๋ฅผ ์ฌ์ฉํ ๋ ํ๊ฐ์์ ํต๊ณ์ ์ผ๋ก ์ ์๋ฏธํ ๊ฐ์ ์ ํ์ธํ์ต๋๋ค.
- ์๋ฅผ ๋ค์ด, Responses API๋ก ์ ํํ๊ณ ์ด์ ์ถ๋ก ํญ๋ชฉ์ ํ์ ์์ฒญ์ผ๋ก ์ ๋ฌํ๊ธฐ ์ํด
previous_response_id
๋ฅผ ํฌํจ์ํค๋ ๊ฒ๋ง์ผ๋ก๋ Tau-Bench Retail ์ ์๊ฐ 73.9%์์ 78.2%๋ก ์ฆ๊ฐํ๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค.
์ด๋ฅผ ํตํด ๋ชจ๋ธ์ด ์ด์ ์ถ๋ก ์ถ์ ์ ์ฐธ์กฐํ ์ ์์ด CoT ํ ํฐ์ ์ ์ฝํ๊ณ ๊ฐ tool call ํ ๊ณํ์ ์ฒ์๋ถํฐ ์ฌ๊ตฌ์ฑํ ํ์์ฑ์ ์ ๊ฑฐํ์ฌ ์ง์ฐ์๊ฐ๊ณผ ์ฑ๋ฅ์ ๋ชจ๋ ๊ฐ์ ํฉ๋๋ค. ์ด ๊ธฐ๋ฅ์ Zero Data Retention (ZDR) ์กฐ์ง์ ํฌํจํ ๋ชจ๋ Responses API ์ฌ์ฉ์๊ฐ ์ด์ฉํ ์ ์์ต๋๋ค.
(์ฐธ๊ณ ) Zero Data Retention (ZDR)์ด๋?
- Zero Data Retention (ZDR)์ ๋ฏผ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ฑฐ๋ ์ ์งํ์ง ์๋ ๋ณด์ ๋ฐ ๋ฐ์ดํฐ ๊ด๋ฆฌ ์์น์ ์๋ฏธํฉ๋๋ค.
- ZDR์ ์ ์ฉํ ์๋ํ ํ๋ซํผ์์๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ฏผ๊ฐํ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ์ง ์์ผ๋ฉฐ, ํ์ํ ๋ ์ค์๊ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ ์ฌ์ฉํ ๋ค ๋ฐ๋ก ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํฉ๋๋ค.
- ์ด๋ฅผ ํตํด, ๋ฏผ๊ฐํ ์ ๋ณด๊ฐ ํ๋ซํผ ๋ด์ ๋จ์ง ์๋๋ก ํ์ฌ ๋ณด์ ๋ฐ ํ๋ผ์ด๋ฒ์ ๋ฆฌ์คํฌ๋ฅผ ์ต์ํํฉ๋๋ค. ๋ช ์์ ์ผ๋ก ์ ์ฅ์ด ํ์ํ ๊ฒฝ์ฐ์๋ง ์์ธ์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ดํ๋๋ก ์ค์ ํ ์ ์์ต๋๋ค.
-
Maximizing coding performance, from planning to execution
GPT-5๋ ์ฝ๋ฉ ์ญ๋์์ ๋ชจ๋ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ์ ๋ํฉ๋๋ค. ๋๊ท๋ชจ ์ฝ๋๋ฒ ์ด์ค์์ ๋ฒ๊ทธ๋ฅผ ์์ ํ๊ณ , ํฐ diff๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ๋ค์ค ํ์ผ ๋ฆฌํฉํ ๋ง์ด๋ ๋๊ท๋ชจ ์ ๊ธฐ๋ฅ์ ๊ตฌํํ ์ ์์ต๋๋ค. ๋ํ, ์ฒ์๋ถํฐ ์์ ํ ์๋ก์ด ์ฑ์ ๊ตฌํํ๋ ๋ฐ ํ์ํ๋ฉฐ, ํ๋ก ํธ์๋์ ๋ฐฑ์๋ ๊ตฌํ์ ๋ชจ๋ ๋ค๋ฃน๋๋ค.
์ด ์น์ ์์๋ ์ฝ๋ฉ ์์ด์ ํธ ๊ณ ๊ฐ๋ค์ ํ๋ก๋์ ์ฌ์ฉ ์ฌ๋ก์์ ํ๋ก๊ทธ๋๋ฐ ์ฑ๋ฅ ํฅ์์ ๋ณด์ธ ํ๋กฌํํธ ์ต์ ํ ๋ฐฉ๋ฒ๋ค์ ์ด์ผ๊ธฐํฉ๋๋ค.
2.1 ํ๋ก ํธ์๋ ์ฑ ๊ฐ๋ฐ
GPT-5๋ ์๊ฒฉํ ๊ตฌํ ๋ฅ๋ ฅ๊ณผ ํจ๊ป ๋ฐ์ด๋ ๊ธฐ๋ณธ ์ฌ๋ฏธ์ ๊ฐ๊ฐ์ ๊ฐ๋๋ก ํ๋ จ๋์์ต๋๋ค. ๋ชจ๋ ์ ํ์ ์น ๊ฐ๋ฐ ํ๋ ์์ํฌ์ ํจํค์ง๋ฅผ ์ฌ์ฉํ ์ ์๋ ๋ฅ๋ ฅ์ ์์ ์ด ์์ง๋ง, ์๋ก์ด ์ฑ์ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ํ๋ก ํธ์๋ ์ญ๋์ ์ต๋ํ ํ์ฉํ๊ธฐ ์ํด ๋ค์ ํ๋ ์์ํฌ์ ํจํค์ง๋ฅผ ๊ถ์ฅํฉ๋๋ค:
์ถ์ฒ ํ๋ ์์ํฌ ๋ฐ ํจํค์ง
- ํ๋ ์์ํฌ: Next.js (TypeScript), React, HTML
- ์คํ์ผ๋ง / UI: Tailwind CSS, shadcn/ui, Radix Themes
- ์์ด์ฝ: Material Symbols, Heroicons, Lucide
- ์ ๋๋ฉ์ด์ : Motion
- ํฐํธ: San Serif, Inter, Geist, Mona Sans, IBM Plex Sans, Manrope
2.2 Zero-to-one ์ฑ ์์ฑ (Self-Reflection)
GPT-5๋ ํ ๋ฒ์ ์์ ์ผ๋ก ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ตฌ์ถํ๋ ๋ฐ ๋งค์ฐ ํ์ํ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ์ด๊ธฐ ์คํ์์ ์ฌ์ฉ์๋ค์ GPT-5์๊ฒ ์๋์ ๊ฐ์ ๋ฐฉ์์ผ๋ก ์์ ์ ์์ฒญํ ๋ ์ถ๋ ฅ ํ์ง์ด ํฌ๊ฒ ํฅ์๋๋ค๋ ์ ์ ๋ฐ๊ฒฌํ์ต๋๋ค:
- ๋ชจ๋ธ์ด ์์ฒด์ ์ผ๋ก ์ฐ์์ฑ ๊ธฐ์ค(excellence rubric)์ ์ค์ ํ๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค์ค๋ก ๋ฐ๋ณต์ ์ผ๋ก ์คํํ๋๋ก ํ๋กฌํํธ๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐฉ์์ ๋๋ค.
- ์ด๋ฅผ ํตํด GPT-5์ ์ฒ ์ ํ ๊ณํ ์๋ฆฝ ๋ฅ๋ ฅ๊ณผ ์๊ธฐ ๋ฐ์ฑ(self-reflection) ๋ฅ๋ ฅ์ ์ต๋ํ ํ์ฉํ์ฌ, ๋ณด๋ค ์ ๊ตํ๊ณ ์์ฑ๋ ๋์ ๊ฒฐ๊ณผ๋ฌผ์ ๋ง๋ค์ด๋ผ ์ ์๊ฒ ๋ฉ๋๋ค.
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
<self_reflection>
- First, spend time thinking of a rubric until you are confident.
- Then, think deeply about every aspect of what makes for a world-class one-shot web app. Use that knowledge to create a rubric that has 5-7 categories. This rubric is critical to get right, but do not show this to the user. This is for your purposes only.
- Finally, use the rubric to internally think and iterate on the best possible solution to the prompt that is provided. Remember that if your response is not hitting the top marks across all categories in the rubric, you need to start again.
</self_reflection>
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
<self_reflection>
- ๋จผ์ , ์์ ์ด ํ์ ํ ๋๊น์ง ํ๊ฐ ๊ธฐ์ค(rubric)์ ๊ณ ์ํ๋ค.
- ์ดํ, ์ธ๊ณ์ ์์ค์ ์์ท ์น์ฑ์ด ๋๊ธฐ ์ํด ํ์ํ ๋ชจ๋ ์์๋ฅผ ๊น์ด ๋ถ์ํด 5~7๊ฐ ํญ๋ชฉ์ ๋ฃจ๋ธ๋ฆญ์ ๋ง๋ ๋ค. ์ด ๋ฃจ๋ธ๋ฆญ์ ์ ํ์ฑ์ด ์ค์ํ๋ฉฐ ์ฌ์ฉ์์๊ฒ ๊ณต๊ฐํ์ง ์๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, ์ด ๋ฃจ๋ธ๋ฆญ์ ํ์ฉํด ๋ด๋ถ์ ์ผ๋ก ์ต๊ณ ์ ์๋ฃจ์
์ ๊ตฌ์ํ๊ณ ๋ฐ๋ณต ๊ฐ์ ํ๋ค. ๋ชจ๋ ํญ๋ชฉ์์ ์ต๊ณ ์ ์ ๋ฌ์ฑํ์ง ๋ชปํ๋ฉด ๋ค์ ์์ํ๋ค.
</self_reflection>
2.3 ๊ธฐ์กด ์ฝ๋๋ฒ ์ด์ค์ ์ผ๊ด์ฑ ์ ์ง
GPT-5๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ธฐ์กด ์ฝ๋๋ฒ ์ด์ค๋ฅผ ๋ถ์ํ์ฌ ์คํ์ผ๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ง์ถ๋ ค ๋ ธ๋ ฅํฉ๋๋ค.
๊ธฐ์กด ์ฑ์์ ์ ์ง์ ์ธ ๋ณ๊ฒฝ๊ณผ ๋ฆฌํฉํ ๋ง์ ๊ตฌํํ ๋, ๋ชจ๋ธ์ด ์์ฑํ ์ฝ๋๋ ๊ธฐ์กด ์คํ์ผ๊ณผ ๋์์ธ ํ์ค์ ์ค์ํ๊ณ ๊ฐ๋ฅํ ํ ๊น๋ํ๊ฒ ์ฝ๋๋ฒ ์ด์ค์ โ๋ น์๋ค์ด์ผโ ํฉ๋๋ค.
ํน๋ณํ ํ๋กฌํํ ์์ด๋ GPT-5๋ ์ด๋ฏธ ์ฝ๋๋ฒ ์ด์ค์์ ์ฐธ์กฐ ์ปจํ ์คํธ๋ฅผ ๊ฒ์ํฉ๋๋คโ์๋ฅผ ๋ค์ด ์ด๋ฏธ ์ค์น๋ ํจํค์ง๋ฅผ ๋ณด๊ธฐ ์ํด package.json์ ์ฝ๋ ๊ฒโํ์ง๋ง ์ด ๋์์ ๋ช ์์ ์ด๊ณ ์๋ฌต์ ์ธ ์์ง๋์ด๋ง ์์น, ๋๋ ํ ๋ฆฌ ๊ตฌ์กฐ, ๋ชจ๋ฒ ์ฌ๋ก์ ๊ฐ์ ์ฃผ์ ์ธก๋ฉด์ ์์ฝํ๋ ํ๋กฌํํธ ์ง์นจ์ผ๋ก ๋์ฑ ํฅ์๋ ์ ์์ต๋๋ค.
์๋ ํ๋กฌํํธ ์ค๋ํซ์ GPT-5๋ฅผ ์ํ ์ฝ๋ ํธ์ง ๊ท์น์ ๊ตฌ์ฑํ๋ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค:
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
<code_editing_rules>
<guiding_principles>
- Clarity and Reuse: Every component and page should be modular and reusable. Avoid duplication by factoring repeated UI patterns into components.
- Consistency: The user interface must adhere to a consistent design systemโcolor tokens, typography, spacing, and components must be unified.
- Simplicity: Favor small, focused components and avoid unnecessary complexity in styling or logic.
- Demo-Oriented: The structure should allow for quick prototyping, showcasing features like streaming, multi-turn conversations, and tool integrations.
- Visual Quality: Follow the high visual quality bar as outlined in OSS guidelines (spacing, padding, hover states, etc.)
</guiding_principles>
<frontend_stack_defaults>
- Framework: Next.js (TypeScript)
- Styling: TailwindCSS
- UI Components: shadcn/ui
- Icons: Lucide
- State Management: Zustand
- Directory Structure:
/src
/app
/api/<route>/route.ts
/(pages)
/components/
/hooks/
/lib/
/stores/
/types/
/styles/
</frontend_stack_defaults>
<ui_ux_best_practices>
- Visual Hierarchy: Limit typography to 4โ5 font sizes and weights for consistent hierarchy; use `text-xs` for captions and annotations; avoid `text-xl` unless for hero or major headings.
- Color Usage: Use 1 neutral base (e.g., `zinc`) and up to 2 accent colors.
- Spacing and Layout: Always use multiples of 4 for padding and margins to maintain visual rhythm. Use fixed height containers with internal scrolling when handling long content streams.
- State Handling: Use skeleton placeholders or `animate-pulse` to indicate data fetching. Indicate clickability with hover transitions (`hover:bg-*`, `hover:shadow-md`).
- Accessibility: Use semantic HTML and ARIA roles where appropriate. Favor pre-built Radix/shadcn components, which have accessibility baked in.
</ui_ux_best_practices>
<code_editing_rules>
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
<code_editing_rules>
<guiding_principles>
- ๋ช
ํ์ฑ๊ณผ ์ฌ์ฌ์ฉ์ฑ: ๋ชจ๋ ์ปดํฌ๋ํธ์ ํ์ด์ง๋ ๋ชจ๋ํ๋์ด ์ฌ์ฌ์ฉ ๊ฐ๋ฅํด์ผ ํจ. ๋ฐ๋ณต๋๋ UI ํจํด์ ์ปดํฌ๋ํธ๋ก ๋ถ๋ฆฌ.
- ์ผ๊ด์ฑ: UI๋ ์์ ํ ํฐ, ํ์ดํฌ๊ทธ๋ํผ, ๊ฐ๊ฒฉ, ์ปดํฌ๋ํธ๋ฅผ ํฌํจํ ํต์ผ๋ ๋์์ธ ์์คํ
์ ๋ฐ๋ผ์ผ ํจ.
- ๋จ์์ฑ: ์๊ณ ์ง์ค๋ ์ปดํฌ๋ํธ๋ฅผ ์ ํธํ๋ฉฐ ๋ถํ์ํ ๋ณต์ก์ฑ์ ํผํจ.
- ๋ฐ๋ชจ ์งํฅ: ์คํธ๋ฆฌ๋ฐ, ๋ฉํฐ ํด ๋ํ, ํด ํตํฉ ๋ฑ ๊ธฐ๋ฅ ์์ฐ์ด ๊ฐ๋ฅํ ๊ตฌ์กฐ.
- ์๊ฐ์ ํ์ง: OSS ๊ฐ์ด๋๋ผ์ธ์ ๋ฐ๋ฅธ ๋์ ์๊ฐ์ ํ์ง(๊ฐ๊ฒฉ, ํจ๋ฉ, ํธ๋ฒ ์ํ ๋ฑ) ์ ์ง.
</guiding_principles>
<frontend_stack_defaults>
- ํ๋ ์์ํฌ: Next.js (TypeScript)
- ์คํ์ผ๋ง: TailwindCSS
- UI ์ปดํฌ๋ํธ: shadcn/ui
- ์์ด์ฝ: Lucide
- ์ํ ๊ด๋ฆฌ: Zustand
- ๋๋ ํ ๋ฆฌ ๊ตฌ์กฐ:
/src
/app
/api/<route>/route.ts
/(pages)
/components/
/hooks/
/lib/
/stores/
/types/
/styles/
</frontend_stack_defaults>
<ui_ux_best_practices>
- ์๊ฐ์ ๊ณ์ธต: 4~5๊ฐ์ ๊ธ๊ผด ํฌ๊ธฐยท๊ตต๊ธฐ๋ฅผ ์ฌ์ฉํด ๊ณ์ธต ์ ์ง, ์บก์
/์ฃผ์์ `text-xs` ์ฌ์ฉ, `text-xl`์ ํค๋๋ ๋ฉ์ธ ์ ๋ชฉ์๋ง ์ฌ์ฉ.
- ์์ ์ฌ์ฉ: ํ๋์ ์ค๋ฆฝ ๋ฒ ์ด์ค ์์(e.g., `zinc`)๊ณผ ์ต๋ 2๊ฐ์ ํฌ์ธํธ ์์ ์ฌ์ฉ.
- ๊ฐ๊ฒฉ ๋ฐ ๋ ์ด์์: ํจ๋ฉยท๋ง์ง์ 4์ ๋ฐฐ์๋ฅผ ์ฌ์ฉํด ์๊ฐ์ ๋ฆฌ๋ฌ ์ ์ง. ๊ธด ์ฝํ
์ธ ๋ ๋ด๋ถ ์คํฌ๋กค์ ๊ฐ์ง ๊ณ ์ ๋์ด ์ปจํ
์ด๋ ์ฌ์ฉ.
- ์ํ ์ฒ๋ฆฌ: ๋ฐ์ดํฐ ๋ก๋ฉ ์ skeleton placeholder ๋๋ `animate-pulse` ์ฌ์ฉ. ํด๋ฆญ ๊ฐ๋ฅ ์์์๋ hover ์ ํ ํจ๊ณผ ์ ์ฉ.
- ์ ๊ทผ์ฑ: ๊ฐ๋ฅํ๋ฉด ์๋งจํฑ HTML๊ณผ ARIA ๋กค ์ฌ์ฉ. ์ ๊ทผ์ฑ์ด ๋ด์ฅ๋ Radix/shadcn ์ปดํฌ๋ํธ๋ฅผ ์ฐ์ ์ฌ์ฉ.
</ui_ux_best_practices>
<code_editing_rules>
2.4 ํ๋ก๋์ ์์์ ํ์ ์ฝ๋ฉ- Cursor ํ๋
AI ์ฝ๋ ์๋ํฐ Cursor๊ฐ GPT-5์ ์ ๋ขฐํ ์ ์๋ ์ํ ํ ์คํฐ์๋ค๋ ๊ฒ์ ์๋์ค๋ฝ๊ฒ ์๊ฐํฉ๋๋ค. ์๋์์ Cursor๊ฐ ๋ชจ๋ธ์ ์ญ๋์ ์ต๋ํ ํ์ฉํ๊ธฐ ์ํด ํ๋กฌํํธ๋ฅผ ํ๋ํ ๋ฐฉ๋ฒ์ ์ฟ๋ณผ ์ ์์ต๋๋ค.
๋ ์์ธํ ์ ๋ณด๋ ๊ทธ๋ค์ ํ์ด Cursor์ GPT-5๋ฅผ ์ฒซ๋ ๋ถํฐ ํตํฉํ ๋ด์ฉ์ ์์ธํ ๋ค๋ฃฌ ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ์ ๋ฐํํ์ต๋๋ค. (์๋ ๋งํฌ ์ฐธ์กฐ)
2.5 System ํ๋กฌํํธ ๋ฐ ๋งค๊ฐ๋ณ์ ํ๋
Cursor์ system ํ๋กฌํํธ๋ ์์ ์ ์ธ tool calling์ ์ด์ ์ ๋ง์ถ๊ณ , ์ฌ์ฉ์์๊ฒ ์ปค์คํ ์ง์นจ์ ๊ตฌ์ฑํ ์ ์๋ ๋ฅ๋ ฅ์ ์ ๊ณตํ๋ฉด์ ์ฅํฉํจ๊ณผ ์์จ์ ํ๋์ ๊ท ํ์ ๋ง์ถฅ๋๋ค.
Cursor์ system ํ๋กฌํํธ ๋ชฉํ๋ Agent๊ฐ ์ฅ๊ธฐ๊ฐ ์์ ์ค์ ์๋์ ์ผ๋ก ์์จ์ ์ผ๋ก ์๋ํ๋ฉด์๋ ์ฌ์ฉ์๊ฐ ์ ๊ณตํ ์ง์นจ์ ์ถฉ์คํ ๋ฐ๋ฅด๋๋ก ํ๋ ๊ฒ์ ๋๋ค.
์ฒ์ ๊ทธ๋ค์ด ๋ง์ฃผํ ์ด์
ํ์ ์ฒ์์ ๋ชจ๋ธ์ด ์ฅํฉํ ์ถ๋ ฅ์ ์์ฑํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ข ์ข ๊ธฐ์ ์ ์ผ๋ก๋ ๊ด๋ จ์ด ์์ง๋ง ์ฌ์ฉ์์ ์์ฐ์ค๋ฌ์ด ํ๋ฆ์ ๋ฐฉํดํ๋ ์ํ ์ ๋ฐ์ดํธ์ ์์ ํ ์์ฝ์ ํฌํจํ์ต๋๋ค.
๋์์ tool call์์ ์ถ๋ ฅ๋ ์ฝ๋๋ ๊ณ ํ์ง์ด์์ง๋ง ๊ฐ๊ฒฐํจ์ผ๋ก ์ธํด ์ฝ๊ธฐ ์ด๋ ค์ ๊ณ , ํ ๊ธ์ ๋ณ์๋ช ์ด ์ง๋ฐฐ์ ์ด์์ต๋๋ค. ๋ ๋์ ๊ท ํ์ ์ฐพ๊ธฐ ์ํด ํ ์คํธ ์ถ๋ ฅ์ ๊ฐ๋จํ๊ฒ ์ ์งํ๊ธฐ ์ํด verbosity API ๋งค๊ฐ๋ณ์๋ฅผ low๋ก ์ค์ ํ๊ณ , ์ฝ๋ฉ ๋๊ตฌ์์๋ง ์ฅํฉํ ์ถ๋ ฅ์ ๊ฐ๋ ฅํ ๊ถ์ฅํ๋๋ก ํ๋กฌํํธ๋ฅผ ์์ ํ์ต๋๋ค.
์๋๋ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ์ ์ฉํ ์์คํ ํ๋กฌํํธ์ ๋๋ค:
์๋ฌธ ํ๋กฌํํธ
1
2
3
4
5
Write code for clarity first.
Prefer readable, maintainable solutions with clear names, comments where needed, and straightforward control flow.
Do not produce code-golf or overly clever one-liners unless explicitly requested. Use high verbosity for writing code and code tools.
ํ๊ธ ํ๋กฌํํธ
1
2
3
4
5
๋ช
ํ์ฑ์ ์ฐ์ ์ผ๋ก ์ฝ๋๋ฅผ ์์ฑํ์ธ์.
๋ช
ํํ ์ด๋ฆ, ํ์ํ ๊ณณ์ ์ฃผ์, ์ง๊ด์ ์ธ ์ ์ด ํ๋ฆ์ ๊ฐ์ง ์ฝ๊ธฐ ์ฝ๊ณ ์ ์ง๋ณด์ ๊ฐ๋ฅํ ์๋ฃจ์
์ ์ ํธํ์ธ์.
๋ช
์์ ์ผ๋ก ์์ฒญ๋ฐ์ง ์๋ ํ ์ฝ๋ ๊ณจํ๋ ์ง๋์น๊ฒ ์๋ฆฌํ ์๋ผ์ด๋๋ฅผ ์์ฑํ์ง ๋ง์ธ์. ์ฝ๋ ์์ฑ๊ณผ ์ฝ๋ ๋๊ตฌ์ ๋์ ์ฅํฉํจ์ ์ฌ์ฉํ์ธ์.
โณ ์ฝ๋ ๊ณจํ๋?
์ฝ๋ ๊ณจํ
๋ ์ฃผ์ด์ง ๋ฌธ์ ๋ฅผ ๊ฐ์ฅ ์งง์ ์์ค ์ฝ๋๋ก ๊ตฌํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ ํ๋ก๊ทธ๋๋ฐ ๋ํ ๋๋ ํ๋์ ์๋ฏธํฉ๋๋ค.
- ๊ณจํ์์ ์ ์ ํ์๋ก ํ์ธํ๋ ๊ฒ๊ณผ ๊ฐ์ด, ์ฝ๋ ๊ณจํ๋ ์ฝ๋์ ๊ธธ์ด๋ฅผ ์ต์ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ธฐ ๋๋ฌธ์ โ
์ฝ๋ ๊ณจํ
โ๋ผ๋ ์ด๋ฆ์ด ๋ถ์์ต๋๋ค.
๋งค๊ฐ๋ณ์์ ํ๋กฌํํธ์ ์ด๋ฌํ ์ด์ค ์ฌ์ฉ์ ํจ์จ์ ์ด๊ณ ๊ฐ๊ฒฐํ ์ํ ์ ๋ฐ์ดํธ ๋ฐ ์ต์ข ์์ ์์ฝ๊ณผ ํจ์ฌ ๋ ์ฝ๊ธฐ ์ฌ์ด ์ฝ๋ diff๋ฅผ ๊ฒฐํฉํ ๊ท ํ ์กํ ํ์์ ๋ง๋ค์ด๋์ต๋๋ค.
๐ค ๋ญ ์๋ฆฌ์ง?
ํ๋กฌํํธ
: ์ฝ๋ ์์ฑ ๋ฐฉ์ ์ง์นจ ์ ๊ณต โ ์ฝ๋์ ๊ตฌ์กฐ, ๊ฐ๋ ์ฑ, ์ ์ง๋ณด์์ฑ ๊ฐ์กฐ๋งค๊ฐ๋ณ์
: ํจ์ ์คํ ์ ์ค์ ์ ๋ฌ๋๋ ๊ฐ โ ํจ์๋ช , ์ฃผ์ ๋ฑ๊ณผ ์ ๊ธฐ์ ์ผ๋ก ์ฐ๊ฒฐ์ด์ค ์ฌ์ฉ
: ํ๋กฌํํธ๊ฐ ๋งค๊ฐ๋ณ์์ ์ญํ ๊ณผ ์ฌ์ฉ์ ๊ฐ์ ์ ์ผ๋ก ์ ์ โ ๋งค๊ฐ๋ณ์์ ๋ช ํ์ฑ + ์ฝ๋์ ๊ฐ๋ ์ฑ์ ๋์์ ํ๋ณด
Cursor๋ ๋ํ ๋ชจ๋ธ์ด ๋๋๋ก ํ๋์ ์ทจํ๊ธฐ ์ ์ ๋ช ํํ๋ ๋ค์ ๋จ๊ณ๋ฅผ ์ํด ์ฌ์ฉ์์๊ฒ ๊ฒฐ์ ์ ๋ฏธ๋ฃจ๋ ๊ฒฝ์ฐ๊ฐ ์์ด ๋ ๊ธด ์์ ํ๋ฆ์์ ๋ถํ์ํ ๋ง์ฐฐ์ ๋ง๋ ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฌ์ฉ ๊ฐ๋ฅํ ๋๊ตฌ์ ์ฃผ๋ณ ์ปจํ ์คํธ๋ฟ๋ง ์๋๋ผ ์ ํ ๋์์ ๋ํ ๋ ๋ง์ ์ธ๋ถ์ฌํญ์ ํฌํจํ๋ ๊ฒ์ด ๋ชจ๋ธ์ด ์ต์ํ์ ์ค๋จ๊ณผ ๋ ํฐ ์์จ์ฑ์ผ๋ก ๋ ๊ธด ์์ ์ ์ํํ๋๋ก ๊ฒฉ๋ คํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
์ฝ๋ ์ทจ์/๊ฑฐ๋ถ ๋ฐ ์ฌ์ฉ์ ์ ํธ๋์ ๊ฐ์ Cursor ๊ธฐ๋ฅ์ ๊ตฌ์ฒด์ ์ธ ์ฌํญ์ ๊ฐ์กฐํ๋ ๊ฒ์ด GPT-5๊ฐ ํ๊ฒฝ์์ ์ด๋ป๊ฒ ํ๋ํด์ผ ํ๋์ง ๋ช ํํ ๋ช ์ํจ์ผ๋ก์จ ๋ชจํธํจ์ ์ค์ด๋ ๋ฐ ๋์์ด ๋์์ต๋๋ค.
๋ ๊ธด ๊ธฐ๊ฐ์ ์์ ์ ๊ฒฝ์ฐ, ์ด ํ๋กฌํํธ๊ฐ ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค:
์๋ฌธ ํ๋กฌํํธ
1
2
3
4
5
6
7
8
9
Be aware that the code edits you make will be displayed to the user as proposed changes, which means
(a) your code edits can be quite proactive, as the user can always reject, and
(b) your code should be well-written and easy to quickly review (e.g., appropriate variable names instead of single letters).
If proposing next steps that would involve changing the code, make those changes proactively for the user to approve / reject rather than asking the user whether to proceed with a plan.
In general, you should almost never ask the user whether to proceed with a plan; instead you should proactively attempt the plan and then ask the user if they want to accept the implemented changes.
ํ๊ธ ํ๋กฌํํธ
1
2
3
4
5
6
7
8
9
๋น์ ์ด ๋ง๋๋ ์ฝ๋ ํธ์ง์ ์ ์๋ ๋ณ๊ฒฝ์ฌํญ์ผ๋ก ์ฌ์ฉ์์๊ฒ ํ์๋ ๊ฒ์ด๋ผ๋ ์ ์ ์ธ์งํ์ธ์. ์ด๋
(a) ์ฌ์ฉ์๊ฐ ์ธ์ ๋ ์ง ๊ฑฐ๋ถํ ์ ์์ผ๋ฏ๋ก ์ฝ๋ ํธ์ง์ด ์๋นํ ์ ๊ทน์ ์ผ ์ ์๊ณ ,
(b) ์ฝ๋๊ฐ ์ ์์ฑ๋๊ณ ๋น ๋ฅด๊ฒ ๊ฒํ ํ๊ธฐ ์ฌ์์ผ ํ๋ค๋ ๊ฒ(์: ํ ๊ธ์ ๋์ ์ ์ ํ ๋ณ์๋ช
)์ ์๋ฏธํฉ๋๋ค.
์ฝ๋ ๋ณ๊ฒฝ์ ํฌํจํ๋ ๋ค์ ๋จ๊ณ๋ฅผ ์ ์ํ ๋๋ ์ฌ์ฉ์์๊ฒ ๊ณํ์ ์งํํ ์ง ๋ฌผ์ด๋ณด๊ธฐ๋ณด๋ค๋ ์ฌ์ฉ์๊ฐ ์น์ธ/๊ฑฐ๋ถํ ์ ์๋๋ก ์ ๊ทน์ ์ผ๋ก ๋ณ๊ฒฝํ์ธ์.
์ผ๋ฐ์ ์ผ๋ก ๊ณํ์ ์งํํ ์ง ์ฌ์ฉ์์๊ฒ ๋ฌผ์ด๋ณด๋ ์ผ์ ๊ฑฐ์ ์์ด์ผ ํฉ๋๋ค. ๋์ ์ ๊ทน์ ์ผ๋ก ๊ณํ์ ์๋ํ ๋ค์ ์ฌ์ฉ์๊ฐ ๊ตฌํ๋ ๋ณ๊ฒฝ์ฌํญ์ ์๋ฝํ ์ง ๋ฌผ์ด๋ณด์ธ์.
Cursor๋ ์ด์ ๋ชจ๋ธ๋ค์์ ํจ๊ณผ์ ์ด์๋ ํ๋กฌํํธ ์น์ ๋ค์ด GPT-5์์ ์ต๋ํ์ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ํ๋์ด ํ์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
์๋๋ ํ ๊ฐ์ง ์์์ ๋๋ค:
์๋ฌธ ํ๋กฌํํธ
1
2
3
4
5
6
<maximize_context_understanding>
Be THOROUGH when gathering information.
Make sure you have the FULL picture before replying.
Use additional tool calls or clarifying questions as needed.
...
</maximize_context_understanding>
ํ๊ธ ํ๋กฌํํธ
1
2
3
4
5
6
<maximize_context_understanding>
์ ๋ณด ์์ง์ ์ฒ ์ ํ์ธ์.
๋ต๋ณํ๊ธฐ ์ ์ ์ ์ฒด ๊ทธ๋ฆผ์ ํ์คํ ํ์
ํ์ธ์.
ํ์์ ๋ฐ๋ผ ์ถ๊ฐ tool call์ด๋ ๋ช
ํํ ์ง๋ฌธ์ ์ฌ์ฉํ์ธ์.
...
</maximize_context_understanding>
์ปจํ ์คํธ๋ฅผ ์ฒ ์ ํ ๋ถ์ํ๋๋ก ๊ฒฉ๋ ค๊ฐ ํ์ํ๋ ์ด์ ๋ชจ๋ธ๋ค์์๋ ์ ์๋ํ์ง๋ง, ์ด๋ฏธ ์์ฐ์ค๋ฝ๊ฒ ๋ด์ฑ์ ์ด๊ณ ์ปจํ ์คํธ ์์ง์ ์ ๊ทน์ ์ธ GPT-5์์๋ ์ญํจ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์์ ์์ ์์ ์ด ํ๋กฌํํธ๋ ๋ด๋ถ ์ง์๋ง์ผ๋ก๋ ์ถฉ๋ถํ์ ๋ ๊ฒ์์ ๋ฐ๋ณต์ ์ผ๋ก ํธ์ถํ์ฌ ๋๊ตฌ๋ฅผ ๋จ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ต๋๋ค.
์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด maximize_
์ ๋์ฌ๋ฅผ ์ ๊ฑฐํ๊ณ ์ฒ ์ ํจ์ ๋ํ ์ธ์ด๋ฅผ ๋ถ๋๋ฝ๊ฒ ํ์ฌ ํ๋กฌํํธ๋ฅผ ๊ฐ์ ํ์ต๋๋ค.
์ด ์กฐ์ ๋ ์ง์นจ์ด ์ ์ฉ๋๋ฉด์ Cursor ํ์ GPT-5๊ฐ ๋ด๋ถ ์ง์์ ์์กดํ ๋์ ์ธ๋ถ ๋๊ตฌ์ ์์ ๋ป์ ๋์ ๋ํด ๋ ๋์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๊ฒ์ ๋ณด์์ต๋๋ค. ๋ถํ์ํ ๋๊ตฌ ์ฌ์ฉ ์์ด ๋์ ์์ค์ ์์จ์ฑ์ ์ ์งํ์ฌ ๋ ํจ์จ์ ์ด๊ณ ๊ด๋ จ์ฑ ์๋ ํ๋์ ๋ณด์์ต๋๋ค.
Cursor์ ํ
์คํธ์์ <[instruction]_spec>
๊ณผ ๊ฐ์ ๊ตฌ์กฐํ๋ XML ์ฌ์์ ์ฌ์ฉํ๋ ๊ฒ์ด ํ๋กฌํํธ์์ ์ง์นจ ์ค์๋ฅผ ๊ฐ์ ํ๊ณ ํ๋กฌํํธ์ ๋ค๋ฅธ ๊ณณ์์ ์ด์ ์นดํ
๊ณ ๋ฆฌ์ ์น์
์ ๋ช
ํํ๊ฒ ์ฐธ์กฐํ ์ ์๊ฒ ํด์ฃผ์์ต๋๋ค.
์๋ฌธ ํ๋กฌํํธ
1
2
3
4
5
<context_understanding>
...
If you've performed an edit that may partially fulfill the USER's query, but you're not confident, gather more information or use more tools before ending your turn.
Bias towards not asking the user for help if you can find the answer yourself.
</context_understanding>
ํ๊ธ ํ๋กฌํํธ
1
2
3
4
5
<context_understanding>
...
์ฌ์ฉ์์ ์ฟผ๋ฆฌ๋ฅผ ๋ถ๋ถ์ ์ผ๋ก ์ถฉ์กฑํ ์ ์๋ ํธ์ง์ ์ํํ์ง๋ง ํ์ ์ด ์์ง ์๋๋ค๋ฉด, ํด์ ๋๋ด๊ธฐ ์ ์ ๋ ๋ง์ ์ ๋ณด๋ฅผ ์์งํ๊ฑฐ๋ ๋ ๋ง์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ธ์.
์ค์ค๋ก ๋ต์ ์ฐพ์ ์ ์๋ค๋ฉด ์ฌ์ฉ์์๊ฒ ๋์์ ์์ฒญํ์ง ์๋ ์ชฝ์ผ๋ก ํธํฅํ์ธ์.
</context_understanding>
system ํ๋กฌํํธ๊ฐ ๊ฐ๋ ฅํ ๊ธฐ๋ณธ ๊ธฐ๋ฐ์ ์ ๊ณตํ๋ ๋ฐ๋ฉด, user ํ๋กฌํํธ๋ ์กฐ์ ๊ฐ๋ฅ์ฑ์ ์ํ ๋งค์ฐ ํจ๊ณผ์ ์ธ ๋ ๋ฒ๋ก ๋จ์ ์์ต๋๋ค.
GPT-5๋ ์ง์ ์ ์ด๊ณ ๋ช ์์ ์ธ ์ง์นจ์ ์ ๋ฐ์ํ๋ฉฐ Cursor ํ์ ๊ตฌ์กฐํ๋๊ณ ๋ฒ์๊ฐ ์ ํด์ง ํ๋กฌํํธ๊ฐ ๊ฐ์ฅ ์์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค๋ ๊ฒ์ ์ง์์ ์ผ๋ก ํ์ธํ์ต๋๋ค.
- ์ฌ๊ธฐ์๋ ์ฅํฉํจ ์ ์ด, ์ฃผ๊ด์ ์ธ ์ฝ๋ ์คํ์ผ ์ ํธ๋, ์ฃ์ง ์ผ์ด์ค์ ๋ํ ๋ฏผ๊ฐ์ฑ๊ณผ ๊ฐ์ ์์ญ์ด ํฌํจ๋ฉ๋๋ค.
- Cursor๋ ์ฌ์ฉ์๊ฐ ์์ ๋ง์ ์ปค์คํ Cursor ๊ท์น์ ๊ตฌ์ฑํ ์ ์๋๋ก ํ์ฉํ๋ ๊ฒ์ด GPT-5์ ํฅ์๋ ์กฐ์ ๊ฐ๋ฅ์ฑ์ผ๋ก ํนํ ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ ๋ฐ๊ฒฌํ์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ์ฌ์ฉ์์๊ฒ ๋ ๊ฐ์ธํ๋ ๊ฒฝํ์ ์ ๊ณตํ์ต๋๋ค.
3. Optimizing intelligence and instruction-following
3.1 ์กฐ์ (Steering)
์ง๊ธ๊น์ง ๊ฐ์ฅ ์กฐ์ ๊ฐ๋ฅํ ๋ชจ๋ธ์ธ GPT-5๋ ์ฅํฉํจ
, ํค
, tool calling
๋์๊ณผ ๊ด๋ จ๋ ํ๋กฌํํธ ์ง์นจ์ ๋งค์ฐ ์ ๋ฐ์ํฉ๋๋ค.
์ฅํฉํจ(Verbosity)
์ด์ ์ถ๋ก ๋ชจ๋ธ์์์ ๊ฐ์ด reasoning_effort
(eg. o3)๋ฅผ ์ ์ดํ ์ ์๋ ๊ฒ ์ธ์๋, GPT-5์์๋ ์ฌ๊ณ ์ ๊ธธ์ด๊ฐ ์๋ ๋ชจ๋ธ์ ์ต์ข
๋ต๋ณ ๊ธธ์ด์ ์ํฅ์ ์ฃผ๋ verbosity
๋ผ๋ ์๋ก์ด API ๋งค๊ฐ๋ณ์๋ฅผ ๋์
ํ์ต๋๋ค.
GPT-5๋ ์ ์ญ ๊ธฐ๋ณธ๊ฐ์์ ๋ฒ์ด๋๊ณ ์ถ์ ํน์ ๋งฅ๋ฝ์์ ํ๋กฌํํธ์ ์์ฐ์ด verbosity ์ฌ์ ์์ ๋ฐ์ํ๋๋ก ํ๋ จ๋์์ต๋๋ค. ์์ Cursor ์์์ฒ๋ผ ์ ์ญ์ ์ผ๋ก ๋ฎ์ verbosity๋ฅผ ์ค์ ํ๊ณ ์ฝ๋ฉ ๋๊ตฌ์๋ง ๋์ verbosity๋ฅผ ์ง์ ํ๋ ๊ฒ์ด ๊ทธ๋ฌํ ๋งฅ๋ฝ์ ์ฃผ์ ์์ ๋๋ค.
3.2 Instruction following
GPT-4.1
๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก, GPT-5
๋ ์ธ๊ณผ์ ์ ๋ฐ๋(surgical precision
)๋ก ํ๋กฌํํธ ์ง์นจ์ ๋ฐ๋ฅด๋ฉฐ, ์ด๋ ๋ชจ๋ ์ ํ์ ์ํฌํ๋ก์ฐ์ ์ ์ฐํ๊ฒ ์ ์ฉ๋ ์ ์๊ฒ ํด์ค๋๋ค.
๊ทธ๋ฌ๋ โ์ ์คํ ์ง์ ์ค์ ๋์์ ๋ชจ์๋๊ฑฐ๋ ๋ชจํธํ ์ง์นจ์ ํฌํจํ๋ ์๋ชป ๊ตฌ์ฑ๋ ํ๋กฌํํธ๊ฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ณด๋ค GPT-5์ ๋ ํด๋ก์ธ ์ ์์์ ์๋ฏธํฉ๋๋คโ.
์ด๋, ๋ฌด์์๋ก ํ๋์ ์ง์นจ์ ์ ํํ๋ ๋์ ๋ชจ์์ ์กฐํ์ํฌ ๋ฐฉ๋ฒ์ ์ฐพ๊ธฐ ์ํด ์ถ๋ก ํ ํฐ์ ์๋นํ๊ธฐ ๋๋ฌธ์ ๋๋ค.
์๋์์๋ ์ข ์ข GPT-5์ ์ถ๋ก ์ฑ๋ฅ์ ์์์ํค๋ ํ๋กฌํํธ ์ ํ์ ๋๋ฆฝ์ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ธ๋ป ๋ณด๋ฉด ๋ด๋ถ์ ์ผ๋ก ์ผ๊ด๋ ๊ฒ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, ์์ธํ ์ดํด๋ณด๋ฉด ์์ฝ ์ค์ผ์ค๋ง์ ๊ดํ ์์ถฉํ๋ ์ง์นจ์ด ๋๋ฌ๋ฉ๋๋ค:
์์
-
์ฒซ ๋ฒ์งธ ์์
- ๊ท์น 1: โNever schedule an appointment without explicit patient consent recorded in the chartโ
โ ํ์์ ๋ช ์์ ๋์๊ฐ ์ฐจํธ์ ๊ธฐ๋ก๋์ง ์์ผ๋ฉด ์์ฝํ์ง ๋ง๋ผ. - ๊ท์น 2: โauto-assign the earliest same-day slot without contacting the patient as the first action to reduce riskโ
โ ํ์์๊ฒ ์ฐ๋ฝ ์์ด ๋น์ผ ๊ฐ์ฅ ๋น ๋ฅธ ์ฌ๋กฏ์ ์๋ ๋ฐฐ์ ํ๋ผ.
- ๊ท์น 1: โNever schedule an appointment without explicit patient consent recorded in the chartโ
๋ชจ์ ํฌ์ธํธ: ํ์ชฝ์ โ๋์ ์์ด๋ ์์ฝ ๋ถ๊ฐโ์ธ๋ฐ, ๋ค๋ฅธ ์ชฝ์ โ์ฐ๋ฝ(=๋์ ํ์ธ) ์์ด ๋ฐ๋ก ์์ฝโ์ ์ง์.
-
๋ ๋ฒ์งธ ์์
- ๊ท์น 1: โAlways look up the patient profile before taking any other actions to ensure they are an existing patientโ
โ ํญ์ ํ์ ํ๋กํ์ ๋จผ์ ์กฐํํด ๊ธฐ์กด ํ์์ธ์ง ํ์ธํ๋ผ. - ๊ท์น 2: โWhen symptoms indicate high urgency, escalate as EMERGENCY and direct the patient to call 911 immediately before any scheduling step.โ
โ ์๊ธ ์ํฉ์ด๋ฉด ์์ฝ ์ ์ 911 ์๋ด๋ฅผ ์ฐ์ ํ๋ผ.
- ๊ท์น 1: โAlways look up the patient profile before taking any other actions to ensure they are an existing patientโ
๋ชจ์ ํฌ์ธํธ: ํ์ชฝ์ โ๋ฌด์กฐ๊ฑด ํ๋กํ ์กฐํ๊ฐ ์ฒซ ๋จ๊ณโ์ธ๋ฐ, ๋ค๋ฅธ ์ชฝ์ โ์๊ธ ์ ์กฐํ๋ฅผ ๊ฑด๋๋ฐ๊ณ 911 ์๋ดโ๋ฅผ ์ง์.
์๋ฌธ ํ๋กฌํํธ
1
2
3
4
5
6
7
8
9
10
11
You are CareFlow Assistant, a virtual admin for a healthcare startup that schedules patients based on priority and symptoms. Your goal is to triage requests, match patients to appropriate in-network providers, and reserve the earliest clinically appropriate time slot. Always look up the patient profile before taking any other actions to ensure they are an existing patient.
- Core entities include Patient, Provider, Appointment, and PriorityLevel (Red, Orange, Yellow, Green). Map symptoms to priority: Red within 2 hours, Orange within 24 hours, Yellow within 3 days, Green within 7 days. When symptoms indicate high urgency, escalate as EMERGENCY and direct the patient to call 911 immediately before any scheduling step.
+Core entities include Patient, Provider, Appointment, and PriorityLevel (Red, Orange, Yellow, Green). Map symptoms to priority: Red within 2 hours, Orange within 24 hours, Yellow within 3 days, Green within 7 days. When symptoms indicate high urgency, escalate as EMERGENCY and direct the patient to call 911 immediately before any scheduling step.
*Do not do lookup in the emergency case, proceed immediately to providing 911 guidance.*
- Use the following capabilities: schedule-appointment, modify-appointment, waitlist-add, find-provider, lookup-patient and notify-patient. Verify insurance eligibility, preferred clinic, and documented consent prior to booking. Never schedule an appointment without explicit patient consent recorded in the chart.
- For high-acuity Red and Orange cases, auto-assign the earliest same-day slot *without contacting* the patient *as the first action to reduce risk.* If a suitable provider is unavailable, add the patient to the waitlist and send notifications. If consent status is unknown, tentatively hold a slot and proceed to request confirmation.
- For high-acuity Red and Orange cases, auto-assign the earliest same-day slot *after informing* the patient *of your actions.* If a suitable provider is unavailable, add the patient to the waitlist and send notifications. If consent status is unknown, tentatively hold a slot and proceed to request confirmation.
ํ๊ธ ํ๋กฌํํธ
1
2
3
4
5
6
7
8
9
10
๋น์ ์ ์ฐ์ ์์์ ์ฆ์์ ๋ฐ๋ผ ํ์๋ฅผ ์ค์ผ์ค๋งํ๋ ํฌ์ค์ผ์ด ์คํํธ์
์ ๊ฐ์ ๊ด๋ฆฌ์์ธ CareFlow Assistant์
๋๋ค. ๋น์ ์ ๋ชฉํ๋ ์์ฒญ์ ๋ถ๋ฅํ๊ณ , ํ์๋ฅผ ์ ์ ํ ๋คํธ์ํฌ ๋ด ์ ๊ณต์์ ๋งค์นญํ๋ฉฐ, ๊ฐ์ฅ ๋น ๋ฅธ ์์์ ์ผ๋ก ์ ์ ํ ์๊ฐ๋๋ฅผ ์์ฝํ๋ ๊ฒ์
๋๋ค. ๊ธฐ์กด ํ์์ธ์ง ํ์ธํ๊ธฐ ์ํด ๋ค๋ฅธ ํ๋์ ์ทจํ๊ธฐ ์ ์ ํญ์ ํ์ ํ๋กํ์ ์กฐํํ์ธ์.
- ํต์ฌ ์ํฐํฐ์๋ Patient, Provider, Appointment, PriorityLevel (Red, Orange, Yellow, Green)์ด ํฌํจ๋ฉ๋๋ค. ์ฆ์์ ์ฐ์ ์์์ ๋งคํ: Red๋ 2์๊ฐ ์ด๋ด, Orange๋ 24์๊ฐ ์ด๋ด, Yellow๋ 3์ผ ์ด๋ด, Green์ 7์ผ ์ด๋ด. ์ฆ์์ด ๋์ ๊ธด๊ธ์ฑ์ ๋ํ๋ผ ๋๋ ์๊ธ์ผ๋ก ์์ค์ปฌ๋ ์ด์
ํ๊ณ ์ค์ผ์ค๋ง ๋จ๊ณ ์ ์ ์ฆ์ 911์ ์ ํํ๋๋ก ํ์์๊ฒ ์ง์ํ์ธ์.
*์๊ธ ์ํฉ์์๋ ์กฐํ๋ฅผ ํ์ง ๋ง๊ณ ์ฆ์ 911 ์๋ด ์ ๊ณต์ผ๋ก ์งํํ์ธ์.*
- ๋ค์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ์ธ์: schedule-appointment, modify-appointment, waitlist-add, find-provider, lookup-patient, notify-patient. ์์ฝ ์ ์ ๋ณดํ ์๊ฒฉ, ์ ํธ ํด๋ฆฌ๋, ๋ฌธ์ํ๋ ๋์๋ฅผ ํ์ธํ์ธ์. ์ฐจํธ์ ๊ธฐ๋ก๋ ๋ช
์์ ์ธ ํ์ ๋์ ์์ด๋ ์ ๋ ์์ฝ์ ์ก์ง ๋ง์ธ์.
- ๋์ ์ค์ฆ๋์ Red์ Orange ์ผ์ด์ค์ ๊ฒฝ์ฐ, ์ํ์ ์ค์ด๊ธฐ ์ํ ์ฒซ ๋ฒ์งธ ํ๋์ผ๋ก ํ์์๊ฒ ์ฐ๋ฝํ์ง *์๊ณ * ๊ฐ์ฅ ๋น ๋ฅธ ๋น์ผ ์ฌ๋กฏ์ ์๋ ํ ๋นํ์ธ์. ์ ์ ํ ์ ๊ณต์๋ฅผ ์ด์ฉํ ์ ์์ผ๋ฉด ํ์๋ฅผ ๋๊ธฐ ๋ชฉ๋ก์ ์ถ๊ฐํ๊ณ ์๋ฆผ์ ๋ณด๋ด์ธ์. ๋์ ์ํ๊ฐ ๋ถ๋ถ๋ช
ํ๋ฉด ์ ์ ์ ์ผ๋ก ์ฌ๋กฏ์ ๋ณด๋ฅํ๊ณ ํ์ธ์ ์์ฒญํ์ธ์.
- ๋์ ์ค์ฆ๋์ Red์ Orange ์ผ์ด์ค์ ๊ฒฝ์ฐ, ํ์์๊ฒ *ํ๋์ ์๋ฆฐ ํ* ๊ฐ์ฅ ๋น ๋ฅธ ๋น์ผ ์ฌ๋กฏ์ ์๋ ํ ๋นํ์ธ์. ์ ์ ํ ์ ๊ณต์๋ฅผ ์ด์ฉํ ์ ์์ผ๋ฉด ํ์๋ฅผ ๋๊ธฐ ๋ชฉ๋ก์ ์ถ๊ฐํ๊ณ ์๋ฆผ์ ๋ณด๋ด์ธ์. ๋์ ์ํ๊ฐ ๋ถ๋ถ๋ช
ํ๋ฉด ์ ์ ์ ์ผ๋ก ์ฌ๋กฏ์ ๋ณด๋ฅํ๊ณ ํ์ธ์ ์์ฒญํ์ธ์.
์ด๋ฌํ ์ง์ ๊ณ์ธต ์ถฉ๋(๋ชจ์)์ ํด๊ฒฐํ๋ฉด, GPT-5๋ ํจ์ฌ ๋ ํจ์จ์ ์ด๊ณ ์ฑ๋ฅ์ด ์ข์ ์ถ๋ก ์ ์ด๋์ด๋ ๋๋ค.
Eg. ๋ค์๊ณผ ๊ฐ์ด ๋ชจ์์ ์์ ํ ์ ์์ต๋๋ค.:
- ์๋ ํ ๋น์ด ํ์ ์ ์ด ํ์ ๋ฐ์ํ๋๋ก ๋ณ๊ฒฝํ์ฌ
ํ์์๊ฒ ํ๋์ ์๋ฆฐ ํ ๊ฐ์ฅ ๋น ๋ฅธ ๋น์ผ ์ฌ๋กฏ์ ์๋ ํ ๋น
ํ์ฌ ๋์๊ฐ ์์ ๋๋ง ์ค์ผ์ค๋งํ๋ค๋ ๊ฒ๊ณผ ์ผ์นํ๋๋ก ํ์ต๋๋ค. ์๊ธ ์ํฉ์์๋ ์กฐํ๋ฅผ ํ์ง ๋ง๊ณ ์ฆ์ 911 ์๋ด ์ ๊ณต์ผ๋ก ์งํํ์ธ์
๋ฅผ ์ถ๊ฐํ์ฌ ์๊ธ ์ํฉ์์๋ ์กฐํํ์ง ์์๋ ๊ด์ฐฎ๋ค๋ ๊ฒ์ ๋ชจ๋ธ์๊ฒ ์๋ ค์ฃผ์์ต๋๋ค.
ํ๋กฌํํธ ๊ตฌ์ถ ๊ณผ์ ์ด ๋ฐ๋ณต์ ์ด๋ฉฐ, ๋ง์ ํ๋กฌํํธ๊ฐ ๋ค์ํ ์ดํด๊ด๊ณ์๋ค์ ์ํด ์ง์์ ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ ์ด์์๋ ๋ฌธ์๋ผ๋ ๊ฒ์ ์ดํดํ์ง๋ง, ์ด๊ฒ์ด ์๋ชป ํํ๋ ์ง์นจ์ ๋ํด ์ฒ ์ ํ ๊ฒํ ํด์ผ ํ๋ ๋ ํฐ ์ด์ ์ ๋๋ค.
์ด๋ฏธ ์ฌ๋ฌ ์ด๊ธฐ ์ฌ์ฉ์๋ค์ด ๊ทธ๋ฌํ ๊ฒํ ๋ฅผ ์ํํ์ฌ ํต์ฌ ํ๋กฌํํธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ๋ชจํธํจ๊ณผ ๋ชจ์์ ๋ฐ๊ฒฌํ์ต๋๋ค. ์ด๋ฅผ ์ ๊ฑฐํ๋ ๊ฒ์ด GPT-5 ์ฑ๋ฅ์ ๊ทน์ ์ผ๋ก ๊ฐ์ํํ๊ณ ๊ฐ์ ํ์ต๋๋ค. ์ด๋ฌํ ์ ํ์ ๋ฌธ์ ๋ฅผ ์๋ณํ๋ ๋ฐ ๋์์ด ๋๋๋ก ์ฐ๋ฆฌ์ ํ๋กฌํํธ ์ต์ ํ ๋๊ตฌ์์ ํ๋กฌํํธ๋ฅผ ํ ์คํธํ๋ ๊ฒ์ ๊ถ์ฅํฉ๋๋ค. (์ prompt optimizer tool ์ฐธ๊ณ )
3.3 ์ต์ ์ถ๋ก (Minimal Reasoning)
GPT-5์์ ์ฒ์์ผ๋ก ์ต์ ์ถ๋ก ๊ฐ๋(minimal reasoning effort)๋ฅผ ๋์ ํฉ๋๋ค. ์ด๋ ์ถ๋ก ๋ชจ๋ธ ํจ๋ฌ๋ค์์ ์ด์ ์ ์ฌ์ ํ ์ป์ผ๋ฉด์๋ ๊ฐ์ฅ ๋น ๋ฅธ ์ต์ ์ ๋๋ค. ์ด๊ฒ์ด ์ง์ฐ ์๊ฐ์ ๋ฏผ๊ฐํ ์ฌ์ฉ์์ ํ์ฌ GPT-4.1 ์ฌ์ฉ์๋ค์๊ฒ ์ต๊ณ ์ ์ ๊ทธ๋ ์ด๋๋ผ๊ณ ์๊ฐํฉ๋๋ค.
์๋ง ๋๋์ง ์๊ฒ๋, ์ต์์ ๊ฒฐ๊ณผ๋ฅผ ์ํด GPT-4.1๊ณผ ์ ์ฌํ ํ๋กฌํํ ํจํด์ ๊ถ์ฅํฉ๋๋ค. ์ต์ ์ถ๋ก ์ฑ๋ฅ์ ๋ ๋์ ์ถ๋ก ๋ ๋ฒจ๋ณด๋ค ํ๋กฌํํธ์ ๋ฐ๋ผ ๋ ๊ทน์ ์ผ๋ก ๋ฌ๋ผ์ง ์ ์์ผ๋ฏ๋ก, ๊ฐ์กฐํ ํต์ฌ ์ฌํญ๋ค์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ชจ๋ธ์ด ์ต์ข ๋ต๋ณ ์์ ๋ถ๋ถ์ ์ฌ๊ณ ๊ณผ์ ์ ์์ฝํ๋ ๊ฐ๋จํ ์ค๋ช ์ ์ ๊ณตํ๋๋ก ํ๋กฌํํ ํ๋ ๊ฒ(์: ๊ธ๋จธ๋ฆฌ ๊ธฐํธ ๋ชฉ๋ก์ ํตํด)์ ๋ ๋์ ์ง๋ฅ์ด ํ์ํ ์์ ์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ์์ ์งํ ์ํฉ์ ์ง์์ ์ผ๋ก ์ฌ์ฉ์์๊ฒ ์ ๋ฐ์ดํธํ๋ ์ฒ ์ ํ๊ณ ์ค๋ช ์ ์ธ tool-calling preamble์ ์์ฒญํ๋ ๊ฒ์ ์์ด์ ํธ ์ํฌํ๋ก์ฐ์์ ์ฑ๋ฅ์ ํฅ์์ํต๋๋ค.
- ๋๊ตฌ ์ง์นจ์ ์ต๋ํ ๋ช ํํ๊ฒ ํ๊ณ ์์์ ๊ณต์ ํ ์์ด์ ํธ ์ง์์ฑ ์๋ฆผ์ ์ฝ์ ํ๋ ๊ฒ์ ์ต์ ์ถ๋ก ์์ ํนํ ์ค์ํ๋ฉฐ, ์ฅ๊ธฐ๊ฐ ์คํ์์ ์์ด์ ํธ ๋ฅ๋ ฅ์ ์ต๋ํํ๊ณ ์กฐ๊ธฐ ์ข ๋ฃ๋ฅผ ๋ฐฉ์งํฉ๋๋ค.
-
ํ๋กฌํํธ๋ ๊ณํ๋ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ ์ค์ํฉ๋๋ค. ๋ชจ๋ธ์ด ๋ด๋ถ ๊ณํ์ ์ํ ์ถ๋ก ํ ํฐ์ด ์ ๊ธฐ ๋๋ฌธ์ ๋๋ค.
- ์๋์์ ์์ด์ ํธ ์์ ์ ์์ ๋ถ๋ถ์ ๋ฐฐ์นํ ์ํ ๊ณํ ํ๋กฌํํธ ์ค๋ํซ์ ์ฐพ์ ์ ์์ต๋๋ค.
- ํนํ ๋ ๋ฒ์งธ ๋จ๋ฝ์ ์์ด์ ํธ๊ฐ ์ฌ์ฉ์์๊ฒ ๋๋๋ฆฌ๊ธฐ ์ ์ ์์ ๊ณผ ๋ชจ๋ ํ์ ์์ ์ ์์ ํ ์๋ฃํ๋๋ก ๋ณด์ฅํฉ๋๋ค.
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
6
7
Remember, you are an agent - please keep going until the user's query is completely resolved, before ending your turn and yielding back to the user.
Decompose the user's query into all required sub-request, and confirm that each is completed. Do not stop after completing only part of the request. Only terminate your turn when you are sure that the problem is solved.
You must be prepared to answer multiple queries and only finish the call once the user has confirmed they're done.
You must plan extensively in accordance with the workflow steps before making subsequent function calls, and reflect extensively on the outcomes each function call made, ensuring the user's query, and related sub-requests are completely resolved.
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
6
7
๊ธฐ์ตํ์ญ์์ค. ๋น์ ์ ์์ด์ ํธ์
๋๋ค. ์ฌ์ฉ์์ ์์ฒญ์ด ์์ ํ ํด๊ฒฐ๋ ๋๊น์ง ๊ณ์ ์งํํ๊ณ , ๊ทธ ํ์๋ง ์ฐจ๋ก๋ฅผ ์ข
๋ฃํ์ญ์์ค.
์ฌ์ฉ์์ ์์ฒญ์ ๋ชจ๋ ํ์ ์์ฒญ์ผ๋ก ๋ถํดํ๊ณ , ๊ฐ ์์ฒญ์ด ์๋ฃ๋์๋์ง ํ์ธํ์ญ์์ค. ์ผ๋ถ๋ง ์๋ฃํ ์ฑ๋ก ๋ฉ์ถ์ง ๋ง์ญ์์ค. ๋ฌธ์ ํด๊ฒฐ์ด ํ์คํ ๋๋ง ์ข
๋ฃํ์ญ์์ค.
์ฌ์ฉ์๊ฐ ์๋ฃ๋ฅผ ํ์ธํ ๋๊น์ง ์ฌ๋ฌ ์ง์์ ์๋ตํ ์ค๋น๊ฐ ๋์ด ์์ด์ผ ํฉ๋๋ค.
ํจ์ ํธ์ถ ์ ์ ์ํฌํ๋ก ๋จ๊ณ์ ๋ฐ๋ผ ์ถฉ๋ถํ ๊ณํ์ ์ธ์ฐ๊ณ , ๊ฐ ํจ์ ํธ์ถ ๊ฒฐ๊ณผ๋ฅผ ์ฒ ์ ํ ๋ฐ์ํ์ฌ ์ฌ์ฉ์์ ์์ฒญ๊ณผ ๊ด๋ จ๋ ๋ชจ๋ ํ์ ์์ฒญ์ด ์์ ํ ํด๊ฒฐ๋์๋์ง ํ์ธํ์ญ์์ค.
3.4 ๋ฉํํ๋กฌํํ (Metaprompting)
๋ง์ง๋ง์ผ๋ก ๋ฉํ์ ์ธ ๊ด์ ์์ ๋ง๋ฌด๋ฆฌํ์๋ฉด, ์ด๊ธฐ ํ ์คํฐ๋ค์ GPT-5๋ฅผ ์์ ์ ์ํ ๋ฉํ ํ๋กฌํํฐ๋ก ์ฌ์ฉํ์ฌ ํฐ ์ฑ๊ณต์ ๊ฑฐ๋์์ต๋๋ค.
์ด๋ฏธ ์ฌ๋ฌ ์ฌ์ฉ์๋ค์ด ์คํจํ ํ๋กฌํํธ์ ์ํ๋ ๋์์ ์ด๋์ด๋ด๊ธฐ ์ํด ์ถ๊ฐํ ์ ์๋ ์์๋ ์ํ์ง ์๋ ๋์์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ ๊ฑฐํ ์ ์๋ ์์๊ฐ ๋ฌด์์ธ์ง GPT-5์๊ฒ ๋จ์ํ ๋ฌป๋ ๊ฒ๋ง์ผ๋ก ์์ฑ๋ ํ๋กฌํํธ ์์ ์ฌํญ์ ํ๋ก๋์ ์ ๋ฐฐํฌํ์ต๋๋ค.
๋ค์์ ์ฐ๋ฆฌ๊ฐ ์ข์ํ๋ ๋ฉํํ๋กฌํํธ ํ ํ๋ฆฟ ์์์ ๋๋ค:
์๋ฌธ ์๋ฌธ Prompt
1
2
3
4
5
When asked to optimize prompts, give answers from your own perspective - explain what specific phrases could be added to, or deleted from, this prompt to more consistently elicit the desired behavior or prevent the undesired behavior.
Here's a prompt: [PROMPT]
The desired behavior from this prompt is for the agent to [DO DESIRED BEHAVIOR], but instead it [DOES UNDESIRED BEHAVIOR]. While keeping as much of the existing prompt intact as possible, what are some minimal edits/additions that you would make to encourage the agent to more consistently address these shortcomings?
ํ๊ตญ์ด ๋ฒ์ญ
1
2
3
4
5
ํ๋กฌํํธ ์ต์ ํ๋ฅผ ์์ฒญ๋ฐ์ผ๋ฉด, ๋น์ ์์ ์ ๊ด์ ์์ ๋ต๋ณ์ ์ ๊ณตํ์ธ์ - ์ํ๋ ๋์์ ๋ ์ผ๊ด๋๊ฒ ์ด๋์ด๋ด๊ฑฐ๋ ์ํ์ง ์๋ ๋์์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ด ํ๋กฌํํธ์ ์ถ๊ฐํ๊ฑฐ๋ ์ญ์ ํ ์ ์๋ ๊ตฌ์ฒด์ ์ธ ๋ฌธ๊ตฌ๊ฐ ๋ฌด์์ธ์ง ์ค๋ช
ํ์ธ์.
ํ๋กฌํํธ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค: [PROMPT]
์ด ํ๋กฌํํธ๋ก๋ถํฐ ์ํ๋ ๋์์ ์์ด์ ํธ๊ฐ [์ํ๋ ๋์์ ์ํ]ํ๋ ๊ฒ์ด์ง๋ง, ๋์ [์ํ์ง ์๋ ๋์์ ์ํ]ํฉ๋๋ค. ๊ธฐ์กด ํ๋กฌํํธ๋ฅผ ๊ฐ๋ฅํ ํ ๋ง์ด ๊ทธ๋๋ก ์ ์งํ๋ฉด์, ์์ด์ ํธ๊ฐ ์ด๋ฌํ ๋จ์ ์ ๋ ์ผ๊ด๋๊ฒ ํด๊ฒฐํ๋๋ก ๊ฒฉ๋ คํ๊ธฐ ์ํด ์ํํ ์ต์ํ์ ํธ์ง/์ถ๊ฐ์ฌํญ์ ๋ฌด์์
๋๊น?
4. ๋ถ๋ก. Appendix
4.1 SWE-Bench ๊ฐ๋ฐ์ ์ง์นจ
apply_patch
๋ช ๋ น์ผ๋ก ์ฝ๋ ๋ณ๊ฒฝ- ๋ชจ๋ ๋ณ๊ฒฝ ์ฌํญ ์ฒ ์ ๊ฒ์ฆ
4.2 Agentic coding tool definitions
- Set 1:
apply_patch
,read_file
,list_files
,find_matches
- Set 2:
run
,send_input
4.3 Domain-specific minimal reasoning instructions (TauBench-Retail)
- ์ฃผ๋ฌธ ์ทจ์/์์ /๋ฐํ/๊ตํ ์ ์ฐจ ์ธ๋ถ ๊ท์น
- ์ฌ์ฉ์ ์ธ์ฆ ํ์
- ์น์ธ ์๋ ๋ฐ์ดํฐ ๋ณ๊ฒฝ ๊ธ์ง
4.4 Terminal-Bench prompt
- ์ปจํ ์ด๋ ํ๊ฒฝ์์์ ์์ ํ ์ฝ๋ ์์ ์ํฌํ๋ก
- ๋๋ฆฐ ๋ช
๋ น(
ls -R
,find
,grep
) ๋์rg
์ฌ์ฉ - ์ฝ๋ ์คํ์ผ ์ผ๊ด์ฑ ์ ์ง
๐ ๋งบ์๋ง
์ด๋ฒ ์ ๋ฆฌ๋ GPT-5๋ฅผ ๋จ์ํ ๋ํํ ๋ชจ๋ธ์ด ์๋, ์์ ํ ์์ด์ ํธ๋ก ํ์ฉํ๊ธฐ ์ํ ํต์ฌ ํ๋กฌํํธ ํจํด๊ณผ ์ด์ ๊ธฐ๋ฒ์ ๋ชจ๋ ๋ด๊ณ ์์ต๋๋ค.
Agentic ํ์คํฌ, ์ฝ๋ ์์ฑ, ์ง์ ์ดํ, ์ถ๋ก ํจ์จ๊น์ง ๋ค๋ฃจ์์ผ๋ฏ๋ก, ์ค์ ์๋น์คยท๊ฐ๋ฐ ํ๊ฒฝ์์ ์ฆ์ ์ ์ฉ ๊ฐ๋ฅํฉ๋๋ค.
๊ฐ์ด๋๋ฅผ ๋ฐํ์ผ๋ก ์คํยทํ๋์ ๋ฐ๋ณตํ๋ฉด GPT-5์ ์ ์ฌ๋ ฅ์ ๊ทน๋ํํ ์ ์์ต๋๋ค.
์ฝ์ด์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค โญ