GPT Image 2: 한국어 레퍼런스
한눈에 보기
긴 지시를 정확히 반영하고, 이미지 속 글자를 거의 정확하게 써주고, 얼굴이나 제품을 그대로 유지하면서 편집하는 데 강한 모델이야. GPT-5.4를 바탕으로 돌아가고, DALL·E 3과 GPT Image 1.5를 둘 다 대체한다.
이 한국어판은 영어 원문을 한 줄씩 옮긴 번역본이 아니야. 실제 작업할 때 빨리 판단하고 바로 프롬프트를 고칠 수 있게 다시 정리한 reference edition이다. 전체 디테일이 필요하면 영어 가이드를 같이 봐.
언제 쓰면 좋은가
복잡한 레이아웃, 글자가 많은 이미지(인포그래픽·포스터·UI 목업), 얼굴이나 제품을 그대로 유지해야 하는 편집, 다국어 텍스트에 강해. 반대로 가볍게 수십 장 던져보는 탐색은 quality를 low로 두고 빠르게 돌리면 된다. 투명 배경이 꼭 필요하면 GPT Image 1.5 쪽이 낫고, 여긴 불투명으로 뽑은 뒤 배경을 따로 지우는 흐름이야.
프롬프트 운영 규칙
- 먼저 결과물의 용도를 정해. 광고 키비주얼인지, 인포그래픽인지, 제품컷인지가 모델의 판단을 바꾼다.
- 바꿀 것과 그대로 둘 것을 분리해서 써. 편집할 때 "이것만 바꾸고 나머지는 똑같이"를 매번 다시 박아야 안 흔들린다.
- 이미지에 들어갈 글자는 따옴표로 감싸고 "그대로(verbatim)"라고 못박아. 폰트 스타일과 위치까지 주면 더 안정적이다.
- 조명과 카메라를 한 문장씩 줘. 다만 렌즈 스펙은 물리 시뮬레이션이 아니라 분위기 지시로 받아들인다는 걸 기억해.
- 사진 같은 리얼함을 원하면 photorealistic을 직접 박고, 자연스러운 다큐 느낌이면 cinematic 같은 보정 단어는 빼.
추천 작업 흐름
- 목표 장면을 한 문장으로 쓴다.
- 주체, 배경, 조명, 재질, 카메라를 각각 짧게 더한다.
- 반드시 지켜야 할 제약과 정확한 글자를 마지막에 따로 둔다.
- low로 초안을 여러 장 보고, 방향이 잡히면 high로 마무리한다.
- 틀린 부분은 새로 뽑지 말고 "이것만 바꿔" 식으로 편집한다.
바로 쓰는 prompt patterns
프롬프트 예시는 모델 호환성과 결과 품질 때문에 영어 중심으로 보존한다. 한국어로 생각하고, 모델에게는 영어로 또렷하게 지시하는 방식이 아직 제일 실전적이야. (이미지 안에 들어갈 한국어 글자 자체는 따옴표로 그대로 넣으면 잘 써준다.)
A photorealistic e-commerce hero shot of a matte black cold brew can with a minimalist cream-and-copper label, fresh condensation, on wet dark slate. Soft directional window light, one clean shadow, shallow depth of field, natural color balance. Generous negative space on the right for a headline. 4:5, high qualityA clean modern infographic titled, verbatim, "From Bean to Cup", showing a 5-step coffee process as labeled icons connected left to right. Dark navy background, white Inter font, warm amber accent lines. 16:9, high quality so the small labels stay legibleEdit the image: change only the jacket to charcoal wool. Keep her face, hair, skin tone, pose, and the background exactly the same. Match the original lighting and color temperature핵심 스펙 cheat sheet
| 항목 | 값 |
|---|---|
| 최대 해상도 | 최대 4K UHD (3840×2160), 총 8,294,400px 한도, 변 길이는 16의 배수 |
| quality | low / medium / high / auto |
| 출력 포맷 | png / jpeg / webp (투명 배경 미지원) |
| 텍스트 정확도 | ~99%, 한국어·일본어·중국어·힌디·벵골·아랍·라틴 |
| reasoning | 내장 (생성 전 thinking + 자기 점검) |
| 엔드포인트 | Image API, Responses API, Chat Completions |
자주 망하는 패턴
- 추상어만 던지면 모델이 평균값으로 도망간다. '멋있게' 말고 무엇이 멋있는지 써.
- photoreal과 일러스트를 한 프롬프트에 같이 요구하면 둘 다 어정쩡해진다. 스타일은 하나만 골라.
- 글자가 중요하면 따옴표로 감싸고 폰트·위치까지 지정해. 안 그러면 철자가 틀어진다.
- 편집할 때 지킬 것을 안 적으면 얼굴·옷·조명까지 같이 바뀐다. "나머지는 그대로"를 꼭 붙여.
- 전부 high로 돌리면 비용만 샌다. low로 탐색하고 살릴 컷만 high로 다시 뽑아.
버전 메모
이 가이드는 gpt-image-2 (2026-04-21 스냅샷) 기준이야. 핵심은 "또렷한 브리프 + 명확한 제약 + 그대로 둘 것 명시"를 모델이 어떻게 해석하게 만들지의 문제라, 후속 스냅샷이 나와도 접근법은 그대로 간다.
