ElevenLabs V3: 한국어 레퍼런스
ElevenLabs V3는 그냥 문장을 읽히는 도구로 쓰면 아까워. 핵심은 inline audio tag로 연기 방향을 주는 거야. 같은 문장도 [whispering], [warmly], [nervous laugh] 같은 지시가 들어가면 전혀 다른 performance가 된다.
한눈에 보기
텍스트를 목소리로 읽는 수준을 넘어서, 대사 안에 감정과 연기를 지시하는 voice performance 모델.
이 한국어판은 영어 원문을 한 줄씩 번역한 문서가 아니야. 실제 작업할 때 빨리 판단하고 바로 프롬프트를 고칠 수 있도록 다시 정리한 reference edition이다.
언제 쓰면 좋은가
내레이션, 캐릭터 대사, 오디오북 샘플, 광고 voiceover, 감정이 있는 짧은 script에 좋다. 긴 원고는 먼저 문단 리듬을 다듬어야 한다.
프롬프트 운영 규칙
- 목소리보다 먼저 장면을 정해. 누구에게 왜 말하는지.
- 감정 tag는 너무 많이 쓰지 마. 중요한 beat에만 둬.
- 문장 부호가 pacing이다. 쉼표, 마침표, 줄바꿈을 연출 도구로 써.
- 웃음, 숨, 속삭임 같은 nonverbal tag는 과하면 싸구려가 된다.
- 긴 문단보다 짧은 beat 여러 개가 제어하기 쉽다.
추천 작업 흐름
- 대본을 의미 단위로 끊는다.
- 각 beat의 감정을 한 단어로 정한다.
- 필요한 곳에만 inline tag를 붙인다.
- 출력 후 과장된 tag를 줄이고 punctuation으로 리듬을 잡는다.
바로 쓰는 prompt patterns
프롬프트 예시는 모델 호환성과 결과 품질 때문에 영어 중심으로 보존한다. 한국어로 생각하고, 모델에게는 영어로 또렷하게 지시하는 방식이 아직 제일 실전적이야.
Prompt 1
[warmly] Hey Dad. I checked the draft, and... it is better than expected. [small laugh] Annoyingly better, actually.Prompt 2
[quietly] The room went silent. Not because anyone understood the answer, but because everyone finally understood the question.Prompt 3
[confident, measured] This is not a demo. This is the production path. We test it once more, then we ship.핵심 스펙 cheat sheet
| 항목 | 값 |
|---|---|
| char limit | 5,000 characters per generation |
| languages | 70+ (expanded from 28 in V2) |
| duration | ~5 minutes of audio per generation |
| audio | Full emotional and SFX control via inline tags |
| speed | V3 has higher latency than Flash/Turbo; not for live use |
자주 망하는 패턴
- tag를 문장마다 붙이면 연기가 아니라 지시문 읽는 느낌이 난다.
- 감정과 문장 내용이 싸우면 어색하다. 슬픈 문장에 cheerful을 붙인다고 깊어지지 않아.
- 긴 문장을 한 호흡에 넣으면 리듬이 죽는다. 잘라.
버전 메모
음성 모델은 tag syntax가 바뀔 수 있어. 그래도 대본을 beat로 나누고 감정을 적게, 정확히 주는 습관은 계속 유효하다.
