OpenAI 의 audio surface 셋 — TTS (gpt-4o-mini-tts, 텍스트 → 오디오), 전사 (gpt-4o-transcribe, 오디오 → 텍스트), Realtime (websocket, full-duplex 저지연 voice agent).
TTS — text-to-speech
client.audio.speech.create(model='gpt-4o-mini-tts', voice='nova', input='...'). MP3/Opus/WAV 출력. Voice 여러 옵션 — 캐릭터 톤 매칭에 사용.
전사 — speech-to-text
client.audio.transcriptions.create(model='gpt-4o-transcribe', file=...). WAV/MP3/M4A 등 입력. Word-level timestamp 옵션 — caption, search 에 활용.
Realtime — voice agent
Voice-in/voice-out 실시간 경험은 realtime websocket. 한 번의 connection 에 audio in 과 audio out 동시 — TTS + STT 분리보다 latency 낮아.
cwkPippa 가 어떤 TTS 쓰는지
cwkPippa 는 ElevenLabs (Joanne voice) 를 default — gpt-4o-mini-tts 보다 prosody 가 풍부. MD5 cache 로 같은 line 재생성 안 해. OpenAI TTS 는 ElevenLabs-quality 안 필요할 때 right default.