Python Streaming

generate_content_stream — 같은 인자, iterator 반환

Streaming method 가 non-streaming 과 나란히 살고 같은 인자 받음. 차이는 반환값뿐 — single GenerateContentResponse 대신 partial response 의 iterator (sync) 또는 async iterator (async) 받음.

기억할 패턴 세 개

Sync stream: for chunk in client.models.generate_content_stream(...)
Async stream: async for chunk in await client.aio.models.generate_content_stream(...) (호출 자체에 await 후 async for)
Streaming chat: chat.send_message_stream(...) / chat.aio.send_message_stream(...)

진행하면서 concat, 마지막에 usage 잡아

각 chunk 의 chunk.text 가 그 slice 의 partial text. Full reply 로 concat. usage_metadata 는 final chunk 에만 — iterate 하면서 lazy 하게 capture.

Multimodal 도 같은 방식으로 stream

Image, 업로드된 파일, non-streaming 에서 쓸 multi-part contents 어느 거나 pass 가능. 모델이 첫 text 토큰 생산하자마자 stream 시작.

Code

Sync streaming·python

from google import genai

client = genai.Client()

for chunk in client.models.generate_content_stream(
    model='gemini-2.5-flash',
    contents='Tell me a 200-word story about a coffee scale.',
):
    if chunk.text:
        print(chunk.text, end='', flush=True)
print()  # final newline

Async streaming with usage capture·python

import asyncio
from google import genai

client = genai.Client()

async def stream_with_usage():
    full_text = []
    final_usage = None

    async for chunk in await client.aio.models.generate_content_stream(
        model='gemini-2.5-flash',
        contents='Write a 300-word story about an octopus learning JavaScript.',
    ):
        if chunk.text:
            print(chunk.text, end='', flush=True)
            full_text.append(chunk.text)
        if chunk.usage_metadata:
            final_usage = chunk.usage_metadata

    print(f'\n\n[total tokens: {final_usage.total_token_count}]')
    return ''.join(full_text)

asyncio.run(stream_with_usage())

Streaming chat·python

chat = client.chats.create(model='gemini-2.5-flash')

for chunk in chat.send_message_stream('Tell me a haiku.'):
    if chunk.text:
        print(chunk.text, end='', flush=True)
print()

for chunk in chat.send_message_stream('And another.'):
    if chunk.text:
        print(chunk.text, end='', flush=True)
print()

Image input 으로 streaming·python

from google.genai import types

for chunk in client.models.generate_content_stream(
    model='gemini-2.5-flash',
    contents=[
        'Describe what's happening in this image:',
        types.Part.from_uri(
            file_uri='gs://my-bucket/cafe.jpg',
            mime_type='image/jpeg',
        ),
    ],
):
    if chunk.text:
        print(chunk.text, end='', flush=True)

generate_content_stream — 같은 인자, iterator 반환

기억할 패턴 세 개

진행하면서 concat, 마지막에 usage 잡아

Multimodal 도 같은 방식으로 stream

Code

External links

Exercise

Progress

댓글 0