Realtime API под капотом

Как устроены speech-to-speech API на уровне протокола: WebSocket-сессия и PCM-аудио в Gemini Live, модели и ephemeral-токены в OpenAI Realtime, осознанный выбор между конвейером и realtime

3 уроков · ~1.5 часа

Обзор модуля

No-code платформы прячут протокол за кнопками. Здесь мы его открываем. Этот модуль для тех, кто будет строить голосового агента кодом и хочет понимать, что именно летит по проводу между микрофоном и моделью.

Вы разберёте два канонических realtime API на официальных примерах, увидите, чем они отличаются, и научитесь осознанно выбирать между классическим конвейером и единой speech-to-speech моделью.

Что внутри

Базовый Python и терминал здесь пригодятся. Сначала Gemini Live API на официальных примерах Google, потом OpenAI Realtime в статусе GA, и в конце — архитектурный выбор: контроль и цена против естественности диалога.

Уроки модуля

Gemini Live API: WebSocket, PCM-аудио, barge-in — протокол speech-to-speech на официальном примере
OpenAI Realtime (GA): модели, function tools, ephemeral-токены — второй вендор и различия между ними
Конвейер против realtime: когда что выбирать — осознанный архитектурный выбор

Как проходить

Держите рядом официальные репозитории примеров: код в уроках опирается на них
Версии моделей и имена эндпоинтов проверяйте в документации вендора — они меняются чаще, чем выходит обновление курса
Финальный урок про выбор архитектуры вернётся к вам в модулях v.3 и v.4

Уроки

Обзор модуля

Что внутри

Уроки модуля

Как проходить

// Обсуждение