Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.2

Realtime API под капотом

Как устроены speech-to-speech API на уровне протокола: WebSocket-сессия и PCM-аудио в Gemini Live, модели и ephemeral-токены в OpenAI Realtime, осознанный выбор между конвейером и realtime

3 уроков · ~1.5 часа

Уроки

  1. 1 Gemini Live API: WebSocket, PCM-аудио, barge-in
    30 мин
  2. 2 OpenAI Realtime (GA): модели, function tools, ephemeral-токены
    30 мин
  3. 3 Конвейер против realtime: когда что выбирать
    25 мин

Обзор модуля

No-code платформы прячут протокол за кнопками. Здесь мы его открываем. Этот модуль для тех, кто будет строить голосового агента кодом и хочет понимать, что именно летит по проводу между микрофоном и моделью.

Вы разберёте два канонических realtime API на официальных примерах, увидите, чем они отличаются, и научитесь осознанно выбирать между классическим конвейером и единой speech-to-speech моделью.

Что внутри

Базовый Python и терминал здесь пригодятся. Сначала Gemini Live API на официальных примерах Google, потом OpenAI Realtime в статусе GA, и в конце — архитектурный выбор: контроль и цена против естественности диалога.

Уроки модуля

Как проходить

  • Держите рядом официальные репозитории примеров: код в уроках опирается на них
  • Версии моделей и имена эндпоинтов проверяйте в документации вендора — они меняются чаще, чем выходит обновление курса
  • Финальный урок про выбор архитектуры вернётся к вам в модулях v.3 и v.4

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.