Обзор модуля
No-code платформы прячут протокол за кнопками. Здесь мы его открываем. Этот модуль для тех, кто будет строить голосового агента кодом и хочет понимать, что именно летит по проводу между микрофоном и моделью.
Вы разберёте два канонических realtime API на официальных примерах, увидите, чем они отличаются, и научитесь осознанно выбирать между классическим конвейером и единой speech-to-speech моделью.
Что внутри
Базовый Python и терминал здесь пригодятся. Сначала Gemini Live API на официальных примерах Google, потом OpenAI Realtime в статусе GA, и в конце — архитектурный выбор: контроль и цена против естественности диалога.
Уроки модуля
Gemini Live API: WebSocket, PCM-аудио, barge-in— протокол speech-to-speech на официальном примереOpenAI Realtime (GA): модели, function tools, ephemeral-токены— второй вендор и различия между нимиКонвейер против realtime: когда что выбирать— осознанный архитектурный выбор
Как проходить
- Держите рядом официальные репозитории примеров: код в уроках опирается на них
- Версии моделей и имена эндпоинтов проверяйте в документации вендора — они меняются чаще, чем выходит обновление курса
- Финальный урок про выбор архитектуры вернётся к вам в модулях v.3 и v.4