Модуль v.2 · Урок 2
OpenAI Realtime (GA): модели, function tools, ephemeral-токены
Чему вы научитесь
- Понимать, что Realtime API вышел в GA и что это меняет
- Различать модели gpt-realtime и gpt-realtime-mini
- Подключать function tools, которые агент вызывает в разговоре
- Понимать лимиты сессии и зачем нужны ephemeral-токены
- Видеть различия между OpenAI Realtime и Gemini Live
- Знать про Grok Voice Agent API как третьего вендора, совместимого с протоколом OpenAI
Realtime API в статусе GA
OpenAI Realtime API перешёл из беты в general availability (GA). Для вас это значит стабильность интерфейса и готовность к продакшену, но и более жёсткую дисциплину версий: старые preview-модели снимаются.
Две модели: полная и mini
OpenAI предлагает два уровня realtime-моделей. Выбор — это привычный компромисс между качеством и ценой.
| Модель | Когда брать |
|---|---|
gpt-realtime | Сложные диалоги, function calling, важно качество |
gpt-realtime-mini | Простые сценарии, высокий объём, важна цена |
На старте берите gpt-realtime, а на -mini переходите, когда поймёте,
что сценарий простой и трафик большой. Цену минуты считали в уроке
v.1/03.
Function tools в разговоре
Как и Gemini, OpenAI Realtime умеет вызывать ваши функции во время диалога. Вы описываете инструмент в конфигурации сессии, а модель сама решает, когда его дёрнуть, и вставляет результат в ответ голосом.
Настройка сессии с инструментом book_slot
После вызова ваш бэкенд возвращает результат, и агент озвучивает его. Именно так голос превращается в действие, а не в болтовню.
Лимиты сессии и ephemeral-токены
У realtime-сессий есть ограничения по длительности — это важно учитывать для долгих звонков. Конкретные лимиты сверяйте в документации вендора, они отличаются у разных моделей и тарифов.
Для работы из браузера, как и в Gemini, используйте ephemeral-токены: сервер выдаёт клиенту короткоживущий токен на сессию, а постоянный ключ никогда не попадает на фронтенд.
Чем отличается от Gemini Live
Концептуально оба API близки: постоянная сессия, потоковое аудио, function calling, ephemeral-токены. Различия — в деталях.
- Форматы и имена событий и параметров у вендоров свои.
- Модели: у OpenAI явное деление на полную и mini, у Gemini — семейство live-моделей.
- Экосистема: OpenAI плотнее интегрирован с остальными своими API, Gemini — с инфраструктурой Google.
Практический вывод: код под одного вендора не переносится к другому один в один, но ментальная модель одна. Освоив один, второй вы поймёте быстро.
Третий вендор: Grok Voice Agent API
В 2026 году у realtime-голоса появился третий крупный игрок — Grok Voice Agent API от xAI: speech-to-speech по WebSocket, низколатентная передача хода (turn-taking) и вызов инструментов, как у двух предыдущих (docs.x.ai).
Главное для нас — он совместим со спецификацией OpenAI Realtime API (x.ai). На практике это значит: код, написанный под OpenAI Realtime, переносится на Grok с минимальными правками, а готовый плагин для оркестратора LiveKit поставляется официально (docs.livekit.io). Это удачная иллюстрация того, что протокол realtime-голоса понемногу становится общим стандартом: освоив одного вендора, вы работаете со всеми тремя.
Следующий урок
Конвейер против realtime: когда что выбирать — сделаем осознанный архитектурный выбор.