Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.2 · Урок 2

OpenAI Realtime (GA): модели, function tools, ephemeral-токены

30 мин
v.2 / Урок 2 из 3

Чему вы научитесь

  • Понимать, что Realtime API вышел в GA и что это меняет
  • Различать модели gpt-realtime и gpt-realtime-mini
  • Подключать function tools, которые агент вызывает в разговоре
  • Понимать лимиты сессии и зачем нужны ephemeral-токены
  • Видеть различия между OpenAI Realtime и Gemini Live
  • Знать про Grok Voice Agent API как третьего вендора, совместимого с протоколом OpenAI

Realtime API в статусе GA

OpenAI Realtime API перешёл из беты в general availability (GA). Для вас это значит стабильность интерфейса и готовность к продакшену, но и более жёсткую дисциплину версий: старые preview-модели снимаются.

Две модели: полная и mini

OpenAI предлагает два уровня realtime-моделей. Выбор — это привычный компромисс между качеством и ценой.

МодельКогда брать
gpt-realtimeСложные диалоги, function calling, важно качество
gpt-realtime-miniПростые сценарии, высокий объём, важна цена

На старте берите gpt-realtime, а на -mini переходите, когда поймёте, что сценарий простой и трафик большой. Цену минуты считали в уроке v.1/03.

Function tools в разговоре

Как и Gemini, OpenAI Realtime умеет вызывать ваши функции во время диалога. Вы описываете инструмент в конфигурации сессии, а модель сама решает, когда его дёрнуть, и вставляет результат в ответ голосом.

Настройка сессии с инструментом book_slot

json
Нажмите на строку — увидите объяснение

После вызова ваш бэкенд возвращает результат, и агент озвучивает его. Именно так голос превращается в действие, а не в болтовню.

Лимиты сессии и ephemeral-токены

У realtime-сессий есть ограничения по длительности — это важно учитывать для долгих звонков. Конкретные лимиты сверяйте в документации вендора, они отличаются у разных моделей и тарифов.

Для работы из браузера, как и в Gemini, используйте ephemeral-токены: сервер выдаёт клиенту короткоживущий токен на сессию, а постоянный ключ никогда не попадает на фронтенд.

Чем отличается от Gemini Live

Концептуально оба API близки: постоянная сессия, потоковое аудио, function calling, ephemeral-токены. Различия — в деталях.

  • Форматы и имена событий и параметров у вендоров свои.
  • Модели: у OpenAI явное деление на полную и mini, у Gemini — семейство live-моделей.
  • Экосистема: OpenAI плотнее интегрирован с остальными своими API, Gemini — с инфраструктурой Google.

Практический вывод: код под одного вендора не переносится к другому один в один, но ментальная модель одна. Освоив один, второй вы поймёте быстро.

Третий вендор: Grok Voice Agent API

В 2026 году у realtime-голоса появился третий крупный игрок — Grok Voice Agent API от xAI: speech-to-speech по WebSocket, низколатентная передача хода (turn-taking) и вызов инструментов, как у двух предыдущих (docs.x.ai).

Главное для нас — он совместим со спецификацией OpenAI Realtime API (x.ai). На практике это значит: код, написанный под OpenAI Realtime, переносится на Grok с минимальными правками, а готовый плагин для оркестратора LiveKit поставляется официально (docs.livekit.io). Это удачная иллюстрация того, что протокол realtime-голоса понемногу становится общим стандартом: освоив одного вендора, вы работаете со всеми тремя.


Следующий урок

Конвейер против realtime: когда что выбирать — сделаем осознанный архитектурный выбор.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.