Модуль v.2 · Урок 2

OpenAI Realtime (GA): модели, function tools, ephemeral-токены

30 мин

Содержание

Чему вы научитесь
Realtime API в статусе GA
Две модели: полная и mini
Function tools в разговоре
Лимиты сессии и ephemeral-токены
Чем отличается от Gemini Live
Третий вендор: Grok Voice Agent API
Следующий урок

v.2 / Урок 2 из 3

Чему вы научитесь

Понимать, что Realtime API вышел в GA и что это меняет
Различать модели gpt-realtime и gpt-realtime-mini
Подключать function tools, которые агент вызывает в разговоре
Понимать лимиты сессии и зачем нужны ephemeral-токены
Видеть различия между OpenAI Realtime и Gemini Live
Знать про Grok Voice Agent API как третьего вендора, совместимого с протоколом OpenAI

Realtime API в статусе GA

OpenAI Realtime API перешёл из беты в general availability (GA). Для вас это значит стабильность интерфейса и готовность к продакшену, но и более жёсткую дисциплину версий: старые preview-модели снимаются.

Две модели: полная и mini

OpenAI предлагает два уровня realtime-моделей. Выбор — это привычный компромисс между качеством и ценой.

Модель	Когда брать
`gpt-realtime`	Сложные диалоги, function calling, важно качество
`gpt-realtime-mini`	Простые сценарии, высокий объём, важна цена

На старте берите gpt-realtime, а на -mini переходите, когда поймёте, что сценарий простой и трафик большой. Цену минуты считали в уроке v.1/03.

Function tools в разговоре

Как и Gemini, OpenAI Realtime умеет вызывать ваши функции во время диалога. Вы описываете инструмент в конфигурации сессии, а модель сама решает, когда его дёрнуть, и вставляет результат в ответ голосом.

Настройка сессии с инструментом book_slot

Наведите на строку — увидите объяснение

json

Код

На простом языке

{ "type": "session.update", "session": {

Обновляем конфигурацию живой сессии одним событием

"instructions": "Ты ассистент сервиса. Отвечай коротко.",

Инструкции задают персону агента, как системный промпт

"tools": [{

Список инструментов, доступных агенту в разговоре

"type": "function", "name": "book_slot",

Объявляем инструмент-функцию записи на слот

"description": "Записать клиента на свободный слот",

По описанию модель понимает, когда вызвать book_slot

"parameters": { "type": "object", "properties": {

Схема параметров, которые модель извлечёт из разговора

"date": { "type": "string" },

Дата записи — агент вытащит её из реплики клиента

"service": { "type": "string" } } }

Услуга — второй параметр, тоже из разговора

}] } }

Закрываем инструмент, список и конфигурацию сессии

Нажмите на строку — увидите объяснение

После вызова ваш бэкенд возвращает результат, и агент озвучивает его. Именно так голос превращается в действие, а не в болтовню.

Лимиты сессии и ephemeral-токены

У realtime-сессий есть ограничения по длительности — это важно учитывать для долгих звонков. Конкретные лимиты сверяйте в документации вендора, они отличаются у разных моделей и тарифов.

Для работы из браузера, как и в Gemini, используйте ephemeral-токены: сервер выдаёт клиенту короткоживущий токен на сессию, а постоянный ключ никогда не попадает на фронтенд.

Чем отличается от Gemini Live

Концептуально оба API близки: постоянная сессия, потоковое аудио, function calling, ephemeral-токены. Различия — в деталях.

Форматы и имена событий и параметров у вендоров свои.
Модели: у OpenAI явное деление на полную и mini, у Gemini — семейство live-моделей.
Экосистема: OpenAI плотнее интегрирован с остальными своими API, Gemini — с инфраструктурой Google.

Практический вывод: код под одного вендора не переносится к другому один в один, но ментальная модель одна. Освоив один, второй вы поймёте быстро.

Третий вендор: Grok Voice Agent API

В 2026 году у realtime-голоса появился третий крупный игрок — Grok Voice Agent API от xAI: speech-to-speech по WebSocket, низколатентная передача хода (turn-taking) и вызов инструментов, как у двух предыдущих (docs.x.ai).

Главное для нас — он совместим со спецификацией OpenAI Realtime API (x.ai). На практике это значит: код, написанный под OpenAI Realtime, переносится на Grok с минимальными правками, а готовый плагин для оркестратора LiveKit поставляется официально (docs.livekit.io). Это удачная иллюстрация того, что протокол realtime-голоса понемногу становится общим стандартом: освоив одного вендора, вы работаете со всеми тремя.

Ключевые выводы

Realtime API от OpenAI в GA: интерфейс стабилен, но старые preview-модели удалены
gpt-realtime — для качества и сложных диалогов, gpt-realtime-mini — для объёма и цены
Function tools позволяют агенту вызывать ваш бэкенд прямо в разговоре
У сессий есть лимиты длительности; в браузере нужны ephemeral-токены
OpenAI Realtime и Gemini Live концептуально близки, различия — в деталях протокола
Grok Voice Agent API совместим со спецификацией OpenAI Realtime — третий вендор того же протокола

Следующий урок

Конвейер против realtime: когда что выбирать — сделаем осознанный архитектурный выбор.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.