Голосовые и realtime-агенты
Как собрать голосового AI-агента, который принимает и совершает звонки: от no-code платформы за один вечер до телефонии на Asterisk и realtime API. Для малого и среднего бизнеса, интеграторов телефонии и продуктовых команд
Это трек про голосовых AI-агентов реального времени: программных собеседников, которые слушают, понимают и отвечают голосом в живом диалоге. Они принимают и совершают звонки, работают на первой линии поддержки, в продажах и на ресепшене 24/7.
Мы идём от ценности к инженерии: сначала собираем рабочий демо-звонок на готовой платформе без кода, потом разбираем realtime API «под капотом», подключаем агента к настоящей телефонии (SIP, Asterisk), доводим до production и заканчиваем российским стеком и правом. Опора — четыре разобранных open-source проекта, а не маркетинговые обещания.
Подойдёт, если вы
- Владелец малого или среднего бизнеса с входящими звонками
- Интегратор телефонии (Asterisk, FreePBX, SIP-транки)
- Разработчик или продакт, который собирает голосовой продукт
- Руководитель колл-центра или поддержки
- Просто хотите понять, как устроены голосовые AI-агенты
Что будет внутри
- Анатомия звонка: STT, LLM, TTS и единые speech-to-speech модели
- Латентность, turn-taking и порог «живого» диалога
- Первый агент на no-code за один урок
- Realtime API: Gemini Live и OpenAI Realtime
- Телефония: SIP/WebRTC, Asterisk, высокопроизводительный Rust-транспорт
- Российский стек, 152-ФЗ и согласие на запись
Что нужно для старта
- Понимание своего сценария звонков
- Для модулей v.0-v.1 программировать не надо
- Для v.2-v.4 пригодится базовый Python и терминал
- Компьютер с браузером, по желанию — SIP-транк для практики
- Курс бесплатный, регистрация не нужна
История обновлений
last update 29 мая 2026- 29 мая 2026Запуск трека
- 6 модулей, 18 уроков для малого и среднего бизнеса: поддержка, продажи, колл-центры
- Голосовые realtime-агенты: no-code старт, Realtime API, телефония (SIP/WebRTC), production
Раздел A · Основы и быстрый старт
Зачем бизнесу голосовой агент, как собрать первый демо-звонок без кода и как устроен realtime API «под капотом»
Введение: зачем бизнесу голосовой агент
Что такое realtime голосовой агент, где он приносит деньги и как устроен звонок: конвейер STT-LLM-TTS против единой speech-to-speech модели, латентность и turn-taking
Первый агент быстро (no/low-code)
Собрать рабочий демо-звонок на готовой платформе без кода, задать персону и сценарий, подключить function calling к внешнему API и посчитать экономику минуты разговора
Realtime API под капотом
Как устроены speech-to-speech API на уровне протокола: WebSocket-сессия и PCM-аудио в Gemini Live, модели и ephemeral-токены в OpenAI Realtime, осознанный выбор между конвейером и realtime
Раздел B · Телефония и продакшен
Как звонок доходит до агента, как встроить его в существующую АТС и как довести систему до боевой эксплуатации с наблюдаемостью и оценкой качества
Телефония и интеграция
Как звонок доходит до агента: SIP, WebRTC и PSTN, транки Twilio и Telnyx. Голосовой агент поверх Asterisk/FreePBX на проекте AVA и высокопроизводительный приватный транспорт на active-call (Rust)
Production-grade агент
По мотивам курса Neural Maze: двусторонняя телефония через Twilio и FastRTC, RAG по данным компании во время разговора, свои STT/TTS на GPU и observability с оценкой качества диалогов
Раздел C · Россия и право
Российский стек для русского языка и данных в РФ, требования 152-ФЗ и согласия на запись, финальный проект под выбранный бизнес-сценарий