Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.2 · Урок 3

Конвейер против realtime: когда что выбирать

25 мин
v.2 / Урок 3 из 3

Чему вы научитесь

  • Сводить выбор архитектуры к нескольким понятным критериям
  • Понимать, когда конвейер выигрывает у realtime и наоборот
  • Пользоваться деревом решений для своего сценария
  • Видеть гибридные варианты между двумя крайностями
  • Знать готовые фреймворки оркестрации (LiveKit Agents, Pipecat, TEN)
  • Связывать выбор с приватностью и доступностью в РФ

Две архитектуры, один вопрос

В уроке v.0/02 мы развели два подхода: классический конвейер (VAD, STT, LLM, TTS отдельными звеньями) и единую speech-to-speech модель. Теперь решаем, что выбрать под задачу.

Спойлер: универсального ответа нет. Но есть несколько критериев, которые почти всегда дают однозначный ответ для конкретного сценария.

Критерии выбора

КритерийСклоняет к конвейеруСклоняет к realtime
Естественность диалогаДостаточно деловойНужны паузы, интонация, эмоции
Контроль над звеньямиХочу менять STT/LLM/TTS отдельноГотов взять готовый стек вендора
Цена при объёмеНужна экономия на масштабеГотов платить за простоту
Приватность и данныеДанные нельзя в облакоОблако приемлемо
Язык и локализацияНужен особый STT/TTSХватает того, что даёт вендор
Скорость запускаЕсть время на сборкуНужно быстро

Если большинство галочек слева — берите конвейер. Если справа — единую realtime-модель.

Дерево решений

flowchart TD
    A{Нужна максимальная естественность?} -->|Да| B{Облако и привязка к вендору ок?}
    A -->|Нет| C{Данные можно отдавать в облако?}
    B -->|Да| R[Единая realtime-модель]
    B -->|Нет| P[Конвейер с локальными STT/TTS]
    C -->|Да| D{Важна цена на большом объёме?}
    C -->|Нет| P
    D -->|Да| P
    D -->|Нет| R

Дерево упрощает реальность, но задаёт правильный порядок вопросов: сначала естественность, потом приватность, потом цена.

Гибрид: лучшее из двух миров

Выбор не бинарный. На практике часто берут гибрид:

  • Realtime для разговора, конвейерные инструменты вокруг. Speech-to-speech ведёт диалог, а транскрипцию, аналитику и запись делают отдельные сервисы.
  • Конвейер с быстрым TTS. Берут конвейер ради контроля, но ставят особенно быстрый синтез, чтобы добрать естественность.
  • Разные сценарии — разные архитектуры. Простой FAQ-агент на дешёвом конвейере, сложные продажи — на realtime.

На чём собирать: фреймворки оркестрации

Собирать конвейер или гибрид с нуля не нужно — есть зрелые open-source фреймворки, которые скрепляют звенья (VAD, STT, LLM, TTS или realtime-модель), добавляют телефонию, прерывания и управление сессией:

  • LiveKit Agents (github) — самый популярный фреймворк, основа для self-hosted голосовых агентов; именно через его плагины подключают realtime-модели разных вендоров.
  • Pipecat от Daily (github) — гибкий конвейерный фреймворк, удобен для покомпонентной сборки.
  • TEN — ещё один open-source фреймворк того же класса.

По замерам Hamming AI на 4 млн звонков готовые фреймворки дают end-to-end задержку порядка 750–950 мс (требует проверки под вашу нагрузку) — то есть приемлемую естественность достигают без сборки с нуля.

Как не ошибиться

Главная ошибка — выбирать архитектуру по моде, а не по сценарию. «Все берут realtime, возьму и я» приводит к привязке к вендору там, где хватило бы дешёвого конвейера, и наоборот.

Сделайте проще: пройдите дерево решений с реальными ответами про свой бизнес. В большинстве случаев оно даст ясный ответ за минуту.


Следующий урок

SIP, WebRTC и PSTN: как звонок доходит до агента — разберём транспортный слой телефонии.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.