Модуль v.2 · Урок 3
Конвейер против realtime: когда что выбирать
Чему вы научитесь
- Сводить выбор архитектуры к нескольким понятным критериям
- Понимать, когда конвейер выигрывает у realtime и наоборот
- Пользоваться деревом решений для своего сценария
- Видеть гибридные варианты между двумя крайностями
- Знать готовые фреймворки оркестрации (LiveKit Agents, Pipecat, TEN)
- Связывать выбор с приватностью и доступностью в РФ
Две архитектуры, один вопрос
В уроке v.0/02 мы развели два подхода: классический конвейер (VAD, STT, LLM, TTS отдельными звеньями) и единую speech-to-speech модель. Теперь решаем, что выбрать под задачу.
Спойлер: универсального ответа нет. Но есть несколько критериев, которые почти всегда дают однозначный ответ для конкретного сценария.
Критерии выбора
| Критерий | Склоняет к конвейеру | Склоняет к realtime |
|---|---|---|
| Естественность диалога | Достаточно деловой | Нужны паузы, интонация, эмоции |
| Контроль над звеньями | Хочу менять STT/LLM/TTS отдельно | Готов взять готовый стек вендора |
| Цена при объёме | Нужна экономия на масштабе | Готов платить за простоту |
| Приватность и данные | Данные нельзя в облако | Облако приемлемо |
| Язык и локализация | Нужен особый STT/TTS | Хватает того, что даёт вендор |
| Скорость запуска | Есть время на сборку | Нужно быстро |
Если большинство галочек слева — берите конвейер. Если справа — единую realtime-модель.
Дерево решений
flowchart TD
A{Нужна максимальная естественность?} -->|Да| B{Облако и привязка к вендору ок?}
A -->|Нет| C{Данные можно отдавать в облако?}
B -->|Да| R[Единая realtime-модель]
B -->|Нет| P[Конвейер с локальными STT/TTS]
C -->|Да| D{Важна цена на большом объёме?}
C -->|Нет| P
D -->|Да| P
D -->|Нет| R
Дерево упрощает реальность, но задаёт правильный порядок вопросов: сначала естественность, потом приватность, потом цена.
Гибрид: лучшее из двух миров
Выбор не бинарный. На практике часто берут гибрид:
- Realtime для разговора, конвейерные инструменты вокруг. Speech-to-speech ведёт диалог, а транскрипцию, аналитику и запись делают отдельные сервисы.
- Конвейер с быстрым TTS. Берут конвейер ради контроля, но ставят особенно быстрый синтез, чтобы добрать естественность.
- Разные сценарии — разные архитектуры. Простой FAQ-агент на дешёвом конвейере, сложные продажи — на realtime.
На чём собирать: фреймворки оркестрации
Собирать конвейер или гибрид с нуля не нужно — есть зрелые open-source фреймворки, которые скрепляют звенья (VAD, STT, LLM, TTS или realtime-модель), добавляют телефонию, прерывания и управление сессией:
- LiveKit Agents (github) — самый популярный фреймворк, основа для self-hosted голосовых агентов; именно через его плагины подключают realtime-модели разных вендоров.
- Pipecat от Daily (github) — гибкий конвейерный фреймворк, удобен для покомпонентной сборки.
- TEN — ещё один open-source фреймворк того же класса.
По замерам Hamming AI на 4 млн звонков готовые фреймворки дают end-to-end задержку порядка 750–950 мс (требует проверки под вашу нагрузку) — то есть приемлемую естественность достигают без сборки с нуля.
Как не ошибиться
Главная ошибка — выбирать архитектуру по моде, а не по сценарию. «Все берут realtime, возьму и я» приводит к привязке к вендору там, где хватило бы дешёвого конвейера, и наоборот.
Сделайте проще: пройдите дерево решений с реальными ответами про свой бизнес. В большинстве случаев оно даст ясный ответ за минуту.
Следующий урок
SIP, WebRTC и PSTN: как звонок доходит до агента — разберём транспортный слой телефонии.