Модуль v.2 · Урок 3

Конвейер против realtime: когда что выбирать

25 мин

Содержание

Чему вы научитесь
Две архитектуры, один вопрос
Критерии выбора
Дерево решений
Гибрид: лучшее из двух миров
На чём собирать: фреймворки оркестрации
Как не ошибиться
Следующий урок

v.2 / Урок 3 из 3

Чему вы научитесь

Сводить выбор архитектуры к нескольким понятным критериям
Понимать, когда конвейер выигрывает у realtime и наоборот
Пользоваться деревом решений для своего сценария
Видеть гибридные варианты между двумя крайностями
Знать готовые фреймворки оркестрации (LiveKit Agents, Pipecat, TEN)
Связывать выбор с приватностью и доступностью в РФ

Две архитектуры, один вопрос

В уроке v.0/02 мы развели два подхода: классический конвейер (VAD, STT, LLM, TTS отдельными звеньями) и единую speech-to-speech модель. Теперь решаем, что выбрать под задачу.

Спойлер: универсального ответа нет. Но есть несколько критериев, которые почти всегда дают однозначный ответ для конкретного сценария.

Критерии выбора

Критерий	Склоняет к конвейеру	Склоняет к realtime
Естественность диалога	Достаточно деловой	Нужны паузы, интонация, эмоции
Контроль над звеньями	Хочу менять STT/LLM/TTS отдельно	Готов взять готовый стек вендора
Цена при объёме	Нужна экономия на масштабе	Готов платить за простоту
Приватность и данные	Данные нельзя в облако	Облако приемлемо
Язык и локализация	Нужен особый STT/TTS	Хватает того, что даёт вендор
Скорость запуска	Есть время на сборку	Нужно быстро

Если большинство галочек слева — берите конвейер. Если справа — единую realtime-модель.

Дерево решений

flowchart TD
    A{Нужна максимальная естественность?} -->|Да| B{Облако и привязка к вендору ок?}
    A -->|Нет| C{Данные можно отдавать в облако?}
    B -->|Да| R[Единая realtime-модель]
    B -->|Нет| P[Конвейер с локальными STT/TTS]
    C -->|Да| D{Важна цена на большом объёме?}
    C -->|Нет| P
    D -->|Да| P
    D -->|Нет| R

Дерево упрощает реальность, но задаёт правильный порядок вопросов: сначала естественность, потом приватность, потом цена.

Гибрид: лучшее из двух миров

Выбор не бинарный. На практике часто берут гибрид:

Realtime для разговора, конвейерные инструменты вокруг. Speech-to-speech ведёт диалог, а транскрипцию, аналитику и запись делают отдельные сервисы.
Конвейер с быстрым TTS. Берут конвейер ради контроля, но ставят особенно быстрый синтез, чтобы добрать естественность.
Разные сценарии — разные архитектуры. Простой FAQ-агент на дешёвом конвейере, сложные продажи — на realtime.

На чём собирать: фреймворки оркестрации

Собирать конвейер или гибрид с нуля не нужно — есть зрелые open-source фреймворки, которые скрепляют звенья (VAD, STT, LLM, TTS или realtime-модель), добавляют телефонию, прерывания и управление сессией:

LiveKit Agents (github) — самый популярный фреймворк, основа для self-hosted голосовых агентов; именно через его плагины подключают realtime-модели разных вендоров.
Pipecat от Daily (github) — гибкий конвейерный фреймворк, удобен для покомпонентной сборки.
TEN — ещё один open-source фреймворк того же класса.

По замерам Hamming AI на 4 млн звонков готовые фреймворки дают end-to-end задержку порядка 750–950 мс (требует проверки под вашу нагрузку) — то есть приемлемую естественность достигают без сборки с нуля.

Как не ошибиться

Главная ошибка — выбирать архитектуру по моде, а не по сценарию. «Все берут realtime, возьму и я» приводит к привязке к вендору там, где хватило бы дешёвого конвейера, и наоборот.

Сделайте проще: пройдите дерево решений с реальными ответами про свой бизнес. В большинстве случаев оно даст ясный ответ за минуту.

Ключевые выводы

Универсального ответа нет: выбор определяет конкретный сценарий
Конвейер даёт контроль, цену на объёме и приватность; realtime — естественность и скорость запуска
Дерево решений задаёт порядок вопросов: естественность, приватность, цена
Гибрид часто оптимален: realtime для диалога, конвейерные сервисы вокруг
Собирать с нуля не нужно: LiveKit Agents, Pipecat и TEN дают готовую оркестрацию
Для РФ приватность нередко перевешивает и смещает выбор к конвейеру с локальными STT/TTS

Следующий урок

SIP, WebRTC и PSTN: как звонок доходит до агента — разберём транспортный слой телефонии.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Конвейер против realtime: когда что выбирать

Realtime API под капотом

Чему вы научитесь

Две архитектуры, один вопрос

Критерии выбора

Дерево решений

Гибрид: лучшее из двух миров

На чём собирать: фреймворки оркестрации

Как не ошибиться

Следующий урок

Анатомия звонка: конвейер против speech-to-speech

Урок 3: Trading-as-Git и подтверждение человеком на OpenAlice

Сквозной пайплайн: Retriever, Reasoner, Tools, Report

Урок 5: Гибридные архитектуры — router, PII redaction, каскад, judge pattern

// Обсуждение

Чему вы научитесь

Две архитектуры, один вопрос

Критерии выбора

Дерево решений

Гибрид: лучшее из двух миров

На чём собирать: фреймворки оркестрации

Как не ошибиться

Следующий урок

Связанные уроки

Анатомия звонка: конвейер против speech-to-speech

Урок 3: Trading-as-Git и подтверждение человеком на OpenAlice

Сквозной пайплайн: Retriever, Reasoner, Tools, Report

Урок 5: Гибридные архитектуры — router, PII redaction, каскад, judge pattern

// Обсуждение