Модуль v.0 · Урок 2

Анатомия звонка: конвейер против speech-to-speech

25 мин

Содержание

Чему вы научитесь
Звонок как конвейер
Единая speech-to-speech модель
Латентность и turn-taking
Где здесь LLM
Следующий урок

v.0 / Урок 2 из 2

Чему вы научитесь

Называть все звенья голосового агента и понимать роль каждого
Различать классический конвейер и единую speech-to-speech модель
Объяснять, что такое латентность и turn-taking
Понимать, почему порог около 800 мс — граница «живого» диалога
Выбирать словарь, на котором говорит весь остальной трек

Звонок как конвейер

Классический голосовой агент собран из нескольких звеньев, через которые последовательно проходит звук.

flowchart LR
    A[Микрофон / телефон] --> B[VAD: детектор речи]
    B --> C[STT / ASR: речь в текст]
    C --> D[LLM: понимание и ответ]
    D --> E[TTS: текст в речь]
    E --> F[Динамик / телефон]

VAD (детектор голосовой активности) понимает, когда человек начал и закончил говорить.
STT / ASR превращает речь в текст.
LLM понимает запрос и формирует ответ текстом.
TTS озвучивает ответ голосом.
Транспорт доставляет звук: по телефонной сети (SIP), через браузер (WebRTC) или сырым аудиопотоком (WebSocket).

Плюс конвейера — контроль и дешевизна: каждое звено можно выбрать отдельно и поменять. Минус — задержки и ошибки накапливаются на каждом стыке.

Единая speech-to-speech модель

В 2024–2026 годах отрасль сдвинулась к другому подходу: единым realtime моделям, которые принимают звук и отдают звук напрямую, без распайки на STT, LLM и TTS.

Так работают OpenAI Realtime, Google Gemini Live и xAI Grok Voice. Они дают паузы, интонацию, перебивание и эмоциональную окраску, потому что не теряют звуковую информацию между звеньями.

Подход	Сильные стороны	Слабые стороны
Конвейер (VAD-STT-LLM-TTS)	Контроль, дешевизна, замена любого звена	Накопление задержки и ошибок, менее естественно
Единая speech-to-speech	Естественность, паузы, barge-in, простота	Меньше контроля, привязка к вендору, цена

Обе архитектуры сегодня живут параллельно. Выбор между ними — тема отдельного урока v.2/03.

Латентность и turn-taking

Главный инженерный вызов голосового агента — не «ум» модели, а задержка и естественная передача хода реплики (turn-taking).

Латентность — это время от момента, когда человек закончил говорить, до момента, когда агент начал отвечать. Turn-taking — это умение не перебивать собеседника и вовремя вступать в разговор.

Если агент думает дольше секунды, человек начинает говорить снова, переспрашивает или кладёт трубку. Поэтому в голосе борьба за миллисекунды важнее, чем борьба за пару баллов в бенчмарке модели.

Где здесь LLM

«Мозг» агента — это языковая модель. В конвейере вы вольны взять любую: Claude Opus 4.8 или 4.7, GPT-5.5 и GPT-5.5 Pro, Gemini 3.1 Pro, Grok 4.20, а из доступных в РФ моделей — GLM 5.1 или Kimi K2.6.

В единой speech-to-speech архитектуре модель встроена в API вендора и отдельно её не поменять. Это и есть та самая плата за естественность: вы получаете готовый голос, но теряете свободу выбора «мозга».

Следующий урок

Первый голосовой агент на готовой платформе — соберём рабочий демо-звонок без кода за один урок.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Анатомия звонка: конвейер против speech-to-speech

Введение: зачем бизнесу голосовой агент

Чему вы научитесь

Звонок как конвейер

Единая speech-to-speech модель

Латентность и turn-taking

Где здесь LLM

Следующий урок

Конвейер против realtime: когда что выбирать

Урок 3: Trading-as-Git и подтверждение человеком на OpenAlice

Сквозной пайплайн: Retriever, Reasoner, Tools, Report

Урок 5: Гибридные архитектуры — router, PII redaction, каскад, judge pattern

// Обсуждение

Чему вы научитесь

Звонок как конвейер

Единая speech-to-speech модель

Латентность и turn-taking

Где здесь LLM

Следующий урок

Связанные уроки

Конвейер против realtime: когда что выбирать

Урок 3: Trading-as-Git и подтверждение человеком на OpenAlice

Сквозной пайплайн: Retriever, Reasoner, Tools, Report

Урок 5: Гибридные архитектуры — router, PII redaction, каскад, judge pattern

// Обсуждение