Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.0 · Урок 2

Анатомия звонка: конвейер против speech-to-speech

25 мин
v.0 / Урок 2 из 2

Чему вы научитесь

  • Называть все звенья голосового агента и понимать роль каждого
  • Различать классический конвейер и единую speech-to-speech модель
  • Объяснять, что такое латентность и turn-taking
  • Понимать, почему порог около 800 мс — граница «живого» диалога
  • Выбирать словарь, на котором говорит весь остальной трек

Звонок как конвейер

Классический голосовой агент собран из нескольких звеньев, через которые последовательно проходит звук.

flowchart LR
    A[Микрофон / телефон] --> B[VAD: детектор речи]
    B --> C[STT / ASR: речь в текст]
    C --> D[LLM: понимание и ответ]
    D --> E[TTS: текст в речь]
    E --> F[Динамик / телефон]
  • VAD (детектор голосовой активности) понимает, когда человек начал и закончил говорить.
  • STT / ASR превращает речь в текст.
  • LLM понимает запрос и формирует ответ текстом.
  • TTS озвучивает ответ голосом.
  • Транспорт доставляет звук: по телефонной сети (SIP), через браузер (WebRTC) или сырым аудиопотоком (WebSocket).

Плюс конвейера — контроль и дешевизна: каждое звено можно выбрать отдельно и поменять. Минус — задержки и ошибки накапливаются на каждом стыке.

Единая speech-to-speech модель

В 2024–2026 годах отрасль сдвинулась к другому подходу: единым realtime моделям, которые принимают звук и отдают звук напрямую, без распайки на STT, LLM и TTS.

Так работают OpenAI Realtime, Google Gemini Live и xAI Grok Voice. Они дают паузы, интонацию, перебивание и эмоциональную окраску, потому что не теряют звуковую информацию между звеньями.

ПодходСильные стороныСлабые стороны
Конвейер (VAD-STT-LLM-TTS)Контроль, дешевизна, замена любого звенаНакопление задержки и ошибок, менее естественно
Единая speech-to-speechЕстественность, паузы, barge-in, простотаМеньше контроля, привязка к вендору, цена

Обе архитектуры сегодня живут параллельно. Выбор между ними — тема отдельного урока v.2/03.

Латентность и turn-taking

Главный инженерный вызов голосового агента — не «ум» модели, а задержка и естественная передача хода реплики (turn-taking).

Латентность — это время от момента, когда человек закончил говорить, до момента, когда агент начал отвечать. Turn-taking — это умение не перебивать собеседника и вовремя вступать в разговор.

Если агент думает дольше секунды, человек начинает говорить снова, переспрашивает или кладёт трубку. Поэтому в голосе борьба за миллисекунды важнее, чем борьба за пару баллов в бенчмарке модели.

Где здесь LLM

«Мозг» агента — это языковая модель. В конвейере вы вольны взять любую: Claude Opus 4.8 или 4.7, GPT-5.5 и GPT-5.5 Pro, Gemini 3.1 Pro, Grok 4.20, а из доступных в РФ моделей — GLM 5.1 или Kimi K2.6.

В единой speech-to-speech архитектуре модель встроена в API вендора и отдельно её не поменять. Это и есть та самая плата за естественность: вы получаете готовый голос, но теряете свободу выбора «мозга».


Следующий урок

Первый голосовой агент на готовой платформе — соберём рабочий демо-звонок без кода за один урок.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.