Модуль v.0 · Урок 2
Анатомия звонка: конвейер против speech-to-speech
Чему вы научитесь
- Называть все звенья голосового агента и понимать роль каждого
- Различать классический конвейер и единую speech-to-speech модель
- Объяснять, что такое латентность и turn-taking
- Понимать, почему порог около 800 мс — граница «живого» диалога
- Выбирать словарь, на котором говорит весь остальной трек
Звонок как конвейер
Классический голосовой агент собран из нескольких звеньев, через которые последовательно проходит звук.
flowchart LR
A[Микрофон / телефон] --> B[VAD: детектор речи]
B --> C[STT / ASR: речь в текст]
C --> D[LLM: понимание и ответ]
D --> E[TTS: текст в речь]
E --> F[Динамик / телефон]
- VAD (детектор голосовой активности) понимает, когда человек начал и закончил говорить.
- STT / ASR превращает речь в текст.
- LLM понимает запрос и формирует ответ текстом.
- TTS озвучивает ответ голосом.
- Транспорт доставляет звук: по телефонной сети (SIP), через браузер (WebRTC) или сырым аудиопотоком (WebSocket).
Плюс конвейера — контроль и дешевизна: каждое звено можно выбрать отдельно и поменять. Минус — задержки и ошибки накапливаются на каждом стыке.
Единая speech-to-speech модель
В 2024–2026 годах отрасль сдвинулась к другому подходу: единым realtime моделям, которые принимают звук и отдают звук напрямую, без распайки на STT, LLM и TTS.
Так работают OpenAI Realtime, Google Gemini Live и xAI Grok Voice. Они дают паузы, интонацию, перебивание и эмоциональную окраску, потому что не теряют звуковую информацию между звеньями.
| Подход | Сильные стороны | Слабые стороны |
|---|---|---|
| Конвейер (VAD-STT-LLM-TTS) | Контроль, дешевизна, замена любого звена | Накопление задержки и ошибок, менее естественно |
| Единая speech-to-speech | Естественность, паузы, barge-in, простота | Меньше контроля, привязка к вендору, цена |
Обе архитектуры сегодня живут параллельно. Выбор между ними — тема отдельного урока v.2/03.
Латентность и turn-taking
Главный инженерный вызов голосового агента — не «ум» модели, а задержка и естественная передача хода реплики (turn-taking).
Латентность — это время от момента, когда человек закончил говорить, до момента, когда агент начал отвечать. Turn-taking — это умение не перебивать собеседника и вовремя вступать в разговор.
Если агент думает дольше секунды, человек начинает говорить снова, переспрашивает или кладёт трубку. Поэтому в голосе борьба за миллисекунды важнее, чем борьба за пару баллов в бенчмарке модели.
Где здесь LLM
«Мозг» агента — это языковая модель. В конвейере вы вольны взять любую: Claude Opus 4.8 или 4.7, GPT-5.5 и GPT-5.5 Pro, Gemini 3.1 Pro, Grok 4.20, а из доступных в РФ моделей — GLM 5.1 или Kimi K2.6.
В единой speech-to-speech архитектуре модель встроена в API вендора и отдельно её не поменять. Это и есть та самая плата за естественность: вы получаете готовый голос, но теряете свободу выбора «мозга».
Следующий урок
Первый голосовой агент на готовой платформе — соберём рабочий демо-звонок без кода за один урок.