Модуль v.5 · Урок 1
Российский стек: SpeechKit, Cloud AI Studio, SaluteSpeech
Чему вы научитесь
- Понимать, зачем для РФ нужен отдельный стек
- Ориентироваться в предложениях Yandex для голосовых агентов
- Знать про SaluteSpeech и относиться к нему критически
- Понимать особенности биллинга российских сервисов
- Связывать выбор стека с приватностью и законом
Зачем отдельный стек для РФ
Технология голосовых агентов одинакова везде, но два фактора заставляют смотреть на российский стек отдельно.
Первый — русский язык: западные STT/TTS часто слабее на русском (об этом был урок v.4/03). Второй — данные и закон: персональные данные россиян по 152-ФЗ во многих случаях должны храниться в РФ, а зарубежные API бывают недоступны без VPN и неудобны в оплате.
Yandex SpeechKit и Cloud AI Studio
Самый зрелый российский вариант — экосистема Yandex Cloud.
- Yandex SpeechKit — распознавание и синтез речи с фокусом на русский язык (сервис).
- Yandex Cloud AI Studio документирует realtime голосовых агентов (docs) — то есть realtime-режим здесь не теория, а описанная возможность.
Это даёт связку «русский STT/TTS + realtime-агент + данные в РФ» в одном облаке, что закрывает сразу и язык, и приватность.
SaluteSpeech от Сбера
Второй крупный игрок — SaluteSpeech (экосистема Сбера, рядом с GigaChat). Это технологии распознавания и синтеза речи на русском.
Биллинг: считается иначе
У российских сервисов своя логика тарификации, которую важно учесть в расчёте из урока v.1/03.
Например, у Yandex SpeechKit распознавание тарифицируется за сегменты (биллинг ASR идёт за 15-секундный сегмент аудио), а не за «минуту разговора» целиком (Yandex pricing). Это меняет арифметику: короткие реплики и тишина считаются не так, как вы могли бы ожидать.
Как выбрать
Практическое правило для РФ-проекта:
- Нужен русский язык и данные в РФ — начните с Yandex Cloud (SpeechKit плюс realtime-агенты в Cloud AI Studio).
- Уже в экосистеме Сбера — посмотрите SaluteSpeech, но проверьте realtime.
- Нужна полная локальность без облака вообще — вернитесь к offline-режиму active-call из урока v.3/03 и своим STT/TTS из v.4/03.
Какой бы стек вы ни выбрали, дальше идёт самое важное для РФ — право и согласие на запись. Этим займёмся в следующем уроке.
Следующий урок
Право и согласие: 152-ФЗ, автоинформатор, штрафы — разберём, как внедрять голосового агента, не нарушая закон.