Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.5 · Урок 1

Российский стек: SpeechKit, Cloud AI Studio, SaluteSpeech

30 мин
v.5 / Урок 1 из 3

Чему вы научитесь

  • Понимать, зачем для РФ нужен отдельный стек
  • Ориентироваться в предложениях Yandex для голосовых агентов
  • Знать про SaluteSpeech и относиться к нему критически
  • Понимать особенности биллинга российских сервисов
  • Связывать выбор стека с приватностью и законом

Зачем отдельный стек для РФ

Технология голосовых агентов одинакова везде, но два фактора заставляют смотреть на российский стек отдельно.

Первый — русский язык: западные STT/TTS часто слабее на русском (об этом был урок v.4/03). Второй — данные и закон: персональные данные россиян по 152-ФЗ во многих случаях должны храниться в РФ, а зарубежные API бывают недоступны без VPN и неудобны в оплате.

Yandex SpeechKit и Cloud AI Studio

Самый зрелый российский вариант — экосистема Yandex Cloud.

  • Yandex SpeechKit — распознавание и синтез речи с фокусом на русский язык (сервис).
  • Yandex Cloud AI Studio документирует realtime голосовых агентов (docs) — то есть realtime-режим здесь не теория, а описанная возможность.

Это даёт связку «русский STT/TTS + realtime-агент + данные в РФ» в одном облаке, что закрывает сразу и язык, и приватность.

SaluteSpeech от Сбера

Второй крупный игрок — SaluteSpeech (экосистема Сбера, рядом с GigaChat). Это технологии распознавания и синтеза речи на русском.

Биллинг: считается иначе

У российских сервисов своя логика тарификации, которую важно учесть в расчёте из урока v.1/03.

Например, у Yandex SpeechKit распознавание тарифицируется за сегменты (биллинг ASR идёт за 15-секундный сегмент аудио), а не за «минуту разговора» целиком (Yandex pricing). Это меняет арифметику: короткие реплики и тишина считаются не так, как вы могли бы ожидать.

Как выбрать

Практическое правило для РФ-проекта:

  • Нужен русский язык и данные в РФ — начните с Yandex Cloud (SpeechKit плюс realtime-агенты в Cloud AI Studio).
  • Уже в экосистеме Сбера — посмотрите SaluteSpeech, но проверьте realtime.
  • Нужна полная локальность без облака вообще — вернитесь к offline-режиму active-call из урока v.3/03 и своим STT/TTS из v.4/03.

Какой бы стек вы ни выбрали, дальше идёт самое важное для РФ — право и согласие на запись. Этим займёмся в следующем уроке.


Следующий урок

Право и согласие: 152-ФЗ, автоинформатор, штрафы — разберём, как внедрять голосового агента, не нарушая закон.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.