Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.4 · Урок 3

Свои STT и TTS, деплой на GPU

35 мин
v.4 / Урок 3 из 4

Чему вы научитесь

  • Понимать, зачем брать свои STT и TTS вместо облачных
  • Ориентироваться в моделях распознавания и синтеза речи
  • Видеть роль GPU и сервисов вроде RunPod
  • Взвешивать компромисс «контроль против сложности»
  • Понимать связь self-hosted голоса с приватностью в РФ

Зачем свой STT и TTS

В конвейере (урок v.0/02) распознавание и синтез — отдельные звенья. Облачные удобны, но у них три ограничения: цена на объёме, привязка к вендору и отправка аудио в чужой контур.

Собственные модели снимают эти ограничения ценой инженерной сложности. Это путь, когда у вас большой трафик, особые требования к голосу или данные нельзя отдавать наружу.

Модели распознавания (STT)

МодельЧем интересна
WhisperЭталон качества, много языков, тяжеловат для realtime
Faster-WhisperОптимизированный Whisper, заметно быстрее
MoonshineЛёгкая модель, заточена под низкую задержку

В курсе Neural Maze используют связку Moonshine и Faster-Whisper: лёгкую модель для скорости и более точную там, где это важно. Выбор STT — это снова борьба за задержку из урока v.0/02.

Модели синтеза (TTS)

МодельЧем интересна
KokoroЛёгкий и быстрый синтез, хорош для realtime
Orpheus 3BБолее крупная модель, выразительнее звучит

Здесь тот же компромисс: лёгкая модель даёт скорость, крупная — качество голоса. Для разных сценариев разумны разные модели, и иметь свой TTS означает, что вы можете выбирать, а не брать что дали.

Зачем GPU и что такое RunPod

Свои модели STT и TTS для realtime почти всегда требуют GPU: на процессоре они либо медленные, либо не тянут поток. Держать свою видеокарту дорого и не всегда нужно, поэтому берут аренду GPU по запросу.

RunPod — один из таких сервисов: вы поднимаете модель на арендованном GPU и платите за время работы. Это компромисс между «своё железо» и «облачный API»: контроль над моделью без покупки видеокарты.

Контроль против сложности

Своя связка STT/TTS — это всегда обмен.

  • Вы получаете: контроль над качеством и стоимостью, независимость от вендора, возможность держать аудио в своём контуре.
  • Вы платите: инженерными часами, эксплуатацией GPU, ответственностью за обновления и мониторинг моделей.

Связь с приватностью

Для РФ собственные STT/TTS — это в первую очередь про данные. Если аудио не уходит во внешнее облако, проще выполнить требования 152-ФЗ и работать с чувствительными звонками. Это тот же мотив, что и у offline-режима active-call из урока v.3/03.


Следующий урок

Observability и оценка качества диалогов — научимся измерять и улучшать агента, а не оценивать его на глаз.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.