Модуль v.4 · Урок 3
Свои STT и TTS, деплой на GPU
Чему вы научитесь
- Понимать, зачем брать свои STT и TTS вместо облачных
- Ориентироваться в моделях распознавания и синтеза речи
- Видеть роль GPU и сервисов вроде RunPod
- Взвешивать компромисс «контроль против сложности»
- Понимать связь self-hosted голоса с приватностью в РФ
Зачем свой STT и TTS
В конвейере (урок v.0/02) распознавание и синтез — отдельные звенья. Облачные удобны, но у них три ограничения: цена на объёме, привязка к вендору и отправка аудио в чужой контур.
Собственные модели снимают эти ограничения ценой инженерной сложности. Это путь, когда у вас большой трафик, особые требования к голосу или данные нельзя отдавать наружу.
Модели распознавания (STT)
| Модель | Чем интересна |
|---|---|
| Whisper | Эталон качества, много языков, тяжеловат для realtime |
| Faster-Whisper | Оптимизированный Whisper, заметно быстрее |
| Moonshine | Лёгкая модель, заточена под низкую задержку |
В курсе Neural Maze используют связку Moonshine и Faster-Whisper: лёгкую модель для скорости и более точную там, где это важно. Выбор STT — это снова борьба за задержку из урока v.0/02.
Модели синтеза (TTS)
| Модель | Чем интересна |
|---|---|
| Kokoro | Лёгкий и быстрый синтез, хорош для realtime |
| Orpheus 3B | Более крупная модель, выразительнее звучит |
Здесь тот же компромисс: лёгкая модель даёт скорость, крупная — качество голоса. Для разных сценариев разумны разные модели, и иметь свой TTS означает, что вы можете выбирать, а не брать что дали.
Зачем GPU и что такое RunPod
Свои модели STT и TTS для realtime почти всегда требуют GPU: на процессоре они либо медленные, либо не тянут поток. Держать свою видеокарту дорого и не всегда нужно, поэтому берут аренду GPU по запросу.
RunPod — один из таких сервисов: вы поднимаете модель на арендованном GPU и платите за время работы. Это компромисс между «своё железо» и «облачный API»: контроль над моделью без покупки видеокарты.
Контроль против сложности
Своя связка STT/TTS — это всегда обмен.
- Вы получаете: контроль над качеством и стоимостью, независимость от вендора, возможность держать аудио в своём контуре.
- Вы платите: инженерными часами, эксплуатацией GPU, ответственностью за обновления и мониторинг моделей.
Связь с приватностью
Для РФ собственные STT/TTS — это в первую очередь про данные. Если аудио не уходит во внешнее облако, проще выполнить требования 152-ФЗ и работать с чувствительными звонками. Это тот же мотив, что и у offline-режима active-call из урока v.3/03.
Следующий урок
Observability и оценка качества диалогов — научимся измерять и улучшать агента, а не оценивать его на глаз.