Модуль v.4 · Урок 3

Свои STT и TTS, деплой на GPU

35 мин

Содержание

Чему вы научитесь
Зачем свой STT и TTS
Модели распознавания (STT)
Модели синтеза (TTS)
Зачем GPU и что такое RunPod
Контроль против сложности
Связь с приватностью
Следующий урок

v.4 / Урок 3 из 4

Чему вы научитесь

Понимать, зачем брать свои STT и TTS вместо облачных
Ориентироваться в моделях распознавания и синтеза речи
Видеть роль GPU и сервисов вроде RunPod
Взвешивать компромисс «контроль против сложности»
Понимать связь self-hosted голоса с приватностью в РФ

Зачем свой STT и TTS

В конвейере (урок v.0/02) распознавание и синтез — отдельные звенья. Облачные удобны, но у них три ограничения: цена на объёме, привязка к вендору и отправка аудио в чужой контур.

Собственные модели снимают эти ограничения ценой инженерной сложности. Это путь, когда у вас большой трафик, особые требования к голосу или данные нельзя отдавать наружу.

Модели распознавания (STT)

Модель	Чем интересна
Whisper	Эталон качества, много языков, тяжеловат для realtime
Faster-Whisper	Оптимизированный Whisper, заметно быстрее
Moonshine	Лёгкая модель, заточена под низкую задержку

В курсе Neural Maze используют связку Moonshine и Faster-Whisper: лёгкую модель для скорости и более точную там, где это важно. Выбор STT — это снова борьба за задержку из урока v.0/02.

Модели синтеза (TTS)

Модель	Чем интересна
Kokoro	Лёгкий и быстрый синтез, хорош для realtime
Orpheus 3B	Более крупная модель, выразительнее звучит

Здесь тот же компромисс: лёгкая модель даёт скорость, крупная — качество голоса. Для разных сценариев разумны разные модели, и иметь свой TTS означает, что вы можете выбирать, а не брать что дали.

Зачем GPU и что такое RunPod

Свои модели STT и TTS для realtime почти всегда требуют GPU: на процессоре они либо медленные, либо не тянут поток. Держать свою видеокарту дорого и не всегда нужно, поэтому берут аренду GPU по запросу.

RunPod — один из таких сервисов: вы поднимаете модель на арендованном GPU и платите за время работы. Это компромисс между «своё железо» и «облачный API»: контроль над моделью без покупки видеокарты.

Контроль против сложности

Своя связка STT/TTS — это всегда обмен.

Вы получаете: контроль над качеством и стоимостью, независимость от вендора, возможность держать аудио в своём контуре.
Вы платите: инженерными часами, эксплуатацией GPU, ответственностью за обновления и мониторинг моделей.

Связь с приватностью

Для РФ собственные STT/TTS — это в первую очередь про данные. Если аудио не уходит во внешнее облако, проще выполнить требования 152-ФЗ и работать с чувствительными звонками. Это тот же мотив, что и у offline-режима active-call из урока v.3/03.

Следующий урок

Observability и оценка качества диалогов — научимся измерять и улучшать агента, а не оценивать его на глаз.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Свои STT и TTS, деплой на GPU

Production-grade агент

Чему вы научитесь

Зачем свой STT и TTS

Модели распознавания (STT)

Модели синтеза (TTS)

Зачем GPU и что такое RunPod

Контроль против сложности

Связь с приватностью

Следующий урок

Урок 3: Железо под модели — от ноутбука инженера до кластера H100

Голосовой агент поверх Asterisk на AVA

// Обсуждение

Чему вы научитесь

Зачем свой STT и TTS

Модели распознавания (STT)

Модели синтеза (TTS)

Зачем GPU и что такое RunPod

Контроль против сложности

Связь с приватностью

Следующий урок

Связанные уроки

Урок 3: Железо под модели — от ноутбука инженера до кластера H100

Голосовой агент поверх Asterisk на AVA

// Обсуждение