Модуль m.8 · Урок 3

Дубляж и локализация: ElevenLabs, Yandex SpeechKit, SaluteSpeech

30 мин

Содержание

Чему вы научитесь
Что стало возможно в 2026
Три сценария, три инструмента
Пайплайн дубляжа с сохранением голоса
Промпт для AI-перевода, который не ломает стиль
Юридические нюансы: что можно и что нельзя
Когда AI-дубляж не подходит
Русский контекст и практика 2026
Практика на 45 минут
Главное

m.8 / Урок 3 из 4

Чему вы научитесь

Собирать пайплайн дубляжа часового материала за 15–20 минут вместо студийного дня
Выбирать между ElevenLabs, HeyGen, Yandex SpeechKit и SaluteSpeech под задачу и бюджет
Писать промпт для AI-перевода, который не ломает стиль и термины
Понимать юридические границы: 152-ФЗ про биометрию голоса и законопроекты о дипфейках 2024–2026
Знать, где AI-дубляж ломается и когда лучше не пытаться

Что стало возможно в 2026

Раньше дубляж одной минуты видео стоил 30 минут работы студии: переводчик, редактор, диктор, звукорежиссёр, сведение. Сейчас пайплайн другой: загружаете исходник → AI клонирует голос → синтезирует ту же дикцию на другом языке → липсинк подгоняет губы под новый текст. 60 минут видео — 15–20 минут обработки.

Качество 2026 таково, что неподготовленный слушатель не отличит AI-дубляж от человеческого на коротких фрагментах. На длинных AI всё ещё «плывёт» на эмоциях, но для новостей, объяснялок и туториалов — уже рабочий инструмент.

Три сценария, три инструмента

ElevenLabs — золотой стандарт качества. Instant Voice Clone на 1-минутной выборке чистой речи или Professional Voice Clone на получасе записи. Multilingual v2 модель синтезирует в 29+ языках, включая русский, английский, немецкий, испанский, французский, японский, китайский, арабский. Русское качество — одно из лучших на рынке, сохраняет интонацию и эмоцию. Тарифы: Starter $5/мес (30k кредитов ≈ 30 минут TTS), Creator $22/мес (100k кредитов + Professional Voice Cloning), Pro $99/мес (500k кредитов ≈ 500 минут), далее Scale $330/мес и Business $1 320/мес. Из РФ работает через VPN или через посредников вроде arckep.ru с оплатой рублями.

HeyGen Video Translate — для видео с лицом в кадре. Переводит аудио и одновременно двигает губы под новый язык: артикуляция совпадает с озвучкой. Поддержка 175+ языков, русский среди них. Цена: Creator $29/мес ($24 при годовой оплате, 200 кредитов), Team $39 за seat/мес (минимум 2 seats); отдельно — $0,0375 за секунду обработанного видео. Audio Dubbing без липсинка дешевле и безлимитен на платных тарифах; Video Dubbing с липсинком расходует кредиты. Главный use case — когда герой в кадре, нельзя спрятать лицо за скринкастом.

Yandex SpeechKit и Сбер SaluteSpeech — российские альтернативы. Оба — без VPN, оплата рублями, данные в РФ. Yandex SpeechKit Brand Voice Lite строит уникальный голос на 30 минутах размеченного аудио; Premium-тир — на нескольких часах для эталонного качества. SaluteSpeech YourVoice от Сбера требует несколько часов записи диктора и около месяца на обучение модели, зато на выходе даёт фирменный голос для бизнеса с поддержкой русского. Для быстрого клонирования у Сбера есть отдельный продукт — SaluteSpeech VoiceCloning, работающий на нескольких секундах эталонной речи. Для русско-английских пар SpeechKit и SaluteSpeech сопоставимы с ElevenLabs на обычном контенте; для редких языков и эмоционально насыщенной речи ElevenLabs впереди.

Инструмент	Языки	Цена входа	Русский	Данные / юридика
ElevenLabs	29+	$5/мес Starter	Отличный	Серверы США/ЕС, оплата через посредников
HeyGen Video Translate	175+	$29/мес Creator	Хороший	Серверы США, коммерческая лицензия на платных
Yandex SpeechKit	ru/en/kz и соседние	Pay-as-you-go, от ~400 ₽/час	Эталонный	Яндекс.Облако, данные в РФ
Сбер SaluteSpeech	ru/en/kz	Enterprise-договор	Эталонный	Серверы в РФ, коммерческий контур
Whisper + Coqui XTTS (self-hosted)	100+ распознавание / 16 синтез	0 ₽ (GPU свой)	Средний на synthesis	Свой сервер, полный контроль

Пайплайн дубляжа с сохранением голоса

Шесть шагов от исходника к готовому дубляжу — пайплайн, который работает с любым из инструментов выше, меняется только этап синтеза.

Пайплайн: русское видео → английская озвучка с тем же голосом

Наведите на строку — увидите объяснение

text

Код

На простом языке

1. Транскрипция. Whisper large-v3 локально → SRT с таймкодами.

Локально — не отдаёте аудио героя в облачный API. Whisper large-v3 даёт 92–95% точности на русском (M.5.2).

2. Перевод текста. Claude Sonnet 4.6 через arckep.ru → редактура человеком.

Машинный перевод добавляет обороты, которые носитель не говорит. Редактор снимает кальку за 10 минут на минуту аудио.

3. Клонирование голоса. ElevenLabs Voice Clone, 1 минута чистой речи без музыки и шума.

Записать можно фразу «Я даю согласие на клонирование моего голоса для дубляжа» — заодно фиксация согласия.

4. Синтез. Загружаете английский текст → тот же голос читает на английском.

Multilingual v2 сохраняет тембр и базовые интонации. Эмоционально сильные моменты могут потребовать ручной правки SSML.

5. Синхронизация. Наложение на видео в Descript (M.5.4), CapCut или Premiere.

Если исходник — говорящая голова, добавьте HeyGen Lip Sync поверх — губы двигаются под английский.

6. QA. Прослушать целиком, поправить 3–5 странных фраз через regeneration.

Всегда будут 2–3 места с дикими интонациями. Лечится пересинтезом фрагмента с другим seed или с переписанным текстом.

Нажмите на строку — увидите объяснение

Тайминг на 10-минутное видео: транскрипция 3 минуты, перевод + редактура 20 минут, клонирование 2 минуты, синтез 5 минут, синхронизация 15 минут, QA 10 минут. Итого около часа против 5–6 часов студийной работы.

Промпт для AI-перевода, который не ломает стиль

Машинный перевод без контекста выдаёт кальку и теряет термины. Claude Sonnet 4.6 с правильным промптом даёт 80% готового результата — редактор доводит за 20 минут вместо часа.

Промпт для перевода подкаста ru → en с сохранением стиля

Наведите на строку — увидите объяснение

text

Код

На простом языке

Ты переводишь подкаст о продуктовом менеджменте с русского на английский.

Назначили домен — термины будут корректными (retention, а не «удержание»).

Стиль: разговорный, как между коллегами. Не академический.

Подкаст — не академия. Без «thus» и «therefore», с контракциями (we're, don't).

НЕ переводить: имена людей, названия компаний, продукты, технические термины (API, SDK, retention, churn).

Частая ошибка — перевести «Retention растёт» как «Holding grows». Список исключений решает это.

Длина перевода ±10% от оригинала — дубляж должен попадать в тайминг.

Английский короче русского на 20%, если не следить — дубляж будет «обгонять» видео.

Формат вывода: SRT с теми же таймкодами, что в исходнике.

SRT сохраняет разбивку — синтез по фразам с паузами звучит естественнее.

После перевода — обратный перевод первых 3 блоков для самопроверки смысла.

Back-translation ловит места, где смысл уплыл. Занимает 30 секунд, спасает от неловких ошибок.

Исходник: [прикрепить SRT]. Глоссарий продукта: [3–5 ключевых терминов и их перевод].

Глоссарий — самая важная строка. Без него каждый раз будут разные варианты перевода одного термина.

Нажмите на строку — увидите объяснение

Юридические нюансы: что можно и что нельзя

Согласие героя на клонирование. Голос, используемый для идентификации или персонализации, — биометрические ПД по ст. 11 152-ФЗ. Обработка таких данных требует отдельного письменного согласия, не смешанного с общим согласием на обработку ПД. С 1 сентября 2025 Роскомнадзор ужесточил требования к оформлению согласий; штрафы за нарушения — до 700 тыс руб для юрлиц, за утечку биометрии — 15–20 млн руб. Для собственного контента с героями — всегда берите подписанное согласие именно на клонирование и синтез голоса.

Коммерческое использование. ElevenLabs, HeyGen и Yandex SpeechKit предоставляют коммерческие лицензии только на платных тарифах; бесплатные версии — для личного использования. Для бизнеса и редакции это означает обязательную подписку и фиксацию лицензии в договоре.

Локализация данных. С 1 июля 2025 года поправки к ст. 18 152-ФЗ запрещают хранение персональных данных граждан РФ в иностранных базах. Для чувствительного материала (биометрия + ПД героев) это означает: либо использовать российские SpeechKit/SaluteSpeech, либо держать исходники и готовые файлы на серверах внутри РФ.

Дипфейки и уголовка. В декабре 2024 года вступил закон об уголовной ответственности за незаконный сбор и обработку ПД — до 300 тыс руб штрафа или 4 года лишения свободы. 27 января 2026 года депутаты Справедливой России внесли в Госдуму поправки в ст. 272.1 УК: уголовная ответственность за «автоматизированную обработку» чужих ПД даже без распространения. Отдельные законопроекты 2024 года предлагают квалифицирующий признак «с использованием голоса или изображения, в том числе искусственно созданных» в статьях о клевете, мошенничестве, вымогательстве — до 7 лет лишения свободы. Тренд очевиден: окно вольного обращения с чужим голосом закрывается.

Когда AI-дубляж не подходит

Длинные эмоциональные монологи (5+ минут) — AI передаёт слова, теряет интонационный рисунок. Слушатель чувствует, что «что-то не так».
Диалектная или стилизованная речь — одесский говор, сленг, акценты сглаживаются до литературного стандарта.
Поэзия, песни, юмор с игрой слов — нужна переводческая адаптация, а не дубляж. AI переведёт дословно и смысл рассыпется.
Политически чувствительные материалы — неточный перевод терминологии меняет позицию спикера. Для такого контента — только ручной перевод с двумя редакторами.
Бренд-голос — если голос диктора сам по себе часть продукта (подкаст с культовым ведущим), AI-замена читается как подделка даже при высоком качестве.

Русский контекст и практика 2026

ElevenLabs из России без VPN недоступен через прямую оплату с российской карты; работает через посредников вроде arckep.ru — все модели, оплата рублями, без VPN. Для русского ↔ английского и европейских языков — связка «Claude Sonnet 4.6 для перевода + ElevenLabs для синтеза» остаётся лучшим балансом качества и цены на апрель 2026.

Yandex SpeechKit — основной выбор для редакций, которым важна локализация данных: интеграция с Яндекс.Облаком, оплата с российского юрлица, Brand Voice Lite от 30 минут аудио. SaluteSpeech подходит enterprise и финтеху — Сбер открыл полный доступ к платформе, API по HTTP и gRPC, поддержка русского, английского и казахского; YourVoice даёт кастомный голос на выходе, но требует 3 часа записи и месяц обучения.

Практическая развилка: для русского → английского — SpeechKit и SaluteSpeech дают приемлемое качество без юридических рисков хранения за рубежом. Для русского → французский, немецкий, испанский, японский, арабский — ElevenLabs впереди заметно; используйте его, но храните исходники и согласия в РФ.

Практика на 45 минут

Возьмите 3-минутный фрагмент своего материала (подкаст, интервью, лекция). Прогоните через два пайплайна: ElevenLabs Instant Voice Clone + Multilingual v2 и Yandex SpeechKit Brand Voice Lite. Переведите через Claude Sonnet 4.6 с промптом выше. Сравните: что звучит естественнее на целевом языке, где интонации плывут, сколько ручной правки нужно. Результат записать в таблицу — это ваша база для выбора инструмента на будущих проектах.

Главное

AI-дубляж 2026 — рабочий инструмент для новостей, объяснялок и туториалов, не для поэзии и эмоциональных монологов. Пайплайн: транскрипция → перевод с промптом-глоссарием → клонирование → синтез → синхронизация → QA. Шесть шагов, час работы на 10 минут видео. Юридическая граница проходит через письменное согласие героя — без него клонирование голоса в РФ означает риск по 152-ФЗ и грядущим поправкам в УК. Для русского ↔ английского без выезда данных — Yandex SpeechKit или SaluteSpeech. Для широкой палитры языков — ElevenLabs через arckep.ru.

В следующем уроке M.8.4 — AI-аватары: HeyGen, Synthesia, D-ID, как сделать говорящего ведущего из одной фотографии, где аватары выдают себя и когда они уместны в журналистике.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Дубляж и локализация: ElevenLabs, Yandex SpeechKit, SaluteSpeech

Визуал и мультимедиа

Чему вы научитесь

Что стало возможно в 2026

Три сценария, три инструмента

Пайплайн дубляжа с сохранением голоса

Пайплайн: русское видео → английская озвучка с тем же голосом

Промпт для AI-перевода, который не ломает стиль

Промпт для перевода подкаста ru → en с сохранением стиля

Юридические нюансы: что можно и что нельзя

Когда AI-дубляж не подходит

Русский контекст и практика 2026

Практика на 45 минут

Главное

Урок 2: Транскрипция: Whisper локально с diarization

Урок 5: Адаптация и репурпоз — один контент в много форматов

// Обсуждение

Чему вы научитесь

Что стало возможно в 2026

Три сценария, три инструмента

Пайплайн дубляжа с сохранением голоса

Пайплайн: русское видео → английская озвучка с тем же голосом

Промпт для AI-перевода, который не ломает стиль

Промпт для перевода подкаста ru → en с сохранением стиля

Юридические нюансы: что можно и что нельзя

Когда AI-дубляж не подходит

Русский контекст и практика 2026

Практика на 45 минут

Главное

Связанные уроки

Урок 2: Транскрипция: Whisper локально с diarization

Урок 5: Адаптация и репурпоз — один контент в много форматов

// Обсуждение