Модуль p.2 · Урок 6

Урок 6: TCO — облако vs self-hosted, когда и что окупается

30 мин

Содержание

Чему вы научитесь
Что входит в TCO, а что обычно забывают
Сколько стоит облачный inference в 2026 году
Формула, которую стоит держать под рукой
Как считать быстро: управленческий алгоритм
Нижняя граница по железу: что видно по публичным ценам
Электричество: маленькая статья, которую все вспоминают слишком поздно
Три сценария TCO: 10, 100 и 1000+ пользователей
Где проходит точка безубыточности
Когда выбирать облако, а когда — своё железо
Облако выгоднее, если
Self-hosted выгоднее, если
Практическое правило для CDTO

p.2 / Урок 6 из 7

Чему вы научитесь

Считать TCO AI-сервиса без магии: отдельно токены, отдельно железо, отдельно эксплуатацию
Отличать дешёвый пилот в облаке от дешёвой постоянной эксплуатации на своём железе
Быстро понимать, когда 1× RTX 4090 — разумный старт, а когда это ложная экономия
Оценивать три типовых масштаба: команда на 10 человек, отдел на 100 и заводской контур на 1000+
Аргументированно объяснять CFO и ИТ-директору, почему 8× H100 почти никогда не нужен на первом этапе

Ошибка большинства закупок выглядит так: сравнивают только цену модели или только цену сервера. Для CDTO это бесполезно. Считать надо весь контур: токены, хранение, поддержку, электричество, простой, запас по производительности и регуляторные ограничения. Иначе можно «сэкономить» на API, а потом утонуть в железе, либо купить дорогой сервер и держать его полупустым.

Если после уроков модуля p.3 у вас есть ограничения по ПД, КИИ или санкциям, экономику надо считать только внутри допустимого контура. Для значимых объектов КИИ это особенно жёстко: выбор часто начинается не с цены, а с того, можно ли вообще использовать внешний сервис (см. урок p.3/02 про КИИ и урок p.3/05 про санкционный контур).

Что входит в TCO, а что обычно забывают

Блок затрат	Облако / API	Self-hosted	Что чаще всего забывают
Входной порог	Почти нулевой CAPEX; платите за факт использования	Покупка сервера, GPU, дисков, сети, иногда стойки	Время команды на ввод в эксплуатацию
Переменная часть	Токены, GPU-часы, хранилище, исходящий трафик	Электричество, износ SSD, резерв, админка, обновления	Логи, бэкапы, мониторинг
Масштабирование	Быстрое, но каждое увеличение нагрузки видно в счёте	Дешевле после насыщения, но только если железо загружено	Стоимость простаивающего железа
Качество сервиса	SLA, поддержка, готовый API, обновления моделей	Всё на вас или на интеграторе	Стоимость деградации и очередей
Регуляторика	Часто проще для обычного офиса, но не для КИИ и чувствительных данных	Лучше для on-prem, private VPC, air-gap	Юридическая цена ошибки обычно выше цены GPU

Главное правило: облако продаёт гибкость, своё железо продаёт предсказуемую себестоимость. Если у вас нестабильная нагрузка, облако выигрывает почти всегда. Если у вас постоянный поток запросов и понятный контур, self-hosted начинает догонять.

Сколько стоит облачный inference в 2026 году

Ниже — ориентиры, которые имеет смысл брать как стартовую точку на апрель 2026 года. По GigaChat важно помнить отдельную вещь: с февраля 2026 пакетные тарифы для юрлиц снижены, и pay-as-you-go ориентиры сейчас около 0,5 ₽ / 1000 токенов для GigaChat 2 Pro и 0,65 ₽ / 1000 для GigaChat 2 Max, но перед закупкой тариф всё равно нужно актуализировать на дату договора.

Провайдер	Модель / режим	Публичный тариф	Что это значит для бюджета
GigaChat API	`GigaChat 2 Lite`, синхронно	`0,065 ₽` за `1000` токенов (Sber, тарифы для юрлиц, 29.01.2026)	`65 ₽` за `1 млн` токенов — это нижняя граница для простых задач
GigaChat API	`GigaChat 2 Pro`, синхронно	`0,5 ₽` за `1000` токенов (Sber, тарифы для юрлиц)	`500 ₽` за `1 млн` токенов — удобная база для расчёта отдела
GigaChat API	`GigaChat 2 Max`, синхронно	`0,65 ₽` за `1000` токенов (Sber, тарифы для юрлиц)	`650 ₽` за `1 млн` токенов — берите только там, где цена ошибки высока
GigaChat API	`Embeddings`, синхронно	`0,014 ₽` за `1000` токенов (Sber, тарифы для юрлиц)	RAG-хранилище обычно дешевле генерации, но не бесплатно
Yandex AI Studio	`YandexGPT Pro 5.1`, synchronous, common instance	`~$0.00336–0.0066` за `1000` токенов `input/output` по актуальному pricing (Yandex AI Studio pricing; Yandex Cloud pricing)	У Яндекса тариф нужно считать по режиму инстанса, направлениям токенов и юрлицу договора
Yandex AI Studio	`YandexGPT Lite`, synchronous	`~$0.00082` за `1000` токенов `input/output` по актуальному pricing (Yandex AI Studio pricing)	Хороший вариант для дешёвых задач, но не путайте Lite с enterprise-quality reasoning
MTS AI / Cotype	on-prem и корпоративные поставки	публичного прайс-листа нет; продажа через коммерческое предложение (MTS AI Cotype)	Для TCO придётся просить КП, а не опираться на сайт

Отсюда следует простая управленческая мысль: до тех пор, пока вы не знаете свою реальную токенную нагрузку, спорить «облако или сервер» рано. Сначала собирается профиль нагрузки, потом покупается железо.

Формула, которую стоит держать под рукой

Ниже — минимальная, но рабочая формула. Её достаточно, чтобы быстро отсеять слабые решения на пресейле.

TCO облака за период = токены + embeddings + хранение + трафик + интеграция + поддержка

TCO self-hosted за период = CAPEX железа + внедрение + электричество + охлаждение
                         + резерв/запчасти + администрирование + обновления + мониторинг

Точка безубыточности = CAPEX / (ежемесячный cloud bill - ежемесячный self-hosted OPEX)

Как считать быстро: управленческий алгоритм

Зафиксируйте один типовой месяц. Не берите «среднее за год». Возьмите месяц, в котором сервис реально живёт: сколько активных пользователей, сколько запросов, сколько токенов на вход и выход.
Разведите три класса задач. Дешёвые повседневные, дорогие экспертные, batch-задачи ночью. У них разная экономика и разное железо.
Посчитайте нижнюю и верхнюю границы. Нижняя — Lite/малый локальный сервер. Верхняя — Pro/Max или многокарточный узел.
Отдельно проверьте регуляторику. Если сценарий уходит в on-prem по ПД или КИИ, сравнение с зарубежным SaaS теряет смысл. Это уже другой контур и другой TCO.
Добавьте человеческий труд. Один вечер SRE и один день интегратора в неделю быстро съедают иллюзию «локально бесплатно».
Не покупайте H100 под пилот. Сначала проверяете реальный профиль нагрузки на облаке или на одном узле, потом масштабируете.

Нижняя граница по железу: что видно по публичным ценам

Ниже не «идеальная конфигурация», а публично наблюдаемый ценовой пол на апрель 2026 года. Это важно: пол нужен, чтобы понять порядок цифр. Реальная production-конфигурация обычно дороже, а перед закупкой всё равно нужно перепроверять актуальные КП и наличие.

Вариант	Публичная цена	Что именно подтверждено	Практический вывод
Готовый узел с 1× RTX 4090	от `~460 000 ₽` до `650 000+ ₽` по актуальным предложениям маркетплейсов (Ozon category)	Это уже не «карта отдельно», а готовый к запуску минимум	Диапазон `460–650+ тыс. ₽` на старт для небольшой команды виден публично
Одна RTX 4090 как отдельная карта	от `~500 000 ₽` по актуальным предложениям (Ozon category)	Только GPU, без сервера, без ИБП и без резервного диска	Если вам обещают production-сервер «на 4090» заметно дешевле `500 тыс. ₽`, уточняйте состав
Одна RTX A6000 48 GB	ориентировочно `450–650 тыс. ₽`, в зависимости от поставщика и наличия (Ozon category)	Публично виден порядок цены профессиональной карты на `48 ГБ`, но диапазон надо перепроверять под конкретное КП	Две такие карты — это только GPU-пол `0,9–1,3 млн ₽`, сервер сверху считается отдельно
1× H100 в облаке	`p5.4xlarge` — `$3.933` в час за `1× H100` на AWS Capacity Blocks (AWS EC2 Capacity Blocks pricing, 01.04.2026)	Это не покупка, а официальный ориентир аренды `1× H100`	Для коротких bursts и экспериментов аренда часто выгоднее покупки
8× H100 в облаке	`p5.48xlarge` — `~$55+` в час on-demand, то есть `~$39 600+` за `720` часов полного месяца; Capacity Blocks проверяйте отдельно по текущей таблице (Vantage; AWS Capacity Blocks pricing)	Ориентир для полного кластера сильно выше старых оценок	Пока вы не умеете держать такой узел загруженным большую часть месяца, покупать аналог бессмысленно
Дешёвый европейский dedicated GPU для inference	Hetzner `GEX44` — от `€212` в месяц, setup fee считается отдельно (Hetzner GEX44)	Это сервер с `RTX 4000 SFF Ada` и `20 ГБ VRAM`, не альтернатива H100	Для дешёвого inference за пределами РФ рынок есть, но для КИИ и чувствительных данных это не «спасение»

Здесь важно одно расхождение с типовым рыночным мифом. В пресейлах часто звучит: «2× A6000 — это уже 3–4 млн ₽». Открытые карточки железа на апрель 2026 дают более низкий ценовой пол: 0,9–1,3 млн ₽ только за две карты. Полный сервер, резервирование питания, нормальные NVMe, ECC RAM, сеть и поддержка могут поднять бюджет существенно выше, но это уже не факт из публичного прайса, а предмет конкретной спецификации — нужна проверка под ваш BOM.

Электричество: маленькая статья, которую все вспоминают слишком поздно

По официальным спецификациям NVIDIA, RTX 4090 имеет 24 ГБ памяти; точное энергопотребление для расчёта лучше брать из паспорта конкретного исполнения карты — нужна проверка (NVIDIA GeForce RTX 4090). RTX A6000 официально указана с 48 ГБ ECC и 300 W max power consumption (NVIDIA RTX A6000). H100 SXM — до 700 W, H100 NVL — 350–400 W (NVIDIA H100).

Практический вывод такой:

1× RTX 4090 — это не только цена ПК, но и постоянный прожиг по электричеству, особенно если узел стоит под нагрузкой целый день;
2× A6000 — это уже класс, где считать надо не только розетку, но и охлаждение, шум, стойку и запас по БП;
8× H100 — это инфраструктурный проект, а не «мощный сервер для ИИ».

Тариф на электроэнергию для юрлица сильно зависит от региона, уровня напряжения и договора с энергосбытом — универсальную цифру по РФ брать нельзя, нужна проверка на вашей площадке. Поэтому для управленческого расчёта лучше использовать формулу, а не чужой тариф:

Электричество в месяц = мощность узла в кВт × часы работы × ваш тариф за кВт·ч

Три сценария TCO: 10, 100 и 1000+ пользователей

Ниже — учебный расчёт, а не отраслевой норматив. Чтобы связать пользователей и токены, я беру простое допущение: 1 млн токенов на одного активного пользователя в месяц. Для реального проекта это нужно проверить по логам — нужна проверка. Но как управленческая модель это работает: вы сразу видите, где заканчивается дешёвый API и начинается разговор про железо.

Сценарий	Учебная нагрузка	Облако: только модель `GigaChat 2 Pro`	Self-hosted ориентир	Вывод
Команда 10 пользователей	`10 млн` токенов в месяц — нужна проверка	`5 000 ₽` в месяц, или `180 000 ₽` за `36` месяцев по тарифу `0,5 ₽ / 1000` токенов (Sber тарифы)	Готовый узел с `RTX 4090` как production-like минимум — примерно `500–700 тыс. ₽` CAPEX, плюс эксплуатация (Ozon category)	Для 10 человек облако почти всегда рациональнее; локальный сервер берут только ради данных и контура
Отдел 100 пользователей	`100 млн` токенов в месяц — нужна проверка	`50 000 ₽` в месяц, или `1,8 млн ₽` за `36` месяцев (Sber тарифы)	Только две карты `RTX A6000` — `0,9–1,3 млн ₽`; полный сервер и сопровождение считаются сверху (Ozon category)	На горизонте `2–3` лет self-hosted уже может догонять облако, но только при стабильной загрузке и своей команде
Заводской контур 1000+ пользователей	`1 млрд` токенов в месяц — нужна проверка	`500 000 ₽` в месяц, или `18 млн ₽` за `36` месяцев по той же модели (Sber тарифы)	Полный `8× H100` в облаке на AWS — `~$55+` в час on-demand, то есть `~$39 600+` за `720` часов; закупочный бюджет такого кластера в РФ по открытому рынку нестабилен — нужна проверка (Vantage)	8× H100 имеет смысл только при большом и предсказуемом потоке, жёстком on-prem-контуре или постоянном batch/serving

Где проходит точка безубыточности

Для управленческой оценки можно взять только нижнюю границу CAPEX и сравнить её с модельным счётом за API.

Готовый узел с RTX 4090 по публичным карточкам стоит примерно 500–700 тыс. ₽, если считать не только «голый» GPU, а разумный стартовый production-like минимум на апрель 2026 (Ozon category). Если сравнивать его только с GigaChat 2 Pro по 500 ₽ за 1 млн токенов, то на горизонте 36 месяцев нижняя математическая точка безубыточности лежит уже примерно в диапазоне 28–39 млн токенов в месяц. Как только добавляете электричество, администрирование и резерв, реальная точка становится выше. Это расчёт AIStudy на основе публичного CAPEX и тарифа API.
Для пары RTX A6000 по ценовому полу 0,9–1,3 млн ₽ только за GPU и тому же тарифу GigaChat 2 Pro нижняя математическая точка безубыточности поднимается примерно к 50–72 млн токенов в месяц, если не учитывать стоимость самого сервера и сопровождения. То есть реальная production-точка будет ещё выше.

Этот расчёт специально грубый. Но он полезен: он показывает, что «свой сервер выгоднее почти сразу» — это миф. Свой сервер выгоден тогда, когда есть постоянная нагрузка и понятный класс задач.

Когда выбирать облако, а когда — своё железо

Облако выгоднее, если

нагрузка плавающая и проект ещё учится сам себе;
вы не уверены, какая модель нужна и какой контекст окажется рабочим;
надо быстро запуститься, а не строить платформу;
пользователи распределены неравномерно по времени;
вы ещё не собрали фактические логи и не понимаете месячный объём токенов.

Self-hosted выгоднее, если

есть постоянный поток задач и понятный размер очереди;
контур ограничен по ПД, КИИ или санкциям, и белого внешнего SaaS просто нет;
вы готовы держать не только железо, но и эксплуатацию;
у вас много однотипных запросов, которые можно увести на локальные модели среднего класса;
качество локальной модели уже доказано на ваших данных, а не на демо.

Практическое правило для CDTO

Если у вас нет твёрдого запрета на облако, начинайте с токенного биллинга и собирайте профиль нагрузки хотя бы 6–8 недель — срок нужно уточнять под вашу сезонность, но меньше обычно бессмысленно, нужна проверка. Если у вас есть запрет на внешний контур по ПД, КИИ или санкциям, начинайте с минимально достаточного локального узла и закладывайте в бюджет не только карту, но и людей.

Ключевые выводы

TCO AI-проекта — это не цена модели и не цена сервера, а сумма CAPEX, OPEX и стоимости эксплуатационной сложности.
Для маленькой команды облако почти всегда дешевле и безопаснее как способ проверить спрос.
1× RTX 4090 — разумный старт для локального пилота; 2× A6000 — уже история про отдел и стабильную нагрузку.
8× H100 имеет смысл только там, где есть большой постоянный поток, строгий on-prem-контур или доказанная необходимость в собственной платформе.
Публичные прайсы по GigaChat API, Yandex AI Studio, AWS и открытым карточкам железа дают достаточно данных, чтобы отсечь плохое решение уже на уровне пресейла.
Если данные нельзя выносить во внешний контур, экономика считается только внутри допустимой архитектуры — это жёстко связано с уроками модуля p.3.