Модуль p.2 · Урок 6
Урок 6: TCO — облако vs self-hosted, когда и что окупается
Содержание
- Чему вы научитесь
- Что входит в TCO, а что обычно забывают
- Сколько стоит облачный inference в 2026 году
- Формула, которую стоит держать под рукой
- Как считать быстро: управленческий алгоритм
- Нижняя граница по железу: что видно по публичным ценам
- Электричество: маленькая статья, которую все вспоминают слишком поздно
- Три сценария TCO: 10, 100 и 1000+ пользователей
- Где проходит точка безубыточности
- Когда выбирать облако, а когда — своё железо
- Облако выгоднее, если
- Self-hosted выгоднее, если
- Практическое правило для CDTO
Чему вы научитесь
- Считать TCO AI-сервиса без магии: отдельно токены, отдельно железо, отдельно эксплуатацию
- Отличать дешёвый пилот в облаке от дешёвой постоянной эксплуатации на своём железе
- Быстро понимать, когда 1× RTX 4090 — разумный старт, а когда это ложная экономия
- Оценивать три типовых масштаба: команда на 10 человек, отдел на 100 и заводской контур на 1000+
- Аргументированно объяснять CFO и ИТ-директору, почему 8× H100 почти никогда не нужен на первом этапе
Ошибка большинства закупок выглядит так: сравнивают только цену модели или только цену сервера. Для CDTO это бесполезно. Считать надо весь контур: токены, хранение, поддержку, электричество, простой, запас по производительности и регуляторные ограничения. Иначе можно «сэкономить» на API, а потом утонуть в железе, либо купить дорогой сервер и держать его полупустым.
Если после уроков модуля p.3 у вас есть ограничения по ПД, КИИ или санкциям, экономику надо считать только внутри допустимого контура. Для значимых объектов КИИ это особенно жёстко: выбор часто начинается не с цены, а с того, можно ли вообще использовать внешний сервис (см. урок p.3/02 про КИИ и урок p.3/05 про санкционный контур).
Что входит в TCO, а что обычно забывают
| Блок затрат | Облако / API | Self-hosted | Что чаще всего забывают |
|---|---|---|---|
| Входной порог | Почти нулевой CAPEX; платите за факт использования | Покупка сервера, GPU, дисков, сети, иногда стойки | Время команды на ввод в эксплуатацию |
| Переменная часть | Токены, GPU-часы, хранилище, исходящий трафик | Электричество, износ SSD, резерв, админка, обновления | Логи, бэкапы, мониторинг |
| Масштабирование | Быстрое, но каждое увеличение нагрузки видно в счёте | Дешевле после насыщения, но только если железо загружено | Стоимость простаивающего железа |
| Качество сервиса | SLA, поддержка, готовый API, обновления моделей | Всё на вас или на интеграторе | Стоимость деградации и очередей |
| Регуляторика | Часто проще для обычного офиса, но не для КИИ и чувствительных данных | Лучше для on-prem, private VPC, air-gap | Юридическая цена ошибки обычно выше цены GPU |
Главное правило: облако продаёт гибкость, своё железо продаёт предсказуемую себестоимость. Если у вас нестабильная нагрузка, облако выигрывает почти всегда. Если у вас постоянный поток запросов и понятный контур, self-hosted начинает догонять.
Сколько стоит облачный inference в 2026 году
Ниже — ориентиры, которые имеет смысл брать как стартовую точку на апрель 2026 года. По GigaChat важно помнить отдельную вещь: с февраля 2026 пакетные тарифы для юрлиц снижены, и pay-as-you-go ориентиры сейчас около 0,5 ₽ / 1000 токенов для GigaChat 2 Pro и 0,65 ₽ / 1000 для GigaChat 2 Max, но перед закупкой тариф всё равно нужно актуализировать на дату договора.
| Провайдер | Модель / режим | Публичный тариф | Что это значит для бюджета |
|---|---|---|---|
| GigaChat API | GigaChat 2 Lite, синхронно | 0,065 ₽ за 1000 токенов (Sber, тарифы для юрлиц, 29.01.2026) | 65 ₽ за 1 млн токенов — это нижняя граница для простых задач |
| GigaChat API | GigaChat 2 Pro, синхронно | 0,5 ₽ за 1000 токенов (Sber, тарифы для юрлиц) | 500 ₽ за 1 млн токенов — удобная база для расчёта отдела |
| GigaChat API | GigaChat 2 Max, синхронно | 0,65 ₽ за 1000 токенов (Sber, тарифы для юрлиц) | 650 ₽ за 1 млн токенов — берите только там, где цена ошибки высока |
| GigaChat API | Embeddings, синхронно | 0,014 ₽ за 1000 токенов (Sber, тарифы для юрлиц) | RAG-хранилище обычно дешевле генерации, но не бесплатно |
| Yandex AI Studio | YandexGPT Pro 5.1, synchronous, common instance | ~$0.00336–0.0066 за 1000 токенов input/output по актуальному pricing (Yandex AI Studio pricing; Yandex Cloud pricing) | У Яндекса тариф нужно считать по режиму инстанса, направлениям токенов и юрлицу договора |
| Yandex AI Studio | YandexGPT Lite, synchronous | ~$0.00082 за 1000 токенов input/output по актуальному pricing (Yandex AI Studio pricing) | Хороший вариант для дешёвых задач, но не путайте Lite с enterprise-quality reasoning |
| MTS AI / Cotype | on-prem и корпоративные поставки | публичного прайс-листа нет; продажа через коммерческое предложение (MTS AI Cotype) | Для TCO придётся просить КП, а не опираться на сайт |
Отсюда следует простая управленческая мысль: до тех пор, пока вы не знаете свою реальную токенную нагрузку, спорить «облако или сервер» рано. Сначала собирается профиль нагрузки, потом покупается железо.
Формула, которую стоит держать под рукой
Ниже — минимальная, но рабочая формула. Её достаточно, чтобы быстро отсеять слабые решения на пресейле.
TCO облака за период = токены + embeddings + хранение + трафик + интеграция + поддержка
TCO self-hosted за период = CAPEX железа + внедрение + электричество + охлаждение
+ резерв/запчасти + администрирование + обновления + мониторинг
Точка безубыточности = CAPEX / (ежемесячный cloud bill - ежемесячный self-hosted OPEX)
Как считать быстро: управленческий алгоритм
Зафиксируйте один типовой месяц. Не берите «среднее за год». Возьмите месяц, в котором сервис реально живёт: сколько активных пользователей, сколько запросов, сколько токенов на вход и выход.
Разведите три класса задач. Дешёвые повседневные, дорогие экспертные, batch-задачи ночью. У них разная экономика и разное железо.
Посчитайте нижнюю и верхнюю границы. Нижняя — Lite/малый локальный сервер. Верхняя — Pro/Max или многокарточный узел.
Отдельно проверьте регуляторику. Если сценарий уходит в on-prem по ПД или КИИ, сравнение с зарубежным SaaS теряет смысл. Это уже другой контур и другой TCO.
Добавьте человеческий труд. Один вечер SRE и один день интегратора в неделю быстро съедают иллюзию «локально бесплатно».
Не покупайте H100 под пилот. Сначала проверяете реальный профиль нагрузки на облаке или на одном узле, потом масштабируете.
Нижняя граница по железу: что видно по публичным ценам
Ниже не «идеальная конфигурация», а публично наблюдаемый ценовой пол на апрель 2026 года. Это важно: пол нужен, чтобы понять порядок цифр. Реальная production-конфигурация обычно дороже, а перед закупкой всё равно нужно перепроверять актуальные КП и наличие.
| Вариант | Публичная цена | Что именно подтверждено | Практический вывод |
|---|---|---|---|
| Готовый узел с 1× RTX 4090 | от ~460 000 ₽ до 650 000+ ₽ по актуальным предложениям маркетплейсов (Ozon category) | Это уже не «карта отдельно», а готовый к запуску минимум | Диапазон 460–650+ тыс. ₽ на старт для небольшой команды виден публично |
| Одна RTX 4090 как отдельная карта | от ~500 000 ₽ по актуальным предложениям (Ozon category) | Только GPU, без сервера, без ИБП и без резервного диска | Если вам обещают production-сервер «на 4090» заметно дешевле 500 тыс. ₽, уточняйте состав |
| Одна RTX A6000 48 GB | ориентировочно 450–650 тыс. ₽, в зависимости от поставщика и наличия (Ozon category) | Публично виден порядок цены профессиональной карты на 48 ГБ, но диапазон надо перепроверять под конкретное КП | Две такие карты — это только GPU-пол 0,9–1,3 млн ₽, сервер сверху считается отдельно |
| 1× H100 в облаке | p5.4xlarge — $3.933 в час за 1× H100 на AWS Capacity Blocks (AWS EC2 Capacity Blocks pricing, 01.04.2026) | Это не покупка, а официальный ориентир аренды 1× H100 | Для коротких bursts и экспериментов аренда часто выгоднее покупки |
| 8× H100 в облаке | p5.48xlarge — ~$55+ в час on-demand, то есть ~$39 600+ за 720 часов полного месяца; Capacity Blocks проверяйте отдельно по текущей таблице (Vantage; AWS Capacity Blocks pricing) | Ориентир для полного кластера сильно выше старых оценок | Пока вы не умеете держать такой узел загруженным большую часть месяца, покупать аналог бессмысленно |
| Дешёвый европейский dedicated GPU для inference | Hetzner GEX44 — от €212 в месяц, setup fee считается отдельно (Hetzner GEX44) | Это сервер с RTX 4000 SFF Ada и 20 ГБ VRAM, не альтернатива H100 | Для дешёвого inference за пределами РФ рынок есть, но для КИИ и чувствительных данных это не «спасение» |
Здесь важно одно расхождение с типовым рыночным мифом. В пресейлах часто звучит: «2× A6000 — это уже 3–4 млн ₽». Открытые карточки железа на апрель 2026 дают более низкий ценовой пол: 0,9–1,3 млн ₽ только за две карты. Полный сервер, резервирование питания, нормальные NVMe, ECC RAM, сеть и поддержка могут поднять бюджет существенно выше, но это уже не факт из публичного прайса, а предмет конкретной спецификации — нужна проверка под ваш BOM.
Электричество: маленькая статья, которую все вспоминают слишком поздно
По официальным спецификациям NVIDIA, RTX 4090 имеет 24 ГБ памяти; точное энергопотребление для расчёта лучше брать из паспорта конкретного исполнения карты — нужна проверка (NVIDIA GeForce RTX 4090). RTX A6000 официально указана с 48 ГБ ECC и 300 W max power consumption (NVIDIA RTX A6000). H100 SXM — до 700 W, H100 NVL — 350–400 W (NVIDIA H100).
Практический вывод такой:
1× RTX 4090— это не только цена ПК, но и постоянный прожиг по электричеству, особенно если узел стоит под нагрузкой целый день;2× A6000— это уже класс, где считать надо не только розетку, но и охлаждение, шум, стойку и запас по БП;8× H100— это инфраструктурный проект, а не «мощный сервер для ИИ».
Тариф на электроэнергию для юрлица сильно зависит от региона, уровня напряжения и договора с энергосбытом — универсальную цифру по РФ брать нельзя, нужна проверка на вашей площадке. Поэтому для управленческого расчёта лучше использовать формулу, а не чужой тариф:
Электричество в месяц = мощность узла в кВт × часы работы × ваш тариф за кВт·ч
Три сценария TCO: 10, 100 и 1000+ пользователей
Ниже — учебный расчёт, а не отраслевой норматив. Чтобы связать пользователей и токены, я беру простое допущение: 1 млн токенов на одного активного пользователя в месяц. Для реального проекта это нужно проверить по логам — нужна проверка. Но как управленческая модель это работает: вы сразу видите, где заканчивается дешёвый API и начинается разговор про железо.
| Сценарий | Учебная нагрузка | Облако: только модель GigaChat 2 Pro | Self-hosted ориентир | Вывод |
|---|---|---|---|---|
| Команда 10 пользователей | 10 млн токенов в месяц — нужна проверка | 5 000 ₽ в месяц, или 180 000 ₽ за 36 месяцев по тарифу 0,5 ₽ / 1000 токенов (Sber тарифы) | Готовый узел с RTX 4090 как production-like минимум — примерно 500–700 тыс. ₽ CAPEX, плюс эксплуатация (Ozon category) | Для 10 человек облако почти всегда рациональнее; локальный сервер берут только ради данных и контура |
| Отдел 100 пользователей | 100 млн токенов в месяц — нужна проверка | 50 000 ₽ в месяц, или 1,8 млн ₽ за 36 месяцев (Sber тарифы) | Только две карты RTX A6000 — 0,9–1,3 млн ₽; полный сервер и сопровождение считаются сверху (Ozon category) | На горизонте 2–3 лет self-hosted уже может догонять облако, но только при стабильной загрузке и своей команде |
| Заводской контур 1000+ пользователей | 1 млрд токенов в месяц — нужна проверка | 500 000 ₽ в месяц, или 18 млн ₽ за 36 месяцев по той же модели (Sber тарифы) | Полный 8× H100 в облаке на AWS — ~$55+ в час on-demand, то есть ~$39 600+ за 720 часов; закупочный бюджет такого кластера в РФ по открытому рынку нестабилен — нужна проверка (Vantage) | 8× H100 имеет смысл только при большом и предсказуемом потоке, жёстком on-prem-контуре или постоянном batch/serving |
Где проходит точка безубыточности
Для управленческой оценки можно взять только нижнюю границу CAPEX и сравнить её с модельным счётом за API.
- Готовый узел с
RTX 4090по публичным карточкам стоит примерно500–700 тыс. ₽, если считать не только «голый» GPU, а разумный стартовый production-like минимум на апрель2026(Ozon category). Если сравнивать его только сGigaChat 2 Proпо500 ₽за1 млнтокенов, то на горизонте36месяцев нижняя математическая точка безубыточности лежит уже примерно в диапазоне28–39 млнтокенов в месяц. Как только добавляете электричество, администрирование и резерв, реальная точка становится выше. Это расчёт AIStudy на основе публичного CAPEX и тарифа API. - Для пары
RTX A6000по ценовому полу0,9–1,3 млн ₽только за GPU и тому же тарифуGigaChat 2 Proнижняя математическая точка безубыточности поднимается примерно к50–72 млнтокенов в месяц, если не учитывать стоимость самого сервера и сопровождения. То есть реальная production-точка будет ещё выше.
Этот расчёт специально грубый. Но он полезен: он показывает, что «свой сервер выгоднее почти сразу» — это миф. Свой сервер выгоден тогда, когда есть постоянная нагрузка и понятный класс задач.
Когда выбирать облако, а когда — своё железо
Облако выгоднее, если
- нагрузка плавающая и проект ещё учится сам себе;
- вы не уверены, какая модель нужна и какой контекст окажется рабочим;
- надо быстро запуститься, а не строить платформу;
- пользователи распределены неравномерно по времени;
- вы ещё не собрали фактические логи и не понимаете месячный объём токенов.
Self-hosted выгоднее, если
- есть постоянный поток задач и понятный размер очереди;
- контур ограничен по ПД, КИИ или санкциям, и белого внешнего SaaS просто нет;
- вы готовы держать не только железо, но и эксплуатацию;
- у вас много однотипных запросов, которые можно увести на локальные модели среднего класса;
- качество локальной модели уже доказано на ваших данных, а не на демо.
Практическое правило для CDTO
Если у вас нет твёрдого запрета на облако, начинайте с токенного биллинга и собирайте профиль нагрузки хотя бы 6–8 недель — срок нужно уточнять под вашу сезонность, но меньше обычно бессмысленно, нужна проверка. Если у вас есть запрет на внешний контур по ПД, КИИ или санкциям, начинайте с минимально достаточного локального узла и закладывайте в бюджет не только карту, но и людей.