Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль p.2 · Урок 6

Урок 6: TCO — облако vs self-hosted, когда и что окупается

30 мин
p.2 / Урок 6 из 7

Чему вы научитесь

  • Считать TCO AI-сервиса без магии: отдельно токены, отдельно железо, отдельно эксплуатацию
  • Отличать дешёвый пилот в облаке от дешёвой постоянной эксплуатации на своём железе
  • Быстро понимать, когда 1× RTX 4090 — разумный старт, а когда это ложная экономия
  • Оценивать три типовых масштаба: команда на 10 человек, отдел на 100 и заводской контур на 1000+
  • Аргументированно объяснять CFO и ИТ-директору, почему 8× H100 почти никогда не нужен на первом этапе

Ошибка большинства закупок выглядит так: сравнивают только цену модели или только цену сервера. Для CDTO это бесполезно. Считать надо весь контур: токены, хранение, поддержку, электричество, простой, запас по производительности и регуляторные ограничения. Иначе можно «сэкономить» на API, а потом утонуть в железе, либо купить дорогой сервер и держать его полупустым.

Если после уроков модуля p.3 у вас есть ограничения по ПД, КИИ или санкциям, экономику надо считать только внутри допустимого контура. Для значимых объектов КИИ это особенно жёстко: выбор часто начинается не с цены, а с того, можно ли вообще использовать внешний сервис (см. урок p.3/02 про КИИ и урок p.3/05 про санкционный контур).

Что входит в TCO, а что обычно забывают

Блок затратОблако / APISelf-hostedЧто чаще всего забывают
Входной порогПочти нулевой CAPEX; платите за факт использованияПокупка сервера, GPU, дисков, сети, иногда стойкиВремя команды на ввод в эксплуатацию
Переменная частьТокены, GPU-часы, хранилище, исходящий трафикЭлектричество, износ SSD, резерв, админка, обновленияЛоги, бэкапы, мониторинг
МасштабированиеБыстрое, но каждое увеличение нагрузки видно в счётеДешевле после насыщения, но только если железо загруженоСтоимость простаивающего железа
Качество сервисаSLA, поддержка, готовый API, обновления моделейВсё на вас или на интегратореСтоимость деградации и очередей
РегуляторикаЧасто проще для обычного офиса, но не для КИИ и чувствительных данныхЛучше для on-prem, private VPC, air-gapЮридическая цена ошибки обычно выше цены GPU

Главное правило: облако продаёт гибкость, своё железо продаёт предсказуемую себестоимость. Если у вас нестабильная нагрузка, облако выигрывает почти всегда. Если у вас постоянный поток запросов и понятный контур, self-hosted начинает догонять.

Сколько стоит облачный inference в 2026 году

Ниже — ориентиры, которые имеет смысл брать как стартовую точку на апрель 2026 года. По GigaChat важно помнить отдельную вещь: с февраля 2026 пакетные тарифы для юрлиц снижены, и pay-as-you-go ориентиры сейчас около 0,5 ₽ / 1000 токенов для GigaChat 2 Pro и 0,65 ₽ / 1000 для GigaChat 2 Max, но перед закупкой тариф всё равно нужно актуализировать на дату договора.

ПровайдерМодель / режимПубличный тарифЧто это значит для бюджета
GigaChat APIGigaChat 2 Lite, синхронно0,065 ₽ за 1000 токенов (Sber, тарифы для юрлиц, 29.01.2026)65 ₽ за 1 млн токенов — это нижняя граница для простых задач
GigaChat APIGigaChat 2 Pro, синхронно0,5 ₽ за 1000 токенов (Sber, тарифы для юрлиц)500 ₽ за 1 млн токенов — удобная база для расчёта отдела
GigaChat APIGigaChat 2 Max, синхронно0,65 ₽ за 1000 токенов (Sber, тарифы для юрлиц)650 ₽ за 1 млн токенов — берите только там, где цена ошибки высока
GigaChat APIEmbeddings, синхронно0,014 ₽ за 1000 токенов (Sber, тарифы для юрлиц)RAG-хранилище обычно дешевле генерации, но не бесплатно
Yandex AI StudioYandexGPT Pro 5.1, synchronous, common instance~$0.00336–0.0066 за 1000 токенов input/output по актуальному pricing (Yandex AI Studio pricing; Yandex Cloud pricing)У Яндекса тариф нужно считать по режиму инстанса, направлениям токенов и юрлицу договора
Yandex AI StudioYandexGPT Lite, synchronous~$0.00082 за 1000 токенов input/output по актуальному pricing (Yandex AI Studio pricing)Хороший вариант для дешёвых задач, но не путайте Lite с enterprise-quality reasoning
MTS AI / Cotypeon-prem и корпоративные поставкипубличного прайс-листа нет; продажа через коммерческое предложение (MTS AI Cotype)Для TCO придётся просить КП, а не опираться на сайт

Отсюда следует простая управленческая мысль: до тех пор, пока вы не знаете свою реальную токенную нагрузку, спорить «облако или сервер» рано. Сначала собирается профиль нагрузки, потом покупается железо.

Формула, которую стоит держать под рукой

Ниже — минимальная, но рабочая формула. Её достаточно, чтобы быстро отсеять слабые решения на пресейле.

TCO облака за период = токены + embeddings + хранение + трафик + интеграция + поддержка

TCO self-hosted за период = CAPEX железа + внедрение + электричество + охлаждение
                         + резерв/запчасти + администрирование + обновления + мониторинг

Точка безубыточности = CAPEX / (ежемесячный cloud bill - ежемесячный self-hosted OPEX)

Как считать быстро: управленческий алгоритм

  1. Зафиксируйте один типовой месяц. Не берите «среднее за год». Возьмите месяц, в котором сервис реально живёт: сколько активных пользователей, сколько запросов, сколько токенов на вход и выход.

  2. Разведите три класса задач. Дешёвые повседневные, дорогие экспертные, batch-задачи ночью. У них разная экономика и разное железо.

  3. Посчитайте нижнюю и верхнюю границы. Нижняя — Lite/малый локальный сервер. Верхняя — Pro/Max или многокарточный узел.

  4. Отдельно проверьте регуляторику. Если сценарий уходит в on-prem по ПД или КИИ, сравнение с зарубежным SaaS теряет смысл. Это уже другой контур и другой TCO.

  5. Добавьте человеческий труд. Один вечер SRE и один день интегратора в неделю быстро съедают иллюзию «локально бесплатно».

  6. Не покупайте H100 под пилот. Сначала проверяете реальный профиль нагрузки на облаке или на одном узле, потом масштабируете.

Нижняя граница по железу: что видно по публичным ценам

Ниже не «идеальная конфигурация», а публично наблюдаемый ценовой пол на апрель 2026 года. Это важно: пол нужен, чтобы понять порядок цифр. Реальная production-конфигурация обычно дороже, а перед закупкой всё равно нужно перепроверять актуальные КП и наличие.

ВариантПубличная ценаЧто именно подтвержденоПрактический вывод
Готовый узел с 1× RTX 4090от ~460 000 ₽ до 650 000+ ₽ по актуальным предложениям маркетплейсов (Ozon category)Это уже не «карта отдельно», а готовый к запуску минимумДиапазон 460–650+ тыс. ₽ на старт для небольшой команды виден публично
Одна RTX 4090 как отдельная картаот ~500 000 ₽ по актуальным предложениям (Ozon category)Только GPU, без сервера, без ИБП и без резервного дискаЕсли вам обещают production-сервер «на 4090» заметно дешевле 500 тыс. ₽, уточняйте состав
Одна RTX A6000 48 GBориентировочно 450–650 тыс. ₽, в зависимости от поставщика и наличия (Ozon category)Публично виден порядок цены профессиональной карты на 48 ГБ, но диапазон надо перепроверять под конкретное КПДве такие карты — это только GPU-пол 0,9–1,3 млн ₽, сервер сверху считается отдельно
1× H100 в облакеp5.4xlarge$3.933 в час за 1× H100 на AWS Capacity Blocks (AWS EC2 Capacity Blocks pricing, 01.04.2026)Это не покупка, а официальный ориентир аренды 1× H100Для коротких bursts и экспериментов аренда часто выгоднее покупки
8× H100 в облакеp5.48xlarge~$55+ в час on-demand, то есть ~$39 600+ за 720 часов полного месяца; Capacity Blocks проверяйте отдельно по текущей таблице (Vantage; AWS Capacity Blocks pricing)Ориентир для полного кластера сильно выше старых оценокПока вы не умеете держать такой узел загруженным большую часть месяца, покупать аналог бессмысленно
Дешёвый европейский dedicated GPU для inferenceHetzner GEX44 — от €212 в месяц, setup fee считается отдельно (Hetzner GEX44)Это сервер с RTX 4000 SFF Ada и 20 ГБ VRAM, не альтернатива H100Для дешёвого inference за пределами РФ рынок есть, но для КИИ и чувствительных данных это не «спасение»

Здесь важно одно расхождение с типовым рыночным мифом. В пресейлах часто звучит: «2× A6000 — это уже 3–4 млн ₽». Открытые карточки железа на апрель 2026 дают более низкий ценовой пол: 0,9–1,3 млн ₽ только за две карты. Полный сервер, резервирование питания, нормальные NVMe, ECC RAM, сеть и поддержка могут поднять бюджет существенно выше, но это уже не факт из публичного прайса, а предмет конкретной спецификации — нужна проверка под ваш BOM.

Электричество: маленькая статья, которую все вспоминают слишком поздно

По официальным спецификациям NVIDIA, RTX 4090 имеет 24 ГБ памяти; точное энергопотребление для расчёта лучше брать из паспорта конкретного исполнения карты — нужна проверка (NVIDIA GeForce RTX 4090). RTX A6000 официально указана с 48 ГБ ECC и 300 W max power consumption (NVIDIA RTX A6000). H100 SXM — до 700 W, H100 NVL350–400 W (NVIDIA H100).

Практический вывод такой:

  • 1× RTX 4090 — это не только цена ПК, но и постоянный прожиг по электричеству, особенно если узел стоит под нагрузкой целый день;
  • 2× A6000 — это уже класс, где считать надо не только розетку, но и охлаждение, шум, стойку и запас по БП;
  • 8× H100 — это инфраструктурный проект, а не «мощный сервер для ИИ».

Тариф на электроэнергию для юрлица сильно зависит от региона, уровня напряжения и договора с энергосбытом — универсальную цифру по РФ брать нельзя, нужна проверка на вашей площадке. Поэтому для управленческого расчёта лучше использовать формулу, а не чужой тариф:

Электричество в месяц = мощность узла в кВт × часы работы × ваш тариф за кВт·ч

Три сценария TCO: 10, 100 и 1000+ пользователей

Ниже — учебный расчёт, а не отраслевой норматив. Чтобы связать пользователей и токены, я беру простое допущение: 1 млн токенов на одного активного пользователя в месяц. Для реального проекта это нужно проверить по логам — нужна проверка. Но как управленческая модель это работает: вы сразу видите, где заканчивается дешёвый API и начинается разговор про железо.

СценарийУчебная нагрузкаОблако: только модель GigaChat 2 ProSelf-hosted ориентирВывод
Команда 10 пользователей10 млн токенов в месяц — нужна проверка5 000 ₽ в месяц, или 180 000 ₽ за 36 месяцев по тарифу 0,5 ₽ / 1000 токенов (Sber тарифы)Готовый узел с RTX 4090 как production-like минимум — примерно 500–700 тыс. ₽ CAPEX, плюс эксплуатация (Ozon category)Для 10 человек облако почти всегда рациональнее; локальный сервер берут только ради данных и контура
Отдел 100 пользователей100 млн токенов в месяц — нужна проверка50 000 ₽ в месяц, или 1,8 млн ₽ за 36 месяцев (Sber тарифы)Только две карты RTX A60000,9–1,3 млн ₽; полный сервер и сопровождение считаются сверху (Ozon category)На горизонте 2–3 лет self-hosted уже может догонять облако, но только при стабильной загрузке и своей команде
Заводской контур 1000+ пользователей1 млрд токенов в месяц — нужна проверка500 000 ₽ в месяц, или 18 млн ₽ за 36 месяцев по той же модели (Sber тарифы)Полный 8× H100 в облаке на AWS — ~$55+ в час on-demand, то есть ~$39 600+ за 720 часов; закупочный бюджет такого кластера в РФ по открытому рынку нестабилен — нужна проверка (Vantage)8× H100 имеет смысл только при большом и предсказуемом потоке, жёстком on-prem-контуре или постоянном batch/serving

Где проходит точка безубыточности

Для управленческой оценки можно взять только нижнюю границу CAPEX и сравнить её с модельным счётом за API.

  • Готовый узел с RTX 4090 по публичным карточкам стоит примерно 500–700 тыс. ₽, если считать не только «голый» GPU, а разумный стартовый production-like минимум на апрель 2026 (Ozon category). Если сравнивать его только с GigaChat 2 Pro по 500 ₽ за 1 млн токенов, то на горизонте 36 месяцев нижняя математическая точка безубыточности лежит уже примерно в диапазоне 28–39 млн токенов в месяц. Как только добавляете электричество, администрирование и резерв, реальная точка становится выше. Это расчёт AIStudy на основе публичного CAPEX и тарифа API.
  • Для пары RTX A6000 по ценовому полу 0,9–1,3 млн ₽ только за GPU и тому же тарифу GigaChat 2 Pro нижняя математическая точка безубыточности поднимается примерно к 50–72 млн токенов в месяц, если не учитывать стоимость самого сервера и сопровождения. То есть реальная production-точка будет ещё выше.

Этот расчёт специально грубый. Но он полезен: он показывает, что «свой сервер выгоднее почти сразу» — это миф. Свой сервер выгоден тогда, когда есть постоянная нагрузка и понятный класс задач.

Когда выбирать облако, а когда — своё железо

Облако выгоднее, если

  • нагрузка плавающая и проект ещё учится сам себе;
  • вы не уверены, какая модель нужна и какой контекст окажется рабочим;
  • надо быстро запуститься, а не строить платформу;
  • пользователи распределены неравномерно по времени;
  • вы ещё не собрали фактические логи и не понимаете месячный объём токенов.

Self-hosted выгоднее, если

  • есть постоянный поток задач и понятный размер очереди;
  • контур ограничен по ПД, КИИ или санкциям, и белого внешнего SaaS просто нет;
  • вы готовы держать не только железо, но и эксплуатацию;
  • у вас много однотипных запросов, которые можно увести на локальные модели среднего класса;
  • качество локальной модели уже доказано на ваших данных, а не на демо.

Практическое правило для CDTO

Если у вас нет твёрдого запрета на облако, начинайте с токенного биллинга и собирайте профиль нагрузки хотя бы 6–8 недель — срок нужно уточнять под вашу сезонность, но меньше обычно бессмысленно, нужна проверка. Если у вас есть запрет на внешний контур по ПД, КИИ или санкциям, начинайте с минимально достаточного локального узла и закладывайте в бюджет не только карту, но и людей.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.