Модуль p.2 · Урок 3

Урок 3: Железо под модели — от ноутбука инженера до кластера H100

35 мин

Содержание

Чему вы научитесь
От чего на самом деле зависит «потянет или нет»
Быстрая карта: какой размер модели куда помещается
Квантизация: где вы реально экономите, а где начинаете терять качество
Лестница железа: от личной станции до enterprise
1. Ноутбук инженера и личная рабочая станция
2. Рабочая станция отдела
3. Серверный и enterprise-уровень
Edge: где LLM заканчивается и начинается нормальный промышленный AI
Санкционная картина 2026: почему «железо есть на рынке» не равно «его можно нормально внедрить»
Что это значит practically
Как выбирать железо без самообмана
Что брать по умолчанию: короткая рекомендация для CDTO

p.2 / Урок 3 из 7

Чему вы научитесь

Быстро оценивать, потянет ли конкретное железо модель нужного класса без магии и маркетинга
Отличать сценарий «инженерский ноутбук для пилота» от сценария «корпоративный inference-сервер»
Понимать, когда спасает квантизация, а когда она только маскирует нехватку памяти
Выбирать между RTX 4090, A6000, A100, H100 и edge-устройствами под конкретную задачу
Ставить интегратору правильный вопрос: «какой объём VRAM и какой запас под контекст, а не просто какая у вас видеокарта»

Типовая ошибка первого AI-пилота проста: команда обсуждает модель, но не считает память. В итоге «локальный Qwen» не помещается в станцию, 70B на одной карте тормозит, а Jetson покупают под задачу, где нужен обычный сервер. Разложим железо по уровням — от ноутбука до кластера — и свяжем выбор с санкционным контуром из урока 5 модуля p.3.

От чего на самом деле зависит «потянет или нет»

Для LLM важны четыре вещи: вес модели, формат квантизации, KV-cache/контекст и среда исполнения — llama.cpp, Ollama, vLLM, TGI и TensorRT в версиях на апрель 2026 года используют память по-разному. Для управленческой оценки достаточно такого правила:

FP16 — около 2 байт на параметр;
Q8 — около 1 байта на параметр;
Q5 — около 0,625 байта на параметр;
Q4 — около 0,5 байта на параметр;
сверху нужен запас под runtime, KV-cache и служебные буферы — обычно ещё 15-25%, точный объём зависит от длины контекста и движка. Ниже в уроке оценки VRAM округлены именно по этому правилу; для production-подбора всегда делайте контрольный прогон на своём контексте и реальном пайплайне (командный расчёт AIStudy от 20.04.2026).

Быстрая карта: какой размер модели куда помещается

Класс модели	Типовой формат для пилота	Оценка памяти под single-user inference	Что реально использовать
3B	Q4-Q5	≈ 1,8-2,2 ГБ (командный расчёт AIStudy от 20.04.2026)	ноутбук с 16 ГБ RAM или edge-устройство класса Jetson Orin Nano; это хороший класс для router, классификации, дешёвого guardrail и коротких служебных задач
7-8B	Q4-Q5	≈ 4,8-6,0 ГБ (командный расчёт AIStudy от 20.04.2026)	RTX 4060 8 ГБ или ноутбук/мак с 16 ГБ unified memory как нижняя граница (NVIDIA RTX 4060 — 8 GB; MacBook Air M2 — 16 GB unified memory)
14B	Q4-Q5	≈ 8,4-10,5 ГБ (командный расчёт AIStudy от 20.04.2026)	RTX 4090 24 ГБ или MacBook Pro M3 Max от 36 ГБ; это комфортный класс для нормального корпоративного чата без длинного батчинга (NVIDIA RTX 4090 — 24 GB; Apple MacBook Pro M3 Max — 36 GB)
32B	Q4-Q5	≈ 19,2-24,0 ГБ (командный расчёт AIStudy от 20.04.2026)	одна RTX 4090 24 ГБ — на пределе и только для аккуратной конфигурации; лучше RTX A6000 48 ГБ или 2× RTX 4090 (RTX 4090; RTX A6000 — 48 GB ECC)
70B	Q4	≈ 42 ГБ веса+runtime как практический минимум (командный расчёт AIStudy от 20.04.2026)	RTX A6000 48 ГБ — только для осторожного одиночного inference; надёжнее 2× RTX A6000 или 1× A100 80 ГБ; для высокой нагрузки — H100-класс (RTX A6000 marketplace — 48 GB; NVIDIA A100 80GB)
Топовые open-weight и большие MoE	FP8/BF16, серверный inference	80-192 ГБ на карту и выше в зависимости от схемы деплоя	4-8× H100, H200, MI300X или аналогичный дата-центрный стек (NVIDIA H100; NVIDIA H200; AMD MI300X — 192 GB HBM3)

flowchart TD
    A[Есть задача и выбран класс модели] --> B{Нужен только пилот у 1-3 человек?}
    B -->|Да| C{Модель до 8B в Q4-Q5?}
    C -->|Да| D[Ноутбук 16 ГБ или RTX 4060 8 ГБ]
    C -->|Нет| E[RTX 4090 24 ГБ или Mac M3 Max от 36 ГБ]
    B -->|Нет| F{Нужен отдел или корпоративный сервис?}
    F -->|Да| G{Модель 14B-32B?}
    G -->|Да| H[RTX 4090 24 ГБ или RTX A6000 48 ГБ]
    G -->|Нет| I[A100 80 ГБ или 2× A6000]
    F -->|Нет| J{Нужна высокая конкуррентность или 70B+?}
    J -->|Да| K[H100 H200 MI300X кластер]
    J -->|Нет| L[Пересмотрите размер модели и паттерн каскада]

Квантизация: где вы реально экономите, а где начинаете терять качество

Квантизация — это не «магия сжатия», а сознательный обмен качества и точности на память и скорость. Для локального запуска вам нужны пять практических форматов.

Формат	Что происходит	Что говорит первоисточник	Практический вывод
FP16	веса хранятся почти без сжатия	это базовая полноточная отправная точка для сравнения	нужен максимум памяти; обычно так гоняют серверный inference или дообучение
GGUF Q4_K_M	4-битное хранение в GGUF	Mistral прямо помечает `q4_k_m` как recommended для `llama.cpp` и CPU/Apple-friendly запуска (Mistral Cookbook: GGUF)	стандартный выбор для локального пилота, когда важнее вместить модель, чем выжать идеальный ответ
GGUF Q5_K_M	5-битное хранение	Mistral также помечает `q5_k_m` как recommended (Mistral Cookbook: GGUF)	лучший компромисс для документов, RAG и аккуратных ответов на русском
Q8_0	8-битное хранение	Mistral пишет, что `q8_0` очень близок к lossless относительно исходных весов (Mistral Cookbook: GGUF)	если цена ошибки высока, а памяти достаточно, берите Q8 вместо агрессивного Q4
AWQ / GPTQ	посттренировочная 4-битная квантизация под GPU	Hugging Face указывает, что AWQ сохраняет важную часть весов для минимальной деградации, а GPTQ позволяет сократить память примерно в 4 раза за счёт `int4` (HF AWQ; HF GPTQ)	это путь для GPU-inference на сервере, когда нужен не GGUF/CPU, а нормальный throughput

Лестница железа: от личной станции до enterprise

1. Ноутбук инженера и личная рабочая станция

Не путайте его с корпоративным контуром.

Железо	Что подтверждено источником	Что реально запускать	Рыночный вывод
Обычный ноутбук / Mac с 16 ГБ памяти	Apple для MacBook Air M2 указывает 16 ГБ unified memory как доступную конфигурацию (Apple Support)	3B и часть 7-8B в Q4-Q5; роутер запросов, классификация, суммаризация, локальная песочница	хороший старт для пилота, но не для длинного контекста и не для отделенческого сервиса
RTX 4060 8 ГБ	у RTX 4060 официально 8 ГБ GDDR6 (NVIDIA RTX 4060)	7-8B в Q4, часть 14B при жёстком ограничении контекста — на грани	нормальная лабораторная карта, но не «универсальный inference-сервер»
MacBook Pro M3 Max от 36 ГБ	Apple указывает 36 ГБ unified memory как базовую конфигурацию для части M3 Max; доступны и более ёмкие варианты вплоть до 128 ГБ (Apple Support)	14B комфортно, 32B в сильной квантизации и без высокой нагрузки	хороший личный R&D-инструмент для руководителя или AI-чемпиона

Как только появляются пользователи, SLA и ИБ-требования, ноутбук должен исчезнуть из архитектуры.

2. Рабочая станция отдела

Здесь живёт большинство производственных пилотов: RAG по регламентам, ассистент инженера, анализ PDF, внутренний чат по документам.

Железо	Память / мощность	Что брать под него	Цена
RTX 4090	24 ГБ GDDR6X (NVIDIA RTX 4090)	14B без мучений, 32B на грани, VLM среднего класса, локальный RAG-сервис для небольшой команды	цена на готовые сборки и отдельные карты значительно варьируется в 2026 году и требует актуальной проверки на маркетплейсах и у интеграторов (Ozon, DigitalRazor RTX 4090)
RTX A6000	48 ГБ GDDR6 ECC, мощность 300 W (PNY RTX A6000)	32B уверенно, 70B Q4 в осторожном single-user режиме, графовый RAG, документный пайплайн, inference с запасом по памяти	актуальная рыночная цена в 2026 году — ориентировочно около $6 500, но для РФ-закупок её нужно проверять отдельно (NVIDIA Marketplace RTX A6000)
2× RTX 4090	совокупно 48 ГБ памяти, но без простоты single-card режима	32B-70B через многокарточный inference, если команда умеет настраивать стек	по бюджету часто выгоднее A6000, но эксплуатационно сложнее; итоговая стоимость сервера — нужна проверка

A6000 до сих пор любят из-за 48 ГБ ECC-памяти и предсказуемого серверного поведения. Для пилота по документам она часто практичнее consumer-карты с меньшим запасом VRAM.

3. Серверный и enterprise-уровень

Если вы хотите 70B, высокую конкуррентность или сложный мультимодальный стек, consumer-железо заканчивается.

Железо	Что говорит первоисточник	Где применять	Цена
A100 80GB	80 ГБ HBM2e, до 2 ТБ/с памяти у варианта 80GB, серверы 1-8 GPU (NVIDIA A100)	70B Q4/Q5, корпоративный inference, batch, fine-tuning малого и среднего масштаба	публичная рыночная цена сильно зависит от состояния и форм-фактора; для РФ-покупки — нужна проверка
H100	H100 SXM — 80 ГБ, 3,35 ТБ/с, NVLink 900 ГБ/с, до 700 W (NVIDIA H100)	high-throughput inference, большие VLM, multi-user production, тяжёлый RAG и training	официальный MSRP публично не раскрывается; контрактные и реселлерские цены волатильны — нужна проверка
H200	141 ГБ HBM3e, 4,8 ТБ/с (NVIDIA H200)	сценарии, где упираетесь именно в память: большие контексты, крупные open-weight, dense-модели	публичная закупочная цена для РФ — нужна проверка
AMD MI300X	192 ГБ HBM3, 5,3 ТБ/с, платформа из 8 GPU = 1,5 ТБ HBM3 (AMD MI300X)	крупный inference и training там, где команда готова жить не на CUDA, а на ROCm	российская доступность и сервисная поддержка — нужна проверка

H100 и H200 берут не ради «качества ответа», а ради масштаба, контекста и concurrency. Для 20 пользователей и одной задачи RAG кластер H100 почти наверняка избыточен.

Edge: где LLM заканчивается и начинается нормальный промышленный AI

Edge нужен там, где есть камера, сенсор, низкая задержка и плохая связь.

Устройство	Что подтверждено источником	Для чего брать	Ограничение
Raspberry Pi 5	версия 16 ГБ к апрелю 2026 стоит примерно $300-390 из-за дефицита памяти DDR5 (Raspberry Pi 2026 price rises; The Register, 01.04.2026)	дешёвый контроллер, лёгкий CV, прототип с камерой, периферия, gateway	не надо строить на нём серьёзный LLM-inference; это плата для edge-логики, а не для заводского ассистента
Jetson Orin Nano Super	67 TOPS, цена developer kit $249 (NVIDIA Jetson Orin; Jetson FAQ)	CV на линии, детекция дефекта, safety-video, маленькие VLM и distilled 3B	хороший edge-компьютер, но не замена серверу 14B-32B
Jetson AGX Orin	до 275 TOPS, developer kit $1 999 (NVIDIA Jetson Orin; Jetson FAQ)	многокамерный CV, робототехника, локальная аналитика у оборудования, edge + vision-language конвейер	дороже, требует нормальной инженерии, но это уже промышленный класс, а не кружок робототехники

Санкционная картина 2026: почему «железо есть на рынке» не равно «его можно нормально внедрить»

Здесь вопрос не только в наличии, но и в закупке, сервисе и риске остановки.

Что это значит practically

RTX 4090, A6000, A100, H100, H200 технически присутствуют на рынке, но официальный российский канал закупки high-end AI-инфраструктуры в 2026 году нестабилен — чаще это параллельный импорт, реселлеры и интеграторы.
Для значимых объектов КИИ вопрос упирается не только в наличие карты, но и в происхождение стека, контракт, сервис и весь контур эксплуатации — см. урок 2 модуля p.3 про КИИ.
Huawei Ascend 910B и другие китайские альтернативы часто обсуждают как замену NVIDIA, но с ними другая проблема: публичная спецификация и зрелость софта для внешнего заказчика фрагментарны, а экосистема сильно уступает CUDA. Для российского предприятия без сильной внутренней команды это почти всегда проект повышенного риска — точные публичные характеристики и доступность нужна проверка.
Intel Arc A770 с 16 ГБ GDDR6 существует как дешёвая лабораторная альтернатива и поддерживает OpenVINO / oneAPI (Intel Arc A770), но в проде экосистема под LLM слабее NVIDIA.
AMD MI300X выглядит сильно по памяти — 192 ГБ HBM3 на карту (AMD MI300X), но переход на ROCm — это отдельный архитектурный выбор, а не «ещё одна GPU».

В промышленности часто выигрывает не самое мощное, а самое обслуживаемое железо. Без канала поставки «параллельный» GPU быстро превращается в простой.

Как выбирать железо без самообмана

Определите класс модели. Не название, а размер: 3B, 8B, 14B, 32B, 70B.
Зафиксируйте формат. Для локального пилота — Q4/Q5. Для прод-сервера — AWQ/GPTQ или полноточный inference.
Посчитайте память с запасом. Не только веса, но и контекст, KV-cache, batch, системные буферы.
Сверьте контур данных. Если проект чувствителен по ПД или КИИ, сначала вернитесь к урокам 1 и 2 модуля p.3, потом покупайте сервер.
Разделите пилот и прод. Ноутбук и рабочая станция годятся для проверки гипотезы; корпоративный сервис — это уже отдельный контур.
Проверьте канал закупки. Наличие карты в объявлении не равно наличию сервиса, гарантии и запасных частей.
Сначала снижайте размер модели, потом наращивайте железо. Очень часто 14B на хорошей архитектуре закрывает задачу лучше и дешевле, чем 70B на дорогом кластере.
Смотрите на задачу, а не на хайп. Для CV и временных рядов часто нужен не H100, а Jetson, YOLO, Anomalib или Nixtla-стек — это разберём в уроке 7 модуля p.2.

Что брать по умолчанию: короткая рекомендация для CDTO

Если нужен быстрый старт, правило такое:

Личный R&D — ноутбук 16 ГБ или Mac с 16-36 ГБ.
Пилот отдела — RTX 4090 или RTX A6000.
Корпоративный сервис на 32B-70B — A100 80GB или много-GPU стек.
Высокая конкуррентность и большие контексты — H100/H200/MI300X-класс.
Линия и realtime — Jetson, а не LLM-сервер.

Если в пилоте помогает arckep.ru или российский облачный API, это ещё не означает, что прод должен быть on-prem. Но как только вы упираетесь в ПД, КИИ или санкционный контур, выбор железа перестаёт быть чисто техническим. В этот момент снова открывайте уроки модуля p.3.

Ключевые выводы

Для LLM критичны не абстрактные TFLOPS, а объём VRAM, пропускная способность памяти и запас под контекст.
Ноутбук закрывает 3B-8B и часть 14B для личного пилота, но не заменяет отделенческий или заводской inference-контур.
RTX 4090 — сильный рабочий минимум для отдела; RTX A6000 ценна не модой, а 48 ГБ ECC-памяти.
A100, H100 и H200 нужны тогда, когда вы упираетесь в 70B, concurrency и длинные контексты, а не когда «хочется лучшее железо».
Q4/Q5 спасают пилот, но не отменяют закона физики: если памяти мало, модель всё равно будет душить систему.
Для edge почти всегда нужен CV- или sensor-стек, а не полноразмерная LLM.
В 2026 году выбор железа в РФ нельзя отделять от санкций, закупки, сервиса и правового контура из модуля p.3.