Модуль p.2 · Урок 3
Урок 3: Железо под модели — от ноутбука инженера до кластера H100
Содержание
- Чему вы научитесь
- От чего на самом деле зависит «потянет или нет»
- Быстрая карта: какой размер модели куда помещается
- Квантизация: где вы реально экономите, а где начинаете терять качество
- Лестница железа: от личной станции до enterprise
- 1. Ноутбук инженера и личная рабочая станция
- 2. Рабочая станция отдела
- 3. Серверный и enterprise-уровень
- Edge: где LLM заканчивается и начинается нормальный промышленный AI
- Санкционная картина 2026: почему «железо есть на рынке» не равно «его можно нормально внедрить»
- Что это значит practically
- Как выбирать железо без самообмана
- Что брать по умолчанию: короткая рекомендация для CDTO
Чему вы научитесь
- Быстро оценивать, потянет ли конкретное железо модель нужного класса без магии и маркетинга
- Отличать сценарий «инженерский ноутбук для пилота» от сценария «корпоративный inference-сервер»
- Понимать, когда спасает квантизация, а когда она только маскирует нехватку памяти
- Выбирать между RTX 4090, A6000, A100, H100 и edge-устройствами под конкретную задачу
- Ставить интегратору правильный вопрос: «какой объём VRAM и какой запас под контекст, а не просто какая у вас видеокарта»
Типовая ошибка первого AI-пилота проста: команда обсуждает модель, но не считает память. В итоге «локальный Qwen» не помещается в станцию, 70B на одной карте тормозит, а Jetson покупают под задачу, где нужен обычный сервер. Разложим железо по уровням — от ноутбука до кластера — и свяжем выбор с санкционным контуром из урока 5 модуля p.3.
От чего на самом деле зависит «потянет или нет»
Для LLM важны четыре вещи: вес модели, формат квантизации, KV-cache/контекст и среда исполнения — llama.cpp, Ollama, vLLM, TGI и TensorRT в версиях на апрель 2026 года используют память по-разному. Для управленческой оценки достаточно такого правила:
- FP16 — около 2 байт на параметр;
- Q8 — около 1 байта на параметр;
- Q5 — около 0,625 байта на параметр;
- Q4 — около 0,5 байта на параметр;
- сверху нужен запас под runtime, KV-cache и служебные буферы — обычно ещё 15-25%, точный объём зависит от длины контекста и движка. Ниже в уроке оценки VRAM округлены именно по этому правилу; для production-подбора всегда делайте контрольный прогон на своём контексте и реальном пайплайне (командный расчёт AIStudy от 20.04.2026).
Быстрая карта: какой размер модели куда помещается
| Класс модели | Типовой формат для пилота | Оценка памяти под single-user inference | Что реально использовать |
|---|---|---|---|
| 3B | Q4-Q5 | ≈ 1,8-2,2 ГБ (командный расчёт AIStudy от 20.04.2026) | ноутбук с 16 ГБ RAM или edge-устройство класса Jetson Orin Nano; это хороший класс для router, классификации, дешёвого guardrail и коротких служебных задач |
| 7-8B | Q4-Q5 | ≈ 4,8-6,0 ГБ (командный расчёт AIStudy от 20.04.2026) | RTX 4060 8 ГБ или ноутбук/мак с 16 ГБ unified memory как нижняя граница (NVIDIA RTX 4060 — 8 GB; MacBook Air M2 — 16 GB unified memory) |
| 14B | Q4-Q5 | ≈ 8,4-10,5 ГБ (командный расчёт AIStudy от 20.04.2026) | RTX 4090 24 ГБ или MacBook Pro M3 Max от 36 ГБ; это комфортный класс для нормального корпоративного чата без длинного батчинга (NVIDIA RTX 4090 — 24 GB; Apple MacBook Pro M3 Max — 36 GB) |
| 32B | Q4-Q5 | ≈ 19,2-24,0 ГБ (командный расчёт AIStudy от 20.04.2026) | одна RTX 4090 24 ГБ — на пределе и только для аккуратной конфигурации; лучше RTX A6000 48 ГБ или 2× RTX 4090 (RTX 4090; RTX A6000 — 48 GB ECC) |
| 70B | Q4 | ≈ 42 ГБ веса+runtime как практический минимум (командный расчёт AIStudy от 20.04.2026) | RTX A6000 48 ГБ — только для осторожного одиночного inference; надёжнее 2× RTX A6000 или 1× A100 80 ГБ; для высокой нагрузки — H100-класс (RTX A6000 marketplace — 48 GB; NVIDIA A100 80GB) |
| Топовые open-weight и большие MoE | FP8/BF16, серверный inference | 80-192 ГБ на карту и выше в зависимости от схемы деплоя | 4-8× H100, H200, MI300X или аналогичный дата-центрный стек (NVIDIA H100; NVIDIA H200; AMD MI300X — 192 GB HBM3) |
flowchart TD
A[Есть задача и выбран класс модели] --> B{Нужен только пилот у 1-3 человек?}
B -->|Да| C{Модель до 8B в Q4-Q5?}
C -->|Да| D[Ноутбук 16 ГБ или RTX 4060 8 ГБ]
C -->|Нет| E[RTX 4090 24 ГБ или Mac M3 Max от 36 ГБ]
B -->|Нет| F{Нужен отдел или корпоративный сервис?}
F -->|Да| G{Модель 14B-32B?}
G -->|Да| H[RTX 4090 24 ГБ или RTX A6000 48 ГБ]
G -->|Нет| I[A100 80 ГБ или 2× A6000]
F -->|Нет| J{Нужна высокая конкуррентность или 70B+?}
J -->|Да| K[H100 H200 MI300X кластер]
J -->|Нет| L[Пересмотрите размер модели и паттерн каскада]Квантизация: где вы реально экономите, а где начинаете терять качество
Квантизация — это не «магия сжатия», а сознательный обмен качества и точности на память и скорость. Для локального запуска вам нужны пять практических форматов.
| Формат | Что происходит | Что говорит первоисточник | Практический вывод |
|---|---|---|---|
| FP16 | веса хранятся почти без сжатия | это базовая полноточная отправная точка для сравнения | нужен максимум памяти; обычно так гоняют серверный inference или дообучение |
| GGUF Q4_K_M | 4-битное хранение в GGUF | Mistral прямо помечает q4_k_m как recommended для llama.cpp и CPU/Apple-friendly запуска (Mistral Cookbook: GGUF) | стандартный выбор для локального пилота, когда важнее вместить модель, чем выжать идеальный ответ |
| GGUF Q5_K_M | 5-битное хранение | Mistral также помечает q5_k_m как recommended (Mistral Cookbook: GGUF) | лучший компромисс для документов, RAG и аккуратных ответов на русском |
| Q8_0 | 8-битное хранение | Mistral пишет, что q8_0 очень близок к lossless относительно исходных весов (Mistral Cookbook: GGUF) | если цена ошибки высока, а памяти достаточно, берите Q8 вместо агрессивного Q4 |
| AWQ / GPTQ | посттренировочная 4-битная квантизация под GPU | Hugging Face указывает, что AWQ сохраняет важную часть весов для минимальной деградации, а GPTQ позволяет сократить память примерно в 4 раза за счёт int4 (HF AWQ; HF GPTQ) | это путь для GPU-inference на сервере, когда нужен не GGUF/CPU, а нормальный throughput |
Лестница железа: от личной станции до enterprise
1. Ноутбук инженера и личная рабочая станция
Не путайте его с корпоративным контуром.
| Железо | Что подтверждено источником | Что реально запускать | Рыночный вывод |
|---|---|---|---|
| Обычный ноутбук / Mac с 16 ГБ памяти | Apple для MacBook Air M2 указывает 16 ГБ unified memory как доступную конфигурацию (Apple Support) | 3B и часть 7-8B в Q4-Q5; роутер запросов, классификация, суммаризация, локальная песочница | хороший старт для пилота, но не для длинного контекста и не для отделенческого сервиса |
| RTX 4060 8 ГБ | у RTX 4060 официально 8 ГБ GDDR6 (NVIDIA RTX 4060) | 7-8B в Q4, часть 14B при жёстком ограничении контекста — на грани | нормальная лабораторная карта, но не «универсальный inference-сервер» |
| MacBook Pro M3 Max от 36 ГБ | Apple указывает 36 ГБ unified memory как базовую конфигурацию для части M3 Max; доступны и более ёмкие варианты вплоть до 128 ГБ (Apple Support) | 14B комфортно, 32B в сильной квантизации и без высокой нагрузки | хороший личный R&D-инструмент для руководителя или AI-чемпиона |
Как только появляются пользователи, SLA и ИБ-требования, ноутбук должен исчезнуть из архитектуры.
2. Рабочая станция отдела
Здесь живёт большинство производственных пилотов: RAG по регламентам, ассистент инженера, анализ PDF, внутренний чат по документам.
| Железо | Память / мощность | Что брать под него | Цена |
|---|---|---|---|
| RTX 4090 | 24 ГБ GDDR6X (NVIDIA RTX 4090) | 14B без мучений, 32B на грани, VLM среднего класса, локальный RAG-сервис для небольшой команды | цена на готовые сборки и отдельные карты значительно варьируется в 2026 году и требует актуальной проверки на маркетплейсах и у интеграторов (Ozon, DigitalRazor RTX 4090) |
| RTX A6000 | 48 ГБ GDDR6 ECC, мощность 300 W (PNY RTX A6000) | 32B уверенно, 70B Q4 в осторожном single-user режиме, графовый RAG, документный пайплайн, inference с запасом по памяти | актуальная рыночная цена в 2026 году — ориентировочно около $6 500, но для РФ-закупок её нужно проверять отдельно (NVIDIA Marketplace RTX A6000) |
| 2× RTX 4090 | совокупно 48 ГБ памяти, но без простоты single-card режима | 32B-70B через многокарточный inference, если команда умеет настраивать стек | по бюджету часто выгоднее A6000, но эксплуатационно сложнее; итоговая стоимость сервера — нужна проверка |
A6000 до сих пор любят из-за 48 ГБ ECC-памяти и предсказуемого серверного поведения. Для пилота по документам она часто практичнее consumer-карты с меньшим запасом VRAM.
3. Серверный и enterprise-уровень
Если вы хотите 70B, высокую конкуррентность или сложный мультимодальный стек, consumer-железо заканчивается.
| Железо | Что говорит первоисточник | Где применять | Цена |
|---|---|---|---|
| A100 80GB | 80 ГБ HBM2e, до 2 ТБ/с памяти у варианта 80GB, серверы 1-8 GPU (NVIDIA A100) | 70B Q4/Q5, корпоративный inference, batch, fine-tuning малого и среднего масштаба | публичная рыночная цена сильно зависит от состояния и форм-фактора; для РФ-покупки — нужна проверка |
| H100 | H100 SXM — 80 ГБ, 3,35 ТБ/с, NVLink 900 ГБ/с, до 700 W (NVIDIA H100) | high-throughput inference, большие VLM, multi-user production, тяжёлый RAG и training | официальный MSRP публично не раскрывается; контрактные и реселлерские цены волатильны — нужна проверка |
| H200 | 141 ГБ HBM3e, 4,8 ТБ/с (NVIDIA H200) | сценарии, где упираетесь именно в память: большие контексты, крупные open-weight, dense-модели | публичная закупочная цена для РФ — нужна проверка |
| AMD MI300X | 192 ГБ HBM3, 5,3 ТБ/с, платформа из 8 GPU = 1,5 ТБ HBM3 (AMD MI300X) | крупный inference и training там, где команда готова жить не на CUDA, а на ROCm | российская доступность и сервисная поддержка — нужна проверка |
H100 и H200 берут не ради «качества ответа», а ради масштаба, контекста и concurrency. Для 20 пользователей и одной задачи RAG кластер H100 почти наверняка избыточен.
Edge: где LLM заканчивается и начинается нормальный промышленный AI
Edge нужен там, где есть камера, сенсор, низкая задержка и плохая связь.
| Устройство | Что подтверждено источником | Для чего брать | Ограничение |
|---|---|---|---|
| Raspberry Pi 5 | версия 16 ГБ к апрелю 2026 стоит примерно $300-390 из-за дефицита памяти DDR5 (Raspberry Pi 2026 price rises; The Register, 01.04.2026) | дешёвый контроллер, лёгкий CV, прототип с камерой, периферия, gateway | не надо строить на нём серьёзный LLM-inference; это плата для edge-логики, а не для заводского ассистента |
| Jetson Orin Nano Super | 67 TOPS, цена developer kit $249 (NVIDIA Jetson Orin; Jetson FAQ) | CV на линии, детекция дефекта, safety-video, маленькие VLM и distilled 3B | хороший edge-компьютер, но не замена серверу 14B-32B |
| Jetson AGX Orin | до 275 TOPS, developer kit $1 999 (NVIDIA Jetson Orin; Jetson FAQ) | многокамерный CV, робототехника, локальная аналитика у оборудования, edge + vision-language конвейер | дороже, требует нормальной инженерии, но это уже промышленный класс, а не кружок робототехники |
Санкционная картина 2026: почему «железо есть на рынке» не равно «его можно нормально внедрить»
Здесь вопрос не только в наличии, но и в закупке, сервисе и риске остановки.
Что это значит practically
- RTX 4090, A6000, A100, H100, H200 технически присутствуют на рынке, но официальный российский канал закупки high-end AI-инфраструктуры в 2026 году нестабилен — чаще это параллельный импорт, реселлеры и интеграторы.
- Для значимых объектов КИИ вопрос упирается не только в наличие карты, но и в происхождение стека, контракт, сервис и весь контур эксплуатации — см. урок 2 модуля p.3 про КИИ.
- Huawei Ascend 910B и другие китайские альтернативы часто обсуждают как замену NVIDIA, но с ними другая проблема: публичная спецификация и зрелость софта для внешнего заказчика фрагментарны, а экосистема сильно уступает CUDA. Для российского предприятия без сильной внутренней команды это почти всегда проект повышенного риска — точные публичные характеристики и доступность нужна проверка.
- Intel Arc A770 с 16 ГБ GDDR6 существует как дешёвая лабораторная альтернатива и поддерживает OpenVINO / oneAPI (Intel Arc A770), но в проде экосистема под LLM слабее NVIDIA.
- AMD MI300X выглядит сильно по памяти — 192 ГБ HBM3 на карту (AMD MI300X), но переход на ROCm — это отдельный архитектурный выбор, а не «ещё одна GPU».
В промышленности часто выигрывает не самое мощное, а самое обслуживаемое железо. Без канала поставки «параллельный» GPU быстро превращается в простой.
Как выбирать железо без самообмана
Определите класс модели. Не название, а размер: 3B, 8B, 14B, 32B, 70B.
Зафиксируйте формат. Для локального пилота — Q4/Q5. Для прод-сервера — AWQ/GPTQ или полноточный inference.
Посчитайте память с запасом. Не только веса, но и контекст, KV-cache, batch, системные буферы.
Сверьте контур данных. Если проект чувствителен по ПД или КИИ, сначала вернитесь к урокам 1 и 2 модуля p.3, потом покупайте сервер.
Разделите пилот и прод. Ноутбук и рабочая станция годятся для проверки гипотезы; корпоративный сервис — это уже отдельный контур.
Проверьте канал закупки. Наличие карты в объявлении не равно наличию сервиса, гарантии и запасных частей.
Сначала снижайте размер модели, потом наращивайте железо. Очень часто 14B на хорошей архитектуре закрывает задачу лучше и дешевле, чем 70B на дорогом кластере.
Смотрите на задачу, а не на хайп. Для CV и временных рядов часто нужен не H100, а Jetson, YOLO, Anomalib или Nixtla-стек — это разберём в уроке 7 модуля p.2.
Что брать по умолчанию: короткая рекомендация для CDTO
Если нужен быстрый старт, правило такое:
- Личный R&D — ноутбук 16 ГБ или Mac с 16-36 ГБ.
- Пилот отдела — RTX 4090 или RTX A6000.
- Корпоративный сервис на 32B-70B — A100 80GB или много-GPU стек.
- Высокая конкуррентность и большие контексты — H100/H200/MI300X-класс.
- Линия и realtime — Jetson, а не LLM-сервер.
Если в пилоте помогает arckep.ru или российский облачный API, это ещё не означает, что прод должен быть on-prem. Но как только вы упираетесь в ПД, КИИ или санкционный контур, выбор железа перестаёт быть чисто техническим. В этот момент снова открывайте уроки модуля p.3.