Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль p.2 · Урок 3

Урок 3: Железо под модели — от ноутбука инженера до кластера H100

35 мин
p.2 / Урок 3 из 7

Чему вы научитесь

  • Быстро оценивать, потянет ли конкретное железо модель нужного класса без магии и маркетинга
  • Отличать сценарий «инженерский ноутбук для пилота» от сценария «корпоративный inference-сервер»
  • Понимать, когда спасает квантизация, а когда она только маскирует нехватку памяти
  • Выбирать между RTX 4090, A6000, A100, H100 и edge-устройствами под конкретную задачу
  • Ставить интегратору правильный вопрос: «какой объём VRAM и какой запас под контекст, а не просто какая у вас видеокарта»

Типовая ошибка первого AI-пилота проста: команда обсуждает модель, но не считает память. В итоге «локальный Qwen» не помещается в станцию, 70B на одной карте тормозит, а Jetson покупают под задачу, где нужен обычный сервер. Разложим железо по уровням — от ноутбука до кластера — и свяжем выбор с санкционным контуром из урока 5 модуля p.3.

От чего на самом деле зависит «потянет или нет»

Для LLM важны четыре вещи: вес модели, формат квантизации, KV-cache/контекст и среда исполнения — llama.cpp, Ollama, vLLM, TGI и TensorRT в версиях на апрель 2026 года используют память по-разному. Для управленческой оценки достаточно такого правила:

  • FP16 — около 2 байт на параметр;
  • Q8 — около 1 байта на параметр;
  • Q5 — около 0,625 байта на параметр;
  • Q4 — около 0,5 байта на параметр;
  • сверху нужен запас под runtime, KV-cache и служебные буферы — обычно ещё 15-25%, точный объём зависит от длины контекста и движка. Ниже в уроке оценки VRAM округлены именно по этому правилу; для production-подбора всегда делайте контрольный прогон на своём контексте и реальном пайплайне (командный расчёт AIStudy от 20.04.2026).

Быстрая карта: какой размер модели куда помещается

Класс моделиТиповой формат для пилотаОценка памяти под single-user inferenceЧто реально использовать
3BQ4-Q5≈ 1,8-2,2 ГБ (командный расчёт AIStudy от 20.04.2026)ноутбук с 16 ГБ RAM или edge-устройство класса Jetson Orin Nano; это хороший класс для router, классификации, дешёвого guardrail и коротких служебных задач
7-8BQ4-Q5≈ 4,8-6,0 ГБ (командный расчёт AIStudy от 20.04.2026)RTX 4060 8 ГБ или ноутбук/мак с 16 ГБ unified memory как нижняя граница (NVIDIA RTX 4060 — 8 GB; MacBook Air M2 — 16 GB unified memory)
14BQ4-Q5≈ 8,4-10,5 ГБ (командный расчёт AIStudy от 20.04.2026)RTX 4090 24 ГБ или MacBook Pro M3 Max от 36 ГБ; это комфортный класс для нормального корпоративного чата без длинного батчинга (NVIDIA RTX 4090 — 24 GB; Apple MacBook Pro M3 Max — 36 GB)
32BQ4-Q5≈ 19,2-24,0 ГБ (командный расчёт AIStudy от 20.04.2026)одна RTX 4090 24 ГБ — на пределе и только для аккуратной конфигурации; лучше RTX A6000 48 ГБ или 2× RTX 4090 (RTX 4090; RTX A6000 — 48 GB ECC)
70BQ4≈ 42 ГБ веса+runtime как практический минимум (командный расчёт AIStudy от 20.04.2026)RTX A6000 48 ГБ — только для осторожного одиночного inference; надёжнее 2× RTX A6000 или 1× A100 80 ГБ; для высокой нагрузки — H100-класс (RTX A6000 marketplace — 48 GB; NVIDIA A100 80GB)
Топовые open-weight и большие MoEFP8/BF16, серверный inference80-192 ГБ на карту и выше в зависимости от схемы деплоя4-8× H100, H200, MI300X или аналогичный дата-центрный стек (NVIDIA H100; NVIDIA H200; AMD MI300X — 192 GB HBM3)
flowchart TD
    A[Есть задача и выбран класс модели] --> B{Нужен только пилот у 1-3 человек?}
    B -->|Да| C{Модель до 8B в Q4-Q5?}
    C -->|Да| D[Ноутбук 16 ГБ или RTX 4060 8 ГБ]
    C -->|Нет| E[RTX 4090 24 ГБ или Mac M3 Max от 36 ГБ]
    B -->|Нет| F{Нужен отдел или корпоративный сервис?}
    F -->|Да| G{Модель 14B-32B?}
    G -->|Да| H[RTX 4090 24 ГБ или RTX A6000 48 ГБ]
    G -->|Нет| I[A100 80 ГБ или 2× A6000]
    F -->|Нет| J{Нужна высокая конкуррентность или 70B+?}
    J -->|Да| K[H100 H200 MI300X кластер]
    J -->|Нет| L[Пересмотрите размер модели и паттерн каскада]

Квантизация: где вы реально экономите, а где начинаете терять качество

Квантизация — это не «магия сжатия», а сознательный обмен качества и точности на память и скорость. Для локального запуска вам нужны пять практических форматов.

ФорматЧто происходитЧто говорит первоисточникПрактический вывод
FP16веса хранятся почти без сжатияэто базовая полноточная отправная точка для сравнениянужен максимум памяти; обычно так гоняют серверный inference или дообучение
GGUF Q4_K_M4-битное хранение в GGUFMistral прямо помечает q4_k_m как recommended для llama.cpp и CPU/Apple-friendly запуска (Mistral Cookbook: GGUF)стандартный выбор для локального пилота, когда важнее вместить модель, чем выжать идеальный ответ
GGUF Q5_K_M5-битное хранениеMistral также помечает q5_k_m как recommended (Mistral Cookbook: GGUF)лучший компромисс для документов, RAG и аккуратных ответов на русском
Q8_08-битное хранениеMistral пишет, что q8_0 очень близок к lossless относительно исходных весов (Mistral Cookbook: GGUF)если цена ошибки высока, а памяти достаточно, берите Q8 вместо агрессивного Q4
AWQ / GPTQпосттренировочная 4-битная квантизация под GPUHugging Face указывает, что AWQ сохраняет важную часть весов для минимальной деградации, а GPTQ позволяет сократить память примерно в 4 раза за счёт int4 (HF AWQ; HF GPTQ)это путь для GPU-inference на сервере, когда нужен не GGUF/CPU, а нормальный throughput

Лестница железа: от личной станции до enterprise

1. Ноутбук инженера и личная рабочая станция

Не путайте его с корпоративным контуром.

ЖелезоЧто подтверждено источникомЧто реально запускатьРыночный вывод
Обычный ноутбук / Mac с 16 ГБ памятиApple для MacBook Air M2 указывает 16 ГБ unified memory как доступную конфигурацию (Apple Support)3B и часть 7-8B в Q4-Q5; роутер запросов, классификация, суммаризация, локальная песочницахороший старт для пилота, но не для длинного контекста и не для отделенческого сервиса
RTX 4060 8 ГБу RTX 4060 официально 8 ГБ GDDR6 (NVIDIA RTX 4060)7-8B в Q4, часть 14B при жёстком ограничении контекста — на гранинормальная лабораторная карта, но не «универсальный inference-сервер»
MacBook Pro M3 Max от 36 ГБApple указывает 36 ГБ unified memory как базовую конфигурацию для части M3 Max; доступны и более ёмкие варианты вплоть до 128 ГБ (Apple Support)14B комфортно, 32B в сильной квантизации и без высокой нагрузкихороший личный R&D-инструмент для руководителя или AI-чемпиона

Как только появляются пользователи, SLA и ИБ-требования, ноутбук должен исчезнуть из архитектуры.

2. Рабочая станция отдела

Здесь живёт большинство производственных пилотов: RAG по регламентам, ассистент инженера, анализ PDF, внутренний чат по документам.

ЖелезоПамять / мощностьЧто брать под негоЦена
RTX 409024 ГБ GDDR6X (NVIDIA RTX 4090)14B без мучений, 32B на грани, VLM среднего класса, локальный RAG-сервис для небольшой командыцена на готовые сборки и отдельные карты значительно варьируется в 2026 году и требует актуальной проверки на маркетплейсах и у интеграторов (Ozon, DigitalRazor RTX 4090)
RTX A600048 ГБ GDDR6 ECC, мощность 300 W (PNY RTX A6000)32B уверенно, 70B Q4 в осторожном single-user режиме, графовый RAG, документный пайплайн, inference с запасом по памятиактуальная рыночная цена в 2026 году — ориентировочно около $6 500, но для РФ-закупок её нужно проверять отдельно (NVIDIA Marketplace RTX A6000)
2× RTX 4090совокупно 48 ГБ памяти, но без простоты single-card режима32B-70B через многокарточный inference, если команда умеет настраивать стекпо бюджету часто выгоднее A6000, но эксплуатационно сложнее; итоговая стоимость сервера — нужна проверка

A6000 до сих пор любят из-за 48 ГБ ECC-памяти и предсказуемого серверного поведения. Для пилота по документам она часто практичнее consumer-карты с меньшим запасом VRAM.

3. Серверный и enterprise-уровень

Если вы хотите 70B, высокую конкуррентность или сложный мультимодальный стек, consumer-железо заканчивается.

ЖелезоЧто говорит первоисточникГде применятьЦена
A100 80GB80 ГБ HBM2e, до 2 ТБ/с памяти у варианта 80GB, серверы 1-8 GPU (NVIDIA A100)70B Q4/Q5, корпоративный inference, batch, fine-tuning малого и среднего масштабапубличная рыночная цена сильно зависит от состояния и форм-фактора; для РФ-покупки — нужна проверка
H100H100 SXM — 80 ГБ, 3,35 ТБ/с, NVLink 900 ГБ/с, до 700 W (NVIDIA H100)high-throughput inference, большие VLM, multi-user production, тяжёлый RAG и trainingофициальный MSRP публично не раскрывается; контрактные и реселлерские цены волатильны — нужна проверка
H200141 ГБ HBM3e, 4,8 ТБ/с (NVIDIA H200)сценарии, где упираетесь именно в память: большие контексты, крупные open-weight, dense-моделипубличная закупочная цена для РФ — нужна проверка
AMD MI300X192 ГБ HBM3, 5,3 ТБ/с, платформа из 8 GPU = 1,5 ТБ HBM3 (AMD MI300X)крупный inference и training там, где команда готова жить не на CUDA, а на ROCmроссийская доступность и сервисная поддержка — нужна проверка

H100 и H200 берут не ради «качества ответа», а ради масштаба, контекста и concurrency. Для 20 пользователей и одной задачи RAG кластер H100 почти наверняка избыточен.

Edge: где LLM заканчивается и начинается нормальный промышленный AI

Edge нужен там, где есть камера, сенсор, низкая задержка и плохая связь.

УстройствоЧто подтверждено источникомДля чего братьОграничение
Raspberry Pi 5версия 16 ГБ к апрелю 2026 стоит примерно $300-390 из-за дефицита памяти DDR5 (Raspberry Pi 2026 price rises; The Register, 01.04.2026)дешёвый контроллер, лёгкий CV, прототип с камерой, периферия, gatewayне надо строить на нём серьёзный LLM-inference; это плата для edge-логики, а не для заводского ассистента
Jetson Orin Nano Super67 TOPS, цена developer kit $249 (NVIDIA Jetson Orin; Jetson FAQ)CV на линии, детекция дефекта, safety-video, маленькие VLM и distilled 3Bхороший edge-компьютер, но не замена серверу 14B-32B
Jetson AGX Orinдо 275 TOPS, developer kit $1 999 (NVIDIA Jetson Orin; Jetson FAQ)многокамерный CV, робототехника, локальная аналитика у оборудования, edge + vision-language конвейердороже, требует нормальной инженерии, но это уже промышленный класс, а не кружок робототехники

Санкционная картина 2026: почему «железо есть на рынке» не равно «его можно нормально внедрить»

Здесь вопрос не только в наличии, но и в закупке, сервисе и риске остановки.

Что это значит practically

  • RTX 4090, A6000, A100, H100, H200 технически присутствуют на рынке, но официальный российский канал закупки high-end AI-инфраструктуры в 2026 году нестабилен — чаще это параллельный импорт, реселлеры и интеграторы.
  • Для значимых объектов КИИ вопрос упирается не только в наличие карты, но и в происхождение стека, контракт, сервис и весь контур эксплуатации — см. урок 2 модуля p.3 про КИИ.
  • Huawei Ascend 910B и другие китайские альтернативы часто обсуждают как замену NVIDIA, но с ними другая проблема: публичная спецификация и зрелость софта для внешнего заказчика фрагментарны, а экосистема сильно уступает CUDA. Для российского предприятия без сильной внутренней команды это почти всегда проект повышенного риска — точные публичные характеристики и доступность нужна проверка.
  • Intel Arc A770 с 16 ГБ GDDR6 существует как дешёвая лабораторная альтернатива и поддерживает OpenVINO / oneAPI (Intel Arc A770), но в проде экосистема под LLM слабее NVIDIA.
  • AMD MI300X выглядит сильно по памяти — 192 ГБ HBM3 на карту (AMD MI300X), но переход на ROCm — это отдельный архитектурный выбор, а не «ещё одна GPU».

В промышленности часто выигрывает не самое мощное, а самое обслуживаемое железо. Без канала поставки «параллельный» GPU быстро превращается в простой.

Как выбирать железо без самообмана

  1. Определите класс модели. Не название, а размер: 3B, 8B, 14B, 32B, 70B.

  2. Зафиксируйте формат. Для локального пилота — Q4/Q5. Для прод-сервера — AWQ/GPTQ или полноточный inference.

  3. Посчитайте память с запасом. Не только веса, но и контекст, KV-cache, batch, системные буферы.

  4. Сверьте контур данных. Если проект чувствителен по ПД или КИИ, сначала вернитесь к урокам 1 и 2 модуля p.3, потом покупайте сервер.

  5. Разделите пилот и прод. Ноутбук и рабочая станция годятся для проверки гипотезы; корпоративный сервис — это уже отдельный контур.

  6. Проверьте канал закупки. Наличие карты в объявлении не равно наличию сервиса, гарантии и запасных частей.

  7. Сначала снижайте размер модели, потом наращивайте железо. Очень часто 14B на хорошей архитектуре закрывает задачу лучше и дешевле, чем 70B на дорогом кластере.

  8. Смотрите на задачу, а не на хайп. Для CV и временных рядов часто нужен не H100, а Jetson, YOLO, Anomalib или Nixtla-стек — это разберём в уроке 7 модуля p.2.

Что брать по умолчанию: короткая рекомендация для CDTO

Если нужен быстрый старт, правило такое:

  • Личный R&D — ноутбук 16 ГБ или Mac с 16-36 ГБ.
  • Пилот отдела — RTX 4090 или RTX A6000.
  • Корпоративный сервис на 32B-70B — A100 80GB или много-GPU стек.
  • Высокая конкуррентность и большие контексты — H100/H200/MI300X-класс.
  • Линия и realtime — Jetson, а не LLM-сервер.

Если в пилоте помогает arckep.ru или российский облачный API, это ещё не означает, что прод должен быть on-prem. Но как только вы упираетесь в ПД, КИИ или санкционный контур, выбор железа перестаёт быть чисто техническим. В этот момент снова открывайте уроки модуля p.3.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.