Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль p.2 · Урок 2

Урок 2: Минимальная достаточная модель — не берите GPT-5 для того, что закроет Qwen 3B

30 мин
p.2 / Урок 2 из 7

Чему вы научитесь

  • Разводить задачи по трём шкалам: сложность рассуждения, цена ошибки и допустимая задержка
  • Быстро отсекать две дорогие крайности: «топ-модель там, где нужен классификатор» и «дешёвая 7B-модель там, где нужен длинный анализ и верификация»
  • Подбирать не только модель, но и класс решения: LLM, VLM, CV-модель или прогнозирование временных рядов
  • Ставить интегратору правильный вопрос: «какая минимально достаточная модель закрывает задачу в моём контуре»
  • Связывать выбор модели с юридическим и ИБ-контуром из модуля p.3, если в задаче есть ПД, КИИ или санкционные ограничения

Ошибка выбора модели в промышленном AI почти всегда дороже ошибки промпта. Промпт можно переписать за час. Неправильный класс модели тянет за собой лишний бюджет, неподходящее железо, проваленный SLA и иногда прямой конфликт с контуром данных. Если в запросах есть персональные данные, сначала смотрите урок 1 модуля p.3. Если система касается КИИ — урок 2 модуля p.3. Если вопрос упирается в санкционную доступность западных моделей — урок 5 модуля p.3.

Нулевое правило: сначала класс задачи, потом бренд модели

На уровне руководителя модель выбирают не по leaderboard, а по трём вопросам:

  1. Насколько сложное рассуждение реально требуется?
  2. Сколько стоит ошибка?
  3. Какой отклик допустим по времени и объёму входных данных?

Если хотя бы на один вопрос нет ответа, разговор про «давайте возьмём GPT-5.4» преждевременен. Для извлечения ФИО из строки не нужен frontier-class LLM. Для due diligence подрядчика по 300 документам не годится «что-нибудь локальное на 7B», если оно не держит длинный контекст и не проходит верификацию человеком.

ШкалаКлассыЧто это значит на практикеЧто брать первым кандидатом
Сложность рассужденияS / M / L / XL / XXLОт lookup и извлечения полей до многошагового анализа, агентных сценариев и работы с длинным контекстомЧем ниже класс, тем сильнее надо давить цену и простоту, а не «ум» модели
Цена ошибкиНизкая / Средняя / Высокая / КритическаяОт черновика письма до юридически значимого документа и команд в технологический контурПри росте цены ошибки растут требования не только к модели, но и к валидации, журналированию и human-in-the-loop
Latency и объёмRealtime / Chat / Batch / Long-contextМиллисекунды на линии, секунды в чате, ночной batch, анализ сотен страницЧем жёстче SLA, тем чаще выигрывает малая специализированная модель, а не большая LLM

После этой развилки бренд модели становится вторичным. Именно поэтому в одном проекте одновременно могут жить YOLO12 для линии, Prophet для спроса, Qwen3.5 для дешёвого корпоративного чата и GPT-5.4 или Claude Opus 4.7 только для редких сложных кейсов.

Шкала 1. Сложность рассуждения: S → XXL

Ниже — рабочая сетка для промышленного проекта. Это не ГОСТ и не вендорский стандарт, а управленческая модель выбора внутри модуля p.2.

КлассЧто делает задачаТипичный примерЧто обычно достаточно
S — fact lookupИзвлекает один факт, классифицирует короткий текст, нормализует полеВытащить ФИО, номер договора, тип обращенияПравила, regex, NER, маленькая модель класса phi-4 или Qwen3.5-4B — а часто вообще не LLM (Phi-4 model card; Qwen3.5 models)
M — structured outputПревращает текст в JSON, делает суммаризацию по шаблону, заполняет карточкуРазобрать письмо поставщика в поля CRMНебольшая или средняя LLM с хорошим instruction following: GigaChat 2 Pro, YandexGPT Pro 5.1, Mistral Small 4, Qwen3.5 (Sber model guide; Yandex AI Studio pricing/models; Mistral Small 4)
L — reasoningСопоставляет несколько источников, находит противоречия, делает выводСравнить два регламента и список замечаний аудитаСильная средняя модель: GigaChat 2 Max, YandexGPT Pro 5.1, T-Pro 2.0, GLM-4.5, Qwen3.5 (GigaChat 2 Max; T-Pro 2.0; GLM-4.5)
XL — multi-stepРаботает по длинному контексту, строит цепочку проверки, сравнивает много документовDue diligence подрядчика по пакету договоров, выписок и перепискиFrontier-class модели с длинным контекстом: GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro; локально — крупные open-weight с оркестрацией и проверкой человеком (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro)
XXL — agenticПланирует шаги, вызывает инструменты, проверяет результат, может ходить по нескольким системамАгент для техрасследования, который ищет в базе знаний, журнале инцидентов и сервис-дескеТолько top-tier модели или очень аккуратный каскад; обязательны guardrails, логирование и human approval на опасных действиях (OpenAI Models; Anthropic Models Overview)

Практический смысл этой шкалы простой: S и M — зона частой переплаты, L — рабочая середина большинства офисных кейсов, XL и XXL — редкие дорогие сценарии, где ошибка дешёвой модели потом возвращается ручной переделкой.

flowchart TD
    A[Есть задача] --> B{Нужен ли вообще языковой вывод?}
    B -->|Нет| C[Берите специализированную модель: CV, time series, anomaly]
    B -->|Да| D{Нужно ли многошаговое рассуждение?}
    D -->|Нет| E{Нужен ли только JSON или извлечение полей?}
    E -->|Да| F[Малая или средняя модель, а лучше rules/NER]
    E -->|Нет| G[Средняя LLM]
    D -->|Да| H{Контекст длинный и документов много?}
    H -->|Да| I[Frontier-class модель или каскад с длинным контекстом]
    H -->|Нет| J[Сильная средняя модель]
    I --> K{Цена ошибки высокая?}
    K -->|Да| L[Human-in-the-loop и верификация обязательны]
    K -->|Нет| M[Можно автоматизировать частично]

Шкала 2. Цена ошибки: здесь определяется не качество, а режим управления риском

Эта шкала важнее, чем кажется. Одна и та же модель может быть достаточной для двух задач с одинаковой сложностью текста, но разной стоимостью ошибки.

Цена ошибкиПример в промышленностиЧто можно автоматизироватьЧто нельзя отдавать модели без проверки
НизкаяЧерновик ответа клиенту, суммаризация планёрки, черновик отчётаПочти всё, если есть человек на финальном чтенииНельзя отправлять наружу без базовой проверки фактов
СредняяКлассификация инцидентов HSE, первичная сортировка заявок, подбор регламентовАвтоматическое черновое действие с логированиемНельзя без confidence-порога и fallback-сценария
ВысокаяПисьмо в госорган, ответ на претензию, анализ договора, вывод по подрядчикуТолько подготовка материалов и предложенийНельзя финализировать документ без юриста или владельца процесса
КритическаяКоманда на PLC, изменение параметров линии, отключение защиты, решение по безопасности объектаТолько рекомендации операторуНельзя допускать полный автоматический action. Здесь нужен оператор, а часто и отказ от LLM в пользу rule-based или certified control-logic

Вывод один: с ростом цены ошибки сначала растёт объём контроля, а не размер модели. Формула «дороже модель = можно автоматизировать сильнее» неверна. Для критичных действий в технологическом контуре LLM должна оставаться советчиком, а не исполнительным контуром. Это особенно важно для тем КИИ и АСУ ТП из уроков p.3/02 и p.3/03.

Шкала 3. Latency и объём: не всё, что «умнее», годится в SLA

В реальном проекте модель проигрывает не по benchmark, а по времени ответа и способности переварить нужный объём входа.

  • Realtime — зона десятков миллисекунд; обычно это не LLM, а CV или специализированная модель на edge. Примеры: YOLO12 для детекции объектов, Anomalib для нешаблонных дефектов (Ultralytics YOLO12; Anomalib GitHub).
  • Chat — секунды, а не минуты. Здесь выигрывают средние модели или API-модели с приемлемой стоимостью и стабильным контекстом.
  • Batch — ночь, регламентный прогон, аналитика. Тут можно включать более тяжёлые модели и длинные пайплайны.
  • Long-context — сотни страниц, большие пакеты документов, мультимодальный набор. Здесь важно не только «ум», но и реальный размер контекстного окна: GPT-5.4 — 1M tokens, Claude Opus 4.7 — 1M tokens, Gemini 3.1 Pro — 1M tokens (1,048,576 input tokens), GigaChat 2 Max — 128 000 tokens (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro; GigaChat 2 Max).

Здесь полезно запомнить один грубый, но рабочий принцип: чем ближе задача к линии, тем меньше должна быть модель и тем больше шанс, что это вообще не LLM.

Матрица: промышленная задача → класс модели → примеры → контур

Промышленная задачаКласс задачиЧто брать первымПримеры моделейКонтур по умолчанию
Извлечь ФИО, номер договора, дату из строкиS + низкая цена ошибкиRules, regex, NER; LLM только как fallbackphi-4, малая Qwen3.5-4B, Saiga для русского, если нужна разговорная нормализация (Phi-4; Qwen3.5; Saiga/YandexGPT 8B)Локально или в корпоративном API
Разобрать письмо поставщика в JSONM + средняя цена ошибкиСредняя LLM с хорошим structured outputGigaChat 2 Pro, YandexGPT Pro 5.1, Mistral Small 4, Qwen3.5 (Sber model guide; Yandex pricing/models; Mistral Small 4)Корпоративное облако или on-prem
Суммаризировать планёрку на русскомM + низкая цена ошибкиСредняя LLM, дешёвая по токенамGigaChat 2 Max, YandexGPT Pro 5.1, T-Pro 2.0 (GigaChat 2 Max; T-Pro 2.0)Корпоративный API
Помощник по регламентам с RAG по 500+ документамL/XL + средняя цена ошибкиСильная средняя LLM плюс retrievalGigaChat 2 Max, YandexGPT Pro 5.1, Qwen3.5, GLM-4.5, DeepSeek V3 (GigaChat 2 Max; Qwen3.5; GLM-4.5; DeepSeek-V3)Если есть ПД или КТ — сначала проверить урок p.3/01
Ответ на претензию клиентаL + высокая цена ошибкиСильная модель, но только как drafting assistantClaude Opus 4.7, GPT-5.4, GigaChat 2 Max (Anthropic Models Overview; OpenAI Models; GigaChat 2 Max)Только в белом юридически допустимом контуре
Due diligence подрядчика по 300 документамXL + высокая цена ошибкиFrontier-class модель с длинным контекстом или каскадGPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro; локально — крупные DeepSeek V3, GLM-4.5, Llama 3.3 70B с оркестрацией (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro; DeepSeek-V3; GLM-4.5; Llama 3.3 70B)Если есть ПД или КТ — только после проверки p.3/01 и p.3/05
Генерация кода PLC из естественного языкаXXL + критическая цена ошибкиLLM только как черновик + обязательная инженерная проверкаGPT-5.4, Claude Opus 4.7, Gemini 3.1 ProНикогда не прямой auto-action
Фото дефекта → описание в журналНе LLM-firstVLM или CV-модель; текст — вторым шагомYOLO12, Anomalib, при сложном визуальном описании — VLM/LLM сверху (Ultralytics YOLO12; Anomalib GitHub)Линия — локально; отчёт — можно выше по контуру
CV-ОТК на линииRealtime, критичный SLAТолько CV/edgeYOLO12, Anomalib, Detectron2 вместо LLMOn-prem или edge
Прогноз спроса / загрузкиНе LLM-firstForecasting stackProphet, StatsForecast, NeuralForecast / Nixtla (Prophet; StatsForecast; NeuralForecast)Локально или корпоративное облако
Анализ HSE-инцидентовL + высокая цена ошибкиСильная средняя LLM, но с человеком на финалеGigaChat 2 Max, YandexGPT Pro 5.1, Claude Opus 4.7Если есть ПД — сначала p.3/01
Русскоязычный корпоративный чат по внутренней базеM/LСредняя модель с сильным русскимGigaChat 2 Max, T-Pro 2.0, Saiga, YandexGPT Pro 5.1 (Sber; T-Pro 2.0; Saiga)Белый корпоративный контур

Эта матрица нужна для двух вещей: не покупать frontier-model там, где достаточно средней или малой, и не тащить малую LLM туда, где нужен длинный проверяемый reasoning.

Где полезны конкретные модельные семейства

Ниже — не рейтинг, а рабочее позиционирование.

  • GPT-5.4, Claude Opus 4.7 и Gemini 3.1 Pro — верхний слой для сложного reasoning и длинного контекста: 1M, 1M и 1,048,576 входных токенов соответственно (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro).
  • GigaChat 2 Max и YandexGPT Pro 5.1 — белый российский корпоративный слой, когда критичны русский язык, договор и предсказуемый контур (GigaChat 2 Max; Yandex AI Studio pricing).
  • Qwen3.5, DeepSeek V3, GLM-4.5, Llama 3.3 70B, Mistral Small 4 — open-weight сегмент для локального reasoning-контура; выбор между ними — уже вопрос железа и инференс-стека (Qwen3.5; DeepSeek-V3; GLM-4.5; Llama 3.3 70B; Mistral Small 4).
  • Phi-4, T-Pro 2.0 и Saiga — полезны как дешёвый локальный нижний и средний слой; у Phi-4 русский продакшн — нужна проверка, потому что модель ориентирована прежде всего на английский (Phi-4; T-Pro 2.0; Saiga/YandexGPT 8B).

Когда LLM вообще не нужна

Самая полезная фраза для CDTO в 2026 году звучит так: «Не всё AI — это LLM».

Если задача выглядит так, берите специализированный класс модели сразу:

  • визуальный контроль качестваYOLO12, Detectron2, Anomalib;
  • нешаблонные дефекты и one-class контрольAnomalib;
  • спрос, загрузка, прогноз, энергопотреблениеProphet, StatsForecast, NeuralForecast / Nixtla;
  • анализ коротких структурированных полей — rules, regex, NER, классификатор;
  • OCR и document parsing — не обязательно LLM-first, а часто OCR + layout-parser + маленькая LLM только на последней миле.

Именно здесь рождается большая часть экономии: вы снижаете не только стоимость inference, но и сложность железа, контура данных и объяснимости результата.

Практический алгоритм выбора модели

  1. Отрежьте задачи, где LLM не нужна. Если это детекция, прогноз или аномалия, не начинайте с чата.
  2. Поставьте задаче класс S/M/L/XL/XXL. Одного этого уже хватает, чтобы отсечь половину лишних закупок.
  3. Определите цену ошибки. Она скажет, нужен ли вам человек на финале и можно ли делать auto-action.
  4. Проверьте контур данных. Если есть ПД, КИИ или санкционные ограничения, возвращайтесь к урокам p.3/01, p.3/02 и p.3/05.
  5. Только теперь сравнивайте 2–4 модели одного класса. Не десять подряд. Сравнивайте внутри класса задач, а не «все со всеми».
  6. Замеряйте на своих кейсах. Не на общих benchmark, а на реальных регламентах, письмах, журналах, фотографиях дефектов и исторических рядах.
  7. Фиксируйте порог качества письменно. Иначе команда почти всегда будет просить модель «ещё на 2% лучше», даже если бизнес это не окупает.
Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.