Модуль p.2 · Урок 2

Урок 2: Минимальная достаточная модель — не берите GPT-5 для того, что закроет Qwen 3B

30 мин

Содержание

Чему вы научитесь
Нулевое правило: сначала класс задачи, потом бренд модели
Шкала 1. Сложность рассуждения: S → XXL
Шкала 2. Цена ошибки: здесь определяется не качество, а режим управления риском
Шкала 3. Latency и объём: не всё, что «умнее», годится в SLA
Матрица: промышленная задача → класс модели → примеры → контур
Где полезны конкретные модельные семейства
Когда LLM вообще не нужна
Практический алгоритм выбора модели

p.2 / Урок 2 из 7

Чему вы научитесь

Разводить задачи по трём шкалам: сложность рассуждения, цена ошибки и допустимая задержка
Быстро отсекать две дорогие крайности: «топ-модель там, где нужен классификатор» и «дешёвая 7B-модель там, где нужен длинный анализ и верификация»
Подбирать не только модель, но и класс решения: LLM, VLM, CV-модель или прогнозирование временных рядов
Ставить интегратору правильный вопрос: «какая минимально достаточная модель закрывает задачу в моём контуре»
Связывать выбор модели с юридическим и ИБ-контуром из модуля p.3, если в задаче есть ПД, КИИ или санкционные ограничения

Ошибка выбора модели в промышленном AI почти всегда дороже ошибки промпта. Промпт можно переписать за час. Неправильный класс модели тянет за собой лишний бюджет, неподходящее железо, проваленный SLA и иногда прямой конфликт с контуром данных. Если в запросах есть персональные данные, сначала смотрите урок 1 модуля p.3. Если система касается КИИ — урок 2 модуля p.3. Если вопрос упирается в санкционную доступность западных моделей — урок 5 модуля p.3.

Нулевое правило: сначала класс задачи, потом бренд модели

На уровне руководителя модель выбирают не по leaderboard, а по трём вопросам:

Насколько сложное рассуждение реально требуется?
Сколько стоит ошибка?
Какой отклик допустим по времени и объёму входных данных?

Если хотя бы на один вопрос нет ответа, разговор про «давайте возьмём GPT-5.4» преждевременен. Для извлечения ФИО из строки не нужен frontier-class LLM. Для due diligence подрядчика по 300 документам не годится «что-нибудь локальное на 7B», если оно не держит длинный контекст и не проходит верификацию человеком.

Шкала	Классы	Что это значит на практике	Что брать первым кандидатом
Сложность рассуждения	S / M / L / XL / XXL	От lookup и извлечения полей до многошагового анализа, агентных сценариев и работы с длинным контекстом	Чем ниже класс, тем сильнее надо давить цену и простоту, а не «ум» модели
Цена ошибки	Низкая / Средняя / Высокая / Критическая	От черновика письма до юридически значимого документа и команд в технологический контур	При росте цены ошибки растут требования не только к модели, но и к валидации, журналированию и human-in-the-loop
Latency и объём	Realtime / Chat / Batch / Long-context	Миллисекунды на линии, секунды в чате, ночной batch, анализ сотен страниц	Чем жёстче SLA, тем чаще выигрывает малая специализированная модель, а не большая LLM

После этой развилки бренд модели становится вторичным. Именно поэтому в одном проекте одновременно могут жить YOLO12 для линии, Prophet для спроса, Qwen3.5 для дешёвого корпоративного чата и GPT-5.4 или Claude Opus 4.7 только для редких сложных кейсов.

Шкала 1. Сложность рассуждения: S → XXL

Ниже — рабочая сетка для промышленного проекта. Это не ГОСТ и не вендорский стандарт, а управленческая модель выбора внутри модуля p.2.

Класс	Что делает задача	Типичный пример	Что обычно достаточно
S — fact lookup	Извлекает один факт, классифицирует короткий текст, нормализует поле	Вытащить ФИО, номер договора, тип обращения	Правила, regex, NER, маленькая модель класса `phi-4` или `Qwen3.5-4B` — а часто вообще не LLM (Phi-4 model card; Qwen3.5 models)
M — structured output	Превращает текст в JSON, делает суммаризацию по шаблону, заполняет карточку	Разобрать письмо поставщика в поля CRM	Небольшая или средняя LLM с хорошим instruction following: `GigaChat 2 Pro`, `YandexGPT Pro 5.1`, `Mistral Small 4`, `Qwen3.5` (Sber model guide; Yandex AI Studio pricing/models; Mistral Small 4)
L — reasoning	Сопоставляет несколько источников, находит противоречия, делает вывод	Сравнить два регламента и список замечаний аудита	Сильная средняя модель: `GigaChat 2 Max`, `YandexGPT Pro 5.1`, `T-Pro 2.0`, `GLM-4.5`, `Qwen3.5` (GigaChat 2 Max; T-Pro 2.0; GLM-4.5)
XL — multi-step	Работает по длинному контексту, строит цепочку проверки, сравнивает много документов	Due diligence подрядчика по пакету договоров, выписок и переписки	Frontier-class модели с длинным контекстом: `GPT-5.4`, `Claude Opus 4.7`, `Gemini 3.1 Pro`; локально — крупные open-weight с оркестрацией и проверкой человеком (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro)
XXL — agentic	Планирует шаги, вызывает инструменты, проверяет результат, может ходить по нескольким системам	Агент для техрасследования, который ищет в базе знаний, журнале инцидентов и сервис-деске	Только top-tier модели или очень аккуратный каскад; обязательны guardrails, логирование и human approval на опасных действиях (OpenAI Models; Anthropic Models Overview)

Практический смысл этой шкалы простой: S и M — зона частой переплаты, L — рабочая середина большинства офисных кейсов, XL и XXL — редкие дорогие сценарии, где ошибка дешёвой модели потом возвращается ручной переделкой.

flowchart TD
    A[Есть задача] --> B{Нужен ли вообще языковой вывод?}
    B -->|Нет| C[Берите специализированную модель: CV, time series, anomaly]
    B -->|Да| D{Нужно ли многошаговое рассуждение?}
    D -->|Нет| E{Нужен ли только JSON или извлечение полей?}
    E -->|Да| F[Малая или средняя модель, а лучше rules/NER]
    E -->|Нет| G[Средняя LLM]
    D -->|Да| H{Контекст длинный и документов много?}
    H -->|Да| I[Frontier-class модель или каскад с длинным контекстом]
    H -->|Нет| J[Сильная средняя модель]
    I --> K{Цена ошибки высокая?}
    K -->|Да| L[Human-in-the-loop и верификация обязательны]
    K -->|Нет| M[Можно автоматизировать частично]

Шкала 2. Цена ошибки: здесь определяется не качество, а режим управления риском

Эта шкала важнее, чем кажется. Одна и та же модель может быть достаточной для двух задач с одинаковой сложностью текста, но разной стоимостью ошибки.

Цена ошибки	Пример в промышленности	Что можно автоматизировать	Что нельзя отдавать модели без проверки
Низкая	Черновик ответа клиенту, суммаризация планёрки, черновик отчёта	Почти всё, если есть человек на финальном чтении	Нельзя отправлять наружу без базовой проверки фактов
Средняя	Классификация инцидентов HSE, первичная сортировка заявок, подбор регламентов	Автоматическое черновое действие с логированием	Нельзя без confidence-порога и fallback-сценария
Высокая	Письмо в госорган, ответ на претензию, анализ договора, вывод по подрядчику	Только подготовка материалов и предложений	Нельзя финализировать документ без юриста или владельца процесса
Критическая	Команда на PLC, изменение параметров линии, отключение защиты, решение по безопасности объекта	Только рекомендации оператору	Нельзя допускать полный автоматический action. Здесь нужен оператор, а часто и отказ от LLM в пользу rule-based или certified control-logic

Вывод один: с ростом цены ошибки сначала растёт объём контроля, а не размер модели. Формула «дороже модель = можно автоматизировать сильнее» неверна. Для критичных действий в технологическом контуре LLM должна оставаться советчиком, а не исполнительным контуром. Это особенно важно для тем КИИ и АСУ ТП из уроков p.3/02 и p.3/03.

Почему 7B-модель ломается на due diligence

Due diligence по подрядчику на сотнях страниц — это не задача «прочитай PDF». Здесь нужна длинная память, сопоставление нескольких версий документов, поиск противоречий и объяснимый вывод. Малые 7B/8B-модели полезны как первый проход или классификатор секций, но не как финальный арбитр. Для такого кейса стартуйте с GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro или стройте каскад из крупной open-weight модели и жёсткой верификации человеком (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro).

Шкала 3. Latency и объём: не всё, что «умнее», годится в SLA

В реальном проекте модель проигрывает не по benchmark, а по времени ответа и способности переварить нужный объём входа.

Realtime — зона десятков миллисекунд; обычно это не LLM, а CV или специализированная модель на edge. Примеры: YOLO12 для детекции объектов, Anomalib для нешаблонных дефектов (Ultralytics YOLO12; Anomalib GitHub).
Chat — секунды, а не минуты. Здесь выигрывают средние модели или API-модели с приемлемой стоимостью и стабильным контекстом.
Batch — ночь, регламентный прогон, аналитика. Тут можно включать более тяжёлые модели и длинные пайплайны.
Long-context — сотни страниц, большие пакеты документов, мультимодальный набор. Здесь важно не только «ум», но и реальный размер контекстного окна: GPT-5.4 — 1M tokens, Claude Opus 4.7 — 1M tokens, Gemini 3.1 Pro — 1M tokens (1,048,576 input tokens), GigaChat 2 Max — 128 000 tokens (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro; GigaChat 2 Max).

Здесь полезно запомнить один грубый, но рабочий принцип: чем ближе задача к линии, тем меньше должна быть модель и тем больше шанс, что это вообще не LLM.

Матрица: промышленная задача → класс модели → примеры → контур

Промышленная задача	Класс задачи	Что брать первым	Примеры моделей	Контур по умолчанию
Извлечь ФИО, номер договора, дату из строки	S + низкая цена ошибки	Rules, regex, NER; LLM только как fallback	`phi-4`, малая `Qwen3.5-4B`, `Saiga` для русского, если нужна разговорная нормализация (Phi-4; Qwen3.5; Saiga/YandexGPT 8B)	Локально или в корпоративном API
Разобрать письмо поставщика в JSON	M + средняя цена ошибки	Средняя LLM с хорошим structured output	`GigaChat 2 Pro`, `YandexGPT Pro 5.1`, `Mistral Small 4`, `Qwen3.5` (Sber model guide; Yandex pricing/models; Mistral Small 4)	Корпоративное облако или on-prem
Суммаризировать планёрку на русском	M + низкая цена ошибки	Средняя LLM, дешёвая по токенам	`GigaChat 2 Max`, `YandexGPT Pro 5.1`, `T-Pro 2.0` (GigaChat 2 Max; T-Pro 2.0)	Корпоративный API
Помощник по регламентам с RAG по 500+ документам	L/XL + средняя цена ошибки	Сильная средняя LLM плюс retrieval	`GigaChat 2 Max`, `YandexGPT Pro 5.1`, `Qwen3.5`, `GLM-4.5`, `DeepSeek V3` (GigaChat 2 Max; Qwen3.5; GLM-4.5; DeepSeek-V3)	Если есть ПД или КТ — сначала проверить урок p.3/01
Ответ на претензию клиента	L + высокая цена ошибки	Сильная модель, но только как drafting assistant	`Claude Opus 4.7`, `GPT-5.4`, `GigaChat 2 Max` (Anthropic Models Overview; OpenAI Models; GigaChat 2 Max)	Только в белом юридически допустимом контуре
Due diligence подрядчика по 300 документам	XL + высокая цена ошибки	Frontier-class модель с длинным контекстом или каскад	`GPT-5.4`, `Claude Opus 4.7`, `Gemini 3.1 Pro`; локально — крупные `DeepSeek V3`, `GLM-4.5`, `Llama 3.3 70B` с оркестрацией (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro; DeepSeek-V3; GLM-4.5; Llama 3.3 70B)	Если есть ПД или КТ — только после проверки p.3/01 и p.3/05
Генерация кода PLC из естественного языка	XXL + критическая цена ошибки	LLM только как черновик + обязательная инженерная проверка	`GPT-5.4`, `Claude Opus 4.7`, `Gemini 3.1 Pro`	Никогда не прямой auto-action
Фото дефекта → описание в журнал	Не LLM-first	VLM или CV-модель; текст — вторым шагом	`YOLO12`, `Anomalib`, при сложном визуальном описании — VLM/LLM сверху (Ultralytics YOLO12; Anomalib GitHub)	Линия — локально; отчёт — можно выше по контуру
CV-ОТК на линии	Realtime, критичный SLA	Только CV/edge	`YOLO12`, `Anomalib`, Detectron2 вместо LLM	On-prem или edge
Прогноз спроса / загрузки	Не LLM-first	Forecasting stack	`Prophet`, `StatsForecast`, `NeuralForecast` / Nixtla (Prophet; StatsForecast; NeuralForecast)	Локально или корпоративное облако
Анализ HSE-инцидентов	L + высокая цена ошибки	Сильная средняя LLM, но с человеком на финале	`GigaChat 2 Max`, `YandexGPT Pro 5.1`, `Claude Opus 4.7`	Если есть ПД — сначала p.3/01
Русскоязычный корпоративный чат по внутренней базе	M/L	Средняя модель с сильным русским	`GigaChat 2 Max`, `T-Pro 2.0`, `Saiga`, `YandexGPT Pro 5.1` (Sber; T-Pro 2.0; Saiga)	Белый корпоративный контур

Эта матрица нужна для двух вещей: не покупать frontier-model там, где достаточно средней или малой, и не тащить малую LLM туда, где нужен длинный проверяемый reasoning.

Где полезны конкретные модельные семейства

Ниже — не рейтинг, а рабочее позиционирование.

GPT-5.4, Claude Opus 4.7 и Gemini 3.1 Pro — верхний слой для сложного reasoning и длинного контекста: 1M, 1M и 1,048,576 входных токенов соответственно (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro).
GigaChat 2 Max и YandexGPT Pro 5.1 — белый российский корпоративный слой, когда критичны русский язык, договор и предсказуемый контур (GigaChat 2 Max; Yandex AI Studio pricing).
Qwen3.5, DeepSeek V3, GLM-4.5, Llama 3.3 70B, Mistral Small 4 — open-weight сегмент для локального reasoning-контура; выбор между ними — уже вопрос железа и инференс-стека (Qwen3.5; DeepSeek-V3; GLM-4.5; Llama 3.3 70B; Mistral Small 4).
Phi-4, T-Pro 2.0 и Saiga — полезны как дешёвый локальный нижний и средний слой; у Phi-4 русский продакшн — нужна проверка, потому что модель ориентирована прежде всего на английский (Phi-4; T-Pro 2.0; Saiga/YandexGPT 8B).

Когда LLM вообще не нужна

Самая полезная фраза для CDTO в 2026 году звучит так: «Не всё AI — это LLM».

Если задача выглядит так, берите специализированный класс модели сразу:

визуальный контроль качества — YOLO12, Detectron2, Anomalib;
нешаблонные дефекты и one-class контроль — Anomalib;
спрос, загрузка, прогноз, энергопотребление — Prophet, StatsForecast, NeuralForecast / Nixtla;
анализ коротких структурированных полей — rules, regex, NER, классификатор;
OCR и document parsing — не обязательно LLM-first, а часто OCR + layout-parser + маленькая LLM только на последней миле.

Именно здесь рождается большая часть экономии: вы снижаете не только стоимость inference, но и сложность железа, контура данных и объяснимости результата.

Практический алгоритм выбора модели

Отрежьте задачи, где LLM не нужна. Если это детекция, прогноз или аномалия, не начинайте с чата.
Поставьте задаче класс S/M/L/XL/XXL. Одного этого уже хватает, чтобы отсечь половину лишних закупок.
Определите цену ошибки. Она скажет, нужен ли вам человек на финале и можно ли делать auto-action.
Проверьте контур данных. Если есть ПД, КИИ или санкционные ограничения, возвращайтесь к урокам p.3/01, p.3/02 и p.3/05.
Только теперь сравнивайте 2–4 модели одного класса. Не десять подряд. Сравнивайте внутри класса задач, а не «все со всеми».
Замеряйте на своих кейсах. Не на общих benchmark, а на реальных регламентах, письмах, журналах, фотографиях дефектов и исторических рядах.
Фиксируйте порог качества письменно. Иначе команда почти всегда будет просить модель «ещё на 2% лучше», даже если бизнес это не окупает.

Ключевые выводы

Модель выбирают не по бренду, а по трём шкалам: сложность рассуждения, цена ошибки и допустимая задержка.
Для извлечения полей и простого structured output frontier-class модель почти всегда избыточна.
Для длинного due diligence, многошагового reasoning и agentic-задач экономия на классе модели быстро оборачивается ложной уверенностью и ручной переделкой.
С ростом цены ошибки сначала растут требования к контролю и human-in-the-loop, а не только к размеру модели.
В промышленности огромный пласт задач вообще не требует LLM: CV, anomaly detection и time series обычно выигрывают по скорости, цене и контуру данных.
Любой выбор модели должен проходить через фильтр p.3: ПД, КИИ и санкционный контур могут запретить технически удобный вариант.