Модуль p.2 · Урок 2
Урок 2: Минимальная достаточная модель — не берите GPT-5 для того, что закроет Qwen 3B
Содержание
- Чему вы научитесь
- Нулевое правило: сначала класс задачи, потом бренд модели
- Шкала 1. Сложность рассуждения: S → XXL
- Шкала 2. Цена ошибки: здесь определяется не качество, а режим управления риском
- Шкала 3. Latency и объём: не всё, что «умнее», годится в SLA
- Матрица: промышленная задача → класс модели → примеры → контур
- Где полезны конкретные модельные семейства
- Когда LLM вообще не нужна
- Практический алгоритм выбора модели
Чему вы научитесь
- Разводить задачи по трём шкалам: сложность рассуждения, цена ошибки и допустимая задержка
- Быстро отсекать две дорогие крайности: «топ-модель там, где нужен классификатор» и «дешёвая 7B-модель там, где нужен длинный анализ и верификация»
- Подбирать не только модель, но и класс решения: LLM, VLM, CV-модель или прогнозирование временных рядов
- Ставить интегратору правильный вопрос: «какая минимально достаточная модель закрывает задачу в моём контуре»
- Связывать выбор модели с юридическим и ИБ-контуром из модуля p.3, если в задаче есть ПД, КИИ или санкционные ограничения
Ошибка выбора модели в промышленном AI почти всегда дороже ошибки промпта. Промпт можно переписать за час. Неправильный класс модели тянет за собой лишний бюджет, неподходящее железо, проваленный SLA и иногда прямой конфликт с контуром данных. Если в запросах есть персональные данные, сначала смотрите урок 1 модуля p.3. Если система касается КИИ — урок 2 модуля p.3. Если вопрос упирается в санкционную доступность западных моделей — урок 5 модуля p.3.
Нулевое правило: сначала класс задачи, потом бренд модели
На уровне руководителя модель выбирают не по leaderboard, а по трём вопросам:
- Насколько сложное рассуждение реально требуется?
- Сколько стоит ошибка?
- Какой отклик допустим по времени и объёму входных данных?
Если хотя бы на один вопрос нет ответа, разговор про «давайте возьмём GPT-5.4» преждевременен. Для извлечения ФИО из строки не нужен frontier-class LLM. Для due diligence подрядчика по 300 документам не годится «что-нибудь локальное на 7B», если оно не держит длинный контекст и не проходит верификацию человеком.
| Шкала | Классы | Что это значит на практике | Что брать первым кандидатом |
|---|---|---|---|
| Сложность рассуждения | S / M / L / XL / XXL | От lookup и извлечения полей до многошагового анализа, агентных сценариев и работы с длинным контекстом | Чем ниже класс, тем сильнее надо давить цену и простоту, а не «ум» модели |
| Цена ошибки | Низкая / Средняя / Высокая / Критическая | От черновика письма до юридически значимого документа и команд в технологический контур | При росте цены ошибки растут требования не только к модели, но и к валидации, журналированию и human-in-the-loop |
| Latency и объём | Realtime / Chat / Batch / Long-context | Миллисекунды на линии, секунды в чате, ночной batch, анализ сотен страниц | Чем жёстче SLA, тем чаще выигрывает малая специализированная модель, а не большая LLM |
После этой развилки бренд модели становится вторичным. Именно поэтому в одном проекте одновременно могут жить YOLO12 для линии, Prophet для спроса, Qwen3.5 для дешёвого корпоративного чата и GPT-5.4 или Claude Opus 4.7 только для редких сложных кейсов.
Шкала 1. Сложность рассуждения: S → XXL
Ниже — рабочая сетка для промышленного проекта. Это не ГОСТ и не вендорский стандарт, а управленческая модель выбора внутри модуля p.2.
| Класс | Что делает задача | Типичный пример | Что обычно достаточно |
|---|---|---|---|
| S — fact lookup | Извлекает один факт, классифицирует короткий текст, нормализует поле | Вытащить ФИО, номер договора, тип обращения | Правила, regex, NER, маленькая модель класса phi-4 или Qwen3.5-4B — а часто вообще не LLM (Phi-4 model card; Qwen3.5 models) |
| M — structured output | Превращает текст в JSON, делает суммаризацию по шаблону, заполняет карточку | Разобрать письмо поставщика в поля CRM | Небольшая или средняя LLM с хорошим instruction following: GigaChat 2 Pro, YandexGPT Pro 5.1, Mistral Small 4, Qwen3.5 (Sber model guide; Yandex AI Studio pricing/models; Mistral Small 4) |
| L — reasoning | Сопоставляет несколько источников, находит противоречия, делает вывод | Сравнить два регламента и список замечаний аудита | Сильная средняя модель: GigaChat 2 Max, YandexGPT Pro 5.1, T-Pro 2.0, GLM-4.5, Qwen3.5 (GigaChat 2 Max; T-Pro 2.0; GLM-4.5) |
| XL — multi-step | Работает по длинному контексту, строит цепочку проверки, сравнивает много документов | Due diligence подрядчика по пакету договоров, выписок и переписки | Frontier-class модели с длинным контекстом: GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro; локально — крупные open-weight с оркестрацией и проверкой человеком (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro) |
| XXL — agentic | Планирует шаги, вызывает инструменты, проверяет результат, может ходить по нескольким системам | Агент для техрасследования, который ищет в базе знаний, журнале инцидентов и сервис-деске | Только top-tier модели или очень аккуратный каскад; обязательны guardrails, логирование и human approval на опасных действиях (OpenAI Models; Anthropic Models Overview) |
Практический смысл этой шкалы простой: S и M — зона частой переплаты, L — рабочая середина большинства офисных кейсов, XL и XXL — редкие дорогие сценарии, где ошибка дешёвой модели потом возвращается ручной переделкой.
flowchart TD
A[Есть задача] --> B{Нужен ли вообще языковой вывод?}
B -->|Нет| C[Берите специализированную модель: CV, time series, anomaly]
B -->|Да| D{Нужно ли многошаговое рассуждение?}
D -->|Нет| E{Нужен ли только JSON или извлечение полей?}
E -->|Да| F[Малая или средняя модель, а лучше rules/NER]
E -->|Нет| G[Средняя LLM]
D -->|Да| H{Контекст длинный и документов много?}
H -->|Да| I[Frontier-class модель или каскад с длинным контекстом]
H -->|Нет| J[Сильная средняя модель]
I --> K{Цена ошибки высокая?}
K -->|Да| L[Human-in-the-loop и верификация обязательны]
K -->|Нет| M[Можно автоматизировать частично]Шкала 2. Цена ошибки: здесь определяется не качество, а режим управления риском
Эта шкала важнее, чем кажется. Одна и та же модель может быть достаточной для двух задач с одинаковой сложностью текста, но разной стоимостью ошибки.
| Цена ошибки | Пример в промышленности | Что можно автоматизировать | Что нельзя отдавать модели без проверки |
|---|---|---|---|
| Низкая | Черновик ответа клиенту, суммаризация планёрки, черновик отчёта | Почти всё, если есть человек на финальном чтении | Нельзя отправлять наружу без базовой проверки фактов |
| Средняя | Классификация инцидентов HSE, первичная сортировка заявок, подбор регламентов | Автоматическое черновое действие с логированием | Нельзя без confidence-порога и fallback-сценария |
| Высокая | Письмо в госорган, ответ на претензию, анализ договора, вывод по подрядчику | Только подготовка материалов и предложений | Нельзя финализировать документ без юриста или владельца процесса |
| Критическая | Команда на PLC, изменение параметров линии, отключение защиты, решение по безопасности объекта | Только рекомендации оператору | Нельзя допускать полный автоматический action. Здесь нужен оператор, а часто и отказ от LLM в пользу rule-based или certified control-logic |
Вывод один: с ростом цены ошибки сначала растёт объём контроля, а не размер модели. Формула «дороже модель = можно автоматизировать сильнее» неверна. Для критичных действий в технологическом контуре LLM должна оставаться советчиком, а не исполнительным контуром. Это особенно важно для тем КИИ и АСУ ТП из уроков p.3/02 и p.3/03.
Шкала 3. Latency и объём: не всё, что «умнее», годится в SLA
В реальном проекте модель проигрывает не по benchmark, а по времени ответа и способности переварить нужный объём входа.
- Realtime — зона десятков миллисекунд; обычно это не LLM, а CV или специализированная модель на edge. Примеры:
YOLO12для детекции объектов,Anomalibдля нешаблонных дефектов (Ultralytics YOLO12; Anomalib GitHub). - Chat — секунды, а не минуты. Здесь выигрывают средние модели или API-модели с приемлемой стоимостью и стабильным контекстом.
- Batch — ночь, регламентный прогон, аналитика. Тут можно включать более тяжёлые модели и длинные пайплайны.
- Long-context — сотни страниц, большие пакеты документов, мультимодальный набор. Здесь важно не только «ум», но и реальный размер контекстного окна:
GPT-5.4— 1M tokens,Claude Opus 4.7— 1M tokens,Gemini 3.1 Pro— 1M tokens (1,048,576 input tokens),GigaChat 2 Max— 128 000 tokens (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro; GigaChat 2 Max).
Здесь полезно запомнить один грубый, но рабочий принцип: чем ближе задача к линии, тем меньше должна быть модель и тем больше шанс, что это вообще не LLM.
Матрица: промышленная задача → класс модели → примеры → контур
| Промышленная задача | Класс задачи | Что брать первым | Примеры моделей | Контур по умолчанию |
|---|---|---|---|---|
| Извлечь ФИО, номер договора, дату из строки | S + низкая цена ошибки | Rules, regex, NER; LLM только как fallback | phi-4, малая Qwen3.5-4B, Saiga для русского, если нужна разговорная нормализация (Phi-4; Qwen3.5; Saiga/YandexGPT 8B) | Локально или в корпоративном API |
| Разобрать письмо поставщика в JSON | M + средняя цена ошибки | Средняя LLM с хорошим structured output | GigaChat 2 Pro, YandexGPT Pro 5.1, Mistral Small 4, Qwen3.5 (Sber model guide; Yandex pricing/models; Mistral Small 4) | Корпоративное облако или on-prem |
| Суммаризировать планёрку на русском | M + низкая цена ошибки | Средняя LLM, дешёвая по токенам | GigaChat 2 Max, YandexGPT Pro 5.1, T-Pro 2.0 (GigaChat 2 Max; T-Pro 2.0) | Корпоративный API |
| Помощник по регламентам с RAG по 500+ документам | L/XL + средняя цена ошибки | Сильная средняя LLM плюс retrieval | GigaChat 2 Max, YandexGPT Pro 5.1, Qwen3.5, GLM-4.5, DeepSeek V3 (GigaChat 2 Max; Qwen3.5; GLM-4.5; DeepSeek-V3) | Если есть ПД или КТ — сначала проверить урок p.3/01 |
| Ответ на претензию клиента | L + высокая цена ошибки | Сильная модель, но только как drafting assistant | Claude Opus 4.7, GPT-5.4, GigaChat 2 Max (Anthropic Models Overview; OpenAI Models; GigaChat 2 Max) | Только в белом юридически допустимом контуре |
| Due diligence подрядчика по 300 документам | XL + высокая цена ошибки | Frontier-class модель с длинным контекстом или каскад | GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro; локально — крупные DeepSeek V3, GLM-4.5, Llama 3.3 70B с оркестрацией (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro; DeepSeek-V3; GLM-4.5; Llama 3.3 70B) | Если есть ПД или КТ — только после проверки p.3/01 и p.3/05 |
| Генерация кода PLC из естественного языка | XXL + критическая цена ошибки | LLM только как черновик + обязательная инженерная проверка | GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro | Никогда не прямой auto-action |
| Фото дефекта → описание в журнал | Не LLM-first | VLM или CV-модель; текст — вторым шагом | YOLO12, Anomalib, при сложном визуальном описании — VLM/LLM сверху (Ultralytics YOLO12; Anomalib GitHub) | Линия — локально; отчёт — можно выше по контуру |
| CV-ОТК на линии | Realtime, критичный SLA | Только CV/edge | YOLO12, Anomalib, Detectron2 вместо LLM | On-prem или edge |
| Прогноз спроса / загрузки | Не LLM-first | Forecasting stack | Prophet, StatsForecast, NeuralForecast / Nixtla (Prophet; StatsForecast; NeuralForecast) | Локально или корпоративное облако |
| Анализ HSE-инцидентов | L + высокая цена ошибки | Сильная средняя LLM, но с человеком на финале | GigaChat 2 Max, YandexGPT Pro 5.1, Claude Opus 4.7 | Если есть ПД — сначала p.3/01 |
| Русскоязычный корпоративный чат по внутренней базе | M/L | Средняя модель с сильным русским | GigaChat 2 Max, T-Pro 2.0, Saiga, YandexGPT Pro 5.1 (Sber; T-Pro 2.0; Saiga) | Белый корпоративный контур |
Эта матрица нужна для двух вещей: не покупать frontier-model там, где достаточно средней или малой, и не тащить малую LLM туда, где нужен длинный проверяемый reasoning.
Где полезны конкретные модельные семейства
Ниже — не рейтинг, а рабочее позиционирование.
GPT-5.4,Claude Opus 4.7иGemini 3.1 Pro— верхний слой для сложного reasoning и длинного контекста: 1M, 1M и 1,048,576 входных токенов соответственно (OpenAI Models; Anthropic Models Overview; Gemini 3.1 Pro).GigaChat 2 MaxиYandexGPT Pro 5.1— белый российский корпоративный слой, когда критичны русский язык, договор и предсказуемый контур (GigaChat 2 Max; Yandex AI Studio pricing).Qwen3.5,DeepSeek V3,GLM-4.5,Llama 3.3 70B,Mistral Small 4— open-weight сегмент для локального reasoning-контура; выбор между ними — уже вопрос железа и инференс-стека (Qwen3.5; DeepSeek-V3; GLM-4.5; Llama 3.3 70B; Mistral Small 4).Phi-4,T-Pro 2.0иSaiga— полезны как дешёвый локальный нижний и средний слой; уPhi-4русский продакшн — нужна проверка, потому что модель ориентирована прежде всего на английский (Phi-4; T-Pro 2.0; Saiga/YandexGPT 8B).
Когда LLM вообще не нужна
Самая полезная фраза для CDTO в 2026 году звучит так: «Не всё AI — это LLM».
Если задача выглядит так, берите специализированный класс модели сразу:
- визуальный контроль качества —
YOLO12, Detectron2, Anomalib; - нешаблонные дефекты и one-class контроль —
Anomalib; - спрос, загрузка, прогноз, энергопотребление —
Prophet,StatsForecast,NeuralForecast/ Nixtla; - анализ коротких структурированных полей — rules, regex, NER, классификатор;
- OCR и document parsing — не обязательно LLM-first, а часто OCR + layout-parser + маленькая LLM только на последней миле.
Именно здесь рождается большая часть экономии: вы снижаете не только стоимость inference, но и сложность железа, контура данных и объяснимости результата.
Практический алгоритм выбора модели
- Отрежьте задачи, где LLM не нужна. Если это детекция, прогноз или аномалия, не начинайте с чата.
- Поставьте задаче класс S/M/L/XL/XXL. Одного этого уже хватает, чтобы отсечь половину лишних закупок.
- Определите цену ошибки. Она скажет, нужен ли вам человек на финале и можно ли делать auto-action.
- Проверьте контур данных. Если есть ПД, КИИ или санкционные ограничения, возвращайтесь к урокам p.3/01, p.3/02 и p.3/05.
- Только теперь сравнивайте 2–4 модели одного класса. Не десять подряд. Сравнивайте внутри класса задач, а не «все со всеми».
- Замеряйте на своих кейсах. Не на общих benchmark, а на реальных регламентах, письмах, журналах, фотографиях дефектов и исторических рядах.
- Фиксируйте порог качества письменно. Иначе команда почти всегда будет просить модель «ещё на 2% лучше», даже если бизнес это не окупает.