Модуль p.2 · Урок 7

Урок 7: Малые специализированные модели — не всё AI это LLM

25 мин

Содержание

Чему вы научитесь
Где специализированные модели выигрывают сразу
1. Компьютерное зрение для ОТК: YOLO, Detectron2, MMDetection
2. Когда классов брака мало или дефект вообще неизвестен: Anomalib
3. Временные ряды: Prophet, Nixtla, sktime, darts, PyOD
4. Document AI: OCR, layout, поля, но с жёсткой проверкой лицензии
5. Датасеты, с которых имеет смысл начинать
Как выбрать специализированную модель без лишнего шума

p.2 / Урок 7 из 7

Чему вы научитесь

Отличать задачи, где LLM вообще не нужен, от задач, где он полезен только как верхний слой интерфейса
Выбирать между YOLO, Detectron2, MMDetection и Anomalib для контроля качества и визуальной инспекции
Подбирать стек для прогнозирования и аномалий во временных рядах: Prophet, Nixtla, sktime, darts, PyOD
Понимать, какие Document AI-инструменты можно брать в production, а какие упираются в лицензию
Ставить интегратору правильный вопрос: «какая специализированная модель решит задачу быстрее, дешевле и безопаснее, чем LLM»

Главная ошибка в промышленном AI — начинать разговор с ChatGPT. На заводе большая часть типовых задач живёт не в тексте, а в изображениях, сигналах, временных рядах и сканах документов. Там выигрывают не универсальные LLM, а специализированные модели: детекция дефектов, one-class anomaly detection, forecasting, OCR и document parsing. Универсальную цифру «80% производственных задач не требуют LLM» как отраслевой закон я не использую: без отдельного исследования по вашему предприятию это была бы натяжка. Но для большинства типовых сценариев цеха, ОТК и планирования специализированный стек действительно рациональнее.

flowchart TD
    A[Какая задача?] -->|Фото, видео, камера| B[CV-модель]
    A -->|Сигналы, датчики, спрос, отказы| C[Time series / anomaly]
    A -->|PDF, сканы, накладные, акты| D[Document AI]
    A -->|Свободный диалог, поиск по регламентам, суммаризация| E[LLM или RAG]
    B --> F{Нужен текстовый отчёт?}
    C --> G{Нужен текстовый отчёт?}
    D --> H{Нужно объяснение на естественном языке?}
    F -->|Да| I[LLM как верхний слой]
    G -->|Да| I
    H -->|Да| I

Где специализированные модели выигрывают сразу

Сценарий	Базовый класс модели	Почему не LLM	Что ставить первым номером
ОТК по фото дефекта	CV detection / segmentation	LLM не оптимизирована под пиксельную локализацию	YOLO11, Detectron2, MMDetection (Ultralytics, Detectron2, MMDetection)
Нешаблонный дефект, где брака мало	Visual anomaly detection	Нужна модель, умеющая учиться по норме, а не по классам	Anomalib (GitHub)
Прогноз спроса, потребления, отказов	Forecasting / anomaly in time series	LLM плохо работает на числовых рядах без внешней математики	Prophet, Nixtla, sktime, darts (Prophet, Nixtla, sktime, darts)
Поиск аномалий на сенсорах	Classical anomaly detection	Тут важнее статистика и детекторы выбросов, а не reasoning	PyOD (GitHub)
Извлечение полей из накладной или акта	OCR / Document AI	Сначала нужно распознать и структурировать документ	PaddleOCR, Donut, Surya, LayoutLMv3 с оговорками (PaddleOCR, Donut, Surya, LayoutLMv3)

Практическое правило простое: если задача описывается как «увидеть», «поймать отклонение», «спрогнозировать», «вытащить поля», то сначала ищите не LLM, а специализированную модель. LLM подключайте потом — для объяснения результата, суммаризации смены, ответа инженеру или генерации письма по итогам анализа.

1. Компьютерное зрение для ОТК: YOLO, Detectron2, MMDetection

Для визуального контроля на производстве нужен стек, который быстро учится на размеченных изображениях и уверенно работает на edge-устройстве или локальном сервере. Здесь LLM не конкурент. Она не умеет стабильно рисовать bounding boxes и не даёт приемлемой latency на видеопотоке.

У Ultralytics в 2026 году production-базой остаётся YOLO11, выпущенная 10 сентября 2024 года; в документации сама компания пишет, что для стабильных production-нагрузок рекомендует YOLO11 и YOLO26, а код распространяется по AGPL-3.0 или enterprise-лицензии (YOLO11 docs, Ultralytics docs). YOLO12 в публичной коммуникации Ultralytics фигурирует как отдельный релиз от 18 февраля 2025 года с attention-centric архитектурой, но для производственного baseline безопаснее фиксировать конкретный checkpoint и лицензионный режим — иначе нужна проверка (Ultralytics blog, 26.02.2025).

Инструмент	Лицензия	Когда брать	Как использовать на практике
Ultralytics YOLO11	AGPL-3.0 или Enterprise (Ultralytics docs)	Нужен быстрый старт, edge-деплой, типовой detection pipeline	`pip install ultralytics`, разметить дефекты в YOLO-формате, обучить `yolo detect train`, затем экспортировать в ONNX/TensorRT для edge
Detectron2	Apache 2.0 (GitHub)	Нужна более гибкая production-лицензия и кастомные пайплайны	Взять модель из model zoo, дообучить под свои классы, экспортировать TorchScript/Caffe2
MMDetection	Apache 2.0 (GitHub)	Нужен широкий zoo моделей и тонкая настройка	Собрать конфиг под задачу, обучить через OpenMMLab, затем упаковать в локальный inference-сервис

Что важно управленцу:

YOLO удобна, но AGPL — это не «мелкий юридический шрифт». Если подрядчик ставит YOLO в коммерческий production без enterprise-лицензии, это надо отдельно согласовать с юристом.
Detectron2 и MMDetection обычно спокойнее для корпоративного внедрения: Apache 2.0 проще в закупке и в комплаенсе.
LLM можно подключать поверх CV, но не вместо него. Например: CV локально находит дефект, а LLM делает сменный комментарий «какой тип брака повторяется и что проверить технологу».

2. Когда классов брака мало или дефект вообще неизвестен: Anomalib

Классическая CV-детекция хороша там, где вы заранее знаете классы: царапина, вмятина, непрокрас, скол. Но в ОТК часто другая реальность: нормальных изделий много, а дефектов мало, и они каждый раз выглядят чуть по-новому. Для этого существует visual anomaly detection.

Anomalib — открытая библиотека для anomaly detection с фокусом на изображения и видео. Официальный репозиторий описывает её как библиотеку для benchmarking, разработки и деплоя алгоритмов аномалий, с CLI и Python API, готовыми датамодулями вроде MVTecAD, поддержкой edge inference и экспортом части моделей в OpenVINO (GitHub).

Как это применять в производстве:

собрать эталонный набор нормальных деталей или поверхностей;
обучить one-class модель видеть норму;
на линии считать отклонением всё, что выбивается из неё;
использовать тепловую карту аномалии как триггер на повторную проверку ОТК.

Это особенно полезно там, где невозможно заранее описать весь каталог брака. Например, новая линия, сложная текстура, партия сырья плавает, а дефектов исторически мало.

Датасет / источник	Для чего нужен	Что важно знать
MVTec AD	Базовый benchmark для visual anomaly detection	Более 5 000 high-resolution изображений в 15 категориях; лицензия CC BY-NC-SA 4.0, коммерческое использование датасета запрещено (MVTec AD)
MVTec AD 2	Более сложные сценарии anomaly detection	Более 8 000 изображений, лицензия тоже CC BY-NC-SA 4.0 (MVTec AD 2)
NEU-DET	Дефекты горячекатаной стали	1 800 grayscale-изображений, 6 типов дефектов, по 300 образцов на класс (NEU official)
Severstal Steel Defect Detection	Практика по стали и сегментации	Датасет удобен для обучения и соревнований, но точная лицензия на странице соревнования Kaggle на момент подготовки урока — нужна проверка

3. Временные ряды: Prophet, Nixtla, sktime, darts, PyOD

Временной ряд — это не текст. Если вы хотите прогнозировать спрос, расход энергии, вибрацию, простои, остаточный ресурс или отказы, начинать с LLM — почти всегда архитектурная ошибка.

Prophet от Meta — библиотека forecasting для рядов с трендом, сезонностью и календарными эффектами; репозиторий описывает её как процедуру прогнозирования на аддитивной модели, устойчивую к пропускам и сдвигам тренда, лицензия MIT (GitHub). Это хороший старт для бизнес-планирования, где нужна интерпретируемая модель и быстрый baseline.

Nixtla развивает целую линейку: StatsForecast, NeuralForecast, MLForecast, HierarchicalForecast. У StatsForecast и NeuralForecast официальная лицензия Apache-2.0; первый пакет закрывает статистические модели вроде AutoARIMA и ETS, второй — нейросетевые модели вроде NBEATS, TFT и PatchTST (StatsForecast, NeuralForecast, Nixtla org).

sktime — это единый каркас для ML по временным рядам с лицензией BSD-3-Clause (GitHub org, PyPI). Darts от Unit8 — user-friendly библиотека для forecasting и anomaly detection на рядах с лицензией Apache-2.0 (GitHub). PyOD — библиотека для outlier detection с BSD-2-Clause; в 2026 году её репозиторий заявляет более 60 детекторов для табличных, временных, графовых, текстовых и image-данных (GitHub).

Инструмент	Когда брать	Как применять
Prophet	Быстрый baseline для сезонности и календарных эффектов	Прогноз спроса, энергопотребления, загрузки смен, когда важна объяснимость
Nixtla StatsForecast	Много рядов и нужен быстрый статистический пакет	Массовый прогноз по SKU, цехам, линиям, станкам
Nixtla NeuralForecast	Когда есть длинная история и нужен сильный DL-forecasting	Сложные промышленные ряды, где ARIMA уже не держит качество
sktime	Нужна единая ML-обвязка вокруг рядов	Базовый каркас для экспериментов, классификации и forecasting в одном API
darts	Нужен удобный production-friendly пайплайн с forecasting и anomaly	Быстрый запуск пилота для прогнозов и обнаружения аномалий
PyOD	Задача про выбросы, а не про прогноз	Поиск подозрительных режимов на сенсорах, в журналах телеметрии и производственных метриках

Практическое правило: для задачи «спрогнозируй» берите forecasting-библиотеку; для задачи «поймай странный режим» — anomaly detection; для задачи «объясни инженеру, что случилось» можно добавить LLM как верхний слой над уже посчитанными сигналами.

4. Document AI: OCR, layout, поля, но с жёсткой проверкой лицензии

С документами промышленный AI ломается чаще всего на двух местах: качество распознавания и лицензия. Если вы автоматизируете акты, накладные, протоколы испытаний, паспорта изделия или сканы первички, вам нужен не разговорный интеллект, а надёжный стек OCR и document parsing.

PaddleOCR — один из самых безопасных production-вариантов: официальный репозиторий сообщает о поддержке 100+ языков, лицензии Apache 2.0 и позиционирует проект как OCR toolkit для преобразования PDF и изображений в структурированные данные (GitHub). Для русскоязычной первички это удобная рабочая лошадка: сначала OCR и layout, потом уже downstream-логика.

Donut — OCR-free transformer для document understanding. Код и модель naver-clova-ix/donut-base опубликованы под MIT (GitHub, Hugging Face). Это хороший вариант для экспериментов с form understanding и extraction, когда вы готовы дообучать модель под собственный тип документов.

Nougat хорош именно для научных PDF и формул: официальный репозиторий пишет, что код MIT, а веса CC-BY-NC (GitHub). Для корпорации это значит простое правило: для production-парсинга договоров и техдоков Nougat — обычно не первый выбор.

Surya умеет OCR, layout analysis, reading order и table recognition в 90+ языках; репозиторий прямо пишет, что код GPL, а веса — modified AI Pubs Open Rail-M, бесплатно для research, personal use и стартапов с финансированием или выручкой ниже $2 млн (GitHub). Для крупного промышленного заказчика это почти всегда отдельный лицензионный разговор.

LayoutLMv3 полезен как foundation model для Document AI, но модель microsoft/layoutlmv3-base на Hugging Face помечена лицензией CC BY-NC-SA 4.0 (Hugging Face). Значит, брать её в корпоративный production без отдельной правовой оценки нельзя. Именно поэтому тезис «LayoutLMv3 не для коммерческого prod» для практики 2026 года уместен.

Инструмент	Лицензия / ограничение	Где использовать	Когда не брать
PaddleOCR	Apache 2.0 (GitHub)	OCR и layout для production-сканов, первички, техдоков	Если нужен end-to-end semantic parsing без собственного downstream-слоя
Donut	MIT для кода и базового чекпойнта (GitHub, HF)	OCR-free extraction, формы, инвойсы, эксперименты	Если нужен максимально предсказуемый OCR на плохих сканах без дообучения
Nougat	Код MIT, веса CC-BY-NC (GitHub)	Научные статьи, PDF с формулами	Для коммерческого production
Surya	Код GPL, веса с отдельными коммерческими условиями (GitHub)	OCR и layout для сложных документов, пилоты	Если заказчик не готов отдельно разбирать GPL и weight license
LayoutLMv3	CC BY-NC-SA 4.0 для модели (HF)	Исследования и прототипы Document AI	Для коммерческого production без отдельного правового решения

5. Датасеты, с которых имеет смысл начинать

Открытые датасеты нужны не для того, чтобы «обучить финальную модель на Kaggle». Они нужны, чтобы команда быстро проверила подход, стек и pipeline разметки.

Датасет	Класс задач	Что даёт команде
NEU-DET	Детекция дефектов стали	Быстрый старт для proof-of-concept по ОТК на стальных поверхностях (NEU official)
MVTec AD / AD 2	Anomaly detection	Отработка пайплайна one-class learning до выхода на свои детали (MVTec AD, MVTec AD 2)
SECOM	Табличные аномалии / yield analysis	1 567 примеров и 591 признак для задач контроля процесса (UCI)
NASA C-MAPSS	Прогноз остаточного ресурса	Классика для RUL и degradation modeling; на 20 апреля 2026 года NASA отмечает, что загрузка датасета временно недоступна — это надо учитывать (NASA)

Как выбрать специализированную модель без лишнего шума

Сначала назовите тип сигнала. Фото, видео, табличные признаки, временной ряд, скан PDF — это уже сужает стек сильнее, чем разговор о «самой умной модели».
Проверьте, есть ли готовый baseline. Для стали — NEU или Severstal, для anomaly — MVTec, для рядов — Prophet или Nixtla, для OCR — PaddleOCR.
Смотрите не только на качество, но и на лицензию. AGPL, GPL и non-commercial ограничения надо отсекать до пилота, а не после демонстрации CFO.
Отделите core-модель от верхнего слоя. CV, forecasting и OCR решают ядро задачи. LLM, если нужна, подключается сверху для интерфейса, пояснения и отчёта.
Свой датасет готовьте как можно раньше. Открытые наборы помогают стартовать, но production-качество почти всегда упирается в ваш материал, вашу камеру, ваш бланк и ваш процесс.
Если данные чувствительные, сразу сверяйте контур. Особенно для документов и изображений с людьми, пропусками, табелями и клиентскими реквизитами — это уже зона p.3/01.

Ключевые выводы

Специализированные модели закрывают значимую часть типовых промышленных задач быстрее, дешевле и безопаснее, чем универсальная LLM.
Для ОТК и CV начинайте с YOLO, Detectron2 или MMDetection; для редких и неизвестных дефектов — с Anomalib.
Для временных рядов используйте forecasting- и anomaly-библиотеки: Prophet, Nixtla, sktime, darts, PyOD.
В Document AI критична не только точность, но и лицензия: PaddleOCR безопаснее для production, а LayoutLMv3, Nougat и Surya требуют отдельной проверки ограничений.
LLM в специализированном стеке — это обычно верхний слой: объяснить, суммировать, оформить ответ, но не решать пиксельную или сигналовую задачу вместо профильной модели.
Если задача работает на открытом датасете, это ещё не production: следующий шаг всегда свой датасет, свой контур и свой юридический режим.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Урок 7: Малые специализированные модели — не всё AI это LLM

Контуры, модели, железо

Чему вы научитесь

Где специализированные модели выигрывают сразу

1. Компьютерное зрение для ОТК: YOLO, Detectron2, MMDetection

2. Когда классов брака мало или дефект вообще неизвестен: Anomalib

3. Временные ряды: Prophet, Nixtla, sktime, darts, PyOD

4. Document AI: OCR, layout, поля, но с жёсткой проверкой лицензии

5. Датасеты, с которых имеет смысл начинать

Как выбрать специализированную модель без лишнего шума

Урок 3: CV-конвейер для ОТК — от разметки до деплоя на Jetson

Урок 3: CV контроль качества проката end-to-end — датасет Severstal Steel Defect, YOLO на production

Урок 3: Как выбрать CV-систему — Cognex vs Keyence vs Landing AI vs Малленом vs open-source

Урок 2: CV контроль качества в дискретном производстве — от MVTec AD до production

// Обсуждение

Чему вы научитесь

Где специализированные модели выигрывают сразу

1. Компьютерное зрение для ОТК: YOLO, Detectron2, MMDetection

2. Когда классов брака мало или дефект вообще неизвестен: Anomalib

3. Временные ряды: Prophet, Nixtla, sktime, darts, PyOD

4. Document AI: OCR, layout, поля, но с жёсткой проверкой лицензии

5. Датасеты, с которых имеет смысл начинать

Как выбрать специализированную модель без лишнего шума

Связанные уроки

Урок 3: CV-конвейер для ОТК — от разметки до деплоя на Jetson

Урок 3: CV контроль качества проката end-to-end — датасет Severstal Steel Defect, YOLO на production

Урок 3: Как выбрать CV-систему — Cognex vs Keyence vs Landing AI vs Малленом vs open-source

Урок 2: CV контроль качества в дискретном производстве — от MVTec AD до production

// Обсуждение