Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль p.6 · Урок 5

Урок 5: Reinforcement Learning в управлении процессами — Shell, Aramco, Yokogawa FKDPP

35 мин
p.6 / Урок 5 из 8

Чему вы научитесь

  • Понимать, чем RL в process control отличается от обычного APC и supervised ML
  • Видеть production-сценарий внедрения: симулятор → обучение агента → advisory mode → очень осторожный переход в closed loop
  • Разбирать кейсы Yokogawa FKDPP и Aramco Fadhili Gas Plant без лишнего хайпа
  • Понимать, когда RL в process industry оправдан, а когда это опасная трата времени и денег
  • Формулировать минимальные требования к данным, симулятору и safety-контуру для своего проекта

Reinforcement learning в process control — одна из немногих тем industrial AI, где отличить research от production действительно важно. В нефтепереработке цена ошибки слишком высока, чтобы позволять агенту «поэкспериментировать» на живой установке. Поэтому любой реальный RL-кейс начинается не с GPU, а с high-fidelity simulator и очень жёсткого safety framework.

Что такое RL в process control без маркетинга

ПодходЧто делаетГде хорошГде ломается
APC / MPCОптимизирует многомерный режим по заранее заданной модели и ограничениямУстойчивые процессы с хорошо описанными ограничениямиКогда процесс слишком нелинеен и часто меняет режим
Supervised MLПредсказывает выход, качество, вероятность отклоненияSoft sensors, quality prediction, anomaly scoringСам по себе не выбирает действие
Reinforcement LearningПодбирает действие, чтобы максимизировать долгосрочную reward functionСложные нелинейные процессы с конфликтующими целямиБез симулятора, без guardrails и без operator override

Именно поэтому RL не заменяет APC. Он появляется там, где классическая логика уже упирается в сильную нелинейность, изменяющиеся ограничения и многокритериальную оптимизацию.

Самый важный production-кейс — Yokogawa FKDPP

Yokogawa вместе с Nara Institute of Science and Technology разработала reinforcement learning algorithm FKDPP и в 2023 году официально объявила о первом в мире формальном внедрении RL-based autonomous control на химическом plant — на distillation column у ENEOS Materials (Yokogawa, 30.03.2023; Yokogawa, 15.03.2023).

Это очень важный момент. Первый действительно чистый промышленный кейс RL пришёл не из AI startup-мира, а от process automation vendor, который встроил AI в существующий control stack.

В 2025 Yokogawa дополнительно получила отраслевую премию Vaaler Award за FKDPP и прямо описала преимущества: RL-алгоритм может балансировать product quality и energy use, строить устойчивую политику примерно за 30 learning trials и уменьшать implementation time (Yokogawa, 10.11.2025).

Aramco Fadhili Gas Plant — что подтверждено официально

Осенью 2025 Yokogawa и Aramco объявили о внедрении multiple autonomous control AI agents на Fadhili Gas Plant. Официальная формулировка важна: сначала был создан simulator, затем проведена оценка reliability and validity, после чего агенты были интегрированы в существующую систему CENTUM VP. По initial results заявлены −10–15% amine and steam usage, около −5% power usage и меньше ручных вмешательств оператора (Yokogawa, 29.10.2025).

Отдельно Saudi Aramco на своих digital страницах фиксирует более широкий масштаб AI-портфеля: $1,8 млрд AI-driven Technology Realized Value за 2024 год, 442 use cases, 200+ deployed и 100+ in development к концу 2025 года (Aramco; Aramco Europe, 24.11.2025).

Важно не перепутать эти уровни. $1,8 млрд — это весь AI-портфель Aramco. А −10–15% chemicals и −5% power — это уже конкретный RL-like process control кейс на Fadhili.

Как выглядит правильный контур внедрения RL

ШагЧто происходитПочему без этого нельзя
1. СимуляторСоздаётся high-fidelity process simulatorНа живой установке агент учить нельзя
2. Reward designФормализуются качество, энергия, химикаты, стабильность и safety constraintsПлохо заданная reward function почти гарантирует reward hacking
3. Offline trainingАгент учится в симуляторе: PPO, SAC, DDPG или другой алгоритмЗдесь выявляются опасные политики
4. Sim-to-real validationАгент калибруется на реальных данных и проверяется against operator logicИначе distribution shift убьёт полезность
5. Advisory modeАгент советует, оператор подтверждаетЭто этап принятия и страхования риска
6. Limited autonomyТолько после длинного parallel run и строгих guardrailsИначе цена ошибки выше всей потенциальной выгоды
flowchart LR
    A[Process simulator] --> B[Reward design]
    B --> C[RL training PPO SAC DDPG]
    C --> D[Validation on historical and live data]
    D --> E[Advisory mode]
    E --> F{Operator approves?}
    F -->|Yes| G[Constrained execution]
    F -->|No| H[Manual control]
    G --> I[Feedback and recalibration]
    H --> I

Где здесь Shell

Shell часто фигурирует как пионер RL и автономных операций в refining. В публичном поле есть два разных сюжета.

  • Shell как партнёр Yokogawa в более широкой теме autonomous operations и перехода от automation к autonomy (Yokogawa IA2IA).
  • Shell catalytic cracking кейс с цифрами вроде +5% fuel yield и −15% energy usage, которые широко цитируются во вторичных обзорах — нужна проверка по первичному техническому документу; безопаснее использовать этот сюжет как исторический ориентир, а не как жёсткий benchmark для совета директоров (Emerj summary).

То есть production-proof у темы есть. Но если нужен юридически и фактологически жёсткий кейс, лучше опираться на Yokogawa + ENEOS и Yokogawa + Aramco.

Когда RL действительно стоит пробовать

УсловиеПризнак, что RL уместен
Есть хороший симуляторProcess model умеет воспроизводить ключевые режимы и отклонения
Конфликтующие KPIНапример, одновременно качество, энергопотребление и расход химикатов
Ручной опыт оператора трудно формализоватьСильная зависимость от опытного персонала и скрытых эвристик
Возможен advisory stageБизнес готов терпеть период parallel run, а не требовать «сразу в closed loop»
Есть safety constraintsИх можно формально задать и встроить в execution layer

Когда RL почти наверняка не нужен

  • Нет симулятора или он слишком грубый.
  • Процесс сильно зависит от редких и плохо описанных disturbances.
  • Установка не прощает даже короткого unsafe action.
  • Проекту нужен быстрый ROI за 3–6 месяцев.
  • На площадке ещё не решены более простые задачи: historian quality, soft sensors, APC discipline.

Что читать вместо слепой веры в RL

Для производственной команды полезнее всего связать RL не с хайпом вокруг «самообучающихся агентов», а с уже понятными контекстами:

  • p.2/07 — чтобы понять, где достаточно обычной time-series модели или soft sensor.
  • p.9/07 — чтобы не путать orchestration agents с RL-контроллер.
  • p.4/02 — чтобы не продавать рискованный проект как «быструю окупаемость».

Как запускать RL-проект трезво

  1. Сначала выберите process unit. Не весь НПЗ, а один контур: gas treatment, distillation, catalyst loop.

  2. Проверьте зрелость simulator. Если модели процесса нет или ей не доверяют технологи, RL-проект ещё не на своём этапе зрелости.

  3. Сформулируйте reward function вместе с технологом. Только инженер понимает, какие trade-offs допустимы, а какие нет.

  4. Заложите длинный advisory stage. Короткая демонстрация не считается. Нужен устойчивый parallel run под наблюдением операторов.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.