Модуль p.6 · Урок 5
Урок 5: Reinforcement Learning в управлении процессами — Shell, Aramco, Yokogawa FKDPP
Содержание
- Чему вы научитесь
- Что такое RL в process control без маркетинга
- Самый важный production-кейс — Yokogawa FKDPP
- Aramco Fadhili Gas Plant — что подтверждено официально
- Как выглядит правильный контур внедрения RL
- Где здесь Shell
- Когда RL действительно стоит пробовать
- Когда RL почти наверняка не нужен
- Что читать вместо слепой веры в RL
- Как запускать RL-проект трезво
Чему вы научитесь
- Понимать, чем RL в process control отличается от обычного APC и supervised ML
- Видеть production-сценарий внедрения: симулятор → обучение агента → advisory mode → очень осторожный переход в closed loop
- Разбирать кейсы Yokogawa FKDPP и Aramco Fadhili Gas Plant без лишнего хайпа
- Понимать, когда RL в process industry оправдан, а когда это опасная трата времени и денег
- Формулировать минимальные требования к данным, симулятору и safety-контуру для своего проекта
Reinforcement learning в process control — одна из немногих тем industrial AI, где отличить research от production действительно важно. В нефтепереработке цена ошибки слишком высока, чтобы позволять агенту «поэкспериментировать» на живой установке. Поэтому любой реальный RL-кейс начинается не с GPU, а с high-fidelity simulator и очень жёсткого safety framework.
Что такое RL в process control без маркетинга
| Подход | Что делает | Где хорош | Где ломается |
|---|---|---|---|
| APC / MPC | Оптимизирует многомерный режим по заранее заданной модели и ограничениям | Устойчивые процессы с хорошо описанными ограничениями | Когда процесс слишком нелинеен и часто меняет режим |
| Supervised ML | Предсказывает выход, качество, вероятность отклонения | Soft sensors, quality prediction, anomaly scoring | Сам по себе не выбирает действие |
| Reinforcement Learning | Подбирает действие, чтобы максимизировать долгосрочную reward function | Сложные нелинейные процессы с конфликтующими целями | Без симулятора, без guardrails и без operator override |
Именно поэтому RL не заменяет APC. Он появляется там, где классическая логика уже упирается в сильную нелинейность, изменяющиеся ограничения и многокритериальную оптимизацию.
Самый важный production-кейс — Yokogawa FKDPP
Yokogawa вместе с Nara Institute of Science and Technology разработала reinforcement learning algorithm FKDPP и в 2023 году официально объявила о первом в мире формальном внедрении RL-based autonomous control на химическом plant — на distillation column у ENEOS Materials (Yokogawa, 30.03.2023; Yokogawa, 15.03.2023).
Это очень важный момент. Первый действительно чистый промышленный кейс RL пришёл не из AI startup-мира, а от process automation vendor, который встроил AI в существующий control stack.
В 2025 Yokogawa дополнительно получила отраслевую премию Vaaler Award за FKDPP и прямо описала преимущества: RL-алгоритм может балансировать product quality и energy use, строить устойчивую политику примерно за 30 learning trials и уменьшать implementation time (Yokogawa, 10.11.2025).
Aramco Fadhili Gas Plant — что подтверждено официально
Осенью 2025 Yokogawa и Aramco объявили о внедрении multiple autonomous control AI agents на Fadhili Gas Plant. Официальная формулировка важна: сначала был создан simulator, затем проведена оценка reliability and validity, после чего агенты были интегрированы в существующую систему CENTUM VP. По initial results заявлены −10–15% amine and steam usage, около −5% power usage и меньше ручных вмешательств оператора (Yokogawa, 29.10.2025).
Отдельно Saudi Aramco на своих digital страницах фиксирует более широкий масштаб AI-портфеля: $1,8 млрд AI-driven Technology Realized Value за 2024 год, 442 use cases, 200+ deployed и 100+ in development к концу 2025 года (Aramco; Aramco Europe, 24.11.2025).
Важно не перепутать эти уровни. $1,8 млрд — это весь AI-портфель Aramco. А −10–15% chemicals и −5% power — это уже конкретный RL-like process control кейс на Fadhili.
Как выглядит правильный контур внедрения RL
| Шаг | Что происходит | Почему без этого нельзя |
|---|---|---|
| 1. Симулятор | Создаётся high-fidelity process simulator | На живой установке агент учить нельзя |
| 2. Reward design | Формализуются качество, энергия, химикаты, стабильность и safety constraints | Плохо заданная reward function почти гарантирует reward hacking |
| 3. Offline training | Агент учится в симуляторе: PPO, SAC, DDPG или другой алгоритм | Здесь выявляются опасные политики |
| 4. Sim-to-real validation | Агент калибруется на реальных данных и проверяется against operator logic | Иначе distribution shift убьёт полезность |
| 5. Advisory mode | Агент советует, оператор подтверждает | Это этап принятия и страхования риска |
| 6. Limited autonomy | Только после длинного parallel run и строгих guardrails | Иначе цена ошибки выше всей потенциальной выгоды |
flowchart LR
A[Process simulator] --> B[Reward design]
B --> C[RL training PPO SAC DDPG]
C --> D[Validation on historical and live data]
D --> E[Advisory mode]
E --> F{Operator approves?}
F -->|Yes| G[Constrained execution]
F -->|No| H[Manual control]
G --> I[Feedback and recalibration]
H --> IГде здесь Shell
Shell часто фигурирует как пионер RL и автономных операций в refining. В публичном поле есть два разных сюжета.
- Shell как партнёр Yokogawa в более широкой теме autonomous operations и перехода от automation к autonomy (Yokogawa IA2IA).
- Shell catalytic cracking кейс с цифрами вроде
+5%fuel yield и−15%energy usage, которые широко цитируются во вторичных обзорах — нужна проверка по первичному техническому документу; безопаснее использовать этот сюжет как исторический ориентир, а не как жёсткий benchmark для совета директоров (Emerj summary).
То есть production-proof у темы есть. Но если нужен юридически и фактологически жёсткий кейс, лучше опираться на Yokogawa + ENEOS и Yokogawa + Aramco.
Когда RL действительно стоит пробовать
| Условие | Признак, что RL уместен |
|---|---|
| Есть хороший симулятор | Process model умеет воспроизводить ключевые режимы и отклонения |
| Конфликтующие KPI | Например, одновременно качество, энергопотребление и расход химикатов |
| Ручной опыт оператора трудно формализовать | Сильная зависимость от опытного персонала и скрытых эвристик |
| Возможен advisory stage | Бизнес готов терпеть период parallel run, а не требовать «сразу в closed loop» |
| Есть safety constraints | Их можно формально задать и встроить в execution layer |
Когда RL почти наверняка не нужен
- Нет симулятора или он слишком грубый.
- Процесс сильно зависит от редких и плохо описанных disturbances.
- Установка не прощает даже короткого unsafe action.
- Проекту нужен быстрый ROI за
3–6месяцев. - На площадке ещё не решены более простые задачи: historian quality, soft sensors, APC discipline.
Что читать вместо слепой веры в RL
Для производственной команды полезнее всего связать RL не с хайпом вокруг «самообучающихся агентов», а с уже понятными контекстами:
- p.2/07 — чтобы понять, где достаточно обычной time-series модели или soft sensor.
- p.9/07 — чтобы не путать orchestration agents с RL-контроллер.
- p.4/02 — чтобы не продавать рискованный проект как «быструю окупаемость».
Как запускать RL-проект трезво
Сначала выберите process unit. Не весь НПЗ, а один контур: gas treatment, distillation, catalyst loop.
Проверьте зрелость simulator. Если модели процесса нет или ей не доверяют технологи, RL-проект ещё не на своём этапе зрелости.
Сформулируйте reward function вместе с технологом. Только инженер понимает, какие trade-offs допустимы, а какие нет.
Заложите длинный advisory stage. Короткая демонстрация не считается. Нужен устойчивый parallel run под наблюдением операторов.