Модуль p.6 · Урок 5

Урок 5: Reinforcement Learning в управлении процессами — Shell, Aramco, Yokogawa FKDPP

35 мин

Содержание

Чему вы научитесь
Что такое RL в process control без маркетинга
Самый важный production-кейс — Yokogawa FKDPP
Aramco Fadhili Gas Plant — что подтверждено официально
Как выглядит правильный контур внедрения RL
Где здесь Shell
Когда RL действительно стоит пробовать
Когда RL почти наверняка не нужен
Что читать вместо слепой веры в RL
Как запускать RL-проект трезво

p.6 / Урок 5 из 8

Чему вы научитесь

Понимать, чем RL в process control отличается от обычного APC и supervised ML
Видеть production-сценарий внедрения: симулятор → обучение агента → advisory mode → очень осторожный переход в closed loop
Разбирать кейсы Yokogawa FKDPP и Aramco Fadhili Gas Plant без лишнего хайпа
Понимать, когда RL в process industry оправдан, а когда это опасная трата времени и денег
Формулировать минимальные требования к данным, симулятору и safety-контуру для своего проекта

Reinforcement learning в process control — одна из немногих тем industrial AI, где отличить research от production действительно важно. В нефтепереработке цена ошибки слишком высока, чтобы позволять агенту «поэкспериментировать» на живой установке. Поэтому любой реальный RL-кейс начинается не с GPU, а с high-fidelity simulator и очень жёсткого safety framework.

Что такое RL в process control без маркетинга

Подход	Что делает	Где хорош	Где ломается
APC / MPC	Оптимизирует многомерный режим по заранее заданной модели и ограничениям	Устойчивые процессы с хорошо описанными ограничениями	Когда процесс слишком нелинеен и часто меняет режим
Supervised ML	Предсказывает выход, качество, вероятность отклонения	Soft sensors, quality prediction, anomaly scoring	Сам по себе не выбирает действие
Reinforcement Learning	Подбирает действие, чтобы максимизировать долгосрочную reward function	Сложные нелинейные процессы с конфликтующими целями	Без симулятора, без guardrails и без operator override

Именно поэтому RL не заменяет APC. Он появляется там, где классическая логика уже упирается в сильную нелинейность, изменяющиеся ограничения и многокритериальную оптимизацию.

Самый важный production-кейс — Yokogawa FKDPP

Yokogawa вместе с Nara Institute of Science and Technology разработала reinforcement learning algorithm FKDPP и в 2023 году официально объявила о первом в мире формальном внедрении RL-based autonomous control на химическом plant — на distillation column у ENEOS Materials (Yokogawa, 30.03.2023; Yokogawa, 15.03.2023).

Это очень важный момент. Первый действительно чистый промышленный кейс RL пришёл не из AI startup-мира, а от process automation vendor, который встроил AI в существующий control stack.

В 2025 Yokogawa дополнительно получила отраслевую премию Vaaler Award за FKDPP и прямо описала преимущества: RL-алгоритм может балансировать product quality и energy use, строить устойчивую политику примерно за 30 learning trials и уменьшать implementation time (Yokogawa, 10.11.2025).

Aramco Fadhili Gas Plant — что подтверждено официально

Осенью 2025 Yokogawa и Aramco объявили о внедрении multiple autonomous control AI agents на Fadhili Gas Plant. Официальная формулировка важна: сначала был создан simulator, затем проведена оценка reliability and validity, после чего агенты были интегрированы в существующую систему CENTUM VP. По initial results заявлены −10–15% amine and steam usage, около −5% power usage и меньше ручных вмешательств оператора (Yokogawa, 29.10.2025).

Отдельно Saudi Aramco на своих digital страницах фиксирует более широкий масштаб AI-портфеля: $1,8 млрд AI-driven Technology Realized Value за 2024 год, 442 use cases, 200+ deployed и 100+ in development к концу 2025 года (Aramco; Aramco Europe, 24.11.2025).

Важно не перепутать эти уровни. $1,8 млрд — это весь AI-портфель Aramco. А −10–15% chemicals и −5% power — это уже конкретный RL-like process control кейс на Fadhili.

Как выглядит правильный контур внедрения RL

Шаг	Что происходит	Почему без этого нельзя
1. Симулятор	Создаётся high-fidelity process simulator	На живой установке агент учить нельзя
2. Reward design	Формализуются качество, энергия, химикаты, стабильность и safety constraints	Плохо заданная reward function почти гарантирует reward hacking
3. Offline training	Агент учится в симуляторе: PPO, SAC, DDPG или другой алгоритм	Здесь выявляются опасные политики
4. Sim-to-real validation	Агент калибруется на реальных данных и проверяется against operator logic	Иначе distribution shift убьёт полезность
5. Advisory mode	Агент советует, оператор подтверждает	Это этап принятия и страхования риска
6. Limited autonomy	Только после длинного parallel run и строгих guardrails	Иначе цена ошибки выше всей потенциальной выгоды

flowchart LR
    A[Process simulator] --> B[Reward design]
    B --> C[RL training PPO SAC DDPG]
    C --> D[Validation on historical and live data]
    D --> E[Advisory mode]
    E --> F{Operator approves?}
    F -->|Yes| G[Constrained execution]
    F -->|No| H[Manual control]
    G --> I[Feedback and recalibration]
    H --> I

Где здесь Shell

Shell часто фигурирует как пионер RL и автономных операций в refining. В публичном поле есть два разных сюжета.

Shell как партнёр Yokogawa в более широкой теме autonomous operations и перехода от automation к autonomy (Yokogawa IA2IA).
Shell catalytic cracking кейс с цифрами вроде +5% fuel yield и −15% energy usage, которые широко цитируются во вторичных обзорах — нужна проверка по первичному техническому документу; безопаснее использовать этот сюжет как исторический ориентир, а не как жёсткий benchmark для совета директоров (Emerj summary).

То есть production-proof у темы есть. Но если нужен юридически и фактологически жёсткий кейс, лучше опираться на Yokogawa + ENEOS и Yokogawa + Aramco.

Когда RL действительно стоит пробовать

Условие	Признак, что RL уместен
Есть хороший симулятор	Process model умеет воспроизводить ключевые режимы и отклонения
Конфликтующие KPI	Например, одновременно качество, энергопотребление и расход химикатов
Ручной опыт оператора трудно формализовать	Сильная зависимость от опытного персонала и скрытых эвристик
Возможен advisory stage	Бизнес готов терпеть период parallel run, а не требовать «сразу в closed loop»
Есть safety constraints	Их можно формально задать и встроить в execution layer

Когда RL почти наверняка не нужен

Нет симулятора или он слишком грубый.
Процесс сильно зависит от редких и плохо описанных disturbances.
Установка не прощает даже короткого unsafe action.
Проекту нужен быстрый ROI за 3–6 месяцев.
На площадке ещё не решены более простые задачи: historian quality, soft sensors, APC discipline.

Что читать вместо слепой веры в RL

Для производственной команды полезнее всего связать RL не с хайпом вокруг «самообучающихся агентов», а с уже понятными контекстами:

p.2/07 — чтобы понять, где достаточно обычной time-series модели или soft sensor.
p.9/07 — чтобы не путать orchestration agents с RL-контроллер.
p.4/02 — чтобы не продавать рискованный проект как «быструю окупаемость».

Как запускать RL-проект трезво

Сначала выберите process unit. Не весь НПЗ, а один контур: gas treatment, distillation, catalyst loop.
Проверьте зрелость simulator. Если модели процесса нет или ей не доверяют технологи, RL-проект ещё не на своём этапе зрелости.
Сформулируйте reward function вместе с технологом. Только инженер понимает, какие trade-offs допустимы, а какие нет.
Заложите длинный advisory stage. Короткая демонстрация не считается. Нужен устойчивый parallel run под наблюдением операторов.

Ключевые выводы

Reinforcement learning в process control — это не «ещё один ML-алгоритм», а отдельный класс управляющей логики с высокими требованиями к симуляции и безопасности.
Самые жёстко подтверждённые production-кейсы сегодня дают Yokogawa FKDPP и Aramco Fadhili Gas Plant.
Исторический Shell narrative полезен как reference, но его красивые цифры лучше держать с пометкой «нужна проверка по первичке».
Без simulator, operator override и advisory stage RL на нефтепереработке и газопереработке лучше не запускать.
Во многих случаях перед RL есть более дешёвые и надёжные шаги: APC, soft sensors, anomaly detection и normal time-series optimization.
Если вам нужен не контроллер, а агентная оркестрация поверх инженерных инструментов, переходите в p.9/07.