Модуль p.3 · Урок 1
Урок 1: Персональные данные в AI-проекте — как не попасть на 500 млн
Содержание
- Чему вы научитесь
- Что в AI-проекте считается персональными данными
- Что именно изменилось в 2024–2026 годах
- Типовые ошибки в AI-проектах — и как их закрыть
- Чек-лист перед подключением AI-сервиса
- Если работаете с OpenAI, Anthropic или Gemini
- Что делать с обучением моделей на клиентских данных
- Кейсы, которые стоит помнить на совещании
- Итоги
Чему вы научитесь
- Быстро определять, есть ли в промпте, вложении, логе или эмбеддинге персональные данные
- Решать, можно ли по 152-ФЗ отправлять данные в конкретный AI-сервис и где надо остановиться
- Различать три разных обязанности: локализация в РФ, уведомление о начале обработки и уведомление о трансграничной передаче
- Ставить ИТ-команде и интегратору правильные ограничения для OpenAI, Anthropic, Gemini и российских альтернатив
- Отсекать опасные сценарии: обучение на клиентской базе, векторные БД с ПД и чат-боты без информирования
В 2024–2025 годах тема персональных данных из «юридического приложения» превратилась в управленческий стоп-фактор. С 11 декабря 2024 года в УК РФ появилась статья 272.1 с наказанием до 10 лет лишения свободы (421-ФЗ; ст. 272.1 УК РФ). С 30 мая 2025 года за повторную утечку обычных персональных данных для бизнеса действует оборотный штраф от 1% до 3% выручки, но не менее 20 млн ₽ и не более 500 млн ₽ (420-ФЗ; КоАП РФ, ст. 13.11 ч. 15). В марте 2026 года арбитраж уже начал рассматривать первые дела по новым составам: А40-351064/2025 и А56-4733/2026 (решение АС Москвы от 05.03.2026; решение АС СПб и ЛО от 10.03.2026).
Что в AI-проекте считается персональными данными
152-ФЗ определяет персональные данные максимально широко: это любая информация, относящаяся к прямо или косвенно определённому человеку (152-ФЗ, ст. 3). Для AI-проекта это означает неприятный, но полезный вывод: проблема начинается не на этапе дообучения (fine-tuning), а намного раньше.
В зону 152-ФЗ обычно попадают:
- таблицы с ФИО, телефонами, email, табельными номерами, историей обращений;
- промпты вида «проанализируй переписку менеджера Иванова с клиентом Петровым»;
- вложения из CRM, сервис-деска (Service Desk), HRM, ERP и почты;
- логи чат-бота, если в них есть контактные данные, идентификаторы или текст обращения;
- эмбеддинги и векторные записи, если они построены из текстов с ПД и хранятся вместе с метаданными. Здесь безопаснее применять консервативный подход и считать их обработкой ПД, потому что закон трактует обработку очень широко, а публичного исключения для эмбеддингов Роскомнадзор не дал (152-ФЗ, ст. 3).
flowchart TD
A[Есть ли в запросе или файле данные о человеке?] -->|Нет| B[Можно работать по обычному ИБ-процессу]
A -->|Да| C[Данные сначала собираются и хранятся в РФ?]
C -->|Нет| D[Стоп: нарушается требование локализации]
C -->|Да| E[Есть правовое основание и согласие, если оно нужно?]
E -->|Нет| F[Стоп: сначала легализуйте обработку]
E -->|Да| G[Сервис зарубежный?]
G -->|Нет| H[Проверьте договор, логи, доступы и обезличивание]
G -->|Да| I[Нужно уведомление о трансграничной передаче и оценка контрагента]Практическое правило простое: если в задаче есть живые данные сотрудника, клиента, подрядчика или кандидата, обсуждайте не «какая модель лучше», а «какое у нас правовое основание, где первичная база и кто оператор».
Что именно изменилось в 2024–2026 годах
| Изменение | Дата | Что это меняет для AI-проекта | Источник |
|---|---|---|---|
| Статья 272.1 УК РФ | 11.12.2024 | Незаконные сбор, хранение, передача и использование компьютерной информации с ПД могут закончиться уголовным делом; верхняя планка — до 10 лет лишения свободы | 421-ФЗ, КонсультантПлюс: ст. 272.1 УК РФ |
| Новые формы согласия для ЕСИА и ЕБС | 01.01.2025 | Унифицированные формы появились для сценариев ЕСИА и биометрии; это не универсальная форма согласия для любого корпоративного AI-сервиса | Распоряжение Правительства РФ № 856-р от 09.04.2024 |
| Миллионные и оборотные штрафы по КоАП | 30.05.2025 | Утечки, неуведомление об инциденте и повторные нарушения стали денежным риском уровня совета директоров | 420-ФЗ, КоАП РФ, ст. 13.11 |
| Жёсткая локализация первичного сбора | 01.07.2025 | Собирать ПД граждан РФ сразу в иностранную базу больше нельзя; сначала — запись, систематизация, хранение и извлечение в РФ | 23-ФЗ, Минцифры № П25-44929 |
| Согласие отдельным документом | 01.09.2025 | Нельзя прятать согласие на обработку ПД внутри договора, оферты или общего чекбокса | 156-ФЗ, ст. 5 |
| Первые арбитражные решения по новым составам | 05.03.2026 и 10.03.2026 | Новые части ст. 13.11 КоАП перестали быть теорией и дошли до суда | А40-351064/2025, А56-4733/2026 |
| Нарушение | Санкция для юрлица | Что это значит для AI-проекта |
|---|---|---|
| Обработка без письменного согласия, когда оно обязательно | 300 тыс. – 700 тыс. ₽; повторно 1 млн – 1,5 млн ₽ (КоАП РФ, ст. 13.11 ч. 2 и 2.1) | Нельзя тихо отправить в сервис досье клиента, запись звонка или HR-анкету и надеяться, что «это же пилот» |
| Неуведомление РКН о начале обработки | 100 тыс. – 300 тыс. ₽ (КоАП РФ, ст. 13.11 ч. 10) | Если предприятие обрабатывает ПД в AI-контуре, но вообще не стоит в реестре операторов, это отдельный штраф |
| Неуведомление РКН об утечке | 1 млн – 3 млн ₽ (КоАП РФ, ст. 13.11 ч. 11) | Инцидент в чат-боте, базе знаний или интеграции с CRM нельзя «разобрать внутри и никому не говорить» |
| Утечка 1 000–10 000 субъектов или 10 000–100 000 идентификаторов | 3 млн – 5 млн ₽ (КоАП РФ, ст. 13.11 ч. 12) | Типичный масштаб для неудачного пилота на клиентской или кадровой выборке |
| Утечка 10 000–100 000 субъектов | 5 млн – 10 млн ₽ (КоАП РФ, ст. 13.11 ч. 13) | Уже уровень крупного сервиса, HR-портала или клиентского кабинета |
| Утечка более 100 000 субъектов | 10 млн – 15 млн ₽ (КоАП РФ, ст. 13.11 ч. 14) | Массовый сайт, единая база обращений или подрядчик с общим доступом |
| Повторная утечка обычных ПД | 1%–3% выручки, минимум 20 млн ₽, максимум 500 млн ₽ (КоАП РФ, ст. 13.11 ч. 15) | Это тот самый риск «на 500 млн» |
| Утечка специальных категорий ПД | 10 млн – 15 млн ₽; повторно — 1%–3% выручки, минимум 25 млн ₽, максимум 500 млн ₽ (КоАП РФ, ст. 13.11 ч. 16 и 18) | Медицинские данные, данные о здоровье, убеждениях и подобных темах нельзя заводить в внешний AI-контур без отдельного тяжёлого обоснования |
| Утечка биометрии | 15 млн – 20 млн ₽; повторно — 1%–3% выручки, минимум 25 млн ₽, максимум 500 млн ₽ (КоАП РФ, ст. 13.11 ч. 17 и 18) | Видеоаналитика, голос, фото для идентификации требуют отдельного контура управления риском |
Типовые ошибки в AI-проектах — и как их закрыть
Ошибки ниже вытекают из широкого определения обработки ПД, требований ст. 12, 18 и 22 152-ФЗ и разъяснения Минцифры о трансграничной передаче с 1 июля 2025 года (152-ФЗ, ст. 12; Минцифры № П25-44929).
| Ошибка | Почему это опасно | Что делать вместо этого |
|---|---|---|
| Отправить в OpenAI или Gemini Excel с клиентами и сотрудниками | Это уже обработка ПД и, для иностранного сервиса, трансграничная передача | Сначала обезличить данные, сохранить первичную базу в РФ и отдельно проверить трансграничный режим |
| Дообучать модель на клиентской базе «для качества ответов» | Меняется цель обработки, растёт срок хранения и круг лиц с доступом | Отдельно описать цель, получить отдельное основание или отказаться от дообучения в пользу RAG (retrieval-augmented generation) по обезличенным фрагментам |
| Хранить эмбеддинги и метаданные в векторной БД без классификации | Векторный слой не отменяет 152-ФЗ, если поисковый индекс построен из ПД | Вести векторную БД как ИСПДн: классификация, доступы, срок хранения, удаление по запросу |
| Запустить чат-бота без уведомления пользователя, что его сообщения обрабатывает AI | Пользователь уверен, что пишет человеку, а фактически его данные уходят в модель и логи | Явно маркировать AI-диалог, дать ссылку на политику и сценарий перевода на человека |
| Не подать уведомление о начале обработки и жить «как тестовый стенд» | Для РКН нет волшебного режима «это пока пилот» | Подать уведомление о намерении обрабатывать ПД до запуска сервиса |
| Давать подрядчику общий аккаунт к CRM и AI-сервису | Потеря границы ответственности и неуправляемый доступ к ПД | Разделить роли: оператор, обработчик, интегратор, владелец сервиса; закрепить это в договоре и в системе управления доступом (IAM) |
Чек-лист перед подключением AI-сервиса
Определите, кто оператор. Это не академический вопрос. Нужно понимать, кто собирает ПД, кто определяет цели обработки и кто потом отвечает перед РКН и в суде.
Опишите, какие именно данные уходят в модель. Не «у нас обращения клиентов», а конкретно: ФИО, email, телефон, текст обращения, вложения, аудио, фото, идентификатор заявки.
Разведите два потока. Публичные, синтетические и обезличенные данные — отдельно. Живые ПД сотрудников и клиентов — отдельно, через правовой и ИБ-контур.
Проверьте правовое основание. Если опираетесь на согласие, с 1 сентября 2025 года оно должно быть отдельным документом, а не абзацем внутри оферты (156-ФЗ, ст. 5).
Проверьте локализацию. Первичный сбор, запись, систематизация, хранение и извлечение ПД граждан РФ должны идти через базу в России с 1 июля 2025 года (23-ФЗ; Минцифры № П25-44929).
Проверьте уведомления. Отдельно — уведомление о начале обработки по ст. 22 152-ФЗ. Отдельно — уведомление о намерении осуществлять трансграничную передачу по ст. 12 152-ФЗ (ст. 12 152-ФЗ; портал РКН).
Закрепите режим логов и обучения. В договоре и настройках должно быть видно, хранятся ли промпты, используются ли они для обучения модели, кто имеет к ним доступ и как быстро они удаляются.
Сократите данные до минимума. Маскируйте имена, телефоны, email, номера договоров и любые устойчивые идентификаторы ещё до отправки запроса в модель.
Пилотируйте на безопасном наборе данных. Для отладки промптов и сравнения моделей используйте обезличенные или синтетические данные. Для практики с моделями под рукой удобен arckep.ru, но он не отменяет требований 152-ФЗ и не легализует отправку живых ПД во внешний сервис.
Фиксируйте решение письменно. У CDTO должен оставаться артефакт: какая модель, какой контур, какие данные, какое основание обработки, кто согласовал и кто отвечает за инцидент.
Если работаете с OpenAI, Anthropic или Gemini
Для российского предприятия это не вопрос «зарубежная модель лучше или хуже». Это вопрос режима трансграничной передачи и локализации.
Во что упирается практическая схема:
- сначала ПД должны быть собраны и сохранены в российской базе; собирать их сразу в иностранный облачный сервис (SaaS) после 1 июля 2025 года нельзя (23-ФЗ; Минцифры № П25-44929);
- до начала трансграничной передачи оператор обязан подать отдельное уведомление в РКН, причём отдельно от уведомления о начале обработки (152-ФЗ, ст. 12 ч. 3);
- если страна входит в перечень юрисдикций с адекватной защитой, передача возможна после подачи уведомления; если не входит, оператор до истечения срока рассмотрения не вправе начинать передачу, а базовый срок рассмотрения — до 10 рабочих дней (152-ФЗ, ст. 12 ч. 9–11).
Практический вывод для CDTO такой: OpenAI, Anthropic и Gemini можно рассматривать только как внешний слой поверх уже локализованного российского контура и только после отдельной юридической проверки. Если сервис нужен для реальной эксплуатации, а не для демонстрации, задавайте интегратору четыре вопроса: где первичная база, кто иностранный получатель, какой режим логов, как вы удаляете данные по запросу субъекта.
Если на такой вопрос нет чёткого ответа, не спорьте о промптах — меняйте контур. Для предприятий, которым внешний западный облачный сервис нельзя по комплаенсу, обычно рассматривают YandexGPT 5.1 Pro, Cotype и корпоративную линейку GigaChat. Если в коммерческом предложении фигурирует «GigaChat 3 Pro», просите зафиксировать точное коммерческое наименование модели в договоре: в публичной документации Сбера на 20 апреля 2026 года доступны GigaChat 2 Pro и GigaChat 2 Max. Для значимых объектов КИИ иностранный облачный контур (SaaS) надо считать недоступным уже не только по 152-ФЗ, а по более жёсткому отраслевому режиму.
Что делать с обучением моделей на клиентских данных
Здесь самая частая ошибка звучит так: «Мы же не раскрываем данные, мы только улучшаем модель». Для закона это слабый аргумент.
Если вы обучаете или дообучаете модель на клиентской базе, вы как минимум:
- меняете цель обработки;
- расширяете срок и сценарии использования данных;
- увеличиваете риск повторного доступа к данным через датасет, чекпойнт, лог эксперимента или векторную БД;
- усложняете удаление данных по требованию субъекта.
Безопасный корпоративный порядок такой:
- не использовать живую клиентскую базу для дообучения по умолчанию;
- сначала решать задачу через RAG по обезличенным фрагментам или через правила маршрутизации;
- если без обучения нельзя, собирать отдельное правовое основание и отдельный набор данных под эту цель;
- исключить из тренировочного набора прямые идентификаторы и лишние поля;
- хранить датасет, артефакты обучения и логи в российском контуре.
Кейсы, которые стоит помнить на совещании
Итоги
- В AI-проекте персональные данные — это не только Excel с ФИО, но и промпты, логи, вложения и часто эмбеддинги.
- После 30 мая 2025 года риск по 152-ФЗ измеряется уже не «неприятным штрафом», а диапазоном до 500 млн ₽ при повторной утечке.
- С 1 июля 2025 года сначала нужен российский контур сбора и хранения, потом — любые внешние сервисы.
- Уведомление о начале обработки, уведомление об утечке и уведомление о трансграничной передаче — это три разные обязанности.
- Для OpenAI, Anthropic и Gemini безопасный путь начинается только после локализации, отдельной юридической проверки и ограничения данных до минимума.
- Если задача не проходит по комплаенсу, не спорьте с законом: уходите в российские сервисы, локальные модели или в обезличенный контур.