Модуль m.4 · Урок 6
Урок 6: Пайплайн фактчека AI-черновика + C2PA/SynthID + российская специфика
Содержание
- Чему вы научитесь
- Собираем модуль в рабочий пайплайн
- Пайплайн фактчека: пять этапов
- Этап 1. Черновик с ИИ (скорость)
- Этап 2. Экстракция атомарных утверждений
- Этап 3. Проверка каждого утверждения
- Этап 4. Второй ИИ как редактор (опционально)
- Этап 5. Человеческая финальная проверка
- C2PA на практике
- SynthID на практике
- Российская специфика фактчека
- Разбор Бернклау через пайплайн
- Чеклист для печати
- Итог модуля M.4
- Главное из урока
Чему вы научитесь
- Применять полный пайплайн фактчека AI-черновика из пяти этапов к любому тексту
- Использовать «золотое правило промпта» и второй ИИ как редактора, не как источник
- Читать C2PA-манифест и SynthID-пометку, понимая границы каждого стандарта
- Триангулировать три полюса русскоязычного фактчека — Проверено, Лапша, StopFake — без слепого доверия ни одному
- Работать с распечатанным чеклистом, который закрывает все уроки модуля M.4
Для практики используем arckep.ru — все основные модели, без VPN, оплата рублями. Вы можете использовать любые другие сервисы.
Собираем модуль в рабочий пайплайн
Пять предыдущих уроков дали инструменты. M.4.1 — мотивацию и карту рисков. M.4.2 — пирамиду верификации как методологию. M.4.3 — четыре типа галлюцинаций как сетку для глаза. M.4.4 — OSINT для визуала. M.4.5 — правило четырёх сигналов для AI-детекторов и их правовые границы.
Этот урок собирает всё в один рабочий процесс. После него у читателя — готовый чеклист на пять этапов, который можно распечатать и повесить над столом. Каждое утверждение любого AI-черновика проходит через этот чеклист перед публикацией. Без исключений.
Пайплайн фактчека: пять этапов
Этап 1. Черновик с ИИ (скорость)
Задача — получить сырой текст с максимальным покрытием темы за минимальное время. Три правила, без которых этап 1 превращается в фабрику галлюцинаций:
- Промпт с явным запретом фабрикации. «Если не уверен в источнике — скажи “нужна проверка”, не придумывай ссылку». Формулировка работает на всех моделях: Claude, ChatGPT, Grok, Gemini, Perplexity
- Включаем веб-поиск. Perplexity по умолчанию, у ChatGPT/Grok/Gemini включаем явно. Внутренняя память модели — источник 80% галлюцинаций, уверенно датированных 2023 годом
- Просим цитаты с URL, не пересказ. «Каждое утверждение — прямая цитата с ссылкой на источник». Это сразу отсекает половину фабрикаций: модель не может процитировать несуществующий текст
Время: 10 минут на черновик среднего размера (800–1500 слов).
Этап 2. Экстракция атомарных утверждений
Черновик — это проза, в которой каждое предложение несёт один или несколько проверяемых claim’ов. Задача этапа — разобрать прозу в список атомов. Категории:
- Даты — когда родился, произошло, начался процесс
- Числа — проценты, суммы, количества, позиции в рейтингах
- Имена и должности — кто, где работает, кем числится
- Цитаты прямой речи — кто, где, когда это сказал
- Ссылки на исследования и документы — название, автор, год, издатель
Разбор делается руками в тексте, по одному предложению. Результат — плоский список из 20–50 пунктов для материала среднего размера. Время: 5 минут.
Этап 3. Проверка каждого утверждения
Самый длинный этап. К каждому атому из этапа 2 применяется пирамида верификации M.4.2 и, для визуала, инструменты M.4.4. Типовые цепочки:
- Цитата → поиск первичного источника: интервью, выступление, транскрипт, видео
- Число → первичный документ: Росстат, WB, IMF, отчёт компании, пресс-релиз ведомства
- Исследование → Google Scholar / Semantic Scholar / Consensus по точному названию. Если не находится — скорее всего, это Тип 2 из M.4.3 (фабрикация источника)
- Имя и должность — официальный сайт организации + LinkedIn + reverse image по фото
- Визуал — пайплайн 10 минут из M.4.4: четыре движка reverse image → метаданные → геолокация → погода → C2PA
Время: 30–60 минут на материал среднего размера. Это самый честный этап — сокращение здесь означает публикацию непроверенного текста.
Этап 4. Второй ИИ как редактор (опционально)
После ручной проверки полезно прогнать готовый текст через вторую модель — в роли строгого редактора, привязанного к корпусу проверенных источников. Это RAG-подход: модель отвечает только на основе того, что ей дали. Она не ищет в вебе, не фантазирует, проверяет только соответствие текста приложенным документам.
Готовый промпт для второго ИИ:
Ты — строгий редактор. Проверь текст только по приложенным источникам.
1. Каждое утверждение должно подкрепляться одним из источников.
2. Если утверждение НЕ подтверждается источниками — отметь цитатой и вопросом.
3. Если источники противоречат друг другу — отметь и покажи противоречие.
4. Ничего не додумывай. Ничего не обобщай.
5. Если информации нет в источниках — скажи «нет данных в корпусе».
Этап снижает риск, не обнуляет. Модель может галлюцинировать даже в RAG-режиме, особенно если её спросить интерпретационный вопрос. Лучший результат — когда вторая модель от другого вендора (проверяли Claude — подстраховываемся ChatGPT или Gemini). Время: 5 минут.
Этап 5. Человеческая финальная проверка
ИИ может соврать про содержание ссылки, которую он же вам отдал. Последний этап делает только человек. Руками:
- Каждая ссылка открывается и читается. Не по сниппету, не по первому абзацу — целиком раздел, на который ссылается текст
- Имена и должности сверяются минимум по двум независимым источникам. Официальный сайт + СМИ, или LinkedIn + пресс-релиз
- Цитаты прямой речи сверяются с оригинальным аудио/видео, если оно существует. Если нет — с двумя независимыми публикациями, которые цитируют ту же речь
- Статистика — из первичного документа, не пересказа. «Росстат сообщил» проверяется на сайте Росстата, а не в СМИ, которое на него ссылается
Время: 15–30 минут. Это точка, после которой текст идёт в публикацию, не раньше.
C2PA на практике
Стандарт и круг участников разбирали в M.4.4. Здесь — как встроить C2PA в собственный рабочий процесс:
- Проверка входящего визуала. Любой файл, с которым работаете, — через contentcredentials.org/verify. Манифест показывает цепочку: камера → редактор → экспорт. Если подпись есть и она от
leica-m11p→Photoshop→NYT CMS— это сильный сигнал подлинности - Сохранение цепочки при своей работе. Работая с ответственным визуалом, не проходите через инструменты, которые срезают подпись: старые версии редакторов, screenshot, пересохранение в чатах. Путь «камера → Photoshop (свежая версия) → CMS» сохраняет манифест
- Чтение предупреждающих знаков. Если материал пришёл от источника, у которого C2PA-камера и C2PA-CMS (крупные агентства уже подписаны), а подписи нет — это вопрос к источнику, не к вам
Что C2PA не делает (и это важно помнить всегда):
- Не проверяет правдивость фактов в материале — только технический провенанс
- Не мешает снять реальное событие с ложной подписью («настоящее фото настоящего дома, но под ним подпись про другой город»)
- Не работает, если источник не подписывает — а большинство источников в русскоязычном вебе пока не подписывает
SynthID на практике
Google DeepMind, детектор на deepmind.google/technologies/synthid. Что проверяет:
- Imagen — генеративные изображения Google
- Veo — видео
- Lyria — музыка и аудио
- Gemini — текстовые выходы
На апрель 2026 промаркировано более 10 млрд единиц контента. Водяной знак встраивается в момент генерации, переживает кроппинг, фильтры, компрессию, ротацию, скриншоты.
Что SynthID не ловит:
- Контент не из Google-стека: Claude-текст, GPT-текст, Midjourney, DALL-E, Stable Diffusion, Sora, Runway
- Агрессивно перекодированный контент — сильные фильтры или многократная перекомпрессия могут убить знак
- Сгенерированное старыми версиями Gemini / Imagen до внедрения SynthID
Практическое правило: если SynthID даёт положительный результат — это надёжное подтверждение, что контент из Google-стека. Отсутствие знака ничего не доказывает — может быть Claude, может быть человек, может быть пересохранённый Imagen без знака.
Российская специфика фактчека
Русскоязычный фактчек в 2026 — это три центра с разными институциональными интересами. Использовать как источник уже проверенных фактов (перед тем как проверять самому, стоит посмотреть, не разобран ли кейс), но никогда не как единственный источник истины.
- Проверено.Медиа — IFCN-член с ноября 2023 (через материнский проект Ильи Бера). Методология западного стандарта, работает с обеими сторонами информационной войны, независимый
- Лапша.Медиа — государственный/окологосударственный российский проект АНО «Диалог Регионы». За январь-сентябрь 2025 зафиксировали 3162 уникальных фейка, +9% к 2024 году. Большая база уже разобранных сюжетов, особенно по политическим и социальным темам
- StopFake — Киев, основан в марте 2014, фокус на опровержении российской пропаганды об Украине. Есть русская и английская версии
Дополнительно из M.3.5 — специфика, которая применяется в пайплайне:
- Яндекс.Картинки — первый движок reverse image для русского веба. На лицах и постсоветской архитектуре сильнее Google Lens
- Архивация. Российские сайты часто удаляются или правятся. Базовый набор: web.archive.org + Webrecorder WACZ локально (archive.ph с 2024 частично заблокирован РКН)
- Правовые ограничения — статьи 207.3 УК РФ («фейки» об армии), 20.3.3 КоАП («дискредитация»), 128.1 УК (клевета). Подробно разбирали в M.4.1, полная AI-политика редакции — в M.9
- ВК-OSINT —
vk.watchдля истории правок, поиск по ID. Telegram-OSINT —tgstat.ru,telemetr.me, боты SangMata и Combot
Разбор Бернклау через пайплайн
Прогоним сквозной кейс модуля — Мартина Бернклау из Тюбингена — через все пять этапов, чтобы увидеть, где пайплайн останавливает галлюцинацию.
- Этап 1 (черновик). Промпт в Copilot: «расскажи о Мартине Бернклау». Выхлоп — готовый обвинительный текст: «Бернклау причастен к [списку преступлений]». Модель уверенно цитирует «публикации в Süddeutsche Zeitung» — без конкретных ссылок
- Этап 2 (экстракция). Атомарные утверждения: (1) Бернклау — фигурант уголовных дел по конкретным статьям, (2) публикации в SZ описывают его как обвиняемого, (3) даты и локации преступлений. Всего 8 claim’ов
- Этап 3 (проверка). Ищем первичные документы. В архиве Süddeutsche Zeitung находятся материалы за авторством Бернклау, а не про него. Его имя — в авторской строке, он репортёр криминальной хроники, который писал об этих делах. Ни одного судебного документа, где он фигурирует как обвиняемый, не существует
- Этап 4 (второй ИИ). Подаём в Claude корпус из трёх найденных статей SZ плюс промпт «строгий редактор, только по источникам». Вердикт: «ни одно из заявленных утверждений не подтверждается корпусом; в корпусе Бернклау значится как автор»
- Этап 5 (человек). Редактор открывает статьи и подтверждает: авторская строка «Martin Bernklau» везде. Материал не публикуется. Тот, кто пропустил этот текст без пайплайна, опубликовал бы обвинение невиновного человека в преступлениях, о которых тот писал как журналист
Итог: пайплайн из пяти этапов за 30–40 минут остановил бы один из самых громких кейсов галлюцинации ИИ. Не пайплайн — основание для иска о клевете.
Чеклист для печати
| Этап | Что делаю | Инструменты | Время |
|---|---|---|---|
| 1. Черновик | Промпт с золотым правилом + веб-поиск + явные цитаты | Claude / ChatGPT / Perplexity / Grok с Search | 10 мин |
| 2. Экстракция | Разбить текст на атомарные утверждения: даты/числа/имена/цитаты/ссылки | Редактор, список на отдельной странице | 5 мин |
| 3. Проверка | Пирамида M.4.2 к каждому пункту + OSINT для визуала | Я.Картинки / Google Lens / TinEye / InVID / SunCalc / первоисточники | 30–60 мин |
| 4. Второй ИИ (опц.) | RAG-проверка готового текста по корпусу проверенных источников | Модель другого вендора + промпт «строгий редактор» | 5 мин |
| 5. Человек | Открыть и прочитать каждую ссылку, сверить имена/цитаты/статистику | Руки, глаза, здравый смысл | 15–30 мин |
Итого: 1–2 часа на материал среднего размера для опытного журналиста, привыкшего к пайплайну. Для новичка первые два-три прохода займут 2–4 часа, дальше — быстрее. Это цена одной проверенной публикации. Цена одной непроверенной — иск о клевете, отзыв материала, репутационный ущерб редакции. Разница в три порядка.
Итог модуля M.4
После шести уроков модуля читатель умеет:
- Видеть четыре типа галлюцинаций в AI-тексте и называть каждый по имени (M.4.3)
- Применять пирамиду верификации из Bellingcat/GIJN/IFCN к любому утверждению (M.4.2)
- Проверять визуал через четыре движка reverse image, InVID-WeVerify, геолокацию, хронолокацию (M.4.4)
- Читать C2PA-манифест и SynthID-пометку, понимая границы каждого стандарта
- Работать с AI-детекторами текста по правилу четырёх сигналов и не попадать в иск о клевете (M.4.5)
- Применять полный пайплайн фактчека из пяти этапов к любому AI-черновику перед публикацией
Это не теоретическое знание. Это рабочий процесс, который экономит редакции шестизначные суммы на несостоявшихся исках и сохраняет репутацию, которая стоит больше любых денег.
Главное из урока
Фактчек AI-черновика — это не чеклист «проверил / не проверил», а процесс из пяти этапов: черновик с поиском → экстракция атомов → проверка каждого атома по пирамиде → второй ИИ как RAG-редактор → человеческая финальная проверка. Время на материал среднего размера — 1–2 часа. Время, которое это экономит, — шестизначные суммы исков и карьеры.
C2PA и SynthID — два технических стандарта, которые дают сигнал «в плюс» (подпись есть — скорее всего подлинно), но не дают сигнала «в минус» (подписи нет — ничего не значит). Российский фактчек существует в трёх полюсах — Проверено, Лапша, StopFake — и нейтральная работа требует триангуляции всех трёх, не доверия ни одному.
В следующем модуле — M.5 «Интервью и аудио»: как использовать ИИ для расшифровки, подготовки вопросов, пост-интервью анализа, не теряя при этом живой голос собеседника и не подменяя его AI-slop’ом.