Модуль m.9 · Урок 4

Расследовательская журналистика с AI: усилитель, а не следователь

30 мин

Содержание

Чему научитесь
Философия: AI — скаут, а не следователь
NYT Echo: архив как рычаг
Der Spiegel: fact-check через архив миллионов статей
Philadelphia Inquirer Dewey: open-source RAG для небольших редакций
Mistral OCR: сканы и FOIA-документы
ICIJ Datashare: когда у вас 100 миллионов документов
Таблица: инструмент × задача × зрелость
Что может один журналист без редакции
Что делать при соблазне сократить человека
Главное

m.9 / Урок 4 из 4

Чему научитесь

Видеть, где AI реально ускоряет расследование, а где остаётся имитацией ускорения.
Разбираться в архитектуре пяти главных инструментов расследовательской журналистики 2024–2026: NYT Echo, Der Spiegel fact-check, Philadelphia Inquirer Dewey, Mistral OCR, ICIJ Datashare.
Подбирать инструмент под конкретный класс задачи: архив редакции, OCR плохих сканов, массивные утёчки, fact-check утверждений.
Собрать аналог этих инструментов под соло-журналиста или малую редакцию в российских условиях.

Философия: AI — скаут, а не следователь

M.9.3 показал, что бывает, когда AI выходит на сцену как автор: фейковые авторы Sports Illustrated, 18 медицинских ошибок Men’s Journal, placeholder-текст Gannett. Расследовательская журналистика — обратный случай. Здесь AI нужен не для генерации, а для разбора и навигации по материалам, которые человек физически не может прочитать за разумное время.

Расследование — это работа с тремя видами боли: тысячи документов (утёчки, FOIA-ответы, архивы), плохо структурированные данные (сканы, транскрипты интервью, базы регистраций), необходимость найти противоречия между источниками. Человек с этим справляется медленно и дорого. AI — быстро и дёшево, но только как скаут: он говорит «смотри сюда», а расследование — кто с кем встречался, что из этого следует, как это связано с публичными событиями — делает журналист.

Пять инструментов ниже — живые примеры этого принципа в крупных, средних и маленьких редакциях. Каждый решает одну конкретную боль лучше остальных.

NYT Echo: архив как рычаг

New York Times публично раскрыл свой AI-стек в 2025 году. Центральный инструмент — Echo: внутренний LLM-ассистент поверх собственных данных издания. Статьи, заметки, транскрипты, архив. Параллельно работают ещё два — ChatExplorer (внутренний ChatGPT-интерфейс с разрешёнными моделями) и Cheat Sheet (работа со сканами документов для расследований).

Что Echo умеет. Журналист задаёт вопрос на естественном языке — «что мы писали про эту тему за последний год», «какие цитаты от этого спикера у нас есть», «найди противоречия в заявлениях этого ведомства». Echo достаёт релевантные фрагменты, генерирует саммари, предлагает теги. Внутренний регламент NYT жёстко ограничивает то, что Echo не может: писать статьи целиком, вносить существенные правки в черновик, публиковаться без прохождения через человеческого редактора.

Пример использования — Sydney Sweeney / American Eagle 2025. Когда рекламная кампания актрисы стала политическим ристалищем, журналисты NYT через свой мониторинг заметили, что конфликт в значительной мере раздувают правые подкастеры. AI-инструменты помогли быстро показать это количественно: кто первым поднял тему, где она подхватывалась, какие аккаунты задавали тон. Без AI такой анализ занял бы неделю ручной работы — в результате получилось за день.

Что важно для других редакций. Echo — не уникальная технология, это стандартная RAG-архитектура над большим корпусом. Отличие NYT — в том, что у них 170+ лет архива и регламент, который не даёт AI стать автором. Главный актив любой редакции — не свежий заголовок, а именно архив: всё, что вы публиковали за 10 лет, — это ваш источник конкурентного преимущества, которого нет у Google, OpenAI и стартапов. AI+RAG над собственным архивом превращает этот актив в рычаг.

Der Spiegel: fact-check через архив миллионов статей

В январе 2024 в Spiegel Gruppe назначили первого в истории издания Director: AI — Оле Райсманн (Ole Reissmann). Его команда за два года построила инструмент, который стал внутренним стандартом fact-checking в редакции.

Как это работает. Журналист пишет материал и загружает черновик. Инструмент разбивает текст на отдельные утверждения (claims) и по каждому делает семантический поиск в собственном архиве Der Spiegel — миллионы статей, из которых ~90% недоступны в открытом вебе, потому что они либо за пейволлом, либо давно ушли из живой индексации Google. Результат — для каждого утверждения список источников в архиве, которые это утверждение подтверждают или опровергают. Плюс таймлайны: как менялось мнение эксперта X по теме Y за последние 10 лет, где противоречит сам себе, где изменил позицию под влиянием событий.

Почему это важно. Обычный fact-check ищет подтверждение в публичных источниках — Wikipedia, Google, официальные релизы. Fact-check через собственный архив — это совсем другое качество: вы сверяете текущее утверждение с историей собственного издания. Если Der Spiegel три раза писал, что спикер говорил одно, а в новом черновике спикер говорит другое — инструмент это подсветит до публикации.

Доступ к моделям. Spiegel Gruppe параллельно с этим стал одним из первых европейских издательств с партнёрством Perplexity (январь 2024). Это не замена собственному инструменту, а дополнение для работы с публичными источниками — то, что не лежит в архиве Der Spiegel, ищется через Perplexity.

Philadelphia Inquirer Dewey: open-source RAG для небольших редакций

Крупные редакции могут позволить себе собственные AI-команды. Средним и маленьким это не по карману — но решение есть. В январе 2025 Philadelphia Inquirer вместе с Lenfest Institute for Journalism, Microsoft и OpenAI провели двухнедельный хакатон, где собрали прототип AI-ассистента для работы с архивом. Проект получил имя Dewey (в честь десятичной классификации Дьюи). В течение 2025 года Dewey довели до production и выложили в open source — код в репозитории phillymedia/dewey-ai на GitHub.

Архитектура. Стандартный RAG-пайплайн:

Индексируемый корпус: ~127 000 веб-статей + ~200 000 оцифрованных печатных статей начиная с 1978 года.
Поиск: Azure AI Search с гибридной семантикой — векторный поиск + классический полнотекстовый с re-rank, плюс recency weighting (недавние материалы поднимаются выше).
Ответ: LLM с обязательными цитатами и прямыми ссылками на исходные статьи.

Почему open-source принципиально. Маленькие редакции могут форкнуть Dewey и развернуть его под свой архив без найма AI-команды. Это меняет экономику: то, что у NYT стоило сотен тысяч долларов и года работы, у локальной газеты занимает пару недель на адаптацию. Lenfest Institute целенаправленно поддерживает такие проекты: их AI Collaborative разместил AI-инженеров в десяти региональных редакциях, чтобы подобные инструменты расходились.

Урок для постсоветского региона. Dewey — готовый шаблон. Код открыт, архитектура типовая, заменяется Azure AI Search на Qdrant или Weaviate, LLM — на GigaChat / YandexGPT / Claude через arckep.ru (все модели, без VPN, рублями, 100 руб стартовый баланс). Технически никаких блокеров для запуска аналога в российской редакции нет.

Mistral OCR: сканы и FOIA-документы

Расследования редко получают данные в чистом виде. Чаще приходит скан плохого качества: письма, отчёты, служебные записки, документы по FOIA-запросам (Freedom of Information Act — американский аналог запроса о доступе к информации, в России ближайшее по духу — запросы по закону «Об информации, информационных технологиях и защите информации» и «О государственной тайне»). Эти документы в XX веке были бумажные; часть оцифровали, качество — разное.

OCR-задача нетривиальна: рукописные пометки на полях, таблицы с плохо пропечатанным текстом, формы с чек-боксами, смешанные языки. Большинство бесплатных OCR (Tesseract, встроенный PDF OCR) плохо справляются с любым из этих усложнений.

Mistral OCR 3 (декабрь 2025) — специализированная OCR-модель, которая обошла предшественников по качеству на этих тяжёлых сценариях:

Рукописный текст: 88,9% точности против 78,2% у Azure OCR.
Таблицы: 96,6% против 84,8% у AWS Textract.
Общий прирост качества +74% над Mistral OCR 2 на формах, сканах, сложных таблицах, рукописях.

Цена — на уровне commodity OCR-сервисов, то есть в разы дешевле полных LLM-моделей, которые пытаются OCR-ить картинки напрямую.

Как этим пользуется журналист. Приходит FOIA-ответ в виде 800 страниц PDF с неравномерно отсканированными документами. Прогоняется через Mistral OCR 3 → получается чистый размеченный текст с сохранённой структурой таблиц. Далее загружается в RAG (свой Dewey или NotebookLM), задаются вопросы типа «найди все упоминания компании X» или «подсвети все даты встреч с такими-то лицами». То, что раньше было неделей ручного чтения с разметкой, занимает час.

ICIJ Datashare: когда у вас 100 миллионов документов

Верх сложности — международные утёчки. Panama Papers (2016), Paradise Papers (2017), Pandora Papers (2021), FinCEN Files (2020) — миллионы документов, сотни журналистов в разных странах работают параллельно. Инструмент, который это держит, — Datashare, разработанный ICIJ (International Consortium of Investigative Journalists).

Масштаб. Через Datashare прошли 100+ миллионов leaked files за последние 10 лет. Без инструмента такого масштаба эти расследования физически невозможно было бы довести до публикации.

AI-возможности. Datashare использует NLP для извлечения именованных сущностей (имена людей, компаний, локации, email-адреса) из документов практически любого формата. Это даёт журналисту поиск не по тексту, а по смысловым ссылкам: найди все документы, где упоминается этот человек, покажи связи между этими двумя компаниями, выведи все email из этой организации. Плюс важная фича — batch search: если нужно проверить упоминания всех 535 членов Конгресса США, раньше требовалось 535 отдельных поисков; в Datashare это один запрос.

Российская аналогия. Масштабируемые утечки требуют подобных инструментов и у русскоязычных расследователей. Datashare технически доступна — код опубликован на ICIJ GitHub, развёртывается локально, не требует внешних API. Это подходит расследовательским командам, которые работают с FOIA-style материалами, судебными архивами, базами юридических данных.

Таблица: инструмент × задача × зрелость

Задача расследования	Подходящий инструмент	Зрелость	Кому
Поиск по собственному архиву редакции	RAG (Dewey, аналог Echo)	Промышленная	Редакциям 5+ человек с архивом 10+ лет
Fact-check черновика против архива	Кастомный пайплайн (Der Spiegel-style)	Ранняя промышленная	Крупным редакциям, требует AI-команды
OCR плохих сканов и FOIA	Mistral OCR 3, Azure Document AI	Промышленная	Любому журналисту с FOIA-материалами
Работа с утёчками 100k+ документов	ICIJ Datashare	Промышленная	Расследовательским командам
Один журналист + свой архив	NotebookLM (до 300 источников)	Промышленная	Соло-журналистам, подробно в M.10.2
Поиск по открытому вебу	Perplexity Deep Research, Claude с web	Промышленная	Всем, ежедневный инструмент

Что может один журналист без редакции

Не обязательно работать в NYT или Der Spiegel, чтобы использовать ту же модель. Соло-журналист в 2026 собирает аналогичный стек за вечер и на небольшом бюджете:

Транскрипция — Whisper локально (бесплатно, ничего не уходит в облако) или Otter.ai (удобнее в UI, но платно и облачно).
Свой «Echo» за вечер — NotebookLM с загрузкой до 300 источников (бесплатный тариф пожирнее, платный ещё жирнее). Ваш архив публикаций + интервью-транскрипты + PDF-отчёты в одном AI-доступе. Эффект — примерно 80% от NYT Echo для персональной работы. Подробный разбор — в M.10.2 «Собственный Echo за вечер».
OCR документов — Mistral OCR 3 через API (копейки за страницу) или открытые альтернативы для небольших объёмов.
LLM-ассистент для разбора — Claude, GPT, Gemini через arckep.ru (доступ ко всем моделям без VPN, оплата в рублях, 100 руб стартовый баланс на тест). Это снимает санкционный барьер для российских журналистов, не требует юр. танцев с международными картами.
Веб-поиск поверх LLM — Perplexity или аналоги (в M.1.4 разбирали сравнение).

Получается персональный стек, который по возможностям не сильно отстаёт от того, что было у Der Spiegel двумя годами раньше — только без миллионного архива и штата AI-инженеров. Это делает расследовательскую журналистику доступной соло-практику впервые в истории профессии — ключевой вывод всего M.9.

Что делать при соблазне сократить человека

Есть искушение: если AI так хорошо помогает, почему не дать ему больше? Пусть сам читает документы, сам пишет саммари, сам делает выводы. Ответ из M.9.3 здесь становится конкретным: расследовательская журналистика на выводах AI — это расследовательская фабрикация.

AI по определению не имеет источников в живых людях. Он не может позвонить инсайдеру, не может пойти на встречу под запись, не может отличить «off the record» от «on background». AI не несёт правовой ответственности за диффамацию — её несёт издание и конкретный автор. Поэтому выводы и обвинения — только от человека. AI готовит материал, человек формулирует, какую правду этот материал показывает.

Это не замедление — это защита качества. Расследование без человеческих выводов — либо недостоверное, либо юридически опасное, либо и то и другое сразу.

Главное

AI в расследовательской журналистике — усилитель, не замена. Echo помогает NYT разобрать архив за минуты вместо недель. Der Spiegel через fact-check по собственному архиву ловит противоречия до публикации. Dewey от Philadelphia Inquirer доступен любой редакции через GitHub. Mistral OCR 3 превращает тяжёлые FOIA-ответы в читаемый RAG-корпус. ICIJ Datashare держит утёчки в 100+ миллионов документов. Во всех пяти случаях AI указывает, где искать, а выводы формулирует журналист.

Для соло-практика тот же стек доступен в упрощённой версии за вечер — NotebookLM + Whisper + Mistral OCR + LLM через arckep.ru. Это стратегический сдвиг: расследовательская журналистика больше не требует бюджета крупной редакции. Требует по-прежнему того же — упорной человеческой работы с материалом. AI просто делает эту работу физически выполнимой в одиночку.

Следующий модуль — M.10 «Практика: свой проект end-to-end». Начнём с M.10.1 «Собираем всё: от темы до публикации» — сквозной пример того, как все инструменты из треков M.1–M.9 собираются в одну рабочую цепочку на конкретном материале от замысла до выхода в свет.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Расследовательская журналистика с AI: усилитель, а не следователь

Редакция и workflow

Чему научитесь

Философия: AI — скаут, а не следователь

NYT Echo: архив как рычаг

Der Spiegel: fact-check через архив миллионов статей

Philadelphia Inquirer Dewey: open-source RAG для небольших редакций

Mistral OCR: сканы и FOIA-документы

ICIJ Datashare: когда у вас 100 миллионов документов

Таблица: инструмент × задача × зрелость

Что может один журналист без редакции

Что делать при соблазне сократить человека

Главное

RAG и опора на источники: заставить агента цитировать

Собственный Echo за вечер: NotebookLM + свой архив

Урок 4: Персональная RAG-база — когда AI знает всё, что вы написали

// Обсуждение

Чему научитесь

Философия: AI — скаут, а не следователь

NYT Echo: архив как рычаг

Der Spiegel: fact-check через архив миллионов статей

Philadelphia Inquirer Dewey: open-source RAG для небольших редакций

Mistral OCR: сканы и FOIA-документы

ICIJ Datashare: когда у вас 100 миллионов документов

Таблица: инструмент × задача × зрелость

Что может один журналист без редакции

Что делать при соблазне сократить человека

Главное

Связанные уроки

RAG и опора на источники: заставить агента цитировать

Собственный Echo за вечер: NotebookLM + свой архив

Урок 4: Персональная RAG-база — когда AI знает всё, что вы написали

// Обсуждение