Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль m.3 · Урок 4

Урок 4: Работа с документами — PDF, сканы, FOIA, архивы

25 мин
m.3 / Урок 4 из 5

Чему научитесь

  • Выбирать инструмент под тип документа: чистый PDF, скан, рукопись, выгрузка из реестра
  • Строить пайплайн Extract → Structure → Analyze и не пытаться делать всё одной моделью
  • Работать с российскими OCR-инструментами: ABBYY FineReader для критичных документов, Яндекс Vision OCR для объёма
  • Парсить выгрузки из Rusprofile, СПАРК, «Арбитра» и «Контур.Фокуса» через AI, а не глазами
  • Понимать, где AI ломается на документах: плохие сканы, рукописи, специализированные форматы

Для практики используем arckep.ru — все основные модели, без VPN, оплата рублями. Вы можете использовать любые другие сервисы.


Расследование часто начинается не с темы, а с пачки бумаг. Журналисту присылают 200 PDF из ответа на FOIA-запрос, выгрузку по компании из СПАРК на 80 страниц, сканы договоров 2017 года или аудиозапись заседания. До того как вы сядете писать, материал надо превратить в текст, который понимают модели, а потом — в структуру, с которой удобно работать. Это отдельный навык: правильный инструмент на каждом этапе экономит часы.

Ключевая идея урока — три разных задачи, три разных инструмента. Попытка обойтись одним ChatGPT на всём пути — самый частый источник и ошибок, и потерянного времени.


Пайплайн: Extract → Structure → Analyze

Три шага, между которыми граница жёсткая. Перепутали — получите либо галлюцинации, либо просто плохой результат.

ШагЧто делаетТипичные инструментыЧастая ошибка
ExtractДостать из файла чистый текстMistral Document AI, PyMuPDF, Tesseract, ABBYY, Яндекс Vision OCRСкормить скан сразу LLM — модель «видит» картинку и додумывает содержание
StructureПревратить сырой текст в таблицы, JSON, метаданныеClaude / ChatGPT + Code Interpreter, Mistral Document AI (сразу в structured data)Работать с хаосом — потом не сопоставить документы между собой
AnalyzeЗадавать вопросы, искать паттерны, писать черновикNotebookLM (М.3.3), Claude Projects (М.2.1), ChatGPT Code InterpreterИгнорировать Extract/Structure — модель отвечает «из воздуха» по плохому тексту

Работает по порядку. Сначала чистый текст, потом структура, потом анализ. Модель, которой скормили скан без OCR, будет отвечать по картинке — то есть галлюцинировать.


Extract: инструменты извлечения текста

Mistral Document AI — флагман для журналиста. Это OCR нового поколения от французского Mistral: понимает структуру документа (таблицы, списки, формулы, сноски), отдаёт результат сразу в Markdown или JSON. GDPR-friendly юрисдикция — для работы с персональными данными источников это важно. Платный API, цена $2 за 1000 страниц (batch-режим — $1). Сильная сторона — сложные документы: отчёты Счётной палаты, финансовые приложения, судебные акты с таблицами.

ChatGPT с загрузкой PDF. Быстро для разового анализа. Работает лучше всего на документах до ~100 страниц с текстовым слоем. Лимит на размер файла — 512 MB (единый для Plus/Pro/Enterprise), контекст до 2M токенов, в Plus — до 80 файлов за 3 часа. Реальные ограничения на токены контекста строже: длинные PDF режутся или обрабатываются частями. Актуальные лимиты на апрель 2026 сверяйте на help.openai.com — OpenAI их переписывает регулярно.

Claude с загрузкой PDF. Часто лучше держит контекст длинных текстов. В Projects есть свой лимит на размер файла в районе десятков мегабайт — актуальные цифры тоже сверяйте на docs.anthropic.com. Сильнее ChatGPT на содержательном анализе больших договоров и длинных отчётов — слабее на задачах с таблицами и расчётами.

Open-source связка: PyMuPDF + Tesseract. Журналисту с минимальными навыками скриптинга или с коллегой-разработчиком — базовый инструмент. PyMuPDF быстро вытаскивает текст из PDF с текстовым слоем. Tesseract распознаёт изображения, включая русский. Вместе — бесплатно, локально, контроль данных полный. Качество хуже, чем у платных решений, но для массовой обработки «второго эшелона» документов хватает.

OCRmyPDF. Утилита командной строки: добавляет OCR-слой к PDF, не меняя оригинал. У вас был PDF-скан — после обработки это тот же PDF, но с кликабельным и копируемым текстом сверху. Внутри — Tesseract. Бесплатно, работает пачкой через скрипт. Классическая задача — получить 500 сканов, прогнать через OCRmyPDF за ночь, утром загрузить в NotebookLM или Claude.


Российские OCR-инструменты

Для русских документов есть местные решения с преимуществом по языку и по 152-ФЗ (персональные данные остаются в РФ).

  • ABBYY FineReader — эталон качества OCR на русском последние 25 лет. Лучший на сложных сканах: рукописные пометки, пятна, старые договоры. Платно, есть десктопная и облачная версии. Для критичных документов (судебные решения, нотариальные акты, нотариально заверенные копии) — разумный выбор: ошибка распознавания в таком документе может стоить материала.
  • Яндекс Vision OCR (Yandex Cloud) — API для массовой обработки. Тарификация по страницам: около 13 копеек (0,13 ₽) за страницу на апрель 2026 — актуальные тарифы на aistudio.yandex.ru. Не путать с Яндекс SpeechKit: SpeechKit — распознавание речи (аудио в текст), Vision OCR — распознавание текста на картинке. Для расследования на 2000 страниц русских сканов это ≈260 рублей — дешёвый и быстрый способ получить текст, не уходя из российской юрисдикции.
  • Yandex SpeechKit — когда документ пришёл в виде аудио: заседание, интервью, пресс-конференция. 152-ФЗ-совместим, поддержка пунктуации. Качество на русском — одно из лучших среди коммерческих сервисов. Альтернатива — Whisper локально (см. уроки М.4 про интервью и аудио).
  • Сбер SmartSpeech — аналог SpeechKit от Сбера. Для корпоративных журналистов, работающих с материалами из инфраструктуры Сбера.

Точные цены — на yandex.cloud и developers.sber.ru. Тарифы меняются — сверяйте перед плановым объёмом.


Structure: чистый текст → рабочая таблица

После Extract у вас текстовый файл или набор файлов. Следующий шаг — привести в структуру, с которой работают модели и вы.

Три типичные задачи Structure.

  • Таблицы из PDF. Финансовый отчёт с табличными данными — часто именно таблицы несут главную информацию. Mistral Document AI выдаёт их сразу в нормализованном виде. Альтернатива — ChatGPT с Code Interpreter: загружаете PDF, просите «извлеки все таблицы в единый CSV с колонкой источника и даты». Через минуту получаете рабочий файл.
  • Метаданные по пачке файлов. 200 PDF разного типа — договоры, акты, переписка. Нужно пробежать по всем и собрать единый реестр: тип, дата, стороны, сумма, ссылка на исходник. Это сценарий для Claude в Projects: описываете схему метаданных в инструкциях проекта, загружаете файлы, получаете заполненную таблицу.
  • Cleanup и reshape. OCR часто даёт текст с артефактами: склеенные слова, пустые строки, лишние заголовки и футеры. ChatGPT с Code Interpreter чистит такой текст пачкой: загружаете .txt, просите «убери повторяющиеся футеры, склеенные строки, пустые блоки, оставь чистый текст с разбивкой по страницам».

Правило валидации Structure. После любой структуризации — руками проверьте 3–5 случайных записей: совпадает ли то, что модель выдала в таблицу, с тем, что реально в источнике. Галлюцинация на этапе Structure уходит в итоговую таблицу и потом в статью — там её уже не видно.


Analyze: вопросы к корпусу

Когда у вас чистый текст и структура, включается слой, который мы уже проходили.

  • NotebookLM с пайплайном из М.3.3 — корпус для одного расследования, grounded-ответы с цитатами, Mind Maps, Studio для подготовки редакционных документов. Работает именно после качественного Extract.
  • Claude Projects (см. М.2.1) — когда нужен авторский голос и длинный анализ. Загружаете структурированный корпус, получаете черновик, колонку, редакторский разбор.
  • ChatGPT с Code Interpreter — когда Analyze — это расчёты и поиск аномалий. Сумма контрактов по году, выбросы в декларациях, корреляции между датами и событиями. Он считает, строит графики, показывает аномалии.

Здесь ключевое — LLM-анализ работает тем лучше, чем чище предыдущие шаги. Сэкономили на Extract — получили «анализ на кашу», и никакая модель это не исправит.


Практикум: «Распарсить архив на 500 PDF»

Сценарий — журналисту прислали FOIA-архив из 500 документов разного качества: часть текстовая, часть сканы, что-то на русском, что-то на английском. К концу недели нужен бэкграундер.

Шаг 1. Триаж за час. Не надо OCR всего сразу. Сначала — разведка. Открываете 20 случайных файлов: какие языки, какая доля сканов, какое качество, какой формат. По результату решаете:

  • чистый PDF с текстом — в работу напрямую (PyMuPDF или Claude)
  • скан хорошего качества — OCRmyPDF или Яндекс Vision OCR
  • скан плохого качества или рукопись — ABBYY FineReader (вручную или по подписке)
  • сложные документы с таблицами — Mistral Document AI

Шаг 2. Extract пачкой. Запускаете связку: текстовые файлы идут в PyMuPDF-скрипт (или коллега-разработчик делает), сканы прогоняются через OCRmyPDF за ночь. К утру у вас 500 текстовых версий с метаданными (имя исходного файла, дата из заголовка, тип документа).

Шаг 3. Structure — общая таблица. Заводите один CSV: колонки id, source_file, type, date, actors, amount, summary. Через Claude в Projects или через ChatGPT Code Interpreter — автоматическое заполнение колонок по тексту каждого файла. Модель видит документ — модель пишет строку в CSV.

Шаг 4. Валидация. Случайная выборка 10 строк, сверка с оригиналом. Если 1–2 строки содержат ошибки — нормально, поправили, идём дальше. Если 5+ — пайплайн Extract плохо отработал на этих типах документов, надо возвращаться и переделывать для них.

Шаг 5. Analyze через NotebookLM. Разбиваете 500 файлов на 3–5 тематических ноутбуков по 100 документов (см. М.3.3 — правило «один notebook = одна история»). Запускаете Mind Map, Studio Timeline, Audio Overview. Получаете редакционный брифинг — и видите, где конкретно сидит история в этом массиве.

Шаг 6. Финальная проверка ссылок. Перед тем как отдать черновик редактору — чеклист из М.3.1: каждое фактическое утверждение в материале сверено с документом по прямой цитате и номеру источника.

Итог: 500 PDF, от архива к бэкграундеру — 3 рабочих дня вместо двух недель без AI.


Работа с российскими реестрами

Часть документов к журналисту приходит не PDF-ом, а как выгрузка из платной базы. Здесь AI работает на слое Structure и Analyze — само получение данных остаётся ручным или через API базы.

РеестрЧто содержитФормат данныхКак подключать AI
Rusprofile (rusprofile.ru)Карточки российских юрлиц и ИП: руководство, контакты, история измененийБесплатные карточки на сайте + платные подписки от 5 400 ₽/год с экспортом в XLS/CSV (публичного API нет)Копируете страницу или экспортируете XLS → Claude/ChatGPT для сверки, таймлайн смены директоров
СПАРК (spark-interfax.com)Платный enterprise: связи компаний, бенефициары, арбитраж, финансыВыгрузка в XLS/CSVClaude Code Interpreter для анализа связей и таблиц
Контур.Фокус (focus.kontur.ru)Средний сегмент: связи, аффилированность, госконтрактыВыгрузка XLS, APIТот же паттерн, что со СПАРК
«Арбитр» (kad.arbitr.ru)Карточки арбитражных дел — бесплатно и официальноВеб-карточки, PDF-решенияPDF решения → OCR (если скан) → NotebookLM для корпуса решений
Росреестр (ЕГРН)Права на недвижимостьПлатные выписки PDFOCR выписок → таблица объектов → Claude для проверки на связанных лиц

Публичного API у «Арбитра» и Rusprofile на апрель 2026 — нет; Rusprofile даёт только подписку + экспорт в XLS/CSV. API есть у «Контур.Фокуса» и СПАРК (в корпоративных тарифах). Перед закупкой уточняйте у менеджера и сверяйте с актуальными тарифами на сайте.

Паттерн журналиста. Выгружаете из СПАРК связи компании → сырой XLS открываете в Claude Code Interpreter → просите построить граф аффилированности и выделить подозрительные совпадения (общие директора, общие адреса). За 10 минут — визуализация, которая вручную собиралась бы день. Дальше — фактчек каждой связи руками, не полагаясь на граф.


FOIA-пайплайн (США) — коротко

Для американских расследований рабочий пайплайн выглядит так:

  1. FOIA-запрос — Claude-скиллы из репозитория jamditis/claude-skills-journalism помогают составить грамотный запрос и отслеживать его.
  2. Приёмка ответа — часто через MuckRock (платформа FOIA-трекинга).
  3. ХранениеDocumentCloud даёт общий архив с OCR и публикацию документов вместе со статьёй.
  4. OCR масштаба — Google Pinpoint для тысяч документов, entity recognition, кросс-поиск.
  5. Редакционный анализ — NotebookLM над выделенным ядром или open-source RAG (Dewey-подобный, см. М.3.3).

Для российской практики прямой аналог MuckRock отсутствует. Запросы в госорганы идут через Госуслуги, ответ — PDF или скан почтой. Архивирование приходится собирать самим: Google Drive или внутренний NAS редакции плюс табличный реестр запросов.


Когда документы не дают результата

Честный caveat, чтобы не потратить день на заведомо проигрышный сценарий.

  • Очень плохое качество скана — размытие, перекос, блики от сканирования через телефон. OCR на таком даёт шум. Решение — ручная предобработка в графическом редакторе (выровнять, поднять контраст) перед OCR, либо ABBYY FineReader для сложных случаев.
  • Рукописи — надёжного автоматического распознавания на апрель 2026 нет. AI может дать гипотезу, но она требует ручной сверки каждой строки. Для исторических архивов и блокнотов источников — пока работа палеографа.
  • Схемы, карты, медицинские снимки — требуют vertical-инструментов: геопакеты для карт, DICOM-вьюеры для медицины. LLM по ним работают только как помощник описания, не как дешифратор.
  • Документы на редких языках и старых орфографиях — качество OCR резко падает. Для дореволюционной орфографии, татарского, якутского и других — ABBYY в специальных сборках или ручная работа.

Русский контекст

Для критичных документов — ABBYY. Для объёма — Яндекс Vision OCR. Для аудио — SpeechKit или Whisper (детально в М.4). Это базовый российский стек журналиста, работающего с документами.


Главное из урока

  • Три шага — три инструмента. Extract — OCR и парсеры, Structure — Claude/ChatGPT с Code Interpreter, Analyze — NotebookLM и Claude Projects. Не смешивайте.
  • Mistral Document AI — флагман OCR для FOIA и сложных документов с таблицами. ChatGPT и Claude с PDF — для быстрого разового анализа.
  • Open-source-связка PyMuPDF + Tesseract + OCRmyPDF — бесплатный массовый Extract. Работает локально, контроль данных полный.
  • Российский OCR-стек: ABBYY FineReader для критичных документов, Яндекс Vision OCR для массовой обработки. Яндекс SpeechKit — для аудио, не путать с Vision.
  • Российские реестры (Rusprofile, СПАРК, «Контур.Фокус», «Арбитр», Росреестр) подключаются к AI через Structure-слой: выгрузка → Claude/ChatGPT с Code Interpreter → граф связей и таблица аномалий.
  • Валидация обязательна на каждом шаге. Ошибка OCR уходит в таблицу, ошибка таблицы уходит в статью. Случайная сверка 5–10 записей с оригиналом — дешевле репутационного скандала.
  • AI ломается на плохих сканах, рукописях, картах и редких языках. Эти случаи — ручная предобработка, ABBYY или эксперт.

В следующем уроке М.3.5 — детальный разбор российских баз: как пользоваться Rusprofile, СПАРК, «Контур.Фокусом» и «Арбитром» для проверки контрагентов, поиска связей и проверки чиновников. Тот же пайплайн, но глубже и с конкретными сценариями работы.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.