Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль m.3 · Урок 3

Урок 3: NotebookLM углубленно — 300 источников, Mind Maps, Studio, Pinpoint

25 мин
m.3 / Урок 3 из 5

Чему научитесь

  • Строить корпус на 300 источников так, чтобы NotebookLM оставался полезным, а не превращался в свалку
  • Работать со сканами, плохими PDF и FOIA-материалами через связку Pinpoint → NotebookLM
  • Использовать Mind Maps как инструмент расследования — искать скрытые связи в документах
  • Выбирать правильный формат Studio под задачу: Briefing Doc, FAQ, Timeline, Study Guide
  • Расшаривать notebook команде с правильными правами и понимать, где NotebookLM всё же ломается

Для практики используем arckep.ru — все основные модели, без VPN, оплата рублями. Вы можете использовать любые другие сервисы.


В М.2.3 собрали первый notebook: 30 PDF, Audio Overview на русском, базовая работа с источниками. Этот урок — для тех, кто выходит за пределы простого сценария. Настоящее расследование — это не 30 документов, а 200+ файлов, сканы плохого качества, FOIA-ответы с запятыми от редактирования и аудиозаписи на 20 часов. Здесь NotebookLM показывает, на что способен — и где у него есть потолок.

Две референсные истории последних двух лет — инструменты крупных редакций. NYT Echo (2024–2025) — внутренний LLM над архивом New York Times, помогал журналистам в расследованиях Hegseth, здоровья Трампа, истории Sydney Sweeney (Nieman Lab). Philadelphia Inquirer Dewey — open-source research-ассистент на архиве редакции, который форкают другие региональные СМИ. NotebookLM — это ваш «Echo на коленке»: 80% от корпоративного инструмента NYT, без команды разработчиков, без бюджета и за один вечер настройки.


Корпус на 300 источников: как не утонуть

Главная ошибка после первого успеха в NotebookLM — загрузить все материалы расследования в один notebook. Получится свалка на 300 документов, где модель смешивает свидетельства 2019 года с пресс-релизами 2025-го и не может ответить на узкий вопрос.

Рабочее правило: один notebook = одна история. Если тема крупная — расследование длиной полгода, работа с наследством, судебный процесс на много лет — notebook разбивается на подтемы.

Структура корпусаРекомендация
1 notebook, 300 документовПлохо: модель теряется в объёме, ответы превращаются в компромисс между разными эпохами
1 notebook = 1 эпизод / 1 фигурантРаботает: 20–50 источников на notebook, внутри фокус
Для архива всей редакции (3000+)NotebookLM не подходит — это задача для Pinpoint

Практически это значит: для расследования о чиновнике X заводите notebook «X — биография и декларации», notebook «X — судебные иски», notebook «X — публичные заявления в СМИ». На планёрке вы ходите между ними, а не ищете в одной свалке.

Второе правило — осознанные 50 источников важнее случайных 300. Потратьте полчаса на отбор: релевантность, дата, первоисточник против пересказа. NotebookLM работает качественнее с чистым корпусом. Захламлённый notebook в 300 PDF даёт худшие ответы, чем аккуратный в 40 PDF.


Сканы, redacted PDF и FOIA: что делать с «плохими» документами

Реальные документы расследований — это сканы низкого разрешения, PDF с печатями поверх текста, ответы на FOIA-запросы с закрашенными фрагментами (redacted). NotebookLM в таких файлах видит картинку, а не текст — и молча игнорирует содержание.

Рабочий пайплайн.

  1. OCR через Pinpoint или Mistral Document AI. Pinpoint (Google Journalist Studio) делает OCR бесплатно по заявке, работает со сканами, распознаёт рукописные аннотации. Важная оговорка для русскоязычных материалов: OCR Pinpoint поддерживает только 7 языков — английский, французский, немецкий, итальянский, польский, португальский, испанский. Русский в списке отсутствует. Для русских сканов используйте Yandex Vision OCR, ABBYY FineReader или Mistral Document AI (платная альтернатива с особенно сильным распознаванием таблиц и формул, $2 за 1000 страниц).
  2. Выгрузка текстовой версии. Pinpoint экспортирует OCR-версию как отдельный файл или показывает текст рядом со сканом. Этот текст и есть то, что поймёт NotebookLM.
  3. Загрузка в notebook. Текстовую версию PDF или отдельный txt-файл кладёте в NotebookLM. Там же — скан-оригинал как визуальный референс.
  4. Явное указание в промпте. В запросе пишете: «работай с файлом “Протокол-2024-OCR.txt”, в PDF-скане того же имени — оригинал для визуальной проверки подписей». Это снижает риск, что модель спутает источники.

Redacted-фрагменты остаются закрашенными и после OCR — это нормально. Важно, что остальной текст становится доступен. Бывает, что по контексту redacted-фрагмента можно восстановить смысл — опытные следователи и журналисты это умеют, AI здесь тоже помогает гипотезами.


Mind Maps как инструмент расследования

В M.2.3 упомянули Mind Maps одной строкой: визуальная карта связей в корпусе. В расследовании это не бонус, а отдельный инструмент.

Как расследователь использует Mind Map. Загружаете в notebook 50 документов по делу — досье, публикации, декларации, судебные решения. Запускаете Mind Map. Получаете дерево: в центре — тема расследования, ветви — кластеры упоминаний. Каждый узел кликабелен и ведёт обратно в источники.

Что читать в карте:

  • Неожиданные пересечения. Если два человека, которых вы считали независимыми, в карте оказываются рядом и делят несколько источников — это повод проверить связь вручную.
  • «Мёртвые» ветви. Темы, которые модель вытащила из документов, но которые вы пропустили при первом прочтении. Часто именно там начинается новый поворот истории.
  • Дыры. Ветви с одним-двумя источниками — сигнал, что по этому направлению корпус неполный. Это задача: добрать документы или выйти на источника.

Mind Map — это не финальный документ, а инструмент декомпозиции темы. Он редко идёт в публикацию напрямую, но именно на нём строится план расследования: «по ветви A у нас 12 источников, идём писать; по ветви B — три, нужны интервью».


Studio: четыре текстовых формата под разные задачи

Studio — это блок NotebookLM, где из источников генерятся структурированные документы. Помимо Audio Overview (про него был М.2.3), там четыре ключевых формата. Каждый подходит под свою задачу.

ФорматЧто генерируетКогда использовать
Briefing DocПлотный документ на 1–3 страницы: обзор, ключевые игроки, ключевые факты, открытые вопросыДля редактора перед планёркой. За 5 минут ввести команду в материал
FAQВопросы и ответы по корпусу, с номерами источниковДля работы с читателем — статья с частыми вопросами, блок «коротко о»
TimelineХронологическая лента событий, извлечённая из всех документовРасследования, где критичен порядок событий. Длинный судебный процесс, кризис, корпоративная история
Study GuideУчебные материалы с вопросами для проверки пониманияВнутреннее обучение команды. Ввести стажёра в сложную тему за вечер

Практический сценарий. Корпус — 40 PDF по расследованию. Вы генерите Timeline и понимаете, что в хронологии есть пробел: между апрелем и июлем 2024 ни одного события. Это не ошибка NotebookLM — это реальный пробел в корпусе. Идёте искать, что происходило в этот период: именно там часто прячется самая интересная часть истории.

Briefing Doc хорош как замена «заметки для себя» — классического первого шага перед написанием. Timeline — как скелет большого лонгрида. FAQ — как подспорье для версии «для быстрого читателя» на сайте.


Audio Overview для редакции: 4 режима под разные задачи

В М.2.3 мы запускали Deep Dive на русском и получали 10-минутный подкаст для команды. Продвинутый уровень — подобрать режим под конкретный редакционный сценарий.

РежимДлина и форматРедакционный сценарий
Deep Dive~10 минут, два ведущихЛетучка, ввод команды в большой материал. Скидываете файл в редакционный чат — все приходят на планёрку подготовленными
Brief~2 минуты, один голосСаммари для себя перед звонком источнику или для коллеги, который забегает в тему
CritiqueДва ведущих разбирают черновик критическиЗагружаете свою статью + 10 оппонирующих источников — слышите разбор слабых мест аргументации до публикации
DebateФормальные дебаты двух позицийЗагружаете материалы за и против — получаете спор двух сторон, удобно для спорных тем и колонок

Паттерн Critique — главная находка для журналиста. Вы написали спорный материал, редактор на ревью. Прогоните черновик через NotebookLM в режиме Critique вместе с 10 источниками, которые вашу позицию оспаривают. Через 5 минут получаете 10-минутный подкаст, где AI-ведущие разбирают ваш текст по пунктам на основе оппонирующих источников. Не финальная замена редактору — но сильная проверка самим собой до того, как ошибку увидит первый читатель.

Паттерн Debate — для тем с двумя сильными позициями. Реформа, судебное решение, городская инициатива — есть сторонники и есть противники, у каждой стороны — свои аргументы и документы. Грузите и те и другие. Запускаете Debate. Результат — формальный спор двух ведущих с опорой на реальные источники. Для автора колонки — это способ проверить, не упустил ли он сильный контраргумент.


Pinpoint детально: когда NotebookLM уже не справляется

Pinpoint — отдельный инструмент Google для журналистов, живёт в Journalist Studio, бесплатный по заявке. Если NotebookLM рассчитан на десятки источников, то Pinpoint — на тысячи и десятки тысяч.

Что уникально у Pinpoint для расследований:

  • Entity recognition. Автоматическое извлечение людей, организаций, мест, дат, телефонов, email-адресов из всего корпуса. Кликаете на «Иванов И.И.» — видите все 47 упоминаний в 200 документах.
  • OCR для сканов и рукописных документов. Pinpoint работает на Google Vision API и распознаёт текст более чем на 100 языках, включая русский. Для архивных сканов, FOIA-документов и рукописных материалов на русском Pinpoint подходит. Если скан плохого качества или нужна специализированная работа со сложными таблицами/структурой — рассматривайте также Yandex Vision OCR или Mistral Document AI как альтернативу.
  • Расшифровка аудио и видео на 15 языках (английский, русский и основные европейские — проверяйте актуальный список в help Pinpoint). Лимит одного файла — до 2 часов, для более длинных аудио режьте на фрагменты. Пример: 40 часов записей пресс-конференций обработаете за 20 кусков по 2 часа.
  • Кросс-поиск по корпусу. Поиск именованных сущностей и ключевых слов через весь архив — мгновенно по многим тысячам файлов.

Типичный workflow расследовательской редакции:

  1. FOIA-запрос даёт 3000 PDF.
  2. Pinpoint делает OCR, распознаёт имена, даты, организации.
  3. Журналист через entity-фильтры отсекает нерелевантное и выделяет 60 ключевых документов.
  4. Эти 60 кладутся в NotebookLM для аналитики, Mind Map, Audio Overview.
  5. Расследование идёт от выделенного ядра, а не от всего массива сразу.

Pinpoint даёт масштаб. NotebookLM даёт глубину. Они не конкуренты, а смежные инструменты с одним авторством и похожими принципами работы. Подать заявку на Pinpoint стоит заранее — одобрение занимает несколько дней, а в момент срочного расследования ждать некогда.


Shareable notebooks: работа командой

Notebook расшаривается через меню «Share», по ссылке или по email-приглашению. Права — два уровня.

  • Viewer. Просматривает источники, задаёт вопросы чату, слушает Audio Overview. Не может добавлять источники или редактировать заметки. Оптимально для редактора, юриста, главреда, которые должны понимать ход расследования, но не вмешиваться в корпус.
  • Editor. Может всё: добавлять источники, задавать вопросы, менять инструкции. Оптимально для соавтора расследования, фактчекера, аналитика.

Рабочий паттерн команды из 3–5 человек:

  • Журналист — Editor (собирает корпус)
  • Фактчекер — Editor (добавляет альтернативные источники, запускает контр-запросы)
  • Редактор — Viewer (читает, слушает Audio Overview, задаёт вопросы)
  • Юрист — Viewer (проверяет ключевые цитаты на риск)

Это намного удобнее, чем пересылка 200 PDF в Google Drive: корпус живёт в одном месте, все работают с одними ответами, история вопросов сохраняется. Недостаток — notebook привязан к Google-аккаунту владельца. Если журналист уходит, корпус нужно переносить на аккаунт редакции заранее. Об этом стоит подумать до того, как корпус вырос до 200 источников.


«Свой Echo» и «Dewey на коленке»: чему учат кейсы

NYT Echo обошёлся New York Times в команду инженеров и бюджет, который неподъёмен для региональной редакции. Но ключевая идея — RAG над собственным архивом — повторяется в NotebookLM один в один. Ваш архив — это файлы, которые вы загружаете. Поиск, цитаты, суммари, идеи для заголовков — всё это вы получаете. Разница только в масштабе: у NYT миллионы статей в Echo, у вас — сотни в notebook. Для малой редакции этого достаточно.

Der Spiegel fact-check interface — немецкий вариант той же идеи. Внутренний инструмент с natural-language-поиском по архиву. Ключевое наблюдение из опыта Spiegel: около 90% архивных материалов редакции отсутствует в открытом вебе. Это и есть главный ров современного СМИ. Конкурент с бюджетом может повторить ваш стиль за полгода — но не сможет повторить 30-летний архив, который ваши журналисты собирали номер за номером. RAG поверх этого архива превращает его из пассивного шкафа в активный исследовательский инструмент.

Philadelphia Inquirer Dewey — третий прецедент, и самый важный для малой редакции. Региональная газета собрала open-source RAG в рамках партнёрства с Microsoft через Lenfest Institute AI Collaborative, выложила код (github.com/phillymedia/dewey-ai, MIT, Python). Проект молодой — на апрель 2026 несколько форков и небольшая звёздная поддержка. Важен именно как модель и прецедент, а не как готовая к промышленному использованию библиотека. Если вам нужен именно локальный контроль (данные не покидают вашу инфраструктуру, модель ходит через ваш API), вариант — посмотреть исходники Dewey или поднять собственный gpt-researcher (см. М.3.2) с подключением к архиву. Это требует разработчика на несколько недель, но результат — полностью ваш, без лицензионных ограничений Google.

Какой путь выбрать:

  • Одиночный журналист или редакция на 2–5 человек без разработчиков — NotebookLM. Это «Echo для вас» за вечер настройки.
  • Редакция на 10+ человек с разработчиком и чувствительными темами — open-source RAG на базе Dewey или gpt-researcher. Контроль данных, интеграция в собственные системы.
  • Крупная редакция с бюджетом — собственный Echo-подобный сервис с инженерной командой и SLA. Не про этот курс.

Практикум: «Судебное досье из 150 PDF за 2 часа»

Сценарий — журналисту передано 150 документов по громкому гражданскому делу: исковое заявление, отзывы сторон, финансовые приложения, протоколы судебных заседаний за три года. Тема на планёрке — завтра. Нужны материал и подкаст для редакции.

Шаг 1. Триаж, а не свалка. Не грузите все 150 в один notebook. Разбивайте на три тематических ноутбука по 50 документов: «Сторона истца — иски и приложения», «Сторона ответчика — отзывы и контрдокументы», «Протоколы и решения судов». Плюс один «мастер-notebook» с 20 ключевыми документами-сводками для верхнеуровневого анализа. Потратьте 20 минут на сортировку и переименование файлов по шаблону «2024-03-15_тип_сторона.pdf».

Шаг 2. Mind Map каждого ноутбука. В каждом из трёх — запускаете Mind Map. Получаете три карты связей: кто с кем фигурирует на стороне истца, кто на стороне ответчика, какие суды участвовали. 10 минут на все три — увидели кластер из трёх имён, которых не ожидали видеть вместе. Это первый крючок истории.

Шаг 3. Studio → Timeline по мастер-notebook. Сгенерили хронологию: первый иск 2022-го, финансовые движения 2023-го, серия решений 2024-го. Хронология показывает пробел — между двумя ключевыми событиями нет документов. Добираете через FOIA или интервью.

Шаг 4. Studio → Briefing Doc для редактора. 15 минут — полстраницы плотного текста для планёрки: обзор дела, ключевые игроки, открытые вопросы, предварительный угол зрения. Редактор принимает решение по теме до того, как вы пишете черновик.

Шаг 5. Audio Overview в режиме Deep Dive. Русский язык, промпт «разбери для коллег-журналистов, что важно и что спорно». Через 5 минут — 10-минутный MP3 в редакционный чат. Команда слушает в дороге — на планёрке все уже в теме.

Шаг 6. Shareable notebook → редактор и юрист параллельно. Редактору даёте права Viewer — он читает источники, слушает подкаст, готовит вопросы. Юристу с теми же правами — он проверяет ключевые цитаты на риск до публикации.

Итог за два часа: у вас три рабочих ноутбука по эпизодам, три Mind Map, хронология, Briefing Doc для редактора, подкаст для команды и параллельная проверка юристом. До появления NotebookLM вход в такой корпус занимал неделю. Сейчас — половина рабочего дня.


Где NotebookLM всё-таки ломается

Честный список — чтобы не разочароваться, столкнувшись с ограничениями в середине расследования.

  • Аудио на русском — работает, но интонация синтетическая. Для внутренней работы редакции годится; публиковать как подкаст — нет (см. М.2.3).
  • Очень большие PDF. Официальные лимиты — 500 000 слов или 200 MB на источник; формально PDF на 500–1000 страниц часто проходит. На практике — модель хуже извлекает контекст из огромных документов, лучше резать на логические части (глава, раздел, квартал) перед загрузкой.
  • Видео длиной больше 1–2 часов с YouTube иногда даёт расшифровку с пропусками. Выход — делить на ролики или использовать Pinpoint/Whisper для первичной расшифровки.
  • Публичного API для обычных пользователей нет на апрель 2026. Для free/Plus-тиров NotebookLM — это веб-интерфейс; встроить его в редакционный пайплайн через скрипт нельзя. Но NotebookLM Enterprise API существует в составе Google Workspace Enterprise — CRUD операций с notebook, управление источниками, генерация Audio Overview, запросы к чату. Для большинства малых и средних редакций это дорого и избыточно; для автоматизации на уровне соло-журналиста — gpt-researcher или прямое обращение к Gemini API.
  • Конфиденциальные источники. Ваши документы уходят в Google-инфраструктуру. Для чувствительных тем (оппозиционные расследования, персональные данные источников, медицинские документы) — локальный RAG из М.3.2 надёжнее.
  • Модель остаётся моделью. NotebookLM галлюцинирует реже других благодаря grounded-архитектуре, но не никогда. Чеклист проверки ссылок из М.3.1 всё равно обязателен для критичных цитат.

Русский контекст


Главное из урока

  • Один notebook = одна история. Не сваливайте 300 документов в кучу. Разделяйте по эпизодам или фигурантам — качество ответов растёт в разы.
  • Сканы и FOIA обрабатываются через Pinpoint → NotebookLM. Pinpoint делает OCR и entity recognition, NotebookLM работает с текстовой версией. Это пайплайн для реального расследования.
  • Mind Map — инструмент декомпозиции, не результат. Ищите в нём неожиданные пересечения, «мёртвые» ветви и дыры в корпусе. На нём строится план работы.
  • Studio даёт четыре формата: Briefing Doc, FAQ, Timeline, Study Guide. Каждый — под свой сценарий: от ввода редактора в тему до обучения стажёра.
  • Pinpoint — для тысяч документов и FOIA-архивов. Заявку подавать заранее. Работает в паре с NotebookLM, а не вместо него.
  • Shareable notebooks с двумя уровнями доступа — основа командной работы: Editor для журналистов и фактчекеров, Viewer для редактора и юриста.
  • NotebookLM — это «Echo на коленке». 80% от инструмента NYT за вечер настройки и бесплатно. Для серьёзной инфраструктуры — open-source путь Dewey и gpt-researcher.
  • Ограничения помнить: нет API, слабый русский аудио, большие PDF режем, конфиденциальные темы — локально.

В следующем уроке М.3.4 — работа с PDF, сканами и документами глубже: Mistral Document AI, распознавание таблиц, извлечение структурированных данных из договоров и отчётов. Вместе с этим уроком получится полный пайплайн — от FOIA-запроса до готового расследования.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.