Модуль m.3 · Урок 3
Урок 3: NotebookLM углубленно — 300 источников, Mind Maps, Studio, Pinpoint
Содержание
- Чему научитесь
- Корпус на 300 источников: как не утонуть
- Сканы, redacted PDF и FOIA: что делать с «плохими» документами
- Mind Maps как инструмент расследования
- Studio: четыре текстовых формата под разные задачи
- Audio Overview для редакции: 4 режима под разные задачи
- Pinpoint детально: когда NotebookLM уже не справляется
- Shareable notebooks: работа командой
- «Свой Echo» и «Dewey на коленке»: чему учат кейсы
- Практикум: «Судебное досье из 150 PDF за 2 часа»
- Где NotebookLM всё-таки ломается
- Русский контекст
- Главное из урока
Чему научитесь
- Строить корпус на 300 источников так, чтобы NotebookLM оставался полезным, а не превращался в свалку
- Работать со сканами, плохими PDF и FOIA-материалами через связку Pinpoint → NotebookLM
- Использовать Mind Maps как инструмент расследования — искать скрытые связи в документах
- Выбирать правильный формат Studio под задачу: Briefing Doc, FAQ, Timeline, Study Guide
- Расшаривать notebook команде с правильными правами и понимать, где NotebookLM всё же ломается
Для практики используем arckep.ru — все основные модели, без VPN, оплата рублями. Вы можете использовать любые другие сервисы.
В М.2.3 собрали первый notebook: 30 PDF, Audio Overview на русском, базовая работа с источниками. Этот урок — для тех, кто выходит за пределы простого сценария. Настоящее расследование — это не 30 документов, а 200+ файлов, сканы плохого качества, FOIA-ответы с запятыми от редактирования и аудиозаписи на 20 часов. Здесь NotebookLM показывает, на что способен — и где у него есть потолок.
Две референсные истории последних двух лет — инструменты крупных редакций. NYT Echo (2024–2025) — внутренний LLM над архивом New York Times, помогал журналистам в расследованиях Hegseth, здоровья Трампа, истории Sydney Sweeney (Nieman Lab). Philadelphia Inquirer Dewey — open-source research-ассистент на архиве редакции, который форкают другие региональные СМИ. NotebookLM — это ваш «Echo на коленке»: 80% от корпоративного инструмента NYT, без команды разработчиков, без бюджета и за один вечер настройки.
Корпус на 300 источников: как не утонуть
Главная ошибка после первого успеха в NotebookLM — загрузить все материалы расследования в один notebook. Получится свалка на 300 документов, где модель смешивает свидетельства 2019 года с пресс-релизами 2025-го и не может ответить на узкий вопрос.
Рабочее правило: один notebook = одна история. Если тема крупная — расследование длиной полгода, работа с наследством, судебный процесс на много лет — notebook разбивается на подтемы.
| Структура корпуса | Рекомендация |
|---|---|
| 1 notebook, 300 документов | Плохо: модель теряется в объёме, ответы превращаются в компромисс между разными эпохами |
| 1 notebook = 1 эпизод / 1 фигурант | Работает: 20–50 источников на notebook, внутри фокус |
| Для архива всей редакции (3000+) | NotebookLM не подходит — это задача для Pinpoint |
Практически это значит: для расследования о чиновнике X заводите notebook «X — биография и декларации», notebook «X — судебные иски», notebook «X — публичные заявления в СМИ». На планёрке вы ходите между ними, а не ищете в одной свалке.
Второе правило — осознанные 50 источников важнее случайных 300. Потратьте полчаса на отбор: релевантность, дата, первоисточник против пересказа. NotebookLM работает качественнее с чистым корпусом. Захламлённый notebook в 300 PDF даёт худшие ответы, чем аккуратный в 40 PDF.
Сканы, redacted PDF и FOIA: что делать с «плохими» документами
Реальные документы расследований — это сканы низкого разрешения, PDF с печатями поверх текста, ответы на FOIA-запросы с закрашенными фрагментами (redacted). NotebookLM в таких файлах видит картинку, а не текст — и молча игнорирует содержание.
Рабочий пайплайн.
- OCR через Pinpoint или Mistral Document AI. Pinpoint (Google Journalist Studio) делает OCR бесплатно по заявке, работает со сканами, распознаёт рукописные аннотации. Важная оговорка для русскоязычных материалов: OCR Pinpoint поддерживает только 7 языков — английский, французский, немецкий, итальянский, польский, португальский, испанский. Русский в списке отсутствует. Для русских сканов используйте Yandex Vision OCR, ABBYY FineReader или Mistral Document AI (платная альтернатива с особенно сильным распознаванием таблиц и формул, $2 за 1000 страниц).
- Выгрузка текстовой версии. Pinpoint экспортирует OCR-версию как отдельный файл или показывает текст рядом со сканом. Этот текст и есть то, что поймёт NotebookLM.
- Загрузка в notebook. Текстовую версию PDF или отдельный txt-файл кладёте в NotebookLM. Там же — скан-оригинал как визуальный референс.
- Явное указание в промпте. В запросе пишете: «работай с файлом “Протокол-2024-OCR.txt”, в PDF-скане того же имени — оригинал для визуальной проверки подписей». Это снижает риск, что модель спутает источники.
Redacted-фрагменты остаются закрашенными и после OCR — это нормально. Важно, что остальной текст становится доступен. Бывает, что по контексту redacted-фрагмента можно восстановить смысл — опытные следователи и журналисты это умеют, AI здесь тоже помогает гипотезами.
Mind Maps как инструмент расследования
В M.2.3 упомянули Mind Maps одной строкой: визуальная карта связей в корпусе. В расследовании это не бонус, а отдельный инструмент.
Как расследователь использует Mind Map. Загружаете в notebook 50 документов по делу — досье, публикации, декларации, судебные решения. Запускаете Mind Map. Получаете дерево: в центре — тема расследования, ветви — кластеры упоминаний. Каждый узел кликабелен и ведёт обратно в источники.
Что читать в карте:
- Неожиданные пересечения. Если два человека, которых вы считали независимыми, в карте оказываются рядом и делят несколько источников — это повод проверить связь вручную.
- «Мёртвые» ветви. Темы, которые модель вытащила из документов, но которые вы пропустили при первом прочтении. Часто именно там начинается новый поворот истории.
- Дыры. Ветви с одним-двумя источниками — сигнал, что по этому направлению корпус неполный. Это задача: добрать документы или выйти на источника.
Mind Map — это не финальный документ, а инструмент декомпозиции темы. Он редко идёт в публикацию напрямую, но именно на нём строится план расследования: «по ветви A у нас 12 источников, идём писать; по ветви B — три, нужны интервью».
Studio: четыре текстовых формата под разные задачи
Studio — это блок NotebookLM, где из источников генерятся структурированные документы. Помимо Audio Overview (про него был М.2.3), там четыре ключевых формата. Каждый подходит под свою задачу.
| Формат | Что генерирует | Когда использовать |
|---|---|---|
| Briefing Doc | Плотный документ на 1–3 страницы: обзор, ключевые игроки, ключевые факты, открытые вопросы | Для редактора перед планёркой. За 5 минут ввести команду в материал |
| FAQ | Вопросы и ответы по корпусу, с номерами источников | Для работы с читателем — статья с частыми вопросами, блок «коротко о» |
| Timeline | Хронологическая лента событий, извлечённая из всех документов | Расследования, где критичен порядок событий. Длинный судебный процесс, кризис, корпоративная история |
| Study Guide | Учебные материалы с вопросами для проверки понимания | Внутреннее обучение команды. Ввести стажёра в сложную тему за вечер |
Практический сценарий. Корпус — 40 PDF по расследованию. Вы генерите Timeline и понимаете, что в хронологии есть пробел: между апрелем и июлем 2024 ни одного события. Это не ошибка NotebookLM — это реальный пробел в корпусе. Идёте искать, что происходило в этот период: именно там часто прячется самая интересная часть истории.
Briefing Doc хорош как замена «заметки для себя» — классического первого шага перед написанием. Timeline — как скелет большого лонгрида. FAQ — как подспорье для версии «для быстрого читателя» на сайте.
Audio Overview для редакции: 4 режима под разные задачи
В М.2.3 мы запускали Deep Dive на русском и получали 10-минутный подкаст для команды. Продвинутый уровень — подобрать режим под конкретный редакционный сценарий.
| Режим | Длина и формат | Редакционный сценарий |
|---|---|---|
| Deep Dive | ~10 минут, два ведущих | Летучка, ввод команды в большой материал. Скидываете файл в редакционный чат — все приходят на планёрку подготовленными |
| Brief | ~2 минуты, один голос | Саммари для себя перед звонком источнику или для коллеги, который забегает в тему |
| Critique | Два ведущих разбирают черновик критически | Загружаете свою статью + 10 оппонирующих источников — слышите разбор слабых мест аргументации до публикации |
| Debate | Формальные дебаты двух позиций | Загружаете материалы за и против — получаете спор двух сторон, удобно для спорных тем и колонок |
Паттерн Critique — главная находка для журналиста. Вы написали спорный материал, редактор на ревью. Прогоните черновик через NotebookLM в режиме Critique вместе с 10 источниками, которые вашу позицию оспаривают. Через 5 минут получаете 10-минутный подкаст, где AI-ведущие разбирают ваш текст по пунктам на основе оппонирующих источников. Не финальная замена редактору — но сильная проверка самим собой до того, как ошибку увидит первый читатель.
Паттерн Debate — для тем с двумя сильными позициями. Реформа, судебное решение, городская инициатива — есть сторонники и есть противники, у каждой стороны — свои аргументы и документы. Грузите и те и другие. Запускаете Debate. Результат — формальный спор двух ведущих с опорой на реальные источники. Для автора колонки — это способ проверить, не упустил ли он сильный контраргумент.
Pinpoint детально: когда NotebookLM уже не справляется
Pinpoint — отдельный инструмент Google для журналистов, живёт в Journalist Studio, бесплатный по заявке. Если NotebookLM рассчитан на десятки источников, то Pinpoint — на тысячи и десятки тысяч.
Что уникально у Pinpoint для расследований:
- Entity recognition. Автоматическое извлечение людей, организаций, мест, дат, телефонов, email-адресов из всего корпуса. Кликаете на «Иванов И.И.» — видите все 47 упоминаний в 200 документах.
- OCR для сканов и рукописных документов. Pinpoint работает на Google Vision API и распознаёт текст более чем на 100 языках, включая русский. Для архивных сканов, FOIA-документов и рукописных материалов на русском Pinpoint подходит. Если скан плохого качества или нужна специализированная работа со сложными таблицами/структурой — рассматривайте также Yandex Vision OCR или Mistral Document AI как альтернативу.
- Расшифровка аудио и видео на 15 языках (английский, русский и основные европейские — проверяйте актуальный список в help Pinpoint). Лимит одного файла — до 2 часов, для более длинных аудио режьте на фрагменты. Пример: 40 часов записей пресс-конференций обработаете за 20 кусков по 2 часа.
- Кросс-поиск по корпусу. Поиск именованных сущностей и ключевых слов через весь архив — мгновенно по многим тысячам файлов.
Типичный workflow расследовательской редакции:
- FOIA-запрос даёт 3000 PDF.
- Pinpoint делает OCR, распознаёт имена, даты, организации.
- Журналист через entity-фильтры отсекает нерелевантное и выделяет 60 ключевых документов.
- Эти 60 кладутся в NotebookLM для аналитики, Mind Map, Audio Overview.
- Расследование идёт от выделенного ядра, а не от всего массива сразу.
Pinpoint даёт масштаб. NotebookLM даёт глубину. Они не конкуренты, а смежные инструменты с одним авторством и похожими принципами работы. Подать заявку на Pinpoint стоит заранее — одобрение занимает несколько дней, а в момент срочного расследования ждать некогда.
Shareable notebooks: работа командой
Notebook расшаривается через меню «Share», по ссылке или по email-приглашению. Права — два уровня.
- Viewer. Просматривает источники, задаёт вопросы чату, слушает Audio Overview. Не может добавлять источники или редактировать заметки. Оптимально для редактора, юриста, главреда, которые должны понимать ход расследования, но не вмешиваться в корпус.
- Editor. Может всё: добавлять источники, задавать вопросы, менять инструкции. Оптимально для соавтора расследования, фактчекера, аналитика.
Рабочий паттерн команды из 3–5 человек:
- Журналист — Editor (собирает корпус)
- Фактчекер — Editor (добавляет альтернативные источники, запускает контр-запросы)
- Редактор — Viewer (читает, слушает Audio Overview, задаёт вопросы)
- Юрист — Viewer (проверяет ключевые цитаты на риск)
Это намного удобнее, чем пересылка 200 PDF в Google Drive: корпус живёт в одном месте, все работают с одними ответами, история вопросов сохраняется. Недостаток — notebook привязан к Google-аккаунту владельца. Если журналист уходит, корпус нужно переносить на аккаунт редакции заранее. Об этом стоит подумать до того, как корпус вырос до 200 источников.
«Свой Echo» и «Dewey на коленке»: чему учат кейсы
NYT Echo обошёлся New York Times в команду инженеров и бюджет, который неподъёмен для региональной редакции. Но ключевая идея — RAG над собственным архивом — повторяется в NotebookLM один в один. Ваш архив — это файлы, которые вы загружаете. Поиск, цитаты, суммари, идеи для заголовков — всё это вы получаете. Разница только в масштабе: у NYT миллионы статей в Echo, у вас — сотни в notebook. Для малой редакции этого достаточно.
Der Spiegel fact-check interface — немецкий вариант той же идеи. Внутренний инструмент с natural-language-поиском по архиву. Ключевое наблюдение из опыта Spiegel: около 90% архивных материалов редакции отсутствует в открытом вебе. Это и есть главный ров современного СМИ. Конкурент с бюджетом может повторить ваш стиль за полгода — но не сможет повторить 30-летний архив, который ваши журналисты собирали номер за номером. RAG поверх этого архива превращает его из пассивного шкафа в активный исследовательский инструмент.
Philadelphia Inquirer Dewey — третий прецедент, и самый важный для малой редакции. Региональная газета собрала open-source RAG в рамках партнёрства с Microsoft через Lenfest Institute AI Collaborative, выложила код (github.com/phillymedia/dewey-ai, MIT, Python). Проект молодой — на апрель 2026 несколько форков и небольшая звёздная поддержка. Важен именно как модель и прецедент, а не как готовая к промышленному использованию библиотека. Если вам нужен именно локальный контроль (данные не покидают вашу инфраструктуру, модель ходит через ваш API), вариант — посмотреть исходники Dewey или поднять собственный gpt-researcher (см. М.3.2) с подключением к архиву. Это требует разработчика на несколько недель, но результат — полностью ваш, без лицензионных ограничений Google.
Какой путь выбрать:
- Одиночный журналист или редакция на 2–5 человек без разработчиков — NotebookLM. Это «Echo для вас» за вечер настройки.
- Редакция на 10+ человек с разработчиком и чувствительными темами — open-source RAG на базе Dewey или gpt-researcher. Контроль данных, интеграция в собственные системы.
- Крупная редакция с бюджетом — собственный Echo-подобный сервис с инженерной командой и SLA. Не про этот курс.
Практикум: «Судебное досье из 150 PDF за 2 часа»
Сценарий — журналисту передано 150 документов по громкому гражданскому делу: исковое заявление, отзывы сторон, финансовые приложения, протоколы судебных заседаний за три года. Тема на планёрке — завтра. Нужны материал и подкаст для редакции.
Шаг 1. Триаж, а не свалка. Не грузите все 150 в один notebook. Разбивайте на три тематических ноутбука по 50 документов: «Сторона истца — иски и приложения», «Сторона ответчика — отзывы и контрдокументы», «Протоколы и решения судов». Плюс один «мастер-notebook» с 20 ключевыми документами-сводками для верхнеуровневого анализа. Потратьте 20 минут на сортировку и переименование файлов по шаблону «2024-03-15_тип_сторона.pdf».
Шаг 2. Mind Map каждого ноутбука. В каждом из трёх — запускаете Mind Map. Получаете три карты связей: кто с кем фигурирует на стороне истца, кто на стороне ответчика, какие суды участвовали. 10 минут на все три — увидели кластер из трёх имён, которых не ожидали видеть вместе. Это первый крючок истории.
Шаг 3. Studio → Timeline по мастер-notebook. Сгенерили хронологию: первый иск 2022-го, финансовые движения 2023-го, серия решений 2024-го. Хронология показывает пробел — между двумя ключевыми событиями нет документов. Добираете через FOIA или интервью.
Шаг 4. Studio → Briefing Doc для редактора. 15 минут — полстраницы плотного текста для планёрки: обзор дела, ключевые игроки, открытые вопросы, предварительный угол зрения. Редактор принимает решение по теме до того, как вы пишете черновик.
Шаг 5. Audio Overview в режиме Deep Dive. Русский язык, промпт «разбери для коллег-журналистов, что важно и что спорно». Через 5 минут — 10-минутный MP3 в редакционный чат. Команда слушает в дороге — на планёрке все уже в теме.
Шаг 6. Shareable notebook → редактор и юрист параллельно. Редактору даёте права Viewer — он читает источники, слушает подкаст, готовит вопросы. Юристу с теми же правами — он проверяет ключевые цитаты на риск до публикации.
Итог за два часа: у вас три рабочих ноутбука по эпизодам, три Mind Map, хронология, Briefing Doc для редактора, подкаст для команды и параллельная проверка юристом. До появления NotebookLM вход в такой корпус занимал неделю. Сейчас — половина рабочего дня.
Где NotebookLM всё-таки ломается
Честный список — чтобы не разочароваться, столкнувшись с ограничениями в середине расследования.
- Аудио на русском — работает, но интонация синтетическая. Для внутренней работы редакции годится; публиковать как подкаст — нет (см. М.2.3).
- Очень большие PDF. Официальные лимиты — 500 000 слов или 200 MB на источник; формально PDF на 500–1000 страниц часто проходит. На практике — модель хуже извлекает контекст из огромных документов, лучше резать на логические части (глава, раздел, квартал) перед загрузкой.
- Видео длиной больше 1–2 часов с YouTube иногда даёт расшифровку с пропусками. Выход — делить на ролики или использовать Pinpoint/Whisper для первичной расшифровки.
- Публичного API для обычных пользователей нет на апрель 2026. Для free/Plus-тиров NotebookLM — это веб-интерфейс; встроить его в редакционный пайплайн через скрипт нельзя. Но NotebookLM Enterprise API существует в составе Google Workspace Enterprise — CRUD операций с notebook, управление источниками, генерация Audio Overview, запросы к чату. Для большинства малых и средних редакций это дорого и избыточно; для автоматизации на уровне соло-журналиста — gpt-researcher или прямое обращение к Gemini API.
- Конфиденциальные источники. Ваши документы уходят в Google-инфраструктуру. Для чувствительных тем (оппозиционные расследования, персональные данные источников, медицинские документы) — локальный RAG из М.3.2 надёжнее.
- Модель остаётся моделью. NotebookLM галлюцинирует реже других благодаря grounded-архитектуре, но не никогда. Чеклист проверки ссылок из М.3.1 всё равно обязателен для критичных цитат.
Русский контекст
Главное из урока
- Один notebook = одна история. Не сваливайте 300 документов в кучу. Разделяйте по эпизодам или фигурантам — качество ответов растёт в разы.
- Сканы и FOIA обрабатываются через Pinpoint → NotebookLM. Pinpoint делает OCR и entity recognition, NotebookLM работает с текстовой версией. Это пайплайн для реального расследования.
- Mind Map — инструмент декомпозиции, не результат. Ищите в нём неожиданные пересечения, «мёртвые» ветви и дыры в корпусе. На нём строится план работы.
- Studio даёт четыре формата: Briefing Doc, FAQ, Timeline, Study Guide. Каждый — под свой сценарий: от ввода редактора в тему до обучения стажёра.
- Pinpoint — для тысяч документов и FOIA-архивов. Заявку подавать заранее. Работает в паре с NotebookLM, а не вместо него.
- Shareable notebooks с двумя уровнями доступа — основа командной работы: Editor для журналистов и фактчекеров, Viewer для редактора и юриста.
- NotebookLM — это «Echo на коленке». 80% от инструмента NYT за вечер настройки и бесплатно. Для серьёзной инфраструктуры — open-source путь Dewey и gpt-researcher.
- Ограничения помнить: нет API, слабый русский аудио, большие PDF режем, конфиденциальные темы — локально.
В следующем уроке М.3.4 — работа с PDF, сканами и документами глубже: Mistral Document AI, распознавание таблиц, извлечение структурированных данных из договоров и отчётов. Вместе с этим уроком получится полный пайплайн — от FOIA-запроса до готового расследования.