Модуль s.7 · Урок 1

Урок 1: Капстоун — свой мини-проект от вопроса до отчёта

20 мин

Содержание

Чему вы научитесь
Что вы собираете
Пошаговый план
Диаграмма пайплайна
Критерии приёмки
Чек-лист ручной проверки
Идеи мини-проектов под разные аудитории
Поздравляем
Что дальше

s.7 / Урок 1 из 1

Чему вы научитесь

Связывать в один пайплайн всё из трека: литобзор (S.2), гипотезы (S.3), анализ данных (S.4), оркестрацию (S.5) и валидацию с оформлением (S.6).
Доводить мини-«open-ended» проект от научного вопроса до отчёта с инлайн-цитатами.
Применять критерии приёмки и чек-лист обязательной ручной проверки: цитаты, воспроизводимость кода, отсутствие галлюцинаций.
Осознанно проводить границу автономии агента и оставлять интерпретацию за собой.
Понимать, что результат капстоуна — черновик-гипотеза, а не готовое открытие.

Что вы собираете

Капстоун не приносит нового материала. Вы берёте навыки из пяти предыдущих модулей и прогоняете их через один маленький проект на понятном вам датасете.

Задача — пройти полный цикл своими руками: увидеть, где агент реально ускоряет работу, а где начинает уверенно выдумывать. Масштаб намеренно маленький: один вопрос, один датасет, один отчёт на 2–4 страницы.

Пошаговый план

План связывает модули S.2–S.6 в один проход. На каждом шаге заранее назначена точка приёмки — что именно вы проверите, прежде чем идти дальше.

Шаг 0. Вопрос и датасет. Сформулируйте один научный вопрос одним предложением и возьмите небольшой датасет (CSV/Excel/таблица), который понимаете и можете проверить глазами. Приёмка: вопрос тестируем, данные открываются.
Шаг 1. Литобзор (S.2). Соберите 10–20 релевантных статей, извлеките «метод, выборка, эффект» в таблицу, получите черновик обзора с инлайн-цитатами. Приёмка: каждую цитату открыли и сверили с текстом.
Шаг 2. Гипотеза (S.3). Сгенерируйте 2–3 конкурирующие тестируемые гипотезы с предсказаниями, прогоните их через devil’s advocate. Приёмка: выбрана одна гипотеза с явным предсказанием, которое можно опровергнуть.
Шаг 3. Анализ данных в песочнице (S.4). Агент пишет и исполняет код в изолированной песочнице: описательная статистика, проверка гипотезы, графики. Приёмка: код перезапускается с нуля и даёт те же числа.
Шаг 4. Оркестрация (S.5). Если шагов много, разнесите роли (поиск, код, анализ, текст) и зафиксируйте, что куда передаётся. Приёмка: понятно, какой агент за какой артефакт отвечает.
Шаг 5. Валидация по ScholarEval (S.6). Оцените находку по рубрике: rigor, reproducibility, novelty, limitations. Приёмка: честно проставлены ограничения, новизна не завышена.
Шаг 6. Оформление (S.6). Соберите отчёт: вопрос, данные, метод, результат, ограничения, библиография. Приёмка: пройден чек-лист ручной проверки ниже.

Диаграмма пайплайна

Весь проект на одной картинке. Обратите внимание: человек стоит над петлёй и проверяет каждый артефакт перед переходом к следующему шагу.

flowchart TB
    Q[Шаг 0. Вопрос и датасет] --> L[Шаг 1. Литобзор · S.2]
    L --> Hy[Шаг 2. Гипотеза · S.3]
    Hy --> An[Шаг 3. Анализ в песочнице · S.4]
    An --> Or[Шаг 4. Оркестрация ролей · S.5]
    Or --> Val[Шаг 5. Валидация ScholarEval · S.6]
    Val --> Rep[Шаг 6. Отчёт с цитатами · S.6]
    Rep --> Check{Чек-лист ручной проверки}
    Check -- Битые цитаты, код не воспроизводится, галлюцинации --> L
    Check -- Принято как черновик-гипотеза --> Out[Проверяемый артефакт]

    style Q fill:#0891b2,color:#fff,stroke:#0e7490
    style Check fill:#f59e0b,color:#fff,stroke:#d97706
    style Out fill:#059669,color:#fff,stroke:#047857

Стрелка обратной связи — не формальность. Если на проверке всплыла битая цитата или невоспроизводимый код, вы возвращаетесь назад, а не «принимаете как есть, потому что в целом похоже на правду».

Критерии приёмки

Проект считается сданным, только когда выполнены все четыре блока. Это минимальная планка, а не пожелание.

Критерий	Что значит «принято»	Как проверить
Цитаты	Каждая ссылка открывается и подтверждает утверждение	Открыть источник, найти в нём конкретное место
Воспроизводимость	Код запускается с нуля и даёт те же числа	Перезапуск в чистой песочнице
Отсутствие галлюцинаций	Нет фактов, цифр и ссылок «из воздуха»	Сверка каждого числа с данными или источником
Ограничения	Явно названо, чего проект НЕ доказывает	Раздел «ограничения» в отчёте непустой

Чек-лист ручной проверки

Пройдите его построчно перед тем, как считать проект готовым. Это не автоматизируемая часть — именно здесь работает человек.

Открыл каждую цитату и убедился, что она реальна и говорит то, что приписано.
Отличил «поддерживающую» цитату от «упоминающей» — источник действительно подтверждает тезис.
Перезапустил код анализа с нуля; числа в отчёте совпадают с выводом кода.
Проверил каждое число в тексте: оно либо из кода, либо из источника, не «округлено по памяти».
Убедился, что код исполнялся в песочнице, а не на основной машине с доступом к данным.
Проверил, что новизна и значимость не завышены: формулировки осторожные.
Заполнил раздел «ограничения»: что не учтено, на какой выборке, какие допущения.
Указал, какие шаги делал агент и какие модели использовались (раскрытие использования ИИ).

Результат капстоуна — это черновик-гипотеза

Даже идеально оформленный отчёт из этого проекта не является готовым открытием. Это черновик-гипотеза для дальнейшей проверки. Напомним кейс Sakana AI Scientist-v2: статья прошла peer-review на воркшопе ICLR 2025, но при внешней проверке содержала галлюцинации, сфабрикованные результаты и ошибки цитирования (byteiota). А open-source Kosmos честно отмечает, что заявленные 79.4% достоверности и 7 открытий в его реализации НЕ воспроизведены (README Kosmos). Финальную достоверность даёте вы, не агент.

Идеи мини-проектов под разные аудитории

Выберите близкую область. Везде масштаб одинаковый: один вопрос, маленький датасет, отчёт на 2–4 страницы.

Аудитория	Вопрос-пример	Датасет	На что смотреть при проверке
Биомед	Связан ли маркёр X с исходом Y в публичных данных?	Открытый клинический CSV или single-cell выборка	Статистика не путает корреляцию с причиной, выборка мала
Data science	Какой признак сильнее объясняет отток в открытом датасете?	Public Kaggle/UCI CSV	Утечка данных в фичах, переобучение, метрика честная
Гуманитарии	Как менялась частота темы X в корпусе текстов за период?	Корпус статей или открытых текстов	Очистка текста корректна, тренд не артефакт выборки

Ключевые выводы

Капстоун связывает модули S.2–S.6 в один проход: вопрос → литобзор → гипотеза → анализ → валидация → отчёт.
На каждом шаге заранее назначена точка приёмки; проверку делают сразу, а не копят на конец.
Критерии приёмки: живые цитаты, воспроизводимый код, отсутствие галлюцинаций, честные ограничения.
Чек-лист ручной проверки — неавтоматизируемая часть, где работает именно человек.
Результат капстоуна — черновик-гипотеза, а не готовое открытие; финальную достоверность даёте вы.

Поздравляем

Вы прошли трек целиком: от реалистичных ожиданий и техники безопасности до сквозного проекта своими руками. Главный вынос — не список инструментов, а привычка относиться к любому выводу агента как к черновику для проверки. Это и есть human-on-the-loop на практике.

Что дальше

Если хотите углубиться в смежные темы платформы:

Трек «Кодинг с агентами» — как уверенно работать с агентами в коде, IDE и CLI, что пригодится на шаге анализа данных.
Трек «Продвинутый» — архитектура многоагентных систем и оркестрация, развитие темы модуля S.5.

Удачи в ваших исследованиях. Пусть агент ускоряет рутину, а выводы остаются за вами.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Урок 1: Капстоун — свой мини-проект от вопроса до отчёта

Сквозной проект

Чему вы научитесь

Что вы собираете

Пошаговый план

Диаграмма пайплайна

Критерии приёмки

Чек-лист ручной проверки

Идеи мини-проектов под разные аудитории

Поздравляем

Что дальше

Урок 2: Капстоун — личный ресёрч-агент

Капстоун: собрать ассистента юриста в безопасной рамке

Капстоун: учебный ассистент врача

Урок 1: Что такое AI Scientist и чем он не является

// Обсуждение

Чему вы научитесь

Что вы собираете

Пошаговый план

Диаграмма пайплайна

Критерии приёмки

Чек-лист ручной проверки

Идеи мини-проектов под разные аудитории

Поздравляем

Что дальше

Связанные уроки

Урок 2: Капстоун — личный ресёрч-агент

Капстоун: собрать ассистента юриста в безопасной рамке

Капстоун: учебный ассистент врача

Урок 1: Что такое AI Scientist и чем он не является

// Обсуждение