Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль s.6 · Урок 1

Урок 1: Как валидировать вывод агента — рубрика ScholarEval

20 мин
s.6 / Урок 1 из 3

Чему вы научитесь

  • Понимать, зачем нужна формальная рубрика вместо оценки вывода агента «на глаз»
  • Знать восемь измерений ScholarEval из Kosmos и их точные веса
  • Считать итоговую взвешенную оценку находки и интерпретировать число
  • Видеть, какие измерения сильнее всего влияют на результат, а какие почти ничего не решают
  • Применять рубрику к реальному выводу агента по шагам

Зачем формальная рубрика

После того как агент выдал находку, возникает вопрос приёмки: насколько ей можно доверять. Интуитивная оценка плоха тем, что красивый текст с цитатами кажется убедительнее, чем он есть. Рубрика заставляет смотреть на конкретные измерения.

ScholarEval — это восьмимерный фреймворк валидации научных утверждений из open-source-реализации Kosmos (github.com/jimmc414/Kosmos). Каждое измерение получает оценку, а итог — это их взвешенная сумма. Веса заданы в коде, в файле kosmos/validation/scholar_eval.py.

Восемь измерений и их веса

Веса не равны: строгость рассуждения весит в 12 раз больше, чем этика. Это осознанный выбор авторов рубрики — то, что труднее всего подделать и проверить, весит больше.

ИзмерениеВесЧто оценивает
rigor (строгость)0.25Корректность метода, статистики, логики вывода
impact (значимость)0.20Насколько находка важна для области
novelty (новизна)0.15Действительно ли это новое, а не известное
reproducibility (воспроизводимость)0.15Можно ли повторить путь к результату
clarity (ясность)0.10Понятность изложения и формулировок
coherence (связность)0.10Согласованность вывода с данными и контекстом
limitations (ограничения)0.03Честно ли названы границы применимости
ethics (этика)0.02Этическая корректность и риски

Сумма весов равна 1.0. Обратите внимание: rigor, impact, novelty и reproducibility вместе дают 0.75 — три четверти оценки определяются именно этими четырьмя измерениями.

вес rigor — самое тяжёлое измерение рубрики 0.25
суммарный вес четвёрки rigor + impact + novelty + reproducibility 0.75
вес ethics — наименьший, но не нулевой 0.02

Источник весов: kosmos/validation/scholar_eval.py в репозитории jimmc414/Kosmos (v0.2.0-alpha, MIT).

Как считать итог

Итоговая оценка — это взвешенная сумма. Каждое измерение оценивается по единой шкале (например, от 0 до 1 или от 0 до 10, важно лишь, чтобы шкала была одна для всех), затем умножается на свой вес, и результаты складываются.

# Веса измерений из kosmos/validation/scholar_eval.py
WEIGHTS = {
    "rigor": 0.25,
    "impact": 0.20,
    "novelty": 0.15,
    "reproducibility": 0.15,
    "clarity": 0.10,
    "coherence": 0.10,
    "limitations": 0.03,
    "ethics": 0.02,
}

def scholar_eval(scores: dict[str, float]) -> float:
    """scores — оценки 0..1 по каждому измерению. Возвращает взвешенный итог."""
    return sum(WEIGHTS[dim] * scores[dim] for dim in WEIGHTS)

Проверка на практике: если по всем измерениям выставить максимум (1.0), итог тоже равен 1.0, потому что сумма весов равна единице. Это удобный способ убедиться, что вы ничего не перепутали в шкале.

Пример: применяем рубрику к находке

Допустим, агент выдал вывод: «препарат X статистически значимо снижает маркер Y (p < 0.05), что является новым открытием». Прогоним его по рубрике.

ИзмерениеОценка 0..1Почему
rigor0.4p-значение есть, но не указаны поправки на множественные сравнения
impact0.6Маркер релевантный, но клиническая значимость не показана
novelty0.3При проверке нашлись две похожие работы — новизна переоценена
reproducibility0.2Нет ссылки на данные и код анализа
clarity0.9Сформулировано чётко
coherence0.8Вывод согласуется с приведёнными числами
limitations0.1Ограничения не названы вовсе
ethics0.7Явных нарушений нет

Взвешенный итог: 0.25·0.4 + 0.20·0.6 + 0.15·0.3 + 0.15·0.2 + 0.10·0.9 + 0.10·0.8 + 0.03·0.1 + 0.02·0.7 = около 0.48. Несмотря на «гладкий» текст, находка проседает по тяжёлым измерениям и в текущем виде — черновик, а не результат.

Порядок применения

  1. Возьмите конкретное утверждение. Не весь отчёт, а отдельную проверяемую находку.
  2. Выставьте баллы по всем восьми измерениям. По единой шкале, честно, особенно по rigor и reproducibility.
  3. Умножьте на веса и сложите. Используйте формулу выше или таблицу.
  4. Посмотрите на вклад каждого измерения. Где низкий балл совпал с большим весом — туда и направьте проверку.
  5. Решите судьбу находки. Принять как черновик, отправить на доработку или отбраковать. Рубрика помогает решению, но не заменяет его.

Следующий урок

Урок 2: Этика и риски — чек-лист ответственного использования — разберём, что бывает, когда находку не проверяют, и соберём явный чек-лист.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.