Модуль s.6 · Урок 1
Урок 1: Как валидировать вывод агента — рубрика ScholarEval
Чему вы научитесь
- Понимать, зачем нужна формальная рубрика вместо оценки вывода агента «на глаз»
- Знать восемь измерений ScholarEval из Kosmos и их точные веса
- Считать итоговую взвешенную оценку находки и интерпретировать число
- Видеть, какие измерения сильнее всего влияют на результат, а какие почти ничего не решают
- Применять рубрику к реальному выводу агента по шагам
Зачем формальная рубрика
После того как агент выдал находку, возникает вопрос приёмки: насколько ей можно доверять. Интуитивная оценка плоха тем, что красивый текст с цитатами кажется убедительнее, чем он есть. Рубрика заставляет смотреть на конкретные измерения.
ScholarEval — это восьмимерный фреймворк валидации научных утверждений из
open-source-реализации Kosmos (github.com/jimmc414/Kosmos).
Каждое измерение получает оценку, а итог — это их взвешенная сумма. Веса заданы
в коде, в файле kosmos/validation/scholar_eval.py.
Восемь измерений и их веса
Веса не равны: строгость рассуждения весит в 12 раз больше, чем этика. Это осознанный выбор авторов рубрики — то, что труднее всего подделать и проверить, весит больше.
| Измерение | Вес | Что оценивает |
|---|---|---|
| rigor (строгость) | 0.25 | Корректность метода, статистики, логики вывода |
| impact (значимость) | 0.20 | Насколько находка важна для области |
| novelty (новизна) | 0.15 | Действительно ли это новое, а не известное |
| reproducibility (воспроизводимость) | 0.15 | Можно ли повторить путь к результату |
| clarity (ясность) | 0.10 | Понятность изложения и формулировок |
| coherence (связность) | 0.10 | Согласованность вывода с данными и контекстом |
| limitations (ограничения) | 0.03 | Честно ли названы границы применимости |
| ethics (этика) | 0.02 | Этическая корректность и риски |
Сумма весов равна 1.0. Обратите внимание: rigor, impact, novelty и reproducibility вместе дают 0.75 — три четверти оценки определяются именно этими четырьмя измерениями.
Источник весов: kosmos/validation/scholar_eval.py в репозитории
jimmc414/Kosmos (v0.2.0-alpha, MIT).
Как считать итог
Итоговая оценка — это взвешенная сумма. Каждое измерение оценивается по единой шкале (например, от 0 до 1 или от 0 до 10, важно лишь, чтобы шкала была одна для всех), затем умножается на свой вес, и результаты складываются.
# Веса измерений из kosmos/validation/scholar_eval.py
WEIGHTS = {
"rigor": 0.25,
"impact": 0.20,
"novelty": 0.15,
"reproducibility": 0.15,
"clarity": 0.10,
"coherence": 0.10,
"limitations": 0.03,
"ethics": 0.02,
}
def scholar_eval(scores: dict[str, float]) -> float:
"""scores — оценки 0..1 по каждому измерению. Возвращает взвешенный итог."""
return sum(WEIGHTS[dim] * scores[dim] for dim in WEIGHTS)
Проверка на практике: если по всем измерениям выставить максимум (1.0), итог тоже равен 1.0, потому что сумма весов равна единице. Это удобный способ убедиться, что вы ничего не перепутали в шкале.
Пример: применяем рубрику к находке
Допустим, агент выдал вывод: «препарат X статистически значимо снижает маркер Y (p < 0.05), что является новым открытием». Прогоним его по рубрике.
| Измерение | Оценка 0..1 | Почему |
|---|---|---|
| rigor | 0.4 | p-значение есть, но не указаны поправки на множественные сравнения |
| impact | 0.6 | Маркер релевантный, но клиническая значимость не показана |
| novelty | 0.3 | При проверке нашлись две похожие работы — новизна переоценена |
| reproducibility | 0.2 | Нет ссылки на данные и код анализа |
| clarity | 0.9 | Сформулировано чётко |
| coherence | 0.8 | Вывод согласуется с приведёнными числами |
| limitations | 0.1 | Ограничения не названы вовсе |
| ethics | 0.7 | Явных нарушений нет |
Взвешенный итог: 0.25·0.4 + 0.20·0.6 + 0.15·0.3 + 0.15·0.2 + 0.10·0.9 + 0.10·0.8 + 0.03·0.1 + 0.02·0.7 = около 0.48. Несмотря на «гладкий» текст, находка проседает по тяжёлым измерениям и в текущем виде — черновик, а не результат.
Порядок применения
- Возьмите конкретное утверждение. Не весь отчёт, а отдельную проверяемую находку.
- Выставьте баллы по всем восьми измерениям. По единой шкале, честно, особенно по rigor и reproducibility.
- Умножьте на веса и сложите. Используйте формулу выше или таблицу.
- Посмотрите на вклад каждого измерения. Где низкий балл совпал с большим весом — туда и направьте проверку.
- Решите судьбу находки. Принять как черновик, отправить на доработку или отбраковать. Рубрика помогает решению, но не заменяет его.
Следующий урок
Урок 2: Этика и риски — чек-лист ответственного использования — разберём, что бывает, когда находку не проверяют, и соберём явный чек-лист.