Модуль s.6 · Урок 1

Урок 1: Как валидировать вывод агента — рубрика ScholarEval

20 мин

Содержание

Чему вы научитесь
Зачем формальная рубрика
Восемь измерений и их веса
Как считать итог
Пример: применяем рубрику к находке
Порядок применения
Следующий урок

s.6 / Урок 1 из 3

Чему вы научитесь

Понимать, зачем нужна формальная рубрика вместо оценки вывода агента «на глаз»
Знать восемь измерений ScholarEval из Kosmos и их точные веса
Считать итоговую взвешенную оценку находки и интерпретировать число
Видеть, какие измерения сильнее всего влияют на результат, а какие почти ничего не решают
Применять рубрику к реальному выводу агента по шагам

Зачем формальная рубрика

После того как агент выдал находку, возникает вопрос приёмки: насколько ей можно доверять. Интуитивная оценка плоха тем, что красивый текст с цитатами кажется убедительнее, чем он есть. Рубрика заставляет смотреть на конкретные измерения.

ScholarEval — это восьмимерный фреймворк валидации научных утверждений из open-source-реализации Kosmos (github.com/jimmc414/Kosmos). Каждое измерение получает оценку, а итог — это их взвешенная сумма. Веса заданы в коде, в файле kosmos/validation/scholar_eval.py.

Восемь измерений и их веса

Веса не равны: строгость рассуждения весит в 12 раз больше, чем этика. Это осознанный выбор авторов рубрики — то, что труднее всего подделать и проверить, весит больше.

Измерение	Вес	Что оценивает
rigor (строгость)	0.25	Корректность метода, статистики, логики вывода
impact (значимость)	0.20	Насколько находка важна для области
novelty (новизна)	0.15	Действительно ли это новое, а не известное
reproducibility (воспроизводимость)	0.15	Можно ли повторить путь к результату
clarity (ясность)	0.10	Понятность изложения и формулировок
coherence (связность)	0.10	Согласованность вывода с данными и контекстом
limitations (ограничения)	0.03	Честно ли названы границы применимости
ethics (этика)	0.02	Этическая корректность и риски

Сумма весов равна 1.0. Обратите внимание: rigor, impact, novelty и reproducibility вместе дают 0.75 — три четверти оценки определяются именно этими четырьмя измерениями.

вес rigor — самое тяжёлое измерение рубрики 0.25

суммарный вес четвёрки rigor + impact + novelty + reproducibility 0.75

вес ethics — наименьший, но не нулевой 0.02

Источник весов: kosmos/validation/scholar_eval.py в репозитории jimmc414/Kosmos (v0.2.0-alpha, MIT).

Как считать итог

Итоговая оценка — это взвешенная сумма. Каждое измерение оценивается по единой шкале (например, от 0 до 1 или от 0 до 10, важно лишь, чтобы шкала была одна для всех), затем умножается на свой вес, и результаты складываются.

# Веса измерений из kosmos/validation/scholar_eval.py
WEIGHTS = {
    "rigor": 0.25,
    "impact": 0.20,
    "novelty": 0.15,
    "reproducibility": 0.15,
    "clarity": 0.10,
    "coherence": 0.10,
    "limitations": 0.03,
    "ethics": 0.02,
}

def scholar_eval(scores: dict[str, float]) -> float:
    """scores — оценки 0..1 по каждому измерению. Возвращает взвешенный итог."""
    return sum(WEIGHTS[dim] * scores[dim] for dim in WEIGHTS)

Проверка на практике: если по всем измерениям выставить максимум (1.0), итог тоже равен 1.0, потому что сумма весов равна единице. Это удобный способ убедиться, что вы ничего не перепутали в шкале.

Пример: применяем рубрику к находке

Допустим, агент выдал вывод: «препарат X статистически значимо снижает маркер Y (p < 0.05), что является новым открытием». Прогоним его по рубрике.

Измерение	Оценка 0..1	Почему
rigor	0.4	p-значение есть, но не указаны поправки на множественные сравнения
impact	0.6	Маркер релевантный, но клиническая значимость не показана
novelty	0.3	При проверке нашлись две похожие работы — новизна переоценена
reproducibility	0.2	Нет ссылки на данные и код анализа
clarity	0.9	Сформулировано чётко
coherence	0.8	Вывод согласуется с приведёнными числами
limitations	0.1	Ограничения не названы вовсе
ethics	0.7	Явных нарушений нет

Взвешенный итог: 0.25·0.4 + 0.20·0.6 + 0.15·0.3 + 0.15·0.2 + 0.10·0.9 + 0.10·0.8 + 0.03·0.1 + 0.02·0.7 = около 0.48. Несмотря на «гладкий» текст, находка проседает по тяжёлым измерениям и в текущем виде — черновик, а не результат.

Порядок применения

Возьмите конкретное утверждение. Не весь отчёт, а отдельную проверяемую находку.
Выставьте баллы по всем восьми измерениям. По единой шкале, честно, особенно по rigor и reproducibility.
Умножьте на веса и сложите. Используйте формулу выше или таблицу.
Посмотрите на вклад каждого измерения. Где низкий балл совпал с большим весом — туда и направьте проверку.
Решите судьбу находки. Принять как черновик, отправить на доработку или отбраковать. Рубрика помогает решению, но не заменяет его.

Ключевые выводы

ScholarEval — восьмимерная рубрика валидации из Kosmos; итог считается как взвешенная сумма оценок.
Точные веса: rigor 0.25, impact 0.20, novelty 0.15, reproducibility 0.15, clarity 0.10, coherence 0.10, limitations 0.03, ethics 0.02.
Четвёрка rigor, impact, novelty и reproducibility определяет три четверти итоговой оценки.
Вывод агента часто проседает там, где веса тяжелее всего: строгость метода и воспроизводимость.
Рубрика не делает оценку объективной — она не даёт забыть проверить то, что легко упустить за гладким текстом.

Следующий урок

Урок 2: Этика и риски — чек-лист ответственного использования — разберём, что бывает, когда находку не проверяют, и соберём явный чек-лист.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Урок 1: Как валидировать вывод агента — рубрика ScholarEval

Валидация, этика и оформление

Чему вы научитесь

Зачем формальная рубрика

Восемь измерений и их веса

Как считать итог

Пример: применяем рубрику к находке

Порядок применения

Следующий урок

Урок 2: Метрики и честная валидация

Observability и оценка качества диалогов

Урок 2: Безопасное исполнение кода ИИ

Урок 1: Архитектура multi-agent — роли субагентов

// Обсуждение

Чему вы научитесь

Зачем формальная рубрика

Восемь измерений и их веса

Как считать итог

Пример: применяем рубрику к находке

Порядок применения

Следующий урок

Связанные уроки

Урок 2: Метрики и честная валидация

Observability и оценка качества диалогов

Урок 2: Безопасное исполнение кода ИИ

Урок 1: Архитектура multi-agent — роли субагентов

// Обсуждение