Модуль md.1 · Урок 3

Бенчмарки и проверка: MedQA, PubMedQA, MedHallu

40 мин

Содержание

Чему вы научитесь
Зачем вообще бенчмарки
Что измеряет каждый
Как читать результаты без самообмана
Заявленные цифры репозиториев — с осторожностью
Что дальше

md.1 / Урок 3 из 3

Чему вы научитесь

Понимать, что именно измеряет каждый из ключевых медицинских бенчмарков
Читать результаты так, чтобы не принять балл на тесте за клиническую пригодность
Использовать MedHallu для проверки склонности агента к галлюцинациям
Видеть разницу между «знает ответ» и «безопасен для пациента»

Зачем вообще бенчмарки

Когда агент уже умеет отвечать с цитатами, возникает вопрос: насколько хорошо он это делает. Бенчмарк — это стандартный набор вопросов с известными правильными ответами. Он даёт сравнимое число, но измеряет узкий срез способностей, а не клиническую пригодность.

Три бенчмарка задают разные вопросы о модели. Полезно держать их вместе, а не выбирать один.

Бенчмарк	Что измеряет	Формат	Ссылка
MedQA	Медицинские знания уровня экзамена	Вопросы с вариантами (USMLE-стиль)	github
PubMedQA	Понимание научной литературы	Да / нет / возможно по абстракту	github
MedHallu	Склонность к галлюцинациям	Распознать ложное утверждение	github

Что измеряет каждый

MedQA проверяет, знает ли модель медицину на уровне экзаменационных вопросов. Высокий балл говорит об эрудиции, но не о том, что модель не выдумает дозу в свободном диалоге.

PubMedQA ближе к ресёрчу: по абстракту статьи нужно ответить «да», «нет» или «возможно». Это про работу с литературой, а не про ведение пациента.

MedHallu — самый важный для нашего трека. Он измеряет не знания, а устойчивость к галлюцинациям: способность распознать и не подтвердить ложное медицинское утверждение. Именно эту ось мы тренировали весь модуль.

Как читать результаты без самообмана

Высокий балл легко переоценить. Несколько ловушек, о которых стоит помнить.

flowchart TD
    B["Высокий балл\nна бенчмарке"] --> Q1{"Это тот же формат,\nчто ваша задача?"}
    Q1 -->|"нет"| W1["Балл нерелевантен\nвашему сценарию"]
    Q1 -->|"да"| Q2{"Данные теста не\nпопали в обучение?"}
    Q2 -->|"не уверены"| W2["Возможна утечка,\nбалл завышен"]
    Q2 -->|"да"| Q3{"Тест измеряет\nбезопасность?"}
    Q3 -->|"нет"| W3["Знания есть,\nриск не измерен"]
    Q3 -->|"да"| OK["Балл осмыслен\n(но всё равно не клиника)"]
    style W1 fill:#fee2e2,stroke:#DC2626
    style W2 fill:#fee2e2,stroke:#DC2626
    style W3 fill:#fef3c7,stroke:#d97706
    style OK fill:#ecfdf5,stroke:#059669

Главные ловушки: несовпадение формата теста и вашей задачи, утечка тестовых данных в обучение (тогда модель «помнит» ответы) и подмена понятий — знания измерены, а безопасность нет.

Заявленные цифры репозиториев — с осторожностью

Открытые проекты любят громкие заявления вроде «matches or exceeds frontier agents». В исходных репозиториях встречаются и неподтверждённые идентификаторы моделей в таблицах сравнения. Относитесь к таким цифрам как к заявлениям авторов, а не как к клинической валидации, и проверяйте методику.

Что дальше

Достоверность освоена. Следующий модуль — практика: собираем безопасное ядро, медицинский agentic-RAG. Начните с md.2/01.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Бенчмарки и проверка: MedQA, PubMedQA, MedHallu

Достоверность — фундамент всего

Чему вы научитесь

Зачем вообще бенчмарки

Что измеряет каждый

Как читать результаты без самообмана

Заявленные цифры репозиториев — с осторожностью

Что дальше

Risk-rules и рыночные бенчмарки: настраиваем оценку риска

Цитаты и first-source workflow: Grade A/B/C

Урок 5: Что уже внедрено в РФ-промышленности — ориентиры, куда можно дорасти

Урок 2: Сроки окупаемости по классам AI-проектов — чего реалистично ждать

// Обсуждение

Чему вы научитесь

Зачем вообще бенчмарки

Что измеряет каждый

Как читать результаты без самообмана

Заявленные цифры репозиториев — с осторожностью

Что дальше

Связанные уроки

Risk-rules и рыночные бенчмарки: настраиваем оценку риска

Цитаты и first-source workflow: Grade A/B/C

Урок 5: Что уже внедрено в РФ-промышленности — ориентиры, куда можно дорасти

Урок 2: Сроки окупаемости по классам AI-проектов — чего реалистично ждать

// Обсуждение