Модуль md.1 · Урок 3
Бенчмарки и проверка: MedQA, PubMedQA, MedHallu
Чему вы научитесь
- Понимать, что именно измеряет каждый из ключевых медицинских бенчмарков
- Читать результаты так, чтобы не принять балл на тесте за клиническую пригодность
- Использовать MedHallu для проверки склонности агента к галлюцинациям
- Видеть разницу между «знает ответ» и «безопасен для пациента»
Зачем вообще бенчмарки
Когда агент уже умеет отвечать с цитатами, возникает вопрос: насколько хорошо он это делает. Бенчмарк — это стандартный набор вопросов с известными правильными ответами. Он даёт сравнимое число, но измеряет узкий срез способностей, а не клиническую пригодность.
Три бенчмарка задают разные вопросы о модели. Полезно держать их вместе, а не выбирать один.
| Бенчмарк | Что измеряет | Формат | Ссылка |
|---|---|---|---|
| MedQA | Медицинские знания уровня экзамена | Вопросы с вариантами (USMLE-стиль) | github |
| PubMedQA | Понимание научной литературы | Да / нет / возможно по абстракту | github |
| MedHallu | Склонность к галлюцинациям | Распознать ложное утверждение | github |
Что измеряет каждый
MedQA проверяет, знает ли модель медицину на уровне экзаменационных вопросов. Высокий балл говорит об эрудиции, но не о том, что модель не выдумает дозу в свободном диалоге.
PubMedQA ближе к ресёрчу: по абстракту статьи нужно ответить «да», «нет» или «возможно». Это про работу с литературой, а не про ведение пациента.
MedHallu — самый важный для нашего трека. Он измеряет не знания, а устойчивость к галлюцинациям: способность распознать и не подтвердить ложное медицинское утверждение. Именно эту ось мы тренировали весь модуль.
Как читать результаты без самообмана
Высокий балл легко переоценить. Несколько ловушек, о которых стоит помнить.
flowchart TD
B["Высокий балл\nна бенчмарке"] --> Q1{"Это тот же формат,\nчто ваша задача?"}
Q1 -->|"нет"| W1["Балл нерелевантен\nвашему сценарию"]
Q1 -->|"да"| Q2{"Данные теста не\nпопали в обучение?"}
Q2 -->|"не уверены"| W2["Возможна утечка,\nбалл завышен"]
Q2 -->|"да"| Q3{"Тест измеряет\nбезопасность?"}
Q3 -->|"нет"| W3["Знания есть,\nриск не измерен"]
Q3 -->|"да"| OK["Балл осмыслен\n(но всё равно не клиника)"]
style W1 fill:#fee2e2,stroke:#DC2626
style W2 fill:#fee2e2,stroke:#DC2626
style W3 fill:#fef3c7,stroke:#d97706
style OK fill:#ecfdf5,stroke:#059669
Главные ловушки: несовпадение формата теста и вашей задачи, утечка тестовых данных в обучение (тогда модель «помнит» ответы) и подмена понятий — знания измерены, а безопасность нет.
Заявленные цифры репозиториев — с осторожностью
Открытые проекты любят громкие заявления вроде «matches or exceeds frontier agents». В исходных репозиториях встречаются и неподтверждённые идентификаторы моделей в таблицах сравнения. Относитесь к таким цифрам как к заявлениям авторов, а не как к клинической валидации, и проверяйте методику.
Что дальше
Достоверность освоена. Следующий модуль — практика: собираем безопасное ядро, медицинский agentic-RAG. Начните с md.2/01.