Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль md.1 · Урок 3

Бенчмарки и проверка: MedQA, PubMedQA, MedHallu

40 мин
md.1 / Урок 3 из 3

Чему вы научитесь

  • Понимать, что именно измеряет каждый из ключевых медицинских бенчмарков
  • Читать результаты так, чтобы не принять балл на тесте за клиническую пригодность
  • Использовать MedHallu для проверки склонности агента к галлюцинациям
  • Видеть разницу между «знает ответ» и «безопасен для пациента»

Зачем вообще бенчмарки

Когда агент уже умеет отвечать с цитатами, возникает вопрос: насколько хорошо он это делает. Бенчмарк — это стандартный набор вопросов с известными правильными ответами. Он даёт сравнимое число, но измеряет узкий срез способностей, а не клиническую пригодность.

Три бенчмарка задают разные вопросы о модели. Полезно держать их вместе, а не выбирать один.

БенчмаркЧто измеряетФорматСсылка
MedQAМедицинские знания уровня экзаменаВопросы с вариантами (USMLE-стиль)github
PubMedQAПонимание научной литературыДа / нет / возможно по абстрактуgithub
MedHalluСклонность к галлюцинациямРаспознать ложное утверждениеgithub

Что измеряет каждый

MedQA проверяет, знает ли модель медицину на уровне экзаменационных вопросов. Высокий балл говорит об эрудиции, но не о том, что модель не выдумает дозу в свободном диалоге.

PubMedQA ближе к ресёрчу: по абстракту статьи нужно ответить «да», «нет» или «возможно». Это про работу с литературой, а не про ведение пациента.

MedHallu — самый важный для нашего трека. Он измеряет не знания, а устойчивость к галлюцинациям: способность распознать и не подтвердить ложное медицинское утверждение. Именно эту ось мы тренировали весь модуль.


Как читать результаты без самообмана

Высокий балл легко переоценить. Несколько ловушек, о которых стоит помнить.

flowchart TD
    B["Высокий балл\nна бенчмарке"] --> Q1{"Это тот же формат,\nчто ваша задача?"}
    Q1 -->|"нет"| W1["Балл нерелевантен\nвашему сценарию"]
    Q1 -->|"да"| Q2{"Данные теста не\nпопали в обучение?"}
    Q2 -->|"не уверены"| W2["Возможна утечка,\nбалл завышен"]
    Q2 -->|"да"| Q3{"Тест измеряет\nбезопасность?"}
    Q3 -->|"нет"| W3["Знания есть,\nриск не измерен"]
    Q3 -->|"да"| OK["Балл осмыслен\n(но всё равно не клиника)"]
    style W1 fill:#fee2e2,stroke:#DC2626
    style W2 fill:#fee2e2,stroke:#DC2626
    style W3 fill:#fef3c7,stroke:#d97706
    style OK fill:#ecfdf5,stroke:#059669

Главные ловушки: несовпадение формата теста и вашей задачи, утечка тестовых данных в обучение (тогда модель «помнит» ответы) и подмена понятий — знания измерены, а безопасность нет.


Заявленные цифры репозиториев — с осторожностью

Открытые проекты любят громкие заявления вроде «matches or exceeds frontier agents». В исходных репозиториях встречаются и неподтверждённые идентификаторы моделей в таблицах сравнения. Относитесь к таким цифрам как к заявлениям авторов, а не как к клинической валидации, и проверяйте методику.


Что дальше

Достоверность освоена. Следующий модуль — практика: собираем безопасное ядро, медицинский agentic-RAG. Начните с md.2/01.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.