Модуль md.3 · Урок 3
Мультимодальность: изображение как подсказка, не приговор
Чему вы научитесь
- Понимать, что делают vision-агенты с медицинскими изображениями
- Объяснять модель «первого прохода»: подсказка специалисту, а не замена
- Видеть, почему изображение — самая зарегулированная зона в РФ
- Распознавать границы и типичные провалы анализа изображений
Что умеют vision-агенты
Современные мультимодальные модели работают не только с текстом, но и с изображениями: рентген, КТ, гистологические препараты. Vision-агенты делают детекцию (отметить подозрительную область) и VQA — отвечают на вопрос по изображению. В открытых работах это часть мультимодальных фреймворков (например, «мышление с картинками» в Meissa Frameworks I–II).
В России именно расшифровка медицинских изображений — самая зрелая зона: подавляющее большинство зарегистрированных ИИ-медизделий относятся к радиологии (по обзорам — 50+ решений, точное число стоит проверять). Реально доступные на рынке РФ примеры — Celsus и платформа «Третье Мнение».
flowchart LR
IMG["Снимок"] --> V["Vision-агент:\nдетекция / VQA"]
V --> H["Подсветка зон\n+ предположения"]
H --> SP["Специалист:\nпроверяет и решает"]
style V fill:#eef2ff,stroke:#4400FF
style SP fill:#fee2e2,stroke:#DC2626
Модель «первого прохода»
Главная безопасная роль vision-агента — первый проход. Он быстро просматривает поток изображений, отмечает подозрительное и расставляет приоритеты. Финальное чтение остаётся за специалистом.
| Подход | Роль агента | Кто решает |
|---|---|---|
| Первый проход | Подсветить и приоритизировать | Специалист |
| Второе мнение | Сравнить со своим выводом | Специалист |
| Автономное чтение | Не применяем в треке | — |
Первые два подхода усиливают специалиста. Третий — автономное чтение без врача — выходит за рамку трека и в большинстве случаев недопустим без регистрации как медизделия.
Где проходят границы
Анализ изображений выглядит особенно убедительно — и именно поэтому опасно переоценивается.
Поэтому vision-агент особенно требователен к рамке: его вывод нельзя показывать пациенту как результат и нельзя использовать без проверки специалистом.
Что дальше
Следующий модуль — про локальные offline-агенты и приватность данных. Начните с md.4/01.