Модуль md.4 · Урок 2
Дообучение медицинской модели: SFT и GRPO (учебно)
Чему вы научитесь
- Понимать на высоком уровне, что такое SFT и GRPO и зачем они нужны
- Различать роли двух этапов: научить формату и улучшить поведение
- Знать, какие открытые медицинские датасеты используют для учебного дообучения
- Удерживать границу: учебная дообученная модель не для клиники
Зачем вообще дообучать
Базовая модель знает «всё понемногу». Для узкой задачи — например, вести медицинский диалог в нужном формате — её дообучают на профильных данных. Это не обязательно для прохождения трека, но важно понимать концептуально: так появляются специализированные offline-модели вроде Meissa.
Открытый туториал из репозитория Awesome-Agentic-Clinical-Dialogue показывает связку двух этапов: сначала SFT, потом GRPO. Разберём идею каждого без погружения в математику.
flowchart LR
BASE["Базовая модель"] --> SFT["SFT:\nучим формату на примерах"]
SFT --> GRPO["GRPO:\nулучшаем поведение\nпо сигналу качества"]
GRPO --> M["Учебная медицинская\nмодель"]
style SFT fill:#eef2ff,stroke:#4400FF
style GRPO fill:#fef3c7,stroke:#d97706
style M fill:#ecfdf5,stroke:#059669
Два этапа: чему учит каждый
| Этап | Что делает | Аналогия |
|---|---|---|
| SFT (supervised fine-tuning) | Учит на парах «вход — желаемый ответ» | Показываем образцы, модель копирует формат |
| GRPO | Улучшает поведение по сигналу награды за качество | Поощряем хорошие ответы, штрафуем плохие |
SFT задаёт «как выглядит правильный ответ». GRPO потом подталкивает модель давать более полезные и безопасные ответы, опираясь на оценку их качества. В туториале это делают на компактной модели (Qwen2.5-3B), с LoRA и 4-битной квантизацией, чтобы влезть в скромное железо.
Какие датасеты используют
Для учебного дообучения берут открытые диалоговые датасеты, а не реальные записи пациентов.
| Датасет | Что внутри |
|---|---|
| ChatDoctor-HealthCareMagic-100k | Диалоги «вопрос пациента — ответ» |
| medical_meadow | Сборник медицинских инструкций и QA |
| MedQA / PubMedQA | Вопросы для оценки знаний (из модуля md.1) |
Граница: учебно, не клинически
Дообученная по туториалу модель — это упражнение в понимании кастомизации, а не готовый продукт.
Если вы захотите углубиться, помните о двух якорях из всего трека: достоверность (модуль md.1) и регуляторика (модуль md.5). Дообученная модель не освобождает от них, а наоборот — добавляет ответственности за её поведение.
Что дальше
Технические навыки собраны. Финальный модуль — регуляторика, этика и капстоун. Начните с md.5/01.