Модуль md.4 · Урок 2

Дообучение медицинской модели: SFT и GRPO (учебно)

40 мин

Содержание

Чему вы научитесь
Зачем вообще дообучать
Два этапа: чему учит каждый
Какие датасеты используют
Граница: учебно, не клинически
Что дальше

md.4 / Урок 2 из 2

Чему вы научитесь

Понимать на высоком уровне, что такое SFT и GRPO и зачем они нужны
Различать роли двух этапов: научить формату и улучшить поведение
Знать, какие открытые медицинские датасеты используют для учебного дообучения
Удерживать границу: учебная дообученная модель не для клиники

Зачем вообще дообучать

Базовая модель знает «всё понемногу». Для узкой задачи — например, вести медицинский диалог в нужном формате — её дообучают на профильных данных. Это не обязательно для прохождения трека, но важно понимать концептуально: так появляются специализированные offline-модели вроде Meissa.

Открытый туториал из репозитория Awesome-Agentic-Clinical-Dialogue показывает связку двух этапов: сначала SFT, потом GRPO. Разберём идею каждого без погружения в математику.

flowchart LR
    BASE["Базовая модель"] --> SFT["SFT:\nучим формату на примерах"]
    SFT --> GRPO["GRPO:\nулучшаем поведение\nпо сигналу качества"]
    GRPO --> M["Учебная медицинская\nмодель"]
    style SFT fill:#eef2ff,stroke:#4400FF
    style GRPO fill:#fef3c7,stroke:#d97706
    style M fill:#ecfdf5,stroke:#059669

Два этапа: чему учит каждый

Этап	Что делает	Аналогия
SFT (supervised fine-tuning)	Учит на парах «вход — желаемый ответ»	Показываем образцы, модель копирует формат
GRPO	Улучшает поведение по сигналу награды за качество	Поощряем хорошие ответы, штрафуем плохие

SFT задаёт «как выглядит правильный ответ». GRPO потом подталкивает модель давать более полезные и безопасные ответы, опираясь на оценку их качества. В туториале это делают на компактной модели (Qwen2.5-3B), с LoRA и 4-битной квантизацией, чтобы влезть в скромное железо.

Какие датасеты используют

Для учебного дообучения берут открытые диалоговые датасеты, а не реальные записи пациентов.

Датасет	Что внутри
ChatDoctor-HealthCareMagic-100k	Диалоги «вопрос пациента — ответ»
medical_meadow	Сборник медицинских инструкций и QA
MedQA / PubMedQA	Вопросы для оценки знаний (из модуля md.1)

Граница: учебно, не клинически

Дообученная по туториалу модель — это упражнение в понимании кастомизации, а не готовый продукт.

Если вы захотите углубиться, помните о двух якорях из всего трека: достоверность (модуль md.1) и регуляторика (модуль md.5). Дообученная модель не освобождает от них, а наоборот — добавляет ответственности за её поведение.

Что дальше

Технические навыки собраны. Финальный модуль — регуляторика, этика и капстоун. Начните с md.5/01.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.