Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль md.4 · Урок 2

Дообучение медицинской модели: SFT и GRPO (учебно)

40 мин
md.4 / Урок 2 из 2

Чему вы научитесь

  • Понимать на высоком уровне, что такое SFT и GRPO и зачем они нужны
  • Различать роли двух этапов: научить формату и улучшить поведение
  • Знать, какие открытые медицинские датасеты используют для учебного дообучения
  • Удерживать границу: учебная дообученная модель не для клиники

Зачем вообще дообучать

Базовая модель знает «всё понемногу». Для узкой задачи — например, вести медицинский диалог в нужном формате — её дообучают на профильных данных. Это не обязательно для прохождения трека, но важно понимать концептуально: так появляются специализированные offline-модели вроде Meissa.

Открытый туториал из репозитория Awesome-Agentic-Clinical-Dialogue показывает связку двух этапов: сначала SFT, потом GRPO. Разберём идею каждого без погружения в математику.

flowchart LR
    BASE["Базовая модель"] --> SFT["SFT:\nучим формату на примерах"]
    SFT --> GRPO["GRPO:\nулучшаем поведение\nпо сигналу качества"]
    GRPO --> M["Учебная медицинская\nмодель"]
    style SFT fill:#eef2ff,stroke:#4400FF
    style GRPO fill:#fef3c7,stroke:#d97706
    style M fill:#ecfdf5,stroke:#059669

Два этапа: чему учит каждый

ЭтапЧто делаетАналогия
SFT (supervised fine-tuning)Учит на парах «вход — желаемый ответ»Показываем образцы, модель копирует формат
GRPOУлучшает поведение по сигналу награды за качествоПоощряем хорошие ответы, штрафуем плохие

SFT задаёт «как выглядит правильный ответ». GRPO потом подталкивает модель давать более полезные и безопасные ответы, опираясь на оценку их качества. В туториале это делают на компактной модели (Qwen2.5-3B), с LoRA и 4-битной квантизацией, чтобы влезть в скромное железо.


Какие датасеты используют

Для учебного дообучения берут открытые диалоговые датасеты, а не реальные записи пациентов.

ДатасетЧто внутри
ChatDoctor-HealthCareMagic-100kДиалоги «вопрос пациента — ответ»
medical_meadowСборник медицинских инструкций и QA
MedQA / PubMedQAВопросы для оценки знаний (из модуля md.1)

Граница: учебно, не клинически

Дообученная по туториалу модель — это упражнение в понимании кастомизации, а не готовый продукт.

Если вы захотите углубиться, помните о двух якорях из всего трека: достоверность (модуль md.1) и регуляторика (модуль md.5). Дообученная модель не освобождает от них, а наоборот — добавляет ответственности за её поведение.


Что дальше

Технические навыки собраны. Финальный модуль — регуляторика, этика и капстоун. Начните с md.5/01.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.