Модуль t.4 · Урок 2
Урок t.4.2: Эталонный ответ сначала, оценка потом
Чему научитесь
- Понимать, почему ИИ-помощник склонен завышать оценки и хвалить ученика «из вежливости»
- Собирать простой двухшаговый конвейер: сначала эталон, потом сравнение с ним
- Писать оба промпта так, чтобы оценка опиралась на образец, а не на настроение нейросети
- Оставлять финальное слово за собой — ИИ готовит черновик разбора, балл ставит учитель
Для практики используем arckep.ru — основные ИИ-модели, без VPN, оплата рублями. Можно взять любой другой сервис, приём от этого не меняется.
Знакомая ловушка: «всё прекрасно»
Вы скидываете ИИ-помощнику сочинение ученика и просите оценить. В ответ — поток комплиментов: «глубокая мысль», «хорошая структура», «чувствуется старание». Балл — высокий. А вы читаете ту же работу и видите: тезис не раскрыт, два абзаца не по теме, вывод повторяет вступление.
Это не случайность и не ваш конкретный «добрый» чат. Нейросети обучены быть приятными собеседниками — соглашаться, поддерживать, не расстраивать. Когда такой помощник видит ученическую работу, он по привычке ищет, за что похвалить, а не за что снизить балл.
Исследования фиксируют эту склонность: ИИ-ассистенты в среднем завышают оценки и тяготеют к мягкой, ободряющей обратной связи. Конкретные цифры по таким работам мы тут не приводим — они сильно зависят от задания и модели, и без отдельной проверки им верить не стоит. Но направление перекоса устойчивое: вверх, а не вниз.
Важно понимать: это не «глупость» нейросети и не сбой. Помощника таким сделали намеренно. Его учили быть полезным и приятным собеседником, потому что в большинстве задач — написать письмо, объяснить тему, поддержать в разговоре — мягкость и есть полезность. Беда в том, что оценивание работ устроено ровно наоборот: тут полезно как раз заметить слабое место, а не сгладить его. Инструмент, заточенный под доброжелательность, мы используем там, где нужна требовательность. Отсюда и перекос — и наша задача его поправить, а не ждать, что помощник сам станет строже.
Корень проблемы: помощнику не с чем сравнивать
Разберём, что происходит внутри, когда вы просите «оцени эту работу». У помощника на руках только текст ученика — и больше ничего. Нет образца сильного ответа, нет вашего понимания, как выглядит «отлично» по этому заданию.
В такой ситуации нейросеть оценивает работу саму по себе: связно написано, ошибок в словах нет, мысль вроде есть — значит, хорошо. Ей не от чего оттолкнуться, чтобы сказать «а вот тут до нужного уровня далеко».
Представьте, что вы попросили нового коллегу проверить контрольную, но не дали ему ни ключа с правильными ответами, ни критериев. Он будет ставить баллы «на глаз» и, скорее всего, тоже мягко — людям тоже неловко рубить с плеча. Помощнику нужен тот самый ключ. И самое удобное — пусть он сам себе его и составит, до того как увидит работу ученика.
Можно возразить: а если просто дать помощнику ваши критерии оценивания? Это помогает, но слабее. Критерии — это абстракция: «раскрытие темы», «логичность», «аргументация». Под такие слова легко подвести почти любой связный текст, и помощник снова найдёт, за что похвалить. Эталонный ответ конкретнее любого критерия: это живой образец, с которым работу ученика можно сопоставить дословно. Где критерий говорит «должна быть аргументация», эталон показывает, какая именно аргументация ожидается. Сравнивать с образцом всегда проще и честнее, чем с формулировкой.
Приём: сначала эталон, потом оценка
Идея простая. Мы не даём ИИ оценивать вслепую. Мы разбиваем работу на два шага.
Сначала — отдельным запросом — просим помощника написать эталонный ответ на то же задание. Образец того, как выглядела бы сильная работа: полная, по теме, с раскрытым тезисом. На этом шаге ученическую работу мы ещё не показываем вообще.
Потом — вторым запросом — даём работу ученика и просим сравнить её с эталоном: что совпадает, чего не хватает, где ученик ушёл в сторону. Теперь у помощника есть точка отсчёта. Оценка опирается на образец, а не на вежливость.
flowchart TD
A[Задание для учеников] --> B[Шаг 1: ИИ пишет эталонный ответ]
B --> C[Эталон — образец сильной работы]
D[Работа ученика] --> E[Шаг 2: ИИ сравнивает работу с эталоном]
C --> E
E --> F[Список расхождений: что есть, чего нет]
F --> G[Учитель читает разбор и ставит балл]
Обратите внимание на последний прямоугольник. ИИ не ставит оценку. Он показывает расхождения между работой и образцом — а балл ставит учитель, потому что только учитель знает контекст: что проходили, что разрешалось, насколько строго оценивать именно этот класс.
Как это выглядит на практике
Возьмём короткое задание по обществознанию: «Объясни, чем отличается право от морали, приведи пример». Соберём конвейер из двух шагов.
- Шаг 1. Просим эталон, не показывая работу ученика. Открываете чат и пишете запрос на образцовый ответ — без единого слова про конкретного ученика. Помощник пишет «как надо».
- Читаете эталон и правите под себя. Это важный момент: эталон от ИИ — черновик. Где-то он перемудрил, где-то упустил то, что вы давали на уроке. Подгоняете под свою программу.
- Шаг 2. В том же чате даёте работу ученика и просите сравнить. Теперь у помощника есть и образец, и работа. Просите показать расхождения, а не ставить балл.
- Читаете разбор и ставите оценку сами. Список расхождений — это заготовка для обратной связи. Балл и финальные слова — за вами.
Вот как могут выглядеть оба промпта. Скопируйте и подставьте своё задание.
Промпт шага 1 — эталон:
Ты опытный учитель обществознания. Напиши эталонный ответ
на это задание для 9 класса — образец сильной работы.
Задание: «Объясни, чем отличается право от морали,
приведи один пример».
Требования к эталону:
- раскрой главное отличие чётко, в 2-3 предложениях
- приведи один конкретный жизненный пример
- объём — как ждём от девятиклассника, не больше
- без воды и общих фраз
Не оценивай ничего, просто напиши образцовый ответ.
Промпт шага 2 — сравнение:
Выше — эталонный ответ на это задание. Теперь сравни
с ним работу ученика.
Работа ученика:
«[вставляете текст ученика]»
Покажи списком:
- что в работе совпадает с эталоном
- чего из эталона не хватает
- что ученик написал не по теме или с ошибкой
Балл НЕ ставь. Только сравнение с образцом.
В конце — 2-3 фразы поддержки для ученика по делу,
без общих комплиментов.
Чем результат отличается от обычной проверки
Сравним два подхода на одной и той же работе ученика.
| Просто «оцени работу» | Сначала эталон, потом сравнение |
|---|---|
| Помощник хвалит то, что видит | Помощник видит, чего не хватает до образца |
| Балл завышен, перекос вверх | Оценка привязана к конкретному образцу |
| «Молодец, хорошая работа» | «Тезис есть, примера нет, абзац 2 не по теме» |
| Учителю нечего проверить | Учитель видит конкретные расхождения |
Разница не в том, что второй подход «строже». Он конкретнее. Вместо размытого «хорошо» вы получаете список: вот это совпало с образцом, вот этого нет. С таким списком вы за минуту решаете, какой балл честный, и пишете ученику по делу.
Зачем мы просим ИИ написать эталонный ответ ДО того, как покажем работу ученика?
Где приём особенно выручает
Приём не для каждой работы. На простом тесте с одним правильным ответом эталон не нужен — там и так понятно, верно или нет. Он раскрывается там, где ответ развёрнутый и «на глаз» легко переоценить.
- Короткие письменные ответы — определения, объяснения, мини-рассуждения. Помощник любит хвалить за «складно написано», даже если по сути мимо.
- Решения задач с обоснованием — где важен не только ответ, но и ход мысли. Эталон показывает, какие шаги должны быть.
- Сочинения и эссе по чёткому заданию — когда есть понятная планка: раскрыт тезис, есть аргументы, есть вывод.
Частые вопросы
А если эталон от ИИ окажется хуже, чем у сильного ученика?
Бывает. Поэтому шаг с вашей правкой эталона обязателен. Вы читаете образец и доводите его до того уровня, который реально ждёте. ИИ даёт черновик планки — финальную планку задаёте вы.
Это не делает оценку слишком жёсткой?
Нет. Приём убирает завышение, а не добавляет занижение. Вы по-прежнему ставите балл сами и решаете, насколько строго. Просто теперь решаете, глядя на конкретные расхождения, а не на поток комплиментов.
Сколько времени это занимает на пачку работ?
Эталон пишется один раз на задание, а не на каждого ученика. Дальше второй шаг повторяете для каждой работы — это быстро, потому что образец уже готов и лежит в том же чате.
Ещё одна страховка
Помимо порядка шагов, помогает прямая инструкция помощнику быть честным. В промпте шага 2 можно добавить строку: «Не сглаживай. Если работа слабая — так и скажи, с указанием, чего именно не хватает». Это не отменяет двухшаговый приём, но дополнительно сбивает настройку «хвалить из вежливости».
И всё же главным предохранителем остаётся не формулировка, а ваше решение. ИИ-помощник — это второй взгляд и заготовка разбора, экономящая вам минуты на каждой работе. Балл, тон обратной связи и решение, к чему вернуть ученика, — за учителем. Нейросеть готовит, учитель решает.
Возьмите одно реальное задание, которое скоро будете проверять — короткий письменный ответ или мини-эссе. Напишите промпт шага 1 и получите эталон. Поправьте его под свою программу. Затем прогоните через шаг 2 две-три работы учеников. Сравните: совпал ли разбор ИИ с тем, что вы сами видите в работах? Где помощник всё ещё мягчит, а где попал точно?