Модуль t.4 · Урок 2

Урок t.4.2: Эталонный ответ сначала, оценка потом

~25 мин

Содержание

Чему научитесь
Знакомая ловушка: «всё прекрасно»
Корень проблемы: помощнику не с чем сравнивать
Приём: сначала эталон, потом оценка
Как это выглядит на практике
Чем результат отличается от обычной проверки
Где приём особенно выручает
Частые вопросы
Ещё одна страховка

t.4 / Урок 2 из 4

Чему научитесь

Понимать, почему ИИ-помощник склонен завышать оценки и хвалить ученика «из вежливости»
Собирать простой двухшаговый конвейер: сначала эталон, потом сравнение с ним
Писать оба промпта так, чтобы оценка опиралась на образец, а не на настроение нейросети
Оставлять финальное слово за собой — ИИ готовит черновик разбора, балл ставит учитель

Для практики используем arckep.ru — основные ИИ-модели, без VPN, оплата рублями. Можно взять любой другой сервис, приём от этого не меняется.

Знакомая ловушка: «всё прекрасно»

Вы скидываете ИИ-помощнику сочинение ученика и просите оценить. В ответ — поток комплиментов: «глубокая мысль», «хорошая структура», «чувствуется старание». Балл — высокий. А вы читаете ту же работу и видите: тезис не раскрыт, два абзаца не по теме, вывод повторяет вступление.

Это не случайность и не ваш конкретный «добрый» чат. Нейросети обучены быть приятными собеседниками — соглашаться, поддерживать, не расстраивать. Когда такой помощник видит ученическую работу, он по привычке ищет, за что похвалить, а не за что снизить балл.

Исследования фиксируют эту склонность: ИИ-ассистенты в среднем завышают оценки и тяготеют к мягкой, ободряющей обратной связи. Конкретные цифры по таким работам мы тут не приводим — они сильно зависят от задания и модели, и без отдельной проверки им верить не стоит. Но направление перекоса устойчивое: вверх, а не вниз.

Важно понимать: это не «глупость» нейросети и не сбой. Помощника таким сделали намеренно. Его учили быть полезным и приятным собеседником, потому что в большинстве задач — написать письмо, объяснить тему, поддержать в разговоре — мягкость и есть полезность. Беда в том, что оценивание работ устроено ровно наоборот: тут полезно как раз заметить слабое место, а не сгладить его. Инструмент, заточенный под доброжелательность, мы используем там, где нужна требовательность. Отсюда и перекос — и наша задача его поправить, а не ждать, что помощник сам станет строже.

Корень проблемы: помощнику не с чем сравнивать

Разберём, что происходит внутри, когда вы просите «оцени эту работу». У помощника на руках только текст ученика — и больше ничего. Нет образца сильного ответа, нет вашего понимания, как выглядит «отлично» по этому заданию.

В такой ситуации нейросеть оценивает работу саму по себе: связно написано, ошибок в словах нет, мысль вроде есть — значит, хорошо. Ей не от чего оттолкнуться, чтобы сказать «а вот тут до нужного уровня далеко».

Представьте, что вы попросили нового коллегу проверить контрольную, но не дали ему ни ключа с правильными ответами, ни критериев. Он будет ставить баллы «на глаз» и, скорее всего, тоже мягко — людям тоже неловко рубить с плеча. Помощнику нужен тот самый ключ. И самое удобное — пусть он сам себе его и составит, до того как увидит работу ученика.

Можно возразить: а если просто дать помощнику ваши критерии оценивания? Это помогает, но слабее. Критерии — это абстракция: «раскрытие темы», «логичность», «аргументация». Под такие слова легко подвести почти любой связный текст, и помощник снова найдёт, за что похвалить. Эталонный ответ конкретнее любого критерия: это живой образец, с которым работу ученика можно сопоставить дословно. Где критерий говорит «должна быть аргументация», эталон показывает, какая именно аргументация ожидается. Сравнивать с образцом всегда проще и честнее, чем с формулировкой.

Приём: сначала эталон, потом оценка

Идея простая. Мы не даём ИИ оценивать вслепую. Мы разбиваем работу на два шага.

Сначала — отдельным запросом — просим помощника написать эталонный ответ на то же задание. Образец того, как выглядела бы сильная работа: полная, по теме, с раскрытым тезисом. На этом шаге ученическую работу мы ещё не показываем вообще.

Потом — вторым запросом — даём работу ученика и просим сравнить её с эталоном: что совпадает, чего не хватает, где ученик ушёл в сторону. Теперь у помощника есть точка отсчёта. Оценка опирается на образец, а не на вежливость.

flowchart TD
    A[Задание для учеников] --> B[Шаг 1: ИИ пишет эталонный ответ]
    B --> C[Эталон — образец сильной работы]
    D[Работа ученика] --> E[Шаг 2: ИИ сравнивает работу с эталоном]
    C --> E
    E --> F[Список расхождений: что есть, чего нет]
    F --> G[Учитель читает разбор и ставит балл]

Обратите внимание на последний прямоугольник. ИИ не ставит оценку. Он показывает расхождения между работой и образцом — а балл ставит учитель, потому что только учитель знает контекст: что проходили, что разрешалось, насколько строго оценивать именно этот класс.

Как это выглядит на практике

Возьмём короткое задание по обществознанию: «Объясни, чем отличается право от морали, приведи пример». Соберём конвейер из двух шагов.

Шаг 1. Просим эталон, не показывая работу ученика. Открываете чат и пишете запрос на образцовый ответ — без единого слова про конкретного ученика. Помощник пишет «как надо».
Читаете эталон и правите под себя. Это важный момент: эталон от ИИ — черновик. Где-то он перемудрил, где-то упустил то, что вы давали на уроке. Подгоняете под свою программу.
Шаг 2. В том же чате даёте работу ученика и просите сравнить. Теперь у помощника есть и образец, и работа. Просите показать расхождения, а не ставить балл.
Читаете разбор и ставите оценку сами. Список расхождений — это заготовка для обратной связи. Балл и финальные слова — за вами.

Вот как могут выглядеть оба промпта. Скопируйте и подставьте своё задание.

Промпт шага 1 — эталон:

Ты опытный учитель обществознания. Напиши эталонный ответ
на это задание для 9 класса — образец сильной работы.

Задание: «Объясни, чем отличается право от морали,
приведи один пример».

Требования к эталону:
- раскрой главное отличие чётко, в 2-3 предложениях
- приведи один конкретный жизненный пример
- объём — как ждём от девятиклассника, не больше
- без воды и общих фраз

Не оценивай ничего, просто напиши образцовый ответ.

Промпт шага 2 — сравнение:

Выше — эталонный ответ на это задание. Теперь сравни
с ним работу ученика.

Работа ученика:
«[вставляете текст ученика]»

Покажи списком:
- что в работе совпадает с эталоном
- чего из эталона не хватает
- что ученик написал не по теме или с ошибкой

Балл НЕ ставь. Только сравнение с образцом.
В конце — 2-3 фразы поддержки для ученика по делу,
без общих комплиментов.

Чем результат отличается от обычной проверки

Сравним два подхода на одной и той же работе ученика.

Просто «оцени работу»	Сначала эталон, потом сравнение
Помощник хвалит то, что видит	Помощник видит, чего не хватает до образца
Балл завышен, перекос вверх	Оценка привязана к конкретному образцу
«Молодец, хорошая работа»	«Тезис есть, примера нет, абзац 2 не по теме»
Учителю нечего проверить	Учитель видит конкретные расхождения

Разница не в том, что второй подход «строже». Он конкретнее. Вместо размытого «хорошо» вы получаете список: вот это совпало с образцом, вот этого нет. С таким списком вы за минуту решаете, какой балл честный, и пишете ученику по делу.

Зачем мы просим ИИ написать эталонный ответ ДО того, как покажем работу ученика?

Чтобы сэкономить запросы и времяЧтобы помощник не подгонял планку под уже увиденную работуЧтобы ученик не видел правильный ответЧтобы ИИ сразу поставил точный балл

Где приём особенно выручает

Приём не для каждой работы. На простом тесте с одним правильным ответом эталон не нужен — там и так понятно, верно или нет. Он раскрывается там, где ответ развёрнутый и «на глаз» легко переоценить.

Короткие письменные ответы — определения, объяснения, мини-рассуждения. Помощник любит хвалить за «складно написано», даже если по сути мимо.
Решения задач с обоснованием — где важен не только ответ, но и ход мысли. Эталон показывает, какие шаги должны быть.
Сочинения и эссе по чёткому заданию — когда есть понятная планка: раскрыт тезис, есть аргументы, есть вывод.

Частые вопросы

А если эталон от ИИ окажется хуже, чем у сильного ученика?

Бывает. Поэтому шаг с вашей правкой эталона обязателен. Вы читаете образец и доводите его до того уровня, который реально ждёте. ИИ даёт черновик планки — финальную планку задаёте вы.

Это не делает оценку слишком жёсткой?

Нет. Приём убирает завышение, а не добавляет занижение. Вы по-прежнему ставите балл сами и решаете, насколько строго. Просто теперь решаете, глядя на конкретные расхождения, а не на поток комплиментов.

Сколько времени это занимает на пачку работ?

Эталон пишется один раз на задание, а не на каждого ученика. Дальше второй шаг повторяете для каждой работы — это быстро, потому что образец уже готов и лежит в том же чате.

Ещё одна страховка

Помимо порядка шагов, помогает прямая инструкция помощнику быть честным. В промпте шага 2 можно добавить строку: «Не сглаживай. Если работа слабая — так и скажи, с указанием, чего именно не хватает». Это не отменяет двухшаговый приём, но дополнительно сбивает настройку «хвалить из вежливости».

И всё же главным предохранителем остаётся не формулировка, а ваше решение. ИИ-помощник — это второй взгляд и заготовка разбора, экономящая вам минуты на каждой работе. Балл, тон обратной связи и решение, к чему вернуть ученика, — за учителем. Нейросеть готовит, учитель решает.

Соберите свой конвейер

Возьмите одно реальное задание, которое скоро будете проверять — короткий письменный ответ или мини-эссе. Напишите промпт шага 1 и получите эталон. Поправьте его под свою программу. Затем прогоните через шаг 2 две-три работы учеников. Сравните: совпал ли разбор ИИ с тем, что вы сами видите в работах? Где помощник всё ещё мягчит, а где попал точно?

Ключевые выводы

ИИ-помощники склонны завышать оценки и хвалить «из вежливости» — это отмечают исследования, и в оценивании это вредит ученику.
Корень в том, что помощнику не с чем сравнивать: он оценивает работу саму по себе, без образца.
Приём «сначала эталон» решает это в два шага: ИИ пишет образцовый ответ, не видя работу ученика, и только потом сравнивает с ним.
Два отдельных запроса важнее одного: иначе помощник подгоняет планку под уже увиденную работу.
Финальное слово за учителем — ИИ показывает расхождения с образцом, а балл и обратную связь даёте вы.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Урок t.4.2: Эталонный ответ сначала, оценка потом

Проверка работ и обратная связь

Чему научитесь

Знакомая ловушка: «всё прекрасно»

Корень проблемы: помощнику не с чем сравнивать

Приём: сначала эталон, потом оценка

Как это выглядит на практике

Чем результат отличается от обычной проверки

Где приём особенно выручает

Частые вопросы

Ещё одна страховка

Диагностические дистракторы: тест, который показывает, ГДЕ ошибся ученик

Тест через таблицу спецификаций: как заказать ИИ сбалансированную проверочную

Урок t.3.3: Вопросы по таксономии Блума — сложность через глагол

Курс на семестр: агентский конвейер

// Обсуждение

Чему научитесь

Знакомая ловушка: «всё прекрасно»

Корень проблемы: помощнику не с чем сравнивать

Приём: сначала эталон, потом оценка

Как это выглядит на практике

Чем результат отличается от обычной проверки

Где приём особенно выручает

Частые вопросы

Ещё одна страховка

Связанные уроки

Диагностические дистракторы: тест, который показывает, ГДЕ ошибся ученик

Тест через таблицу спецификаций: как заказать ИИ сбалансированную проверочную

Урок t.3.3: Вопросы по таксономии Блума — сложность через глагол

Курс на семестр: агентский конвейер

// Обсуждение