Модуль 5.4 · Урок 3

Замер результатов пилота

25 мин

Практика

Содержание

Чему вы научитесь
Почему нужен A/B тест, а не просто «до/после»
4 ключевые метрики
Как считать стоимость на операцию
Статистическая значимость: объяснение для менеджеров
Сколько операций нужно
Как интерпретировать результаты
Dashboard: что отслеживать
Когда остановить пилот досрочно
Ключевые выводы

5.4 / Урок 3 из 4

Чему вы научитесь

Проводить A/B тестирование: AI-группа vs контрольная (ручная)
Измерять 4 ключевые метрики: время, качество, стоимость, удовлетворённость
Понимать статистическую значимость без формул
Знать, какие метрики выносить на dashboard

Почему нужен A/B тест, а не просто «до/после»

Если просто запустить AI, улучшение может быть мнимым:

Люди работают внимательнее под наблюдением (эффект Хоторна)
Сложные случаи передаются людям, AI получает «лёгкие»
Новый инструмент повышает мотивацию временно

Решение: одновременно обрабатывать одинаковые операции двумя способами.

flowchart TD
  A["Входящие операции<br/>(N = 500)"] --> B["Случайное разделение<br/>50/50"]
  B --> C["Контрольная группа<br/>250 операций<br/>Только человек"]
  B --> D["Тестовая группа<br/>250 операций<br/>AI + проверка человеком"]
  C --> E["Сравнение метрик"]
  D --> E
  E --> F["Статистический тест<br/>p-value < 0.05?"]

4 ключевые метрики

Метрика	Как измерить	Хороший результат пилота
Время	Время завершения − начало (из логов, не из опросов)	Сокращение > 30%
Качество	Правильные / Всего × 100% (точность)	> 80%
Стоимость	(ЗП/операций) для контроля, (API + проверка) для AI	Экономия > 30%
Удовлетворённость	Опрос команды, 1–10	> 7/10

Как считать стоимость на операцию

Контрольная группа (человек):

Стоимость = Время на операцию / 60 × Ставка часа

Тестовая группа (AI + проверка):

Стоимость = Стоимость API-вызова + Время проверки / 60 × Ставка часа

Статистическая значимость: объяснение для менеджеров

Сколько операций нужно

Ориентир: минимум 250–500 операций в каждой группе (зависит от размера ожидаемого эффекта — чем меньше разница, тем больше нужна выборка).

Операций в день	Сколько ждать
30	~17 дней
50	~10 дней
100	~5 дней

Не пытайтесь «ускорить» результаты на 50 операциях — это как спрашивать 3 человек и делать выводы о всей компании. Для точного расчёта размера выборки используйте онлайн-калькуляторы (Evan Miller, Optimizely) — они учтут размер эффекта и базовые показатели.

Как интерпретировать результаты

p-value	Что это значит	Что делать
< 0.01	Очень значимо	Можно уверенно заявлять об улучшении
0.01–0.05	Значимо	Результат надёжный
0.05–0.10	Пограничный	Нужно больше данных
> 0.10	Не значимо	Разница может быть случайной

Dashboard: что отслеживать

Минимальный набор метрик для еженедельного обзора:

DASHBOARD ПИЛОТА (обновляется ежедневно)
═════════════════════════════════════════

ВРЕМЯ ОБРАБОТКИ
  Контроль (человек):  ████████░  5.2 мин
  Тест (AI+проверка):  ████░░░░░  3.1 мин
  Улучшение: -40%

ТОЧНОСТЬ
  AI-точность:         █████████  87%
  Порог:               ████████░  80%
  Статус: ✓ Выше порога

СТОИМОСТЬ / ОПЕРАЦИЯ
  Контроль:  100 ₽
  Тест:       58 ₽
  Экономия:  -42%

ОБЪЁМЫ
  Контроль обработано:  248 / 250
  Тест обработано:      251 / 250
  ✓ Целевой размер достигнут

СТАТИСТИКА
  p-value (время):     0.032  ✓ значимо
  p-value (точность):  0.18   ✗ нужно больше данных
  p-value (стоимость): 0.001  ✓ значимо

Когда остановить пилот досрочно

Критерии немедленной остановки:

Точность < 70% на спринте 2 (и не растёт)
Стоимость AI + проверка > стоимости ручной обработки
API падает > 5% времени
50% команды активно против внедрения

При срабатывании: откат на ручной процесс, анализ причин, pivot или kill.

Попробуйте сами

Определите 4 метрики для своего пилота (конкретные числа, не «улучшить время»)
Рассчитайте: сколько операций нужно для A/B теста при вашем объёме?
Набросайте dashboard — какие графики будут на нём?
Определите kill criteria — при каких показателях вы остановите пилот

Ключевые выводы

A/B тестирование — единственный надёжный способ доказать эффект AI (не «до/после»)
4 метрики: время, качество, стоимость, удовлетворённость — измеряйте все четыре
Минимум 250–500 операций в каждой группе (зависит от размера ожидаемого эффекта)
p-value < 0.05 = разница реальная, не случайность
Dashboard обновляется ежедневно, данные собираются автоматически из системы