Перейти к содержимому
NEWЧат с 15 ИИ-моделями — попробуйте бесплатно / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль 5.4 · Урок 3

Замер результатов пилота

25 мин
Практика
5.4 / Урок 3 из 4

Чему вы научитесь

  • Проводить A/B тестирование: AI-группа vs контрольная (ручная)
  • Измерять 4 ключевые метрики: время, качество, стоимость, удовлетворённость
  • Понимать статистическую значимость без формул
  • Знать, какие метрики выносить на dashboard

Почему нужен A/B тест, а не просто «до/после»

Если просто запустить AI, улучшение может быть мнимым:

  • Люди работают внимательнее под наблюдением (эффект Хоторна)
  • Сложные случаи передаются людям, AI получает «лёгкие»
  • Новый инструмент повышает мотивацию временно

Решение: одновременно обрабатывать одинаковые операции двумя способами.

flowchart TD
  A["Входящие операции<br/>(N = 500)"] --> B["Случайное разделение<br/>50/50"]
  B --> C["Контрольная группа<br/>250 операций<br/>Только человек"]
  B --> D["Тестовая группа<br/>250 операций<br/>AI + проверка человеком"]
  C --> E["Сравнение метрик"]
  D --> E
  E --> F["Статистический тест<br/>p-value < 0.05?"]

4 ключевые метрики

МетрикаКак измеритьХороший результат пилота
ВремяВремя завершения − начало (из логов, не из опросов)Сокращение > 30%
КачествоПравильные / Всего × 100% (точность)> 80%
Стоимость(ЗП/операций) для контроля, (API + проверка) для AIЭкономия > 30%
УдовлетворённостьОпрос команды, 1–10> 7/10

Как считать стоимость на операцию

Контрольная группа (человек):

Стоимость = Время на операцию / 60 × Ставка часа

Тестовая группа (AI + проверка):

Стоимость = Стоимость API-вызова + Время проверки / 60 × Ставка часа

Статистическая значимость: объяснение для менеджеров

Сколько операций нужно

Ориентир: минимум 250–500 операций в каждой группе (зависит от размера ожидаемого эффекта — чем меньше разница, тем больше нужна выборка).

Операций в деньСколько ждать
30~17 дней
50~10 дней
100~5 дней

Не пытайтесь «ускорить» результаты на 50 операциях — это как спрашивать 3 человек и делать выводы о всей компании. Для точного расчёта размера выборки используйте онлайн-калькуляторы (Evan Miller, Optimizely) — они учтут размер эффекта и базовые показатели.

Как интерпретировать результаты

p-valueЧто это значитЧто делать
< 0.01Очень значимоМожно уверенно заявлять об улучшении
0.01–0.05ЗначимоРезультат надёжный
0.05–0.10ПограничныйНужно больше данных
> 0.10Не значимоРазница может быть случайной

Dashboard: что отслеживать

Минимальный набор метрик для еженедельного обзора:

DASHBOARD ПИЛОТА (обновляется ежедневно)
═════════════════════════════════════════

ВРЕМЯ ОБРАБОТКИ
  Контроль (человек):  ████████░  5.2 мин
  Тест (AI+проверка):  ████░░░░░  3.1 мин
  Улучшение: -40%

ТОЧНОСТЬ
  AI-точность:         █████████  87%
  Порог:               ████████░  80%
  Статус: ✓ Выше порога

СТОИМОСТЬ / ОПЕРАЦИЯ
  Контроль:  100 ₽
  Тест:       58 ₽
  Экономия:  -42%

ОБЪЁМЫ
  Контроль обработано:  248 / 250
  Тест обработано:      251 / 250
  ✓ Целевой размер достигнут

СТАТИСТИКА
  p-value (время):     0.032  ✓ значимо
  p-value (точность):  0.18   ✗ нужно больше данных
  p-value (стоимость): 0.001  ✓ значимо

Когда остановить пилот досрочно

Критерии немедленной остановки:

  • Точность < 70% на спринте 2 (и не растёт)
  • Стоимость AI + проверка > стоимости ручной обработки
  • API падает > 5% времени
  • 50% команды активно против внедрения

При срабатывании: откат на ручной процесс, анализ причин, pivot или kill.

Попробуйте сами
  1. Определите 4 метрики для своего пилота (конкретные числа, не «улучшить время»)
  2. Рассчитайте: сколько операций нужно для A/B теста при вашем объёме?
  3. Набросайте dashboard — какие графики будут на нём?
  4. Определите kill criteria — при каких показателях вы остановите пилот

Ключевые выводы

  • A/B тестирование — единственный надёжный способ доказать эффект AI (не «до/после»)
  • 4 метрики: время, качество, стоимость, удовлетворённость — измеряйте все четыре
  • Минимум 250–500 операций в каждой группе (зависит от размера ожидаемого эффекта)
  • p-value < 0.05 = разница реальная, не случайность
  • Dashboard обновляется ежедневно, данные собираются автоматически из системы
Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.