Модуль 5.4 · Урок 3
Замер результатов пилота
Содержание
Чему вы научитесь
- Проводить A/B тестирование: AI-группа vs контрольная (ручная)
- Измерять 4 ключевые метрики: время, качество, стоимость, удовлетворённость
- Понимать статистическую значимость без формул
- Знать, какие метрики выносить на dashboard
Почему нужен A/B тест, а не просто «до/после»
Если просто запустить AI, улучшение может быть мнимым:
- Люди работают внимательнее под наблюдением (эффект Хоторна)
- Сложные случаи передаются людям, AI получает «лёгкие»
- Новый инструмент повышает мотивацию временно
Решение: одновременно обрабатывать одинаковые операции двумя способами.
flowchart TD
A["Входящие операции<br/>(N = 500)"] --> B["Случайное разделение<br/>50/50"]
B --> C["Контрольная группа<br/>250 операций<br/>Только человек"]
B --> D["Тестовая группа<br/>250 операций<br/>AI + проверка человеком"]
C --> E["Сравнение метрик"]
D --> E
E --> F["Статистический тест<br/>p-value < 0.05?"]
4 ключевые метрики
| Метрика | Как измерить | Хороший результат пилота |
|---|---|---|
| Время | Время завершения − начало (из логов, не из опросов) | Сокращение > 30% |
| Качество | Правильные / Всего × 100% (точность) | > 80% |
| Стоимость | (ЗП/операций) для контроля, (API + проверка) для AI | Экономия > 30% |
| Удовлетворённость | Опрос команды, 1–10 | > 7/10 |
Как считать стоимость на операцию
Контрольная группа (человек):
Стоимость = Время на операцию / 60 × Ставка часа
Тестовая группа (AI + проверка):
Стоимость = Стоимость API-вызова + Время проверки / 60 × Ставка часа
Статистическая значимость: объяснение для менеджеров
Сколько операций нужно
Ориентир: минимум 250–500 операций в каждой группе (зависит от размера ожидаемого эффекта — чем меньше разница, тем больше нужна выборка).
| Операций в день | Сколько ждать |
|---|---|
| 30 | ~17 дней |
| 50 | ~10 дней |
| 100 | ~5 дней |
Не пытайтесь «ускорить» результаты на 50 операциях — это как спрашивать 3 человек и делать выводы о всей компании. Для точного расчёта размера выборки используйте онлайн-калькуляторы (Evan Miller, Optimizely) — они учтут размер эффекта и базовые показатели.
Как интерпретировать результаты
| p-value | Что это значит | Что делать |
|---|---|---|
| < 0.01 | Очень значимо | Можно уверенно заявлять об улучшении |
| 0.01–0.05 | Значимо | Результат надёжный |
| 0.05–0.10 | Пограничный | Нужно больше данных |
| > 0.10 | Не значимо | Разница может быть случайной |
Dashboard: что отслеживать
Минимальный набор метрик для еженедельного обзора:
DASHBOARD ПИЛОТА (обновляется ежедневно)
═════════════════════════════════════════
ВРЕМЯ ОБРАБОТКИ
Контроль (человек): ████████░ 5.2 мин
Тест (AI+проверка): ████░░░░░ 3.1 мин
Улучшение: -40%
ТОЧНОСТЬ
AI-точность: █████████ 87%
Порог: ████████░ 80%
Статус: ✓ Выше порога
СТОИМОСТЬ / ОПЕРАЦИЯ
Контроль: 100 ₽
Тест: 58 ₽
Экономия: -42%
ОБЪЁМЫ
Контроль обработано: 248 / 250
Тест обработано: 251 / 250
✓ Целевой размер достигнут
СТАТИСТИКА
p-value (время): 0.032 ✓ значимо
p-value (точность): 0.18 ✗ нужно больше данных
p-value (стоимость): 0.001 ✓ значимо
Когда остановить пилот досрочно
Критерии немедленной остановки:
- Точность < 70% на спринте 2 (и не растёт)
- Стоимость AI + проверка > стоимости ручной обработки
- API падает > 5% времени
-
50% команды активно против внедрения
При срабатывании: откат на ручной процесс, анализ причин, pivot или kill.
- Определите 4 метрики для своего пилота (конкретные числа, не «улучшить время»)
- Рассчитайте: сколько операций нужно для A/B теста при вашем объёме?
- Набросайте dashboard — какие графики будут на нём?
- Определите kill criteria — при каких показателях вы остановите пилот
Ключевые выводы
- A/B тестирование — единственный надёжный способ доказать эффект AI (не «до/после»)
- 4 метрики: время, качество, стоимость, удовлетворённость — измеряйте все четыре
- Минимум 250–500 операций в каждой группе (зависит от размера ожидаемого эффекта)
- p-value < 0.05 = разница реальная, не случайность
- Dashboard обновляется ежедневно, данные собираются автоматически из системы