Модуль v.4 · Урок 4
Observability и оценка качества диалогов
Чему вы научитесь
- Понимать, зачем голосовому агенту наблюдаемость с первого дня
- Различать трейсинг, метрики и оценку качества
- Называть ключевые метрики голосового агента
- Строить петлю улучшения на данных, а не на ощущениях
- Понимать роль инструментов вроде Opik
Почему «на глаз» не работает
Голосовой агент кажется хорошим или плохим субъективно: «вроде нормально отвечает». Но без измерений вы не поймёте, почему он кажется тупым, где теряются миллисекунды и какие диалоги проваливаются.
Поэтому наблюдаемость (observability) ставят с самого начала, а не «когда будет время». Иначе вы оптимизируете вслепую.
Три разных вещи
| Что | Отвечает на вопрос | Пример |
|---|---|---|
| Трейсинг | Что произошло в одном звонке по шагам | Сколько занял STT, поиск, LLM, TTS |
| Метрики | Что происходит в среднем по всем звонкам | Средняя латентность, доля эскалаций |
| Оценка качества | Хорошим ли был диалог | Решил ли агент задачу клиента |
Эти три слоя дополняют друг друга. Трейсинг ловит конкретную проблему, метрики показывают тренд, оценка качества говорит, стало ли лучше для клиента.
Ключевые метрики голосового агента
Минимальный набор, который стоит мерить с первого дня:
- Латентность по звеньям — отдельно STT, поиск, LLM, TTS. Так видно, что именно тормозит (помните бюджет около 800 мс из урока v.0/02).
- Доля перебиваний и пауз — насколько живой turn-taking.
- Доля эскалаций на человека — как часто агент не справляется.
- Доля успешных диалогов — клиент получил то, за чем звонил.
- Стоимость минуты по факту — сверка с расчётом из урока v.1/03.
Трейсинг через Opik
В курсе Neural Maze для наблюдаемости используют Opik. Он собирает трейсы каждого звонка по шагам и метрики, чтобы вы видели полную картину разговора, а не только финальный ответ.
Идея: каждый вызов (распознавание, поиск, модель, синтез) логируется с временем и параметрами. Потом по трейсу видно, где разговор просел.
Петля улучшения
Соберите данные. Включите трейсинг и метрики до того, как звать первых пользователей.
Найдите узкое место. Посмотрите латентность по звеньям: обычно тормозит одно конкретное звено, а не всё сразу.
Измените одну вещь. Поменяйте модель, кодек, размер выдачи RAG — но по одному параметру, как с golden baselines из урока v.3/02.
Сравните метрики. Стало лучше — оставляете, хуже — откатываете. Решение по числам, а не по ощущению.
Что это даёт
С наблюдаемостью разговор «агент кажется тупым» превращается в «LLM-звено добавляет 600 мс на длинных промптах, сократим персону». Это и есть разница между догадками и инженерией.
Следующий урок
Российский стек: SpeechKit, Cloud AI Studio, SaluteSpeech — посмотрим, что доступно для realtime и русского языка.