Модуль v.4 · Урок 4

Observability и оценка качества диалогов

30 мин

Содержание

Чему вы научитесь
Почему «на глаз» не работает
Три разных вещи
Ключевые метрики голосового агента
Трейсинг через Opik
Петля улучшения
Что это даёт
Следующий урок

v.4 / Урок 4 из 4

Чему вы научитесь

Понимать, зачем голосовому агенту наблюдаемость с первого дня
Различать трейсинг, метрики и оценку качества
Называть ключевые метрики голосового агента
Строить петлю улучшения на данных, а не на ощущениях
Понимать роль инструментов вроде Opik

Почему «на глаз» не работает

Голосовой агент кажется хорошим или плохим субъективно: «вроде нормально отвечает». Но без измерений вы не поймёте, почему он кажется тупым, где теряются миллисекунды и какие диалоги проваливаются.

Поэтому наблюдаемость (observability) ставят с самого начала, а не «когда будет время». Иначе вы оптимизируете вслепую.

Три разных вещи

Что	Отвечает на вопрос	Пример
Трейсинг	Что произошло в одном звонке по шагам	Сколько занял STT, поиск, LLM, TTS
Метрики	Что происходит в среднем по всем звонкам	Средняя латентность, доля эскалаций
Оценка качества	Хорошим ли был диалог	Решил ли агент задачу клиента

Эти три слоя дополняют друг друга. Трейсинг ловит конкретную проблему, метрики показывают тренд, оценка качества говорит, стало ли лучше для клиента.

Ключевые метрики голосового агента

Минимальный набор, который стоит мерить с первого дня:

Латентность по звеньям — отдельно STT, поиск, LLM, TTS. Так видно, что именно тормозит (помните бюджет около 800 мс из урока v.0/02).
Доля перебиваний и пауз — насколько живой turn-taking.
Доля эскалаций на человека — как часто агент не справляется.
Доля успешных диалогов — клиент получил то, за чем звонил.
Стоимость минуты по факту — сверка с расчётом из урока v.1/03.

Трейсинг через Opik

В курсе Neural Maze для наблюдаемости используют Opik. Он собирает трейсы каждого звонка по шагам и метрики, чтобы вы видели полную картину разговора, а не только финальный ответ.

Идея: каждый вызов (распознавание, поиск, модель, синтез) логируется с временем и параметрами. Потом по трейсу видно, где разговор просел.

Петля улучшения

Соберите данные. Включите трейсинг и метрики до того, как звать первых пользователей.
Найдите узкое место. Посмотрите латентность по звеньям: обычно тормозит одно конкретное звено, а не всё сразу.
Измените одну вещь. Поменяйте модель, кодек, размер выдачи RAG — но по одному параметру, как с golden baselines из урока v.3/02.
Сравните метрики. Стало лучше — оставляете, хуже — откатываете. Решение по числам, а не по ощущению.

Что это даёт

С наблюдаемостью разговор «агент кажется тупым» превращается в «LLM-звено добавляет 600 мс на длинных промптах, сократим персону». Это и есть разница между догадками и инженерией.

Ключевые выводы

Наблюдаемость ставят с первого дня: без измерений вы оптимизируете вслепую
Трейсинг ловит проблему в одном звонке, метрики показывают тренд, оценка качества — пользу для клиента
Мерьте латентность по звеньям, перебивания, эскалации, успех диалога и фактическую цену минуты
Opik собирает трейсы и метрики по шагам разговора
Улучшайте по петле: данные, узкое место, одно изменение, сравнение по числам
Логи и записи диалогов — персональные данные и подчиняются 152-ФЗ

Следующий урок

Российский стек: SpeechKit, Cloud AI Studio, SaluteSpeech — посмотрим, что доступно для realtime и русского языка.

Мы размещаем рекламу, так как это позволяет нам готовить для вас свежие материалы и покрывать наши расходы. Рекламодателей выбираем адекватных.

Observability и оценка качества диалогов

Production-grade агент

Чему вы научитесь

Почему «на глаз» не работает

Три разных вещи

Ключевые метрики голосового агента

Трейсинг через Opik

Петля улучшения

Что это даёт

Следующий урок

Метрики адаптации

Урок 2: Метрики и честная валидация

Урок 1: Как валидировать вывод агента — рубрика ScholarEval

Анатомия звонка: конвейер против speech-to-speech

// Обсуждение

Чему вы научитесь

Почему «на глаз» не работает

Три разных вещи

Ключевые метрики голосового агента

Трейсинг через Opik

Петля улучшения

Что это даёт

Следующий урок

Связанные уроки

Метрики адаптации

Урок 2: Метрики и честная валидация

Урок 1: Как валидировать вывод агента — рубрика ScholarEval

Анатомия звонка: конвейер против speech-to-speech

// Обсуждение