Перейти к содержимому
AUTHORВЫПУСК №008 → АВТОМАТИЗАЦИЯ АГЕНТАМИ: 90% НЕ ПРОМПТ / имейте совесть, когда будете делиться или копировать
>AISTUDY_

Модуль v.4 · Урок 4

Observability и оценка качества диалогов

30 мин
v.4 / Урок 4 из 4

Чему вы научитесь

  • Понимать, зачем голосовому агенту наблюдаемость с первого дня
  • Различать трейсинг, метрики и оценку качества
  • Называть ключевые метрики голосового агента
  • Строить петлю улучшения на данных, а не на ощущениях
  • Понимать роль инструментов вроде Opik

Почему «на глаз» не работает

Голосовой агент кажется хорошим или плохим субъективно: «вроде нормально отвечает». Но без измерений вы не поймёте, почему он кажется тупым, где теряются миллисекунды и какие диалоги проваливаются.

Поэтому наблюдаемость (observability) ставят с самого начала, а не «когда будет время». Иначе вы оптимизируете вслепую.

Три разных вещи

ЧтоОтвечает на вопросПример
ТрейсингЧто произошло в одном звонке по шагамСколько занял STT, поиск, LLM, TTS
МетрикиЧто происходит в среднем по всем звонкамСредняя латентность, доля эскалаций
Оценка качестваХорошим ли был диалогРешил ли агент задачу клиента

Эти три слоя дополняют друг друга. Трейсинг ловит конкретную проблему, метрики показывают тренд, оценка качества говорит, стало ли лучше для клиента.

Ключевые метрики голосового агента

Минимальный набор, который стоит мерить с первого дня:

  • Латентность по звеньям — отдельно STT, поиск, LLM, TTS. Так видно, что именно тормозит (помните бюджет около 800 мс из урока v.0/02).
  • Доля перебиваний и пауз — насколько живой turn-taking.
  • Доля эскалаций на человека — как часто агент не справляется.
  • Доля успешных диалогов — клиент получил то, за чем звонил.
  • Стоимость минуты по факту — сверка с расчётом из урока v.1/03.

Трейсинг через Opik

В курсе Neural Maze для наблюдаемости используют Opik. Он собирает трейсы каждого звонка по шагам и метрики, чтобы вы видели полную картину разговора, а не только финальный ответ.

Идея: каждый вызов (распознавание, поиск, модель, синтез) логируется с временем и параметрами. Потом по трейсу видно, где разговор просел.

Петля улучшения

  1. Соберите данные. Включите трейсинг и метрики до того, как звать первых пользователей.

  2. Найдите узкое место. Посмотрите латентность по звеньям: обычно тормозит одно конкретное звено, а не всё сразу.

  3. Измените одну вещь. Поменяйте модель, кодек, размер выдачи RAG — но по одному параметру, как с golden baselines из урока v.3/02.

  4. Сравните метрики. Стало лучше — оставляете, хуже — откатываете. Решение по числам, а не по ощущению.

Что это даёт

С наблюдаемостью разговор «агент кажется тупым» превращается в «LLM-звено добавляет 600 мс на длинных промптах, сократим персону». Это и есть разница между догадками и инженерией.


Следующий урок

Российский стек: SpeechKit, Cloud AI Studio, SaluteSpeech — посмотрим, что доступно для realtime и русского языка.

Скачать урок

Есть идея или нашли ошибку?

// Обсуждение

Можно писать анонимно. Укажите email, чтобы получать уведомления об ответах.