Модуль v.4 · Урок 2
RAG и поиск по данным во время разговора
Чему вы научитесь
- Понимать, зачем голосовому агенту RAG
- Различать роль векторной базы и слоя поиска
- Учитывать требование скорости: поиск не должен ломать turn-taking
- Подключать поиск к разговору как инструмент (function calling)
- Снижать риск галлюцинаций в ответах клиентам
Зачем агенту RAG
Агент из прошлого урока умеет разговаривать, но знает только то, что зашито в модель. Он не ответит «есть ли двушка на Ленина за 6 миллионов» и не назовёт статус конкретного заказа. Для этого нужен доступ к вашим данным — это и есть RAG (retrieval-augmented generation).
Идея: перед ответом агент ищет релевантные данные в вашей базе и отвечает, опираясь на найденное, а не на память модели.
Векторный поиск: база и слой поиска
В курсе Neural Maze поиск по объектам недвижимости построен на векторном хранилище. Здесь два слоя, которые важно не путать.
| Слой | Роль | Пример |
|---|---|---|
| Векторная база | Хранит данные и эмбеддинги, отдаёт похожие | Qdrant |
| Слой поиска | Строит запрос, ранжирует, фильтрует | Superlinked |
Векторная база отвечает на вопрос «что похоже на это». Слой поиска делает запрос осмысленным: учитывает фильтры (цена, район), вес признаков и контекст разговора.
Главное ограничение — скорость
В чате RAG может думать секунду-две, и это нормально. В голосе — нет. Помните порог около 800 мс из урока v.0/02: поиск встроен в этот бюджет.
Подключаем поиск как инструмент
Технически RAG в голосовом агенте — это тот же function calling из урока v.1/02. Поиск оформляется как инструмент, который модель вызывает по ходу разговора.
Загрузите данные в векторную базу. Объекты, товары, база знаний — то, по чему агент будет отвечать.
Опишите инструмент поиска. Например,
search_listingsс параметрами «бюджет», «район», «комнаты».Ограничьте выдачу. Возвращайте топ-3 результата, а не сто: и быстрее, и модели проще озвучить.
Заставьте агента опираться на выдачу. В системном промпте: «Отвечай только по найденным записям. Нет данных — скажи, что не нашёл, и предложи перевести на специалиста».
Защита от галлюцинаций
Главный риск RAG в разговоре с клиентом — агент выдумает то, чего нет в данных. В тексте это неприятно, в голосе клиенту — это прямой репутационный и юридический риск.
Хорошая модель «мозга» снижает риск, но не отменяет его. Современные модели — Claude Opus 4.8, GPT-5.5 Pro, Gemini 3.1 Pro — лучше держатся фактов, но guardrails и эскалация нужны всё равно.
Следующий урок
Свои STT и TTS, деплой на GPU — возьмём под контроль качество и стоимость голоса.