Модуль 1.5 · Урок 1

Урок 1: Чему нельзя доверять

Теория

Содержание

Чему вы научитесь
Основное содержание
Галлюцинации: когда AI выдумывает
Предвзятость (bias): наследство тренировочных данных
Фактические ошибки: устаревшие и неправильные данные
5 правил верификации результатов AI
Human-in-the-loop: почему человек всегда важен
Guardrails: ограничители поведения агента
Попробуйте сами
Упражнение 1: Охота на галлюцинации
Упражнение 2: Обнаружение предвзятости
Упражнение 3: Проверка факта за 5 минут
Ключевые выводы
Следующий урок

1.5 / Урок 1 из 3

Чему вы научитесь

Что такое галлюцинации AI и почему они происходят
Как предвзятость попадает в модели и влияет на результаты
Какие ошибки допускают нейросети и как их проверять
Почему человек всегда должен оставаться в цепи принятия решений

Основное содержание

Галлюцинации: когда AI выдумывает

Галлюцинация — это когда AI с уверенностью рассказывает вам о чём-то, чего никогда не было. Агент верит в своё сообщение, звучит убедительно, но это просто ложь.

Как это происходит? Нейросеть работает вероятностно. Она учится предсказывать следующее слово на основе предыдущих. Иногда, особенно когда вопрос трудный или данные противоречивые, модель генерирует то, что звучит правдоподобно, но на деле это вымышленная информация.

Реальный пример: История юриста

В 2023 году адвокат использовал ChatGPT для поиска судебных прецедентов. AI предложил ссылки на 6 судебных решений. Адвокат представил их в суде. Проблема в одном: все 6 кейсов были выдуманы. Они звучали реально, суд существовал, но дел никогда не было.

Судья обвинил адвоката в фальсификации. Результат: штраф и репутационный урон.

Чем опасны галлюцинации?

Сфера	Пример	Последствие
Медицина	AI советует несуществующий препарат	Пациент не получит нужное лечение
Финансы	Агент цитирует выдуманный отчёт компании	Решение инвестировать на ошибочных данных
Образование	ChatGPT «вспоминает» факты истории	Студент сдаёт неправильный доклад
Техподдержка	Бот выдумывает шаги для решения проблемы	Пользователь портит устройство

Предвзятость (bias): наследство тренировочных данных

AI учится на реальных текстах из интернета. А интернет написан людьми с их предубеждениями.

Как это работает:

Если в тренировочных данных женщины редко упоминались как инженеры, модель будет генерировать тексты, где инженеры обычно мужчины
Если название страны часто встречалось в контексте проблем и преступности, модель будет ассоциировать эту страну с негативом
Если вы спросите AI нарисовать «успешного бизнесмена», он может нарисовать белого мужчину в костюме, потому что такие образы доминировали в данных

Примеры предвзятости:

Вопрос: "Назови должность: врач, учитель, программист"
Результат (без явного указания):
- врач → часто женщина
- учитель → часто женщина
- программист → часто мужчина

Это отражает реальное гендерное распределение в профессиях, но AI усиливает эти стереотипы.

Опасная предвзятость:

Рекрутинг: система отклоняет резюме женщин, потому что в исторических данных менеджеры нанимали больше мужчин
Судебная система: алгоритм оценки риска рецидива часто недооценивает опасность белых преступников и переоценивает — чёрных
Медицина: диагностическая система обучалась на данных одного региона и плохо работает в других

Фактические ошибки: устаревшие и неправильные данные

AI может ошибаться в базовых вычислениях и не знает о событиях после даты тренировки.

Три типа ошибок:

Устаревшие данные
- Большинство актуальных моделей (GPT-5.2, Claude Sonnet 4.6) имеют срез знаний около августа 2025
- Вы спрашиваете о событии после даты среза — AI отвечает уверенно, но информация может быть устаревшей
- Всегда уточняйте дату среза конкретной модели
Математические ошибки
- Простые расчёты: “Что больше: 9.11 или 9.8?”
- Сложные проценты и финансовые модели
- Логические последовательности
Неправильная интерпретация контекста
- Вы даёте сложный документ на английском
- AI переводит дословно, но смысл теряется
- Результат звучит логично, но неправилен

5 правил верификации результатов AI

Правило 1: Всегда проверяйте факты

Для датированной информации → проверьте актуальность
Для цифр → пересчитайте или используйте калькулятор
Для ссылок → кликните и убедитесь, что они рабочие

Правило 2: Используйте несколько источников

Если AI рассказал про событие →
  → Поищите в Google →
  → Проверьте на Википедии →
  → Найдите новостной источник

Правило 3: Сомневайтесь в специфических цифрах

“Средняя зарплата программистов” звучит убедительно
Но точное число из уст AI может быть галлюцинацией
Проверьте на сайтах статистики (rosstat.gov.ru, hh.ru)

Правило 4: Проверяйте важные решения с экспертом

AI предложил стратегию маркетинга → проверьте с маркетологом
AI сгенерировал текст договора → покажите юристу
AI посоветовал лечение → спросите врача

Правило 5: Документируйте источник ответа

“Это рекомендация AI, получено 1 марта 2026”
Если потом выяснится ошибка, вы документировали, что это не ваше решение

Human-in-the-loop: почему человек всегда важен

Принцип: Независимо от качества AI, человек остаётся ответственным за финальное решение.

graph LR
    A["[AI] AI предлагает"] --> B["Человек проверяет"]
    B --> C{"Правильно?"}
    C -->|Да| D["[+] Решение принято"]
    C -->|Нет| E["[-] Отклонено или исправлено"]
    E --> A

Почему это важно?

AI может ошибаться, человек это видит
AI не знает контекст вашей компании, человек знает
AI не несёт ответственность, человек несёт
Сочетание AI + человеческий ум сильнее, чем каждый отдельно

Примеры human-in-the-loop:

Email помощник пишет ответ → вы его правите перед отправкой
Агент ищет информацию → вы выбираете, какой источник использовать
AI предлагает цену → продавец решает, в рынке ли это

Guardrails: ограничители поведения агента

Guardrail (ограничитель) — это правило или фильтр, который не позволяет AI делать что-то опасное.

Примеры guardrails:

1. Не помогать с созданием оружия
2. Не писать код для взлома
3. Не генерировать материалы ненависти
4. Не отказывать в помощи из-за расы/пола
5. Не выдавать персональные данные

Как это работает?

graph TD
    A["Пользователь вводит запрос"] --> B["Проверка guardrails"]
    B --> C{"Запрос безопасен?"}
    C -->|Да| D["Обработать запрос"]
    C -->|Нет| E["Отклонить с объяснением"]
    D --> F["Ответ"]
    E --> F

Guardrails в реальности:

OpenAI использует guardrails для отказа в просьбах создать malware
Банковские AI имеют guardrails, чтобы не одобрить подозрительный кредит
HR-системы имеют guardrails, чтобы не дискриминировать кандидатов

Попробуйте сами

Упражнение 1: Охота на галлюцинации

Откройте ChatGPT, Claude или другой AI
Попросите: “Назови 3 известных русских физиков XIX века и их главные открытия”
Проверьте каждый факт через Google или Википедию
Вопрос для себя: Какие факты звучали убедительно, но неправильны?

Упражнение 2: Обнаружение предвзятости

Спросите AI (несколько раз):

"Опиши идеального менеджера проекта"

Обратите внимание:

Какой пол чаще упоминается?
Какие качества на первом месте?
Повторяется ли одинаковый портрет?

Потом спросите:

"Опиши идеального менеджера проекта женщину"

Вывод: Пришлось явно указать пол, чтобы получить разнообразие.

Упражнение 3: Проверка факта за 5 минут

Возьмите любой ответ AI, где есть конкретная цифра или дата. Проверьте:

Шаг	Действие
1	Выпишите основной факт
2	Погуглите этот факт
3	Проверьте на авторитетном сайте
4	Сравните с ответом AI
5	Отметьте, совпадает ли

Результат: Вы поймёте, насколько надёжна эта конкретная модель.

Ключевые выводы

Галлюцинации — это не ошибка, а природа AI. Модель генерирует вероятностные ответы, которые могут быть уверенной ложью.
Предвзятость встроена в тренировочные данные. Если в данных есть стереотипы, AI их усилит. Нужна осторожность при работе с рекрутингом, медициной, судебными системами.
Проверяйте факты — это не паранойя, а профессионализм. Особенно для дат, чисел и ссылок, которые легко проверить.
Human-in-the-loop — не слабость, а сила. Человек видит контекст, несёт ответственность и может остановить опасное решение.
Guardrails работают, но их недостаточно. Они фильтруют очевидный вред, но не спасают от тонких ошибок и предвзятости. Личная бдительность важна.

Следующий урок

Урок 2: Приватность данных — где находятся ваши данные, когда вы загружаете файл в AI, и как защитить конфиденциальную информацию.