Модуль m.1 · Урок 2
Урок 2: Галлюцинации — не баг, а свойство
Содержание
- Чему вы научитесь
- Главный тезис урока
- Почему LLM вообще галлюцинируют
- Четыре типа галлюцинаций
- Живой разбор: что выдал Grok в нашем тесте
- Громкие кейсы 2025: когда галлюцинация стоит денег и репутации
- Почему AI-детекторы текста не решают проблему
- Три правила самозащиты на сегодня
- Правило 1. Не просите модель писать «с нуля»
- Правило 2. Каждую ссылку открываем руками
- Правило 3. Даты, цифры и имена — только из проверенных источников
- Мини-квиз: отличите галлюцинацию от факта
- Главное из урока
Чему вы научитесь
- Понимать механизм, из-за которого LLM придумывают факты (и почему это не чинится патчем)
- Различать 4 типа галлюцинаций: фабрикация источника, фабрикация цитаты, искажение источника, контекстная ошибка
- Узнавать галлюцинации на живых примерах (разберём выхлоп Grok из нашего теста)
- Понимать, почему AI-детекторы текста не работают и почему на них нельзя ссылаться в редакционном решении
- Применять три правила самозащиты уже сегодня, до изучения полного пайплайна фактчека в M.4
Для практики используем arckep.ru — все основные модели, без VPN, оплата рублями. Вы можете использовать любые другие сервисы.
Главный тезис урока
Галлюцинации LLM — не случайный сбой и не вопрос «когда починят». Это фундаментальное свойство архитектуры. В уроке M.1.1 мы выбирали модель под задачу; сейчас признаём ограничение: любая из этих моделей может выдать факт, которого не существует, и сделать это уверенно.
После урока у вас будет рабочая рамка ожиданий. Не «AI опасен и страшен», а «AI ошибается предсказуемо, и вот как с этим жить».
Почему LLM вообще галлюцинируют
Большая языковая модель не хранит базу фактов, в которую можно заглянуть. Она хранит статистику — вероятности того, какой токен (кусочек слова) обычно идёт после какой последовательности других токенов. Когда вы задаёте вопрос, модель не «вспоминает», а предсказывает наиболее правдоподобное продолжение.
Из этого следует главное: для модели нет встроенной разницы между «правда» и «правдоподобно». Если фраза «согласно исследованию Гарварда 2023 года, 72% журналистов» звучит как типичная строка из качественного текста — модель сгенерирует её с той же охотой, что и проверяемый факт. Источника нет — есть только шаблон, по которому такие источники обычно описываются.
Архитектура современных LLM поощряет беглость. Если модель скажет «не знаю», диалог оборвётся — значит, статистически лучше продолжить уверенным тоном. Отсюда ключевая подстава: галлюцинация выглядит так же, как правда. Ни тона сомнения, ни расплывчатого «возможно» — модель по умолчанию звучит как эксперт.
Инструменты вроде RAG, веб-поиска, явных цитат снижают риск, но не обнуляют его. В M.4 разберём полный пайплайн верификации; здесь задача скромнее — научиться видеть типологию.
Четыре типа галлюцинаций
Наиболее рабочая типология — четыре категории, которые встречаются и в академических обзорах, и в практике фактчек-редакций.
| Тип | Что происходит | Пример |
|---|---|---|
| Фабрикация источника | Модель изобретает статью, книгу, исследование целиком | «Согласно исследованию Гарварда 2023 года, 72% журналистов…» — такого исследования не существует |
| Фабрикация цитаты | Реальному человеку приписаны слова, которых он не говорил | Perplexity приписывал журналистам чужие статьи как их собственные цитаты |
| Искажение источника | Ссылка настоящая, но утверждение в источнике не подтверждается | DOI существует, по URL открывается реальная статья, но написано в ней другое |
| Контекстная галлюцинация | Отдельные факты верны, связка ложная | Репортёра обвинили в преступлениях, которые он сам как журналист освещал |
Третий тип — самый коварный. Его невозможно поймать беглым взглядом: ссылка открывается, сайт настоящий, даже автор правильный. Нужно прочитать источник и сверить, что он действительно утверждает то, что пересказала модель.
Четвёртый тип — самый опасный в правовом смысле. Факты-кирпичи подлинные, но собранные в ложную конструкцию, они могут обвинить живого человека в том, чего он не делал.
Живой разбор: что выдал Grok в нашем тесте
Для урока M.1.1 мы прогоняли 5 моделей по трём задачам (лонгрид, новостная заметка, колонка). В короткой новостной заметке про GigaChat 2 MAX и в колонке «стоит ли журналисту бояться ИИ» Grok 4-1 fast выдал три подтверждённые галлюцинации на ~200 слов текста.
Галлюцинация 1 — фабрикация кейса. В колонке Grok написал: «ИИ сочинил фейк про взрыв в Пенсильвании». Такого громкого инфоповода не существует — ни в базе Charlotin, ни в архивах Reuters, ни в Poynter. Кейс собран из двух типичных элементов (географическое название + слово «фейк») по шаблону, и модель выдала его как общеизвестный факт.
Галлюцинация 2 — цифры из воздуха. В заметке про GigaChat: «превосходит конкурентов на 15-20% в ключевых метриках». Цифры не подкреплены ни пресс-релизом Сбера, ни независимым бенчмарком. «15-20%» — это статистически удобная оценка, которая звучит правдоподобно в новости про технологию.
Галлюцинация 3 — выдуманный дейтлайн. Информагентский стандарт — дейтлайн «МОСКВА, 15 февраля». Выглядит как у ТАСС, но дата взята моделью из ниоткуда: мы не просили конкретный день, в промпте его не было. То же самое — у DeepSeek: «МОСКВА, 19 февраля».
Важно: это не значит, что Grok «плохая модель». В тесте он показал живой, энергичный тон колонки. Проблема в том, что в новостных задачах живость оборачивается выдуманными деталями, которые в печатном виде приведут к штрафу или опровержению. Для каждой модели — свой профиль рисков, и Grok — тот случай, где фабуляция выше среднего.
Громкие кейсы 2025: когда галлюцинация стоит денег и репутации
Дело MyPillow (7 июля 2025). Федеральный судья Нина Ванг (U.S. District Court, Денвер) оштрафовала адвокатов Майка Линделла — Кристофера Качуроффа и Дженнифер ДеМастер — на $3000 каждого за подачу в защиту по делу о клевете документа с ≈30 дефектными ссылками, включая вымышленные прецеденты. Качурофф признал использование генеративного ИИ при подготовке документа. Источники: Colorado Sun, NPR.
Калифорнийский юрист (сентябрь 2025). California 2nd District Court of Appeal оштрафовал адвоката Амира Мостафави на $10 000 за апелляцию, где 21 из 23 процитированных дел оказались сфабрикованы ChatGPT. Источник — CalMatters.
Федеральный суд, август 2025. Судья Эллисон Бахус обнаружила, что 12 из 19 цитированных дел в одном из поданных документов «сфабрикованы, вводят в заблуждение или не подтверждаются». Это — не единичная история, а паттерн.
Microsoft Copilot против Martin Bernklau. Немецкому судебному репортёру Copilot приписал совершение преступлений — тех самых, которые Bernklau как журналист освещал в публикациях. Классический четвёртый тип — контекстная галлюцинация: имя автора и имена фигурантов склеились в ложную конструкцию. Разбор — в The Conversation.
Google AI Overview и «микроскопические пчёлы» (февраль 2025). Функция Google, которая генерирует саммари поверх поиска, приняла всерьёз первоапрельскую шутку 2024 года про «микроскопических пчёл, питающих компьютеры», и выдала её как факт в ответ пользователю. Кейс показывает: даже встроенная в поисковик модель с доступом к вебу не отличает сатиру от первичного источника.
Почему AI-детекторы текста не решают проблему
Казалось бы: если модель генерирует, пусть другая модель определяет. На деле в апреле 2026 — не работает.
Компании вроде Originality.ai заявляют 96-99% точности, GPTZero — схожие цифры. Независимые тесты 2025–2026 показывают значительный разброс: 60–95% в зависимости от типа текста. В 2025 FTC вынесла решение против компании Workado (proposed order — апрель 2025, финальный consent order — август 2025) за рекламу AI-детектора как «98% точного»: независимое тестирование показало, что 98% — это точность только на академических текстах, на общем контенте в разы ниже. Свежие бенчмарки 2026 (RAID, PCWorld): детекторы выдают 95–99% на «чистом» AI-тексте, но падают до 62–90% на смешанных, перефразированных или отредактированных материалах. GPTZero в независимых тестах даёт от 0.24% (Chicago Booth 2026) до 10–16% false positives (Ryne.ai, peer-reviewed James O’Sullivan); на эссе от не-носителей английского Stanford-исследование зафиксировало 61.3% ложных срабатываний.
Проблем несколько. Детекторы хуже работают на коротких текстах (меньше 300 слов). Они систематически ошибочно классифицируют как AI-сгенерированные тексты людей, для которых английский — второй язык. Прогон через любой перефразировщик обнуляет большинство сигналов. А главное: обвинить живого человека публично в использовании ИИ только на основании детектора — это потенциальный иск о клевете, особенно при false positive.
Три правила самозащиты на сегодня
Полный пайплайн верификации — в модуле M.4. До него — три простых правила, которые закрывают большинство рисков уже сегодня.
Правило 1. Не просите модель писать «с нуля»
Чем меньше у модели данных, тем больше она додумывает. Разница — огромная:
- Промпт «напиши заметку про новый GigaChat» → модель сочинит дату, цифры, кавычки.
- Промпт «вот пресс-релиз Сбера от 3 апреля 2026 (текст), напиши по нему заметку на 120 слов без добавления цифр, которых нет в релизе» → модель переформатирует, не добавляя отсебятины.
Ваш инпут (пресс-релиз, интервью, документ) — это RAG бедного человека. Модель держится внутри него гораздо дисциплинированнее, чем в режиме «пиши по памяти».
Правило 2. Каждую ссылку открываем руками
Модель выдала URL — это гипотеза, что ссылка существует и содержит утверждаемое. Проверка:
- Ссылка открывается? (Первый отсев — половина ссылок в задачах «с нуля» не откроется вовсе.)
- На странице действительно есть это утверждение? (Второй отсев — кейс искажения источника.)
- Автор и дата совпадают с тем, что сказала модель? (Третий отсев — фабрикация автора или даты.)
Правило работает одинаково для Claude, ChatGPT, Perplexity. Напомним цифры из M.1.1: по Tow Center, Columbia (март 2025), AI-поисковики фабрикуют более 60% цитирований. Лучший — Perplexity с 37%. «Лучший» не равно «можно доверять».
Правило 3. Даты, цифры и имена — только из проверенных источников
Это прямое следствие нашего теста. Если в новостной заметке, исторической справке, рассуждении про индустрию модель выдала:
- конкретную дату события,
- процент или сумму,
- фамилию эксперта или название компании,
— не оставляйте это в тексте, пока не подтвердили в первичном источнике. Первичный — это не пересказ, не «цитируют СМИ», а непосредственно документ, пресс-релиз, регистр, официальный сайт.
Полное решение — в M.6 «Голос и стиль»: там показываем, как обучать модель на своих текстах и корпусе проверенных источников, чтобы она меньше соскальзывала в фабрикацию.
Мини-квиз: отличите галлюцинацию от факта
Фрагмент 1. «Согласно исследованию Гарварда 2023 года, 72% журналистов используют ИИ в ежедневной работе».
→ Подозрительно. Нужна прямая ссылка на публикацию Гарварда с соответствующим процентом. Цифра «72%» для журналистов нигде в открытых исследованиях Harvard Kennedy School или Nieman Lab не находится — модель, вероятно, склеила «72%» из другого отраслевого отчёта (например, из данных Figma про дизайнеров или Reuters Institute Digital News Report) и приписала его Гарварду. Классический случай контекстной галлюцинации: отдельные элементы звучат знакомо, связка — ложная.
Фрагмент 2. «База Damien Charlotin фиксирует 1316+ случаев галлюцинаций ИИ в суде».
→ Проверяемо. Сайт damiencharlotin.com/hallucinations существует, база публичная, счётчик виден.
Фрагмент 3. «ИИ сочинил фейк про взрыв в Пенсильвании, и это привело к отзыву лицензии у региональной радиостанции».
→ Галлюцинация. Ни Reuters, ни AP, ни Poynter не фиксируют подобный кейс. Фраза собрана из шаблонных элементов (географическое название + «фейк» + «отзыв лицензии») — ровно тот паттерн, который выдал Grok в нашем тесте.
Фрагмент 4. «Штраф $3000 в MyPillow case был наложен судом Колорадо в июле 2025».
→ Проверяемо. Репортаж NPR от 10 июля 2025 подтверждает и сумму, и юрисдикцию, и дату.
Главное из урока
- Галлюцинации — свойство архитектуры LLM, а не баг. Исправить полностью нельзя, можно снизить промптом и инпутом.
- Четыре типа: фабрикация источника, фабрикация цитаты, искажение источника, контекстная ошибка. Самые опасные — третий (незаметен при беглой проверке) и четвёртый (правовой риск).
- В нашем тесте Grok выдал три галлюцинации на 200 слов: выдуманный «взрыв в Пенсильвании», цифры «15-20%», дейтлайн «Москва, 15 февраля». Это типичный профиль, не исключение.
- Реальные кейсы 2025 стоят денег: MyPillow — $3000, Калифорния — $10 000, десятки дел с отменёнными апелляциями. База Charlotin — 1316+ задокументированных случаев.
- AI-детекторы текста не решают задачу. Независимые тесты дают разброс 60–95% в зависимости от типа контента — и критически падают на смешанных и перефразированных текстах. Публично обвинять человека на основании детектора — нельзя.
- Три правила: кормить модель инпутом, а не просить «с нуля»; открывать каждую ссылку руками; не принимать даты, цифры и имена на веру.
В следующем уроке M.1.3 «AI slop vs авторский голос» разберём, как отличить генерацию от авторской работы по стилю, и почему тестовый выхлоп Grok звучит как пост кликбейт-канала, а не как колонка. В модуле M.4 — полный пайплайн фактчека, OSINT-инструменты и C2PA. В модуле M.6 — как обучать Claude на своих текстах, чтобы он держался вашего голоса и меньше соскальзывал в фабрикацию.