Модуль m.1 · Урок 2

Урок 2: Галлюцинации — не баг, а свойство

25 мин

Содержание

Чему вы научитесь
Главный тезис урока
Почему LLM вообще галлюцинируют
Четыре типа галлюцинаций
Живой разбор: что выдал Grok в нашем тесте
Громкие кейсы 2025: когда галлюцинация стоит денег и репутации
Почему AI-детекторы текста не решают проблему
Три правила самозащиты на сегодня
Правило 1. Не просите модель писать «с нуля»
Правило 2. Каждую ссылку открываем руками
Правило 3. Даты, цифры и имена — только из проверенных источников
Мини-квиз: отличите галлюцинацию от факта
Главное из урока

m.1 / Урок 2 из 4

Чему вы научитесь

Понимать механизм, из-за которого LLM придумывают факты (и почему это не чинится патчем)
Различать 4 типа галлюцинаций: фабрикация источника, фабрикация цитаты, искажение источника, контекстная ошибка
Узнавать галлюцинации на живых примерах (разберём выхлоп Grok из нашего теста)
Понимать, почему AI-детекторы текста не работают и почему на них нельзя ссылаться в редакционном решении
Применять три правила самозащиты уже сегодня, до изучения полного пайплайна фактчека в M.4

Для практики используем arckep.ru — все основные модели, без VPN, оплата рублями. Вы можете использовать любые другие сервисы.

Главный тезис урока

Галлюцинации LLM — не случайный сбой и не вопрос «когда починят». Это фундаментальное свойство архитектуры. В уроке M.1.1 мы выбирали модель под задачу; сейчас признаём ограничение: любая из этих моделей может выдать факт, которого не существует, и сделать это уверенно.

После урока у вас будет рабочая рамка ожиданий. Не «AI опасен и страшен», а «AI ошибается предсказуемо, и вот как с этим жить».

Почему LLM вообще галлюцинируют

Большая языковая модель не хранит базу фактов, в которую можно заглянуть. Она хранит статистику — вероятности того, какой токен (кусочек слова) обычно идёт после какой последовательности других токенов. Когда вы задаёте вопрос, модель не «вспоминает», а предсказывает наиболее правдоподобное продолжение.

Из этого следует главное: для модели нет встроенной разницы между «правда» и «правдоподобно». Если фраза «согласно исследованию Гарварда 2023 года, 72% журналистов» звучит как типичная строка из качественного текста — модель сгенерирует её с той же охотой, что и проверяемый факт. Источника нет — есть только шаблон, по которому такие источники обычно описываются.

Архитектура современных LLM поощряет беглость. Если модель скажет «не знаю», диалог оборвётся — значит, статистически лучше продолжить уверенным тоном. Отсюда ключевая подстава: галлюцинация выглядит так же, как правда. Ни тона сомнения, ни расплывчатого «возможно» — модель по умолчанию звучит как эксперт.

Инструменты вроде RAG, веб-поиска, явных цитат снижают риск, но не обнуляют его. В M.4 разберём полный пайплайн верификации; здесь задача скромнее — научиться видеть типологию.

Четыре типа галлюцинаций

Наиболее рабочая типология — четыре категории, которые встречаются и в академических обзорах, и в практике фактчек-редакций.

Тип	Что происходит	Пример
Фабрикация источника	Модель изобретает статью, книгу, исследование целиком	«Согласно исследованию Гарварда 2023 года, 72% журналистов…» — такого исследования не существует
Фабрикация цитаты	Реальному человеку приписаны слова, которых он не говорил	Perplexity приписывал журналистам чужие статьи как их собственные цитаты
Искажение источника	Ссылка настоящая, но утверждение в источнике не подтверждается	DOI существует, по URL открывается реальная статья, но написано в ней другое
Контекстная галлюцинация	Отдельные факты верны, связка ложная	Репортёра обвинили в преступлениях, которые он сам как журналист освещал

Третий тип — самый коварный. Его невозможно поймать беглым взглядом: ссылка открывается, сайт настоящий, даже автор правильный. Нужно прочитать источник и сверить, что он действительно утверждает то, что пересказала модель.

Четвёртый тип — самый опасный в правовом смысле. Факты-кирпичи подлинные, но собранные в ложную конструкцию, они могут обвинить живого человека в том, чего он не делал.

Живой разбор: что выдал Grok в нашем тесте

Для урока M.1.1 мы прогоняли 5 моделей по трём задачам (лонгрид, новостная заметка, колонка). В короткой новостной заметке про GigaChat 2 MAX и в колонке «стоит ли журналисту бояться ИИ» Grok 4-1 fast выдал три подтверждённые галлюцинации на ~200 слов текста.

Галлюцинация 1 — фабрикация кейса. В колонке Grok написал: «ИИ сочинил фейк про взрыв в Пенсильвании». Такого громкого инфоповода не существует — ни в базе Charlotin, ни в архивах Reuters, ни в Poynter. Кейс собран из двух типичных элементов (географическое название + слово «фейк») по шаблону, и модель выдала его как общеизвестный факт.

Галлюцинация 2 — цифры из воздуха. В заметке про GigaChat: «превосходит конкурентов на 15-20% в ключевых метриках». Цифры не подкреплены ни пресс-релизом Сбера, ни независимым бенчмарком. «15-20%» — это статистически удобная оценка, которая звучит правдоподобно в новости про технологию.

Галлюцинация 3 — выдуманный дейтлайн. Информагентский стандарт — дейтлайн «МОСКВА, 15 февраля». Выглядит как у ТАСС, но дата взята моделью из ниоткуда: мы не просили конкретный день, в промпте его не было. То же самое — у DeepSeek: «МОСКВА, 19 февраля».

Важно: это не значит, что Grok «плохая модель». В тесте он показал живой, энергичный тон колонки. Проблема в том, что в новостных задачах живость оборачивается выдуманными деталями, которые в печатном виде приведут к штрафу или опровержению. Для каждой модели — свой профиль рисков, и Grok — тот случай, где фабуляция выше среднего.

Громкие кейсы 2025: когда галлюцинация стоит денег и репутации

Дело MyPillow (7 июля 2025). Федеральный судья Нина Ванг (U.S. District Court, Денвер) оштрафовала адвокатов Майка Линделла — Кристофера Качуроффа и Дженнифер ДеМастер — на $3000 каждого за подачу в защиту по делу о клевете документа с ≈30 дефектными ссылками, включая вымышленные прецеденты. Качурофф признал использование генеративного ИИ при подготовке документа. Источники: Colorado Sun, NPR.

Калифорнийский юрист (сентябрь 2025). California 2nd District Court of Appeal оштрафовал адвоката Амира Мостафави на $10 000 за апелляцию, где 21 из 23 процитированных дел оказались сфабрикованы ChatGPT. Источник — CalMatters.

Федеральный суд, август 2025. Судья Эллисон Бахус обнаружила, что 12 из 19 цитированных дел в одном из поданных документов «сфабрикованы, вводят в заблуждение или не подтверждаются». Это — не единичная история, а паттерн.

Microsoft Copilot против Martin Bernklau. Немецкому судебному репортёру Copilot приписал совершение преступлений — тех самых, которые Bernklau как журналист освещал в публикациях. Классический четвёртый тип — контекстная галлюцинация: имя автора и имена фигурантов склеились в ложную конструкцию. Разбор — в The Conversation.

Google AI Overview и «микроскопические пчёлы» (февраль 2025). Функция Google, которая генерирует саммари поверх поиска, приняла всерьёз первоапрельскую шутку 2024 года про «микроскопических пчёл, питающих компьютеры», и выдала её как факт в ответ пользователю. Кейс показывает: даже встроенная в поисковик модель с доступом к вебу не отличает сатиру от первичного источника.

Почему AI-детекторы текста не решают проблему

Казалось бы: если модель генерирует, пусть другая модель определяет. На деле в апреле 2026 — не работает.

Компании вроде Originality.ai заявляют 96-99% точности, GPTZero — схожие цифры. Независимые тесты 2025–2026 показывают значительный разброс: 60–95% в зависимости от типа текста. В 2025 FTC вынесла решение против компании Workado (proposed order — апрель 2025, финальный consent order — август 2025) за рекламу AI-детектора как «98% точного»: независимое тестирование показало, что 98% — это точность только на академических текстах, на общем контенте в разы ниже. Свежие бенчмарки 2026 (RAID, PCWorld): детекторы выдают 95–99% на «чистом» AI-тексте, но падают до 62–90% на смешанных, перефразированных или отредактированных материалах. GPTZero в независимых тестах даёт от 0.24% (Chicago Booth 2026) до 10–16% false positives (Ryne.ai, peer-reviewed James O’Sullivan); на эссе от не-носителей английского Stanford-исследование зафиксировало 61.3% ложных срабатываний.

Проблем несколько. Детекторы хуже работают на коротких текстах (меньше 300 слов). Они систематически ошибочно классифицируют как AI-сгенерированные тексты людей, для которых английский — второй язык. Прогон через любой перефразировщик обнуляет большинство сигналов. А главное: обвинить живого человека публично в использовании ИИ только на основании детектора — это потенциальный иск о клевете, особенно при false positive.

Три правила самозащиты на сегодня

Полный пайплайн верификации — в модуле M.4. До него — три простых правила, которые закрывают большинство рисков уже сегодня.

Правило 1. Не просите модель писать «с нуля»

Чем меньше у модели данных, тем больше она додумывает. Разница — огромная:

Промпт «напиши заметку про новый GigaChat» → модель сочинит дату, цифры, кавычки.
Промпт «вот пресс-релиз Сбера от 3 апреля 2026 (текст), напиши по нему заметку на 120 слов без добавления цифр, которых нет в релизе» → модель переформатирует, не добавляя отсебятины.

Ваш инпут (пресс-релиз, интервью, документ) — это RAG бедного человека. Модель держится внутри него гораздо дисциплинированнее, чем в режиме «пиши по памяти».

Правило 2. Каждую ссылку открываем руками

Модель выдала URL — это гипотеза, что ссылка существует и содержит утверждаемое. Проверка:

Ссылка открывается? (Первый отсев — половина ссылок в задачах «с нуля» не откроется вовсе.)
На странице действительно есть это утверждение? (Второй отсев — кейс искажения источника.)
Автор и дата совпадают с тем, что сказала модель? (Третий отсев — фабрикация автора или даты.)

Правило работает одинаково для Claude, ChatGPT, Perplexity. Напомним цифры из M.1.1: по Tow Center, Columbia (март 2025), AI-поисковики фабрикуют более 60% цитирований. Лучший — Perplexity с 37%. «Лучший» не равно «можно доверять».

Правило 3. Даты, цифры и имена — только из проверенных источников

Это прямое следствие нашего теста. Если в новостной заметке, исторической справке, рассуждении про индустрию модель выдала:

конкретную дату события,
процент или сумму,
фамилию эксперта или название компании,

— не оставляйте это в тексте, пока не подтвердили в первичном источнике. Первичный — это не пересказ, не «цитируют СМИ», а непосредственно документ, пресс-релиз, регистр, официальный сайт.

Полное решение — в M.6 «Голос и стиль»: там показываем, как обучать модель на своих текстах и корпусе проверенных источников, чтобы она меньше соскальзывала в фабрикацию.

Мини-квиз: отличите галлюцинацию от факта

Фрагмент 1. «Согласно исследованию Гарварда 2023 года, 72% журналистов используют ИИ в ежедневной работе».

→ Подозрительно. Нужна прямая ссылка на публикацию Гарварда с соответствующим процентом. Цифра «72%» для журналистов нигде в открытых исследованиях Harvard Kennedy School или Nieman Lab не находится — модель, вероятно, склеила «72%» из другого отраслевого отчёта (например, из данных Figma про дизайнеров или Reuters Institute Digital News Report) и приписала его Гарварду. Классический случай контекстной галлюцинации: отдельные элементы звучат знакомо, связка — ложная.

Фрагмент 2. «База Damien Charlotin фиксирует 1316+ случаев галлюцинаций ИИ в суде».

→ Проверяемо. Сайт damiencharlotin.com/hallucinations существует, база публичная, счётчик виден.

Фрагмент 3. «ИИ сочинил фейк про взрыв в Пенсильвании, и это привело к отзыву лицензии у региональной радиостанции».

→ Галлюцинация. Ни Reuters, ни AP, ни Poynter не фиксируют подобный кейс. Фраза собрана из шаблонных элементов (географическое название + «фейк» + «отзыв лицензии») — ровно тот паттерн, который выдал Grok в нашем тесте.

Фрагмент 4. «Штраф $3000 в MyPillow case был наложен судом Колорадо в июле 2025».

→ Проверяемо. Репортаж NPR от 10 июля 2025 подтверждает и сумму, и юрисдикцию, и дату.

Главное из урока

Галлюцинации — свойство архитектуры LLM, а не баг. Исправить полностью нельзя, можно снизить промптом и инпутом.
Четыре типа: фабрикация источника, фабрикация цитаты, искажение источника, контекстная ошибка. Самые опасные — третий (незаметен при беглой проверке) и четвёртый (правовой риск).
В нашем тесте Grok выдал три галлюцинации на 200 слов: выдуманный «взрыв в Пенсильвании», цифры «15-20%», дейтлайн «Москва, 15 февраля». Это типичный профиль, не исключение.
Реальные кейсы 2025 стоят денег: MyPillow — $3000, Калифорния — $10 000, десятки дел с отменёнными апелляциями. База Charlotin — 1316+ задокументированных случаев.
AI-детекторы текста не решают задачу. Независимые тесты дают разброс 60–95% в зависимости от типа контента — и критически падают на смешанных и перефразированных текстах. Публично обвинять человека на основании детектора — нельзя.
Три правила: кормить модель инпутом, а не просить «с нуля»; открывать каждую ссылку руками; не принимать даты, цифры и имена на веру.

В следующем уроке M.1.3 «AI slop vs авторский голос» разберём, как отличить генерацию от авторской работы по стилю, и почему тестовый выхлоп Grok звучит как пост кликбейт-канала, а не как колонка. В модуле M.4 — полный пайплайн фактчека, OSINT-инструменты и C2PA. В модуле M.6 — как обучать Claude на своих текстах, чтобы он держался вашего голоса и меньше соскальзывал в фабрикацию.