Галлюцинации нейросетей (ИИ) — что это, причины, как бороться
Кратко. Галлюцинации ИИ (AI hallucinations) — это правдоподобно звучащая, но фактически неверная информация от языковой модели: выдуманные цитаты, ложные источники, ошибочные даты. Причина в том, что LLM учатся генерировать правдоподобный текст, а не истинный, и не проверяют факты.
Что такое галлюцинации ИИ
Галлюцинация — это уверенное утверждение неверного факта языковой моделью. Важно понимать: модель не «врёт», поскольку это требовало бы намерения, а генерирует наиболее вероятный с её точки зрения текст, который случайно оказывается ложным. Внешне такой ответ выглядит компетентным и связным, что и делает галлюцинации опасными: пользователю трудно отличить выдумку от реального факта без отдельной проверки.
Примеры классических галлюцинаций LLM:
- Выдуманные ссылки: «Согласно исследованию Kaplan et al. (2023) в журнале Nature Machine Intelligence, эффективность составила 87.3%» — ни статьи, ни авторов может не существовать
- Фейковые цитаты: «Как говорил Эйнштейн: “Если вы не можете объяснить это просто, вы не понимаете это достаточно хорошо”» — цитата приписывается Эйнштейну ошибочно
- Несуществующие API: генерация кода с вызовом функций, которых нет в библиотеке
- Смешанные факты: правильное имя + неверная должность + выдуманный год
- Правдоподобная чушь: в ответ на несуществующий термин модель даёт детальное «объяснение»
Почему модели галлюцинируют
Галлюцинации возникают не из-за единичной поломки, а из-за самого устройства языковых моделей. LLM учатся предсказывать вероятное продолжение текста, хранят знания сжато в весах и почти не видят честных «не знаю» в обучающих данных. К этому добавляются устаревший cutoff, потеря фактов в длинных контекстах и накопление ошибок в многошаговых рассуждениях. Ниже разобраны шесть основных причин.
Причина 1: обучение на прогноз следующего токена
LLM обучены предсказывать статистически вероятное продолжение текста, а не истинное. Если модель видела миллионы текстов с паттерном «Согласно исследованию [авторы] ([год]) в журнале [название]…», она будет генерировать такие конструкции, даже когда не знает реальных авторов.
Причина 2: отсутствие «я не знаю» в обучающих данных
Интернет-тексты редко содержат честные «не знаю». Авторы пишут уверенно, даже когда не уверены. Модель перенимает этот стиль.
RLHF и Constitutional AI частично решают проблему — обучая модель говорить «не знаю» — но не полностью. Модели по-прежнему чаще выдумывают, чем признают незнание.
Причина 3: компрессия информации
Претренированная модель хранит информацию в весах (параметрах) сжатым образом. GPT-4 ~2 трлн параметров сжимают ~15 трлн токенов обучающих данных. Потери неизбежны. При воспроизведении редких фактов (специфические имена, даты) модель «угадывает» по ассоциациям.
Причина 4: неточная актуальная информация
Модели имеют cutoff обучающих данных. Claude 4.6 cutoff — май 2025, GPT-5 — декабрь 2024. Спрашиваешь про события 2026 — модель либо признаёт незнание, либо генерирует правдоподобное продолжение известных трендов. Второе — галлюцинация.
Причина 5: длинные контексты
При обработке длинного документа модель может «забыть» факт из начала и заменить его похожим. Исследования показывают: точность падает на 10-30% при приближении к максимальному контексту (needle-in-haystack проблема).
Причина 6: reasoning chains
При сложных многошаговых рассуждениях ошибка на одном шаге каскадируется. Если модель неверно вспомнила формулу в первом шаге, итог может быть полностью фантазийным, но выглядеть убедительно.
Типы галлюцинаций
Исследователи делят галлюцинации на несколько категорий в зависимости от их отношения к исходному контексту и характеру выдумки. Это различие важно на практике: разные типы требуют разных методов борьбы. Чаще всего выделяют внутренние и внешние галлюцинации, чистую фабрикацию, ложную атрибуцию и временные ошибки. Понимание типа помогает выбрать подходящий приём снижения — от настройки RAG до проверки источников.
Intrinsic (внутренние)
Противоречие исходному контексту. Модель получила документ, но сгенерировала утверждение, которое документу противоречит.
Пример: в документе сказано «встреча состоится во вторник 15 апреля», модель пишет «в понедельник 15 апреля».
Типичны в задачах саммаризации и RAG без правильной настройки.
Extrinsic (внешние)
Факт не противоречит контексту, но и не подтверждается им. Модель добавляет информацию, которой не было.
Пример: в документе — резюме кандидата без указания зарплаты. Модель в саммари добавляет: «Ожидаемая зарплата 150 тысяч».
Fabrication (фабрикация)
Чистая выдумка. Модель создаёт факты/имена/источники, которых нет нигде.
Пример: «Python был создан Гвидо ван Россумом и Саймоном Петтерссоном в 1991 году». Петтерссона не существует.
Misattribution (ложная атрибуция)
Правильный факт приписан неправильному источнику.
Пример: цитата Эйнштейна, которую он никогда не говорил.
Temporal hallucinations (временные)
Модель путает эпохи, присваивает современные достижения историческим фигурам или наоборот.
Как измерить галлюцинации
Чтобы управлять галлюцинациями, их нужно измерять. Для этого используют как стандартизированные бенчмарки, так и продуктовые метрики на реальном трафике. Бенчмарки вроде TruthfulQA и HaluEval оценивают модель в контролируемых условиях, а метрики на проде — hallucination rate, source grounding и calibration — показывают поведение в конкретном приложении. Ниже собраны основные инструменты оценки и ориентировочная статистика по частоте галлюцинаций на 2026 год.
Benchmarks
- TruthfulQA — вопросы, провоцирующие распространённые заблуждения
- HaluEval — комбинированный benchmark для разных типов галлюцинаций
- FACTSCORE — оценка биографий по фактам
Метрики на проде
- Hallucination rate — доля ответов с выдуманными фактами. Измеряется ручной разметкой или Claude-as-judge
- Source grounding — процент утверждений, подтверждённых документами из контекста
- Confidence calibration — насколько уверенность модели соответствует реальной точности
Статистика 2026
| Модель | Hallucination rate (factual Q&A) | С RAG |
|---|---|---|
| Claude Opus 4.6 | 3-5% | 0.5-1% |
| GPT-5 | 4-7% | 1-2% |
| Gemini 2.5 Pro | 5-8% | 1-2% |
| Llama 3.3 70B | 8-12% | 2-3% |
| Small open-source (7B) | 15-25% | 5-8% |
Методы снижения галлюцинаций
Полностью устранить галлюцинации нельзя, но их частоту реально снизить в несколько раз сочетанием приёмов. Самый эффективный — RAG, когда модель отвечает по найденным документам, а не по памяти. К нему добавляют структурированный вывод, цепочки самопроверки, режим рассуждения, вызов внешних инструментов, дообучение и аккуратный промптинг. Для критичных задач сверху ставят обязательную проверку человеком. Ниже разобраны восемь рабочих методов.
1. RAG (Retrieval-Augmented Generation)
Самый эффективный метод для большинства задач. Модель отвечает на основе найденных документов, а не памяти.
Подробнее: RAG — что это и как работает.
Снижает галлюцинации в 2-5 раз при правильной реализации. Не устраняет полностью: модель может неверно интерпретировать контекст.
2. Structured output
Заставить модель отвечать в жёсткой структуре (JSON с конкретными полями). Это сужает «пространство возможных галлюцинаций».
response = client.messages.create(
tools=[{
"name": "answer",
"input_schema": {
"type": "object",
"properties": {
"claim": {"type": "string"},
"source_document_id": {"type": "string"},
"confidence": {"type": "number"}
},
"required": ["claim", "source_document_id", "confidence"]
}
}]
)
3. Chain-of-Verification (CoVe)
Модель сначала отвечает, потом сама проверяет свой ответ через серию вопросов.
- Первичный ответ
- Генерация проверочных вопросов
- Ответы на проверочные вопросы независимо
- Финальный ответ с учётом проверок
Снижает галлюцинации на 30-50% по исследованиям Meta.
4. Reasoning mode
Современные модели (Claude 4.6 Opus, GPT-5, o3) имеют режим явного reasoning: модель сначала «думает» (внутренний chain-of-thought), потом отвечает. Снижает галлюцинации особенно на математических и логических задачах.
5. Tool use
Модель вызывает внешние инструменты для верификации: веб-поиск, калькулятор, запросы к БД, запуск кода.
Пример: вместо того чтобы «вспоминать» численный расчёт, модель пишет Python-код и выполняет его. Результат точный по определению.
6. Fine-tuning с корректными примерами
Дообучение модели на domain-specific данных с правильными ответами снижает галлюцинации в этом домене. Дорого, но работает для критичных применений (медицина, юриспруденция).
7. Prompt engineering
Простые техники:
- «Отвечай только если уверен. Иначе скажи ‘не знаю’»
- «Используй только информацию из предоставленного контекста»
- «Для каждого утверждения укажи источник»
- Few-shot примеры с корректными отказами
Снижает галлюцинации на 10-30%, почти бесплатно.
8. Human-in-the-loop
Для критичных применений — обязательная верификация человеком перед использованием. Не масштабируется, но необходимо для медицины, юриспруденции, финансов.
Где галлюцинации наиболее опасны
Цена ошибки сильно зависит от области применения. В развлекательном чат-боте выдумка почти безвредна, а в медицине, праве или финансах одна галлюцинация способна привести к реальному ущербу. В таких сферах LLM нельзя использовать как источник истины: их выводы обязательно проверяются через RAG по достоверным базам и контроль специалиста. Ниже разобраны области, где требования к надёжности особенно высоки.
Медицина
Неверный диагноз или рекомендация лечения = вред пациенту. FDA ввела строгие требования к медицинским AI. Необходим RAG по клиническим гайдлайнам + обязательный врач-контроль.
Юриспруденция
В 2023 году адвокат в США процитировал в суде несуществующие прецеденты, сгенерированные ChatGPT. Штраф + публичный позор. Современные legal AI (Harvey, Thomson Reuters CoCounsel) используют RAG по реальной базе законов.
Финансы
Галлюцинация в trading bot или кредитном скоринге = прямые убытки. Используются строгие правила + ансамбли моделей + обязательная верификация.
Научные исследования
Выдуманные ссылки в академических работах — серьёзная проблема. Некоторые журналы требуют обязательную проверку всех ссылок через базы данных типа Semantic Scholar.
Промышленность
Галлюцинации при советах по настройке оборудования могут привести к авариям. В ruaut.ru AI-экспериментах мы используем RAG по документации производителей + обязательный инженерный review перед применением советов LLM в production.
AI-экспертный комментарий
Теория и бенчмарки полезны, но на практике борьба с галлюцинациями сводится к нескольким устойчивым правилам, проверенным на реальных проектах. Ключевая идея проста: модель не следует считать источником истины. Она оформляет информацию в удобный ответ, тогда как сама истина должна приходить из документов, баз данных и выполненного кода. Ниже — практический взгляд на то, как выстроить такой контур доверия.
За два года работы с LLM в production я выделил три правила борьбы с галлюцинациями: (1) Никогда не доверять модели в фактологических вопросах без проверки. RAG + явное требование цитировать источники из контекста. (2) Structured output везде где возможно — JSON с обязательными полями работает лучше свободной прозы. (3) Verification loop для критичных задач — второй запрос к той же или другой модели с вопросом «Правда ли утверждение X?». Снижает галлюцинации на 60-80%. Ключевой mindset: модель — не источник истины, а интерфейс к структурированной обработке информации. Истина приходит из документов, баз данных, кода — LLM только оформляет её в удобный ответ. — Павел Кияткин, архитектор ИИ-систем
Источники
Тема галлюцинаций ИИ опирается на ряд канонических исследований. Ниже — проверяемые первоисточники: обзорный survey, формальный анализ причин от OpenAI, бенчмарк правдивости и метод самопроверки. Они подтверждают ключевые тезисы статьи — от типологии (intrinsic/extrinsic) до методов снижения (Chain-of-Verification).
- Ji et al. «Survey of Hallucination in Natural Language Generation», ACM Computing Surveys, 2022 — arxiv.org/abs/2202.03629
- Kalai, Nachum, Vempala, Zhang «Why Language Models Hallucinate», OpenAI, 2025 — arxiv.org/abs/2509.04664 (разбор на openai.com)
- Lin, Hilton, Evans «TruthfulQA: Measuring How Models Mimic Human Falsehoods», 2021 — arxiv.org/abs/2109.07958
- Dhuliawala et al. «Chain-of-Verification Reduces Hallucination in Large Language Models», Meta AI, 2023 — arxiv.org/abs/2309.11495
Связанные концепты
- LLM — фундаментальный класс моделей, в которых возникают галлюцинации
- RAG — главный метод снижения галлюцинаций
- Claude AI — одна из лидирующих моделей с низким hallucination rate
Частые вопросы
Можно ли полностью убрать галлюцинации?
Нет. Пока LLM работают как генеративные модели, галлюцинации — фундаментальное свойство, не баг. Можно снизить до 0.5-2% хорошо настроенным RAG + verification. Нельзя устранить полностью без кардинального изменения архитектуры.
Какая модель галлюцинирует меньше всего?
По бенчмаркам 2026 — Claude 4.6 Opus и GPT-5 примерно равны (3-5%). Reasoning-модели (o3, Opus в reasoning mode) заметно лучше на логических задачах. Small open-source (7B) — в 2-3 раза хуже frontier моделей.
Как определить что модель галлюцинирует?
Признаки: уверенный тон при специфических фактах (имена, даты, цифры) без источников; правдоподобные, но неизвестные ссылки; инконсистентность при повторных запросах; противоречие самой себе в длинном ответе; слишком «круглые» числа. Лучший подход: никогда не доверять модели на фактах, всегда верифицировать источники.
Можно ли обучить модель на своей базе данных?
Да, через fine-tuning или RAG. RAG предпочтительнее в 95% случаев: проще обновлять, дешевле, не требует переобучения. Fine-tuning нужен когда: нужен специфический стиль; данные супер-конфиденциальные; RAG не справляется по качеству.
Влияет ли температура на галлюцинации?
Да. Низкая температура (0.0-0.3) — модель детерминированнее, меньше галлюцинаций. Высокая (0.7-1.0) — больше креатива, больше галлюцинаций. Для фактологических задач ставим temperature=0, для генеративных — 0.7+.