Галлюцинации нейросетей (ИИ) — что это, причины, как бороться

2026-04-12 · Павел Кияткин · Средний

Кратко. Галлюцинации ИИ (AI hallucinations) — явление, при котором языковая модель генерирует правдоподобно звучащую, но фактически неверную информацию: выдуманные цитаты, несуществующие книги, ошибочные даты, фальшивые научные факты. Причина: LLM оптимизированы на генерацию правдоподобного текста, а не истинного — у модели нет встроенного механизма верификации. На 2026 год частота галлюцинаций в GPT-5/Claude 4.6 Opus составляет 3-8% на фактологических вопросах, снижается до 0.5-2% при использовании RAG. Термин «галлюцинация» предложен исследователями Google в 2018 году для machine translation.

Что такое галлюцинации ИИ

Галлюцинация — уверенное утверждение неверного факта. Важно: модель не «врёт» (это требует намерения), а генерирует наиболее вероятный с её точки зрения текст, который оказывается ложным.

Примеры классических галлюцинаций LLM:

Выдуманные ссылки: «Согласно исследованию Kaplan et al. (2023) в журнале Nature Machine Intelligence, эффективность составила 87.3%» — ни статьи, ни авторов может не существовать
Фейковые цитаты: «Как говорил Эйнштейн: “Если вы не можете объяснить это просто, вы не понимаете это достаточно хорошо”» — цитата приписывается Эйнштейну ошибочно
Несуществующие API: генерация кода с вызовом функций, которых нет в библиотеке
Смешанные факты: правильное имя + неверная должность + выдуманный год
Правдоподобная чушь: в ответ на несуществующий термин модель даёт детальное «объяснение»

Почему модели галлюцинируют

Причина 1: обучение на прогноз следующего токена

LLM обучены предсказывать статистически вероятное продолжение текста, а не истинное. Если модель видела миллионы текстов с паттерном «Согласно исследованию [авторы] ([год]) в журнале [название]…», она будет генерировать такие конструкции, даже когда не знает реальных авторов.

Причина 2: отсутствие «я не знаю» в обучающих данных

Интернет-тексты редко содержат честные «не знаю». Авторы пишут уверенно, даже когда не уверены. Модель перенимает этот стиль.

RLHF и Constitutional AI частично решают проблему — обучая модель говорить «не знаю» — но не полностью. Модели по-прежнему чаще выдумывают, чем признают незнание.

Причина 3: компрессия информации

Претренированная модель хранит информацию в весах (параметрах) сжатым образом. GPT-4 ~2 трлн параметров сжимают ~15 трлн токенов обучающих данных. Потери неизбежны. При воспроизведении редких фактов (специфические имена, даты) модель «угадывает» по ассоциациям.

Причина 4: неточная актуальная информация

Модели имеют cutoff обучающих данных. Claude 4.6 cutoff — май 2025, GPT-5 — декабрь 2024. Спрашиваешь про события 2026 — модель либо признаёт незнание, либо генерирует правдоподобное продолжение известных трендов. Второе — галлюцинация.

Причина 5: длинные контексты

При обработке длинного документа модель может «забыть» факт из начала и заменить его похожим. Исследования показывают: точность падает на 10-30% при приближении к максимальному контексту (needle-in-haystack проблема).

Причина 6: reasoning chains

При сложных многошаговых рассуждениях ошибка на одном шаге каскадируется. Если модель неверно вспомнила формулу в первом шаге, итог может быть полностью фантазийным, но выглядеть убедительно.

Типы галлюцинаций

Intrinsic (внутренние)

Противоречие исходному контексту. Модель получила документ, но сгенерировала утверждение, которое документу противоречит.

Пример: в документе сказано «встреча состоится во вторник 15 апреля», модель пишет «в понедельник 15 апреля».

Типичны в задачах саммаризации и RAG без правильной настройки.

Extrinsic (внешние)

Факт не противоречит контексту, но и не подтверждается им. Модель добавляет информацию, которой не было.

Пример: в документе — резюме кандидата без указания зарплаты. Модель в саммари добавляет: «Ожидаемая зарплата 150 тысяч».

Fabrication (фабрикация)

Чистая выдумка. Модель создаёт факты/имена/источники, которых нет нигде.

Пример: «Python был создан Гвидо ван Россумом и Саймоном Петтерссоном в 1991 году». Петтерссона не существует.

Misattribution (ложная атрибуция)

Правильный факт приписан неправильному источнику.

Пример: цитата Эйнштейна, которую он никогда не говорил.

Temporal hallucinations (временные)

Модель путает эпохи, присваивает современные достижения историческим фигурам или наоборот.

Как измерить галлюцинации

Benchmarks

TruthfulQA — вопросы, провоцирующие распространённые заблуждения
HaluEval — комбинированный benchmark для разных типов галлюцинаций
FACTSCORE — оценка биографий по фактам

Метрики на проде

Hallucination rate — доля ответов с выдуманными фактами. Измеряется ручной разметкой или Claude-as-judge
Source grounding — процент утверждений, подтверждённых документами из контекста
Confidence calibration — насколько уверенность модели соответствует реальной точности

Статистика 2026

Модель	Hallucination rate (factual Q&A)	С RAG
Claude Opus 4.6	3-5%	0.5-1%
GPT-5	4-7%	1-2%
Gemini 2.5 Pro	5-8%	1-2%
Llama 3.3 70B	8-12%	2-3%
Small open-source (7B)	15-25%	5-8%

Методы снижения галлюцинаций

1. RAG (Retrieval-Augmented Generation)

Самый эффективный метод для большинства задач. Модель отвечает на основе найденных документов, а не памяти.

Подробнее: RAG — что это и как работает.

Снижает галлюцинации в 2-5 раз при правильной реализации. Не устраняет полностью: модель может неверно интерпретировать контекст.

2. Structured output

Заставить модель отвечать в жёсткой структуре (JSON с конкретными полями). Это сужает «пространство возможных галлюцинаций».

response = client.messages.create(
    tools=[{
        "name": "answer",
        "input_schema": {
            "type": "object",
            "properties": {
                "claim": {"type": "string"},
                "source_document_id": {"type": "string"},
                "confidence": {"type": "number"}
            },
            "required": ["claim", "source_document_id", "confidence"]
        }
    }]
)

3. Chain-of-Verification (CoVe)

Модель сначала отвечает, потом сама проверяет свой ответ через серию вопросов.

Первичный ответ
Генерация проверочных вопросов
Ответы на проверочные вопросы независимо
Финальный ответ с учётом проверок

Снижает галлюцинации на 30-50% по исследованиям Meta.

4. Reasoning mode

Современные модели (Claude 4.6 Opus, GPT-5, o3) имеют режим явного reasoning: модель сначала «думает» (внутренний chain-of-thought), потом отвечает. Снижает галлюцинации особенно на математических и логических задачах.

5. Tool use

Модель вызывает внешние инструменты для верификации: веб-поиск, калькулятор, запросы к БД, запуск кода.

Пример: вместо того чтобы «вспоминать» численный расчёт, модель пишет Python-код и выполняет его. Результат точный по определению.

6. Fine-tuning с корректными примерами

Дообучение модели на domain-specific данных с правильными ответами снижает галлюцинации в этом домене. Дорого, но работает для критичных применений (медицина, юриспруденция).

7. Prompt engineering

Простые техники:

«Отвечай только если уверен. Иначе скажи ‘не знаю’»
«Используй только информацию из предоставленного контекста»
«Для каждого утверждения укажи источник»
Few-shot примеры с корректными отказами

Снижает галлюцинации на 10-30%, почти бесплатно.

8. Human-in-the-loop

Для критичных применений — обязательная верификация человеком перед использованием. Не масштабируется, но необходимо для медицины, юриспруденции, финансов.

Где галлюцинации наиболее опасны

Медицина

Неверный диагноз или рекомендация лечения = вред пациенту. FDA ввела строгие требования к медицинским AI. Необходим RAG по клиническим гайдлайнам + обязательный врач-контроль.

Юриспруденция

В 2023 году адвокат в США процитировал в суде несуществующие прецеденты, сгенерированные ChatGPT. Штраф + публичный позор. Современные legal AI (Harvey, Thomson Reuters CoCounsel) используют RAG по реальной базе законов.

Финансы

Галлюцинация в trading bot или кредитном скоринге = прямые убытки. Используются строгие правила + ансамбли моделей + обязательная верификация.

Научные исследования

Выдуманные ссылки в академических работах — серьёзная проблема. Некоторые журналы требуют обязательную проверку всех ссылок через базы данных типа Semantic Scholar.

Промышленность

Галлюцинации при советах по настройке оборудования могут привести к авариям. В ruaut.ru AI-экспериментах мы используем RAG по документации производителей + обязательный инженерный review перед применением советов LLM в production.

AI-экспертный комментарий

За два года работы с LLM в production я выделил три правила борьбы с галлюцинациями: (1) Никогда не доверять модели в фактологических вопросах без проверки. RAG + явное требование цитировать источники из контекста. (2) Structured output везде где возможно — JSON с обязательными полями работает лучше свободной прозы. (3) Verification loop для критичных задач — второй запрос к той же или другой модели с вопросом «Правда ли утверждение X?». Снижает галлюцинации на 60-80%. Ключевой mindset: модель — не источник истины, а интерфейс к структурированной обработке информации. Истина приходит из документов, баз данных, кода — LLM только оформляет её в удобный ответ. — Павел Кияткин, AI-инженер

FAQ

Можно ли полностью убрать галлюцинации?

Нет. Пока LLM работают как генеративные модели, галлюцинации — фундаментальное свойство, не баг. Можно снизить до 0.5-2% хорошо настроенным RAG + verification. Нельзя устранить полностью без кардинального изменения архитектуры.

Какая модель галлюцинирует меньше всего?

По бенчмаркам 2026 — Claude 4.6 Opus и GPT-5 примерно равны (3-5%). Reasoning-модели (o3, Opus в reasoning mode) заметно лучше на логических задачах. Small open-source (7B) — в 2-3 раза хуже frontier моделей.

Как определить что модель галлюцинирует?

Признаки:

Уверенный тон при специфических фактах (имена, даты, цифры) без источников
Правдоподобные, но неизвестные ссылки
Инконсистентность при повторных запросах (разные ответы на один вопрос)
Противоречие самой себе в длинном ответе
Слишком «круглые» числа (50%, 1000, 2000) — часто индикатор выдумки

Лучший подход: никогда не доверять модели на фактах, всегда верифицировать источники.

Можно ли обучить модель на своей базе данных?

Да, через fine-tuning или RAG. RAG предпочтительнее в 95% случаев: проще обновлять, дешевле, не требует переобучения. Fine-tuning нужен когда: (1) нужен специфический стиль, (2) данные супер-конфиденциальные и нельзя отправлять в promt, (3) RAG не справляется по качеству.

Влияет ли температура на галлюцинации?

Да. Низкая температура (0.0-0.3) — модель детерминированнее, меньше творчества, меньше галлюцинаций. Высокая (0.7-1.0) — больше креатива, больше галлюцинаций. Для фактологических задач ставим temperature=0, для генеративных (креативный текст) — 0.7+.

Связанные концепты

LLM — фундаментальный класс моделей, в которых возникают галлюцинации
RAG — главный метод снижения галлюцинаций
Claude AI — одна из лидирующих моделей с низким hallucination rate