Галлюцинации языковых моделей: почему ИИ врёт уверенно и что с этим делать

Habr AI·30 апр.·3 минРоссияКод

GPT, Claude и Llama не хранят факты — они генерируют статистически вероятные последовательности токенов, из-за чего уверенно называют несуществующие законы, выдуманных авторов и неверные даты. Галлюцинации нельзя устранить полностью, но их частоту можно снизить на 70–90% с помощью конкретных инженерных техник.

Кратко

—Галлюцинация — это уверенный ответ модели, не соответствующий фактам, источнику или логике; опасна именно отсутствием оговорок.
—LLM не ищет ответ в памяти, а предсказывает следующий токен — поэтому на редких или устаревших фактах начинает «фантазировать».
—RAG (Retrieval-Augmented Generation) снижает фактологические галлюцинации на 70–90%, подавая модели актуальные документы вместо её внутренних знаний.
—Параметр temperature=0.0–0.1 делает ответы почти детерминированными — подходит для юридических, медицинских и финансовых задач.
—Дообучение не решает проблему: мир генерирует 2,5 квинтиллиона байт данных в день, и любая модель неизбежно отстаёт от реальности.

Глоссарий · 7 терминов▾

Галлюцинация (hallucination): Ситуация, когда языковая модель уверенно генерирует информацию, не соответствующую фактам, источнику или логике.
Токен: Минимальная единица текста, которой оперирует языковая модель — примерно слово или часть слова.
LLM (Large Language Model): Большая языковая модель — нейросеть, обученная предсказывать следующий токен на основе огромного массива текстов.
RAG (Retrieval-Augmented Generation): Техника, при которой перед генерацией ответа система извлекает актуальные документы из внешней базы и передаёт их модели как контекст.
Температура (temperature): Параметр языковой модели, регулирующий случайность выбора токенов: низкое значение даёт предсказуемые ответы, высокое — более разнообразные.
top-p: Параметр, ограничивающий выбор токенов только теми, чья суммарная вероятность не превышает заданного порога, — снижает случайность генерации.
Дообучение (fine-tuning): Дополнительное обучение уже готовой модели на новом наборе данных для улучшения её поведения в конкретной области.

Умная колонка уверенно назвала исполнителя песни — а при повторном вопросе назвала другое имя. Языковая модель сослалась на статью закона, которой не существует. Нейросеть указала год основания Москвы как 1047 вместо 1147. Всё это — галлюцинации: ситуации, когда модель генерирует неверную информацию с полной уверенностью, без единой оговорки.

Галлюцинации бывают нескольких типов. Фактические — неверные даты, имена, числа. Ссылочные — выдуманные источники, статьи, имена авторов. Логические — нарушение причинно-следственных связей («если нагреть лёд, он станет тверже»). Контекстные — модель противоречит документу, который сама же получила: документ говорит «не более 100», модель пишет «до 150». Иногда модель повторяет одну и ту же ошибку даже после исправления — например, продолжает утверждать, что 2+2=5.

Тип галлюцинации	Описание	Пример
Фактическая	Неверные даты, имена, числа	Москва основана в 1047 году (на самом деле — 1147)
Ссылочная	Выдуманные источники, статьи, законы	Ссылка на несуществующее исследование Smith et al. (2021)
Логическая	Нарушение причинно-следственных связей	«Если нагреть лёд, он станет тверже»
Контекстная	Противоречие предоставленному документу	Документ: «не более 100», модель пишет: «до 150»
Упорная	Повторение ошибки после исправления	Продолжает утверждать, что 2+2=5

Понять природу галлюцинаций помогает простое сравнение. Большая языковая модель — не база данных и не поисковик. Это генератор правдоподобной последовательности токенов. Получив вопрос, модель не «вспоминает» ответ — она вычисляет, какой токен с наибольшей вероятностью следует за предыдущими, опираясь на паттерны из обучающих данных. Модель знает, что после «Столица Франции» с высокой вероятностью идёт «Париж» — потому что видела это сочетание тысячи раз. Но если факт редкий или отсутствовал в обучающей выборке, модель начинает комбинировать паттерны из других контекстов — и получается убедительно звучащая выдумка.

LLM не ищет ответ в памяти, а предсказывает следующий токен — поэтому на редких или устаревших фактах начинает «фантазировать».

Есть три основные причины галлюцинаций. Первая — недостаток данных: факт, встречавшийся в обучении 2–3 раза в разных вариациях, модель может перепутать; факт, которого не было вовсе, — выдумает. Вторая — параметр температуры: чем он выше, тем чаще модель выбирает не самый вероятный токен, а второй или третий по вероятности, что увеличивает «креативность» и одновременно риск ошибок. Третья — конфликт инструкции и знания: если пользователь просит написать что-то, противоречащее обучающим данным, результат непредсказуем.

Дообучение на правильных фактах не решает проблему принципиально. Мир генерирует около 2,5 квинтиллиона байт данных в день — ни одна модель не успевает за этим потоком. Знания устаревают: модель, обученная на данных до 2022 года, уверенно называет старые факты, не зная, что прошло время. Сделать модель предельно осторожной — чтобы она отвечала только на самые простые вопросы — тоже не выход: такая модель теряет практическую ценность.

Однако частоту галлюцинаций можно существенно снизить инженерными методами. Наиболее эффективный из них — RAG (Retrieval-Augmented Generation). Вместо того чтобы полагаться на внутреннюю «память» модели, система перед генерацией ответа извлекает релевантные фрагменты из внешней базы знаний и передаёт их модели вместе с инструкцией отвечать только на основе этих фрагментов. Если ответа в документах нет — модель должна сообщить об этом явно. По имеющимся оценкам, RAG снижает фактологические галлюцинации на 70–90%.

Второй метод — контроль температуры и параметра top-p. Значения temperature=0.0–0.1 делают ответы почти детерминированными: модель выбирает только самые вероятные токены. Это подходит для юридических, медицинских и финансовых задач, где точность критична, но не годится для творческих — там нужна вариативность. Третий метод — цепочка мыслей с самопроверкой: модель сначала рассуждает шаг за шагом, формулирует предварительный ответ, затем проверяет каждый факт на соответствие логике и здравому смыслу, исправляет найденные ошибки и только после этого даёт финальный ответ. Наконец, явный запрет в промпте на выдуманные источники, имена авторов и даты снижает ссылочные галлюцинации — модель не будет цитировать несуществующие исследования, если это прямо запрещено инструкцией.

Галлюцинации — системное свойство архитектуры LLM, а не программный дефект, который можно однажды исправить патчем. Именно поэтому внедрение языковых моделей в медицину, юриспруденцию и финансы требует не просто выбора модели, но и выстраивания инфраструктуры верификации вокруг неё.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме