Умная колонка уверенно назвала исполнителя песни — а при повторном вопросе назвала другое имя. Языковая модель сослалась на статью закона, которой не существует. Нейросеть указала год основания Москвы как 1047 вместо 1147. Всё это — галлюцинации: ситуации, когда модель генерирует неверную информацию с полной уверенностью, без единой оговорки.

Галлюцинации бывают нескольких типов. Фактические — неверные даты, имена, числа. Ссылочные — выдуманные источники, статьи, имена авторов. Логические — нарушение причинно-следственных связей («если нагреть лёд, он станет тверже»). Контекстные — модель противоречит документу, который сама же получила: документ говорит «не более 100», модель пишет «до 150». Иногда модель повторяет одну и ту же ошибку даже после исправления — например, продолжает утверждать, что 2+2=5.

Тип галлюцинацииОписаниеПример
ФактическаяНеверные даты, имена, числаМосква основана в 1047 году (на самом деле — 1147)
СсылочнаяВыдуманные источники, статьи, законыСсылка на несуществующее исследование Smith et al. (2021)
ЛогическаяНарушение причинно-следственных связей«Если нагреть лёд, он станет тверже»
КонтекстнаяПротиворечие предоставленному документуДокумент: «не более 100», модель пишет: «до 150»
УпорнаяПовторение ошибки после исправленияПродолжает утверждать, что 2+2=5

Понять природу галлюцинаций помогает простое сравнение. Большая языковая модель — не база данных и не поисковик. Это генератор правдоподобной последовательности токенов. Получив вопрос, модель не «вспоминает» ответ — она вычисляет, какой токен с наибольшей вероятностью следует за предыдущими, опираясь на паттерны из обучающих данных. Модель знает, что после «Столица Франции» с высокой вероятностью идёт «Париж» — потому что видела это сочетание тысячи раз. Но если факт редкий или отсутствовал в обучающей выборке, модель начинает комбинировать паттерны из других контекстов — и получается убедительно звучащая выдумка.

LLM не ищет ответ в памяти, а предсказывает следующий токен — поэтому на редких или устаревших фактах начинает «фантазировать».

Галлюцинации языковых моделей: почему ИИ врёт уверенно и что с этим делать
· Источник: Habr AI

Есть три основные причины галлюцинаций. Первая — недостаток данных: факт, встречавшийся в обучении 2–3 раза в разных вариациях, модель может перепутать; факт, которого не было вовсе, — выдумает. Вторая — параметр температуры: чем он выше, тем чаще модель выбирает не самый вероятный токен, а второй или третий по вероятности, что увеличивает «креативность» и одновременно риск ошибок. Третья — конфликт инструкции и знания: если пользователь просит написать что-то, противоречащее обучающим данным, результат непредсказуем.

Дообучение на правильных фактах не решает проблему принципиально. Мир генерирует около 2,5 квинтиллиона байт данных в день — ни одна модель не успевает за этим потоком. Знания устаревают: модель, обученная на данных до 2022 года, уверенно называет старые факты, не зная, что прошло время. Сделать модель предельно осторожной — чтобы она отвечала только на самые простые вопросы — тоже не выход: такая модель теряет практическую ценность.

Однако частоту галлюцинаций можно существенно снизить инженерными методами. Наиболее эффективный из них — RAG (Retrieval-Augmented Generation). Вместо того чтобы полагаться на внутреннюю «память» модели, система перед генерацией ответа извлекает релевантные фрагменты из внешней базы знаний и передаёт их модели вместе с инструкцией отвечать только на основе этих фрагментов. Если ответа в документах нет — модель должна сообщить об этом явно. По имеющимся оценкам, RAG снижает фактологические галлюцинации на 70–90%.

Второй метод — контроль температуры и параметра top-p. Значения temperature=0.0–0.1 делают ответы почти детерминированными: модель выбирает только самые вероятные токены. Это подходит для юридических, медицинских и финансовых задач, где точность критична, но не годится для творческих — там нужна вариативность. Третий метод — цепочка мыслей с самопроверкой: модель сначала рассуждает шаг за шагом, формулирует предварительный ответ, затем проверяет каждый факт на соответствие логике и здравому смыслу, исправляет найденные ошибки и только после этого даёт финальный ответ. Наконец, явный запрет в промпте на выдуманные источники, имена авторов и даты снижает ссылочные галлюцинации — модель не будет цитировать несуществующие исследования, если это прямо запрещено инструкцией.

Галлюцинации — системное свойство архитектуры LLM, а не программный дефект, который можно однажды исправить патчем. Именно поэтому внедрение языковых моделей в медицину, юриспруденцию и финансы требует не просто выбора модели, но и выстраивания инфраструктуры верификации вокруг неё.