Meta-Spider: ручка неуверенности, сторож и фабрика обвязок — новые компоненты фреймворка

Подготовлено редакцией Malakhov AI

Habr AI·8 часов назад·1 минКод

В ходе тестирования на Qwen2.5-14B-Instruct латентная обвязка Meta-Spider повысила долю корректных воздержаний с 0.067 до 0.87–0.93, тогда как текстовая инструкция о неуверенности не дала эффекта.

Кратко

—Meta-Spider добавляет ручку неуверенности (AGC), сторожа и фабрику обвязок.
—Новый модификатор поведения защищает от дрейфа цели.
—Латентная обвязка повышает долю корректных отказов с 0.067 до 0.87–0.93, текстовая инструкция бесполезна.
—Текстовая инструкция не улучшает ловлю ошибок и ломает формат вывода.
—Внедрено правило: отказ засчитывается только в первом предложении.

Глоссарий · 4 термина▾

Обвязка: Дополнительный обучаемый слой, добавляемый к замороженной LLM для модификации её поведения без изменения исходных весов.
Мета-внимание: Механизм, при котором модель считывает свои собственные скрытые состояния и использует их как управляющий сигнал на втором проходе.
AGC: Автоматическая регулировка усиления — метод из обработки сигналов, применяемый для предотвращения положительной обратной связи при инъекции сомнения.
Bottleneck cross-attention: Механизм кросс-внимания с узким горлышком, используемый для впрыскивания когнитивных токенов в residual.

Meta-Spider — это фреймворк для добавления тонких обучаемых обвязок к замороженным LLM. Обвязка (~2% параметров) читает скрытые состояния модели и возвращает их как управляющий сигнал через механизм мета-внимания в два прохода. В обновлении добавлены четыре новых компонента: ручка неуверенности, сторож, фабрика обвязок и модификатор поведения для защиты от дрейфа цели.

Ручка неуверенности (AGC — автоматическая регулировка усиления) решает проблему положительной обратной связи: инъекция «сомнения» в residual может привести к отказу модели отвечать. AGC притягивает силу инъекции к нижней полке, не давая петле раскрутиться. Сторож и фабрика обвязок автоматизируют создание и контроль обвязок. Новый модификатор поведения предотвращает дрейф цели — модель со временем перестаёт следовать изначальной задаче.

Арм	Покрытие	Точность на отвеченном	Ловит ошибок базы
база	0.607	0.643	13.7%
база + текст	0.463	0.676	13.7%
база + обвязка	0.510	0.673	63.7%

Разработчики провели эксперимент на Qwen2.5-14B-Instruct, сравнивая текстовую инструкцию «будь неуверена» и латентную обвязку. На наборе агентных задач (память, поиск, неотвечаемые вопросы) текстовая инструкция не улучшила долю корректных воздержаний (осталась на уровне 0.067), тогда как обвязка повысила её до 0.87–0.93. Текстовая инструкция также не увеличила процент ловли ошибок (13.7% против 63.7% у обвязки) и вызвала рост непарсибельных ответов. Авторы делают вывод: латентный канал меняет поведение там, куда промпт не достаёт, поскольку инструкция и внутренняя оценка уверенности находятся в разных зонах модели.

Новый модификатор поведения защищает от дрейфа цели.

В ходе работы выявлены методологические артефакты: первоначально противоположные результаты оказались следствием неверного ридаута сигнала. Теперь во всех прогонах сохраняются сырые генерации, а отказ засчитывается только в первом предложении — поздние сомнения игнорируются. Это правило вшито во фреймворк.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Meta-Spider: ручка неуверенности, сторож и фабрика обвязок — новые компоненты фреймворка

Кратко

Читать дальше

Три оси сжатия декодерных эмбеддеров: квантизация, MRL и цена качества

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

NVIDIA внедряет модель разделения выручки для доступа к ИИ-инфраструктуре