Meta-Spider — это фреймворк для добавления тонких обучаемых обвязок к замороженным LLM. Обвязка (~2% параметров) читает скрытые состояния модели и возвращает их как управляющий сигнал через механизм мета-внимания в два прохода. В обновлении добавлены четыре новых компонента: ручка неуверенности, сторож, фабрика обвязок и модификатор поведения для защиты от дрейфа цели.
Ручка неуверенности (AGC — автоматическая регулировка усиления) решает проблему положительной обратной связи: инъекция «сомнения» в residual может привести к отказу модели отвечать. AGC притягивает силу инъекции к нижней полке, не давая петле раскрутиться. Сторож и фабрика обвязок автоматизируют создание и контроль обвязок. Новый модификатор поведения предотвращает дрейф цели — модель со временем перестаёт следовать изначальной задаче.
| Арм | Покрытие | Точность на отвеченном | Ловит ошибок базы |
|---|---|---|---|
| база | 0.607 | 0.643 | 13.7% |
| база + текст | 0.463 | 0.676 | 13.7% |
| база + обвязка | 0.510 | 0.673 | 63.7% |
Разработчики провели эксперимент на Qwen2.5-14B-Instruct, сравнивая текстовую инструкцию «будь неуверена» и латентную обвязку. На наборе агентных задач (память, поиск, неотвечаемые вопросы) текстовая инструкция не улучшила долю корректных воздержаний (осталась на уровне 0.067), тогда как обвязка повысила её до 0.87–0.93. Текстовая инструкция также не увеличила процент ловли ошибок (13.7% против 63.7% у обвязки) и вызвала рост непарсибельных ответов. Авторы делают вывод: латентный канал меняет поведение там, куда промпт не достаёт, поскольку инструкция и внутренняя оценка уверенности находятся в разных зонах модели.
Новый модификатор поведения защищает от дрейфа цели.
В ходе работы выявлены методологические артефакты: первоначально противоположные результаты оказались следствием неверного ридаута сигнала. Теперь во всех прогонах сохраняются сырые генерации, а отказ засчитывается только в первом предложении — поздние сомнения игнорируются. Это правило вшито во фреймворк.

