Российский разработчик предложил архитектуру Sessa как альтернативу трансформерам

Habr AI·27 апр.·3 минРоссияКод

Архитектура Sessa (Selective State Space Attention), описанная в препринте arxiv 2604.18580, объединяет механизм внимания трансформеров с рекуррентными пространствами состояний — чтобы сохранить качество первых и линейную сложность вычислений вторых. Автор опубликовал код на GitHub и подробно разобрал, почему существующие подходы — трансформеры, S4D и Mamba — имеют принципиальные ограничения.

Кратко

—Препринт arxiv 2604.18580 описывает архитектуру Sessa, объединяющую attention и пространства состояний (SSM).
—Трансформеры имеют квадратичную сложность по длине контекста — это главный недостаток, который Sessa пытается устранить.
—Mamba и S4D решают проблему сложности, но теряют способность к точному извлечению нужного токена из контекста.
—Автор формально доказывает оценки памяти для однослойных и многослойных режимов через якобианы.
—Код архитектуры открыт: github.com/LibratioAI/sessa.

Глоссарий · 7 терминов▾

Трансформер: Архитектура нейронной сети, основанная на механизме внимания (attention), который взвешивает вклад всех предыдущих токенов при формировании каждого выхода.
SSM (State Space Model): Модель пространства состояний — архитектура, которая сжимает историю входных данных в компактный вектор состояния и обновляет его рекуррентно, обеспечивая линейную сложность вычислений.
Mamba: Селективная SSM-архитектура (2023), в которой параметры обновления состояния зависят от входных данных, что повышает избирательность памяти по сравнению с классическими SSM.
Attention (механизм внимания): Операция, при которой модель вычисляет совместимость каждой пары позиций в последовательности и взвешивает вклад источников при формировании выхода.
FIR / IIR фильтр: FIR (конечный импульсный отклик) — фильтр с фиксированным окном памяти; IIR (бесконечный импульсный отклик) — фильтр, теоретически помнящий весь прошлый вход через рекуррентное состояние.
Якобиан: Матрица частных производных, показывающая, насколько изменение входа в одной точке влияет на выход в другой; используется для измерения «памяти» модели.
Sharp retrieval: Способность модели точно сфокусироваться на конкретном токене из прошлого, присвоив ему значительно больший вес, чем остальным.

Препринт с идентификатором arxiv 2604.18580 предлагает архитектуру под названием Sessa — Selective State Space Attention. Её автор, судя по аффилиации репозитория LibratioAI на GitHub, работает независимо и публикует как исследование, так и открытый код. Центральная идея: взять лучшее из двух семейств архитектур — трансформеров и моделей пространства состояний (SSM) — и избавиться от ключевых слабостей каждого.

Чтобы понять, зачем нужна Sessa, полезно разобраться, в чём именно проблема существующих подходов. Трансформер строится на механизме внимания (attention): для каждой позиции в последовательности модель вычисляет совместимость со всеми предыдущими позициями и взвешивает их вклад. Это даёт гибкую память — модель может «дотянуться» до любого токена в контексте. Но цена высока: вычислительная сложность растёт квадратично с длиной последовательности. При длине контекста в 100 тысяч токенов это становится практической проблемой.

Альтернативное семейство — SSM, модели пространства состояний, к которым относятся S4D и Mamba, — решает задачу иначе. Вместо того чтобы каждый раз смотреть на весь контекст, SSM сжимает прошлое в компактный вектор состояния, который обновляется рекуррентно. Сложность линейная, память теоретически бесконечная. Проблема в другом: в диффузном режиме, когда модель не может жёстко сфокусироваться на одном токене, SSM теряет способность к точному извлечению нужного элемента из прошлого — то, что автор называет sharp retrieval.

Трансформеры имеют квадратичную сложность по длине контекста — это главный недостаток, который Sessa пытается устранить.

Автор подходит к сравнению архитектур через единый математический фундамент — свёртку. Трансформер выводится как адаптивная свёртка с нормировкой через softmax и зависимостью весов от пары «читающий токен — источник». S4D и Mamba — как рекуррентные системы с бесконечным импульсным откликом (IIR), где прошлое накапливается в скрытом состоянии. Такой взгляд позволяет честно сравнить, что именно каждая архитектура может и не может запомнить.

Для формальной оценки памяти автор использует якобианы: насколько чувствителен выход модели в момент t к токену, поданному на вход в момент s < t. В однослойном диффузном режиме трансформера верхняя оценка этой чувствительности убывает с расстоянием, а нижняя оценка тривиальна (≥ 0) — пути через коэффициенты attention могут компенсировать друг друга. В многослойном режиме глубина добавляет маршруты через промежуточные позиции и даёт логарифмическое усиление, но при фиксированной глубине влияние старых токенов всё равно затухает.

Sessa предлагает объединить оба механизма: attention отвечает за точное извлечение нужного токена, а SSM-компонент обеспечивает линейную сложность и долгосрочное накопление контекста. Архитектура относится к классу гибридных решений, которые активно исследуются с 2023 года — в частности, Meta и DeepMind публиковали работы по совмещению attention и рекуррентных блоков. Отличие Sessa в том, что автор строит её не как эмпирическое сочетание блоков, а выводит из единого теоретического описания, доказывая оценки памяти для каждого режима.

Код опубликован на GitHub по адресу github.com/LibratioAI/sessa, препринт доступен на arxiv. Работа пока не прошла рецензирование, однако подробный математический аппарат и открытый код делают её воспроизводимой для независимой проверки.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме