Препринт с идентификатором arxiv 2604.18580 предлагает архитектуру под названием Sessa — Selective State Space Attention. Её автор, судя по аффилиации репозитория LibratioAI на GitHub, работает независимо и публикует как исследование, так и открытый код. Центральная идея: взять лучшее из двух семейств архитектур — трансформеров и моделей пространства состояний (SSM) — и избавиться от ключевых слабостей каждого.

Чтобы понять, зачем нужна Sessa, полезно разобраться, в чём именно проблема существующих подходов. Трансформер строится на механизме внимания (attention): для каждой позиции в последовательности модель вычисляет совместимость со всеми предыдущими позициями и взвешивает их вклад. Это даёт гибкую память — модель может «дотянуться» до любого токена в контексте. Но цена высока: вычислительная сложность растёт квадратично с длиной последовательности. При длине контекста в 100 тысяч токенов это становится практической проблемой.

Альтернативное семейство — SSM, модели пространства состояний, к которым относятся S4D и Mamba, — решает задачу иначе. Вместо того чтобы каждый раз смотреть на весь контекст, SSM сжимает прошлое в компактный вектор состояния, который обновляется рекуррентно. Сложность линейная, память теоретически бесконечная. Проблема в другом: в диффузном режиме, когда модель не может жёстко сфокусироваться на одном токене, SSM теряет способность к точному извлечению нужного элемента из прошлого — то, что автор называет sharp retrieval.

Трансформеры имеют квадратичную сложность по длине контекста — это главный недостаток, который Sessa пытается устранить.

Российский разработчик предложил архитектуру Sessa как альтернативу трансформерам
· Источник: Habr AI

Автор подходит к сравнению архитектур через единый математический фундамент — свёртку. Трансформер выводится как адаптивная свёртка с нормировкой через softmax и зависимостью весов от пары «читающий токен — источник». S4D и Mamba — как рекуррентные системы с бесконечным импульсным откликом (IIR), где прошлое накапливается в скрытом состоянии. Такой взгляд позволяет честно сравнить, что именно каждая архитектура может и не может запомнить.

Для формальной оценки памяти автор использует якобианы: насколько чувствителен выход модели в момент t к токену, поданному на вход в момент s < t. В однослойном диффузном режиме трансформера верхняя оценка этой чувствительности убывает с расстоянием, а нижняя оценка тривиальна (≥ 0) — пути через коэффициенты attention могут компенсировать друг друга. В многослойном режиме глубина добавляет маршруты через промежуточные позиции и даёт логарифмическое усиление, но при фиксированной глубине влияние старых токенов всё равно затухает.

Sessa предлагает объединить оба механизма: attention отвечает за точное извлечение нужного токена, а SSM-компонент обеспечивает линейную сложность и долгосрочное накопление контекста. Архитектура относится к классу гибридных решений, которые активно исследуются с 2023 года — в частности, Meta и DeepMind публиковали работы по совмещению attention и рекуррентных блоков. Отличие Sessa в том, что автор строит её не как эмпирическое сочетание блоков, а выводит из единого теоретического описания, доказывая оценки памяти для каждого режима.

Код опубликован на GitHub по адресу github.com/LibratioAI/sessa, препринт доступен на arxiv. Работа пока не прошла рецензирование, однако подробный математический аппарат и открытый код делают её воспроизводимой для независимой проверки.