Группа учёных из института AIRI, НИУ ВШЭ и Constructor University разработала бенчмарк GeomMotif, предназначенный для проверки одной конкретной способности ИИ-моделей: достраивать полноценный белок вокруг заранее заданного структурного фрагмента, не нарушая его пространственного расположения. До появления GeomMotif у научного сообщества не было инструмента, который оценивал бы именно эту задачу в изоляции от других характеристик модели.

Чтобы понять, почему геометрия так принципиальна, стоит обратиться к фундаментальному открытию Кристиана Анфинсена, сделанному ещё в 1960-е годы и отмеченному Нобелевской премией в 1972 году: последовательность аминокислот однозначно определяет трёхмерную форму белка, а форма — его биологическую функцию. В компьютерном проектировании белков это означает, что отклонение геометрии всего на один ангстрем (десятимиллиардная доля метра) способно свести вероятность успеха лабораторного эксперимента практически к нулю. Геометрия — это промежуточное звено между последовательностью и функцией, и именно её точность определяет, будет ли спроектированный белок работать так, как задумано.

МодельТипПараметры
RFdiffusionСтруктурная
Genie2Структурная (лидер)
La-ProteinaСтруктурная (лидер)
Protpardelle-1cСтруктурная
FrameFlowСтруктурная
RFdiffusion2Структурная
ESM3Последовательностная
DPLMПоследовательностная650 млн
DPLMПоследовательностная3 млрд

Главное методологическое решение авторов GeomMotif состоит в том, что структурные фрагменты — так называемые мотивы — отбирались не по биологической роли, а по геометрическим и физико-химическим характеристикам: форме, размеру, типу вторичной структуры, степени заглубленности в молекуле, заряду и гидрофобности. Исходные данные взяты из Protein Data Bank — крупнейшей открытой базы экспериментально определённых структур белков. Дубликаты были удалены, а каждая структура дополнительно проверена на воспроизводимость вычислительными методами. Это гарантирует, что все 57 задач бенчмарка не только реалистичны, но и заведомо решаемы: если модель не справляется, причина однозначно в её ограничениях, а не в некорректности задачи.

Фрагменты отбирались по геометрическим и физико-химическим свойствам, а не по биологической функции — это принципиальное отличие от существующих бенчмарков.

Задачи выстроены по нарастающей сложности. Модель получает один или два мотива, содержащих от одного до семи непрерывных фрагментов, и должна достроить вокруг них полноценную белковую молекулу. Один непрерывный фрагмент — относительно простая задача. Несколько разрозненных фрагментов существенно усложняют её. Два мотива, разнесённых в пространстве, требуют от модели учитывать дальние взаимосвязи внутри будущего белка — это наиболее трудный класс задач, с которым не справилась ни одна из протестированных систем.

Для тестирования исследователи выбрали десять генеративных моделей двух архитектурных типов. Первый тип — структурные модели, работающие напрямую с трёхмерными координатами атомов: RFdiffusion, Genie2, La-Proteina, Protpardelle-1c, FrameFlow и RFdiffusion2. Второй тип — последовательностные модели, которые генерируют цепочку аминокислот, а пространственная форма затем предсказывается отдельным инструментом: ESM3 и две версии DPLM с 650 миллионами и 3 миллиардами параметров соответственно. Лидерами оказались структурные модели Genie2, La-Proteina и RFdiffusion. Последовательностные модели уступили им более чем на порядок — результат, который авторы интерпретируют как принципиальное ограничение подхода: при необходимости сохранять дальние геометрические связи двухэтапная схема «последовательность → структура» теряет критически важную информацию.

Ключевой вывод тестирования: существующие бенчмарки с функциональными участками лидирующие модели проходят почти полностью, тогда как на GeomMotif лучшая система набирает лишь 40 баллов из 100. Это расхождение говорит о том, что высокие результаты на прежних тестах не отражали реальных возможностей моделей в части геометрической точности. Кроме того, выяснилось, что у разных моделей проявляются разные сильные и слабые стороны в зависимости от биофизических свойств мотива и его окружения — что делает GeomMotif инструментом не только сравнения, но и диагностики.

По словам Павла Страшнова, ведущего научного сотрудника группы дизайна белков центра ИИ-разработки новых лекарственных препаратов AIRI, в дальнейшем команда планирует ускорить систему проверки результатов и расширить бенчмарк на полноатомные модели — те, что учитывают положение всех атомов белка, а не только его остова. Это следующий уровень детализации, необходимый для практического применения в разработке лекарств.