Российские учёные создали бенчмарк GeomMotif для оценки ИИ-моделей дизайна белков

CNews·5 мая·4 минРоссия

Исследователи из AIRI, НИУ ВШЭ и Constructor University представили GeomMotif — бенчмарк из 57 задач для проверки точности ИИ-моделей при проектировании белковых молекул вокруг заданных структурных фрагментов. Лучшая из десяти протестированных моделей набрала лишь 40 баллов из 100, что указывает на серьёзные пробелы в геометрической точности существующих систем.

Кратко

—GeomMotif содержит 57 задач нарастающей сложности, основанных на реальных структурах из базы Protein Data Bank.
—Фрагменты отбирались по геометрическим и физико-химическим свойствам, а не по биологической функции — это принципиальное отличие от существующих бенчмарков.
—Протестированы 10 моделей двух типов: структурные (RFdiffusion, Genie2, La-Proteina и др.) и последовательностные (ESM3, DPLM).
—Структурные модели Genie2, La-Proteina и RFdiffusion обошли последовательностные более чем на порядок.
—Отклонение геометрии белка всего на один ангстрем способно свести вероятность успеха эксперимента практически к нулю.

Глоссарий · 7 терминов▾

Бенчмарк: Стандартизированный набор задач и метрик для сравнительной оценки возможностей разных моделей или систем.
Мотив (структурный): Повторяющийся пространственный фрагмент белковой молекулы с определённой трёхмерной формой, который модель должна сохранить при проектировании.
Protein Data Bank: Открытая международная база данных экспериментально определённых трёхмерных структур белков, нуклеиновых кислот и их комплексов.
Генеративная модель: Модель машинного обучения, способная создавать новые объекты — в данном случае белковые последовательности или структуры — на основе обученных закономерностей.
Вторичная структура белка: Локальная пространственная организация участков белковой цепи: альфа-спирали, бета-листы и петли.
Ангстрем: Единица длины, равная одной десятимиллиардной доле метра (10⁻¹⁰ м); используется для описания размеров атомов и межатомных расстояний в молекулах.
Гидрофобность: Свойство участка молекулы отталкивать воду; в белках гидрофобные фрагменты обычно прячутся внутрь молекулы, определяя её форму.

Группа учёных из института AIRI, НИУ ВШЭ и Constructor University разработала бенчмарк GeomMotif, предназначенный для проверки одной конкретной способности ИИ-моделей: достраивать полноценный белок вокруг заранее заданного структурного фрагмента, не нарушая его пространственного расположения. До появления GeomMotif у научного сообщества не было инструмента, который оценивал бы именно эту задачу в изоляции от других характеристик модели.

Чтобы понять, почему геометрия так принципиальна, стоит обратиться к фундаментальному открытию Кристиана Анфинсена, сделанному ещё в 1960-е годы и отмеченному Нобелевской премией в 1972 году: последовательность аминокислот однозначно определяет трёхмерную форму белка, а форма — его биологическую функцию. В компьютерном проектировании белков это означает, что отклонение геометрии всего на один ангстрем (десятимиллиардная доля метра) способно свести вероятность успеха лабораторного эксперимента практически к нулю. Геометрия — это промежуточное звено между последовательностью и функцией, и именно её точность определяет, будет ли спроектированный белок работать так, как задумано.

Модель	Тип	Параметры
RFdiffusion	Структурная	—
Genie2	Структурная (лидер)	—
La-Proteina	Структурная (лидер)	—
Protpardelle-1c	Структурная	—
FrameFlow	Структурная	—
RFdiffusion2	Структурная	—
ESM3	Последовательностная	—
DPLM	Последовательностная	650 млн
DPLM	Последовательностная	3 млрд

Главное методологическое решение авторов GeomMotif состоит в том, что структурные фрагменты — так называемые мотивы — отбирались не по биологической роли, а по геометрическим и физико-химическим характеристикам: форме, размеру, типу вторичной структуры, степени заглубленности в молекуле, заряду и гидрофобности. Исходные данные взяты из Protein Data Bank — крупнейшей открытой базы экспериментально определённых структур белков. Дубликаты были удалены, а каждая структура дополнительно проверена на воспроизводимость вычислительными методами. Это гарантирует, что все 57 задач бенчмарка не только реалистичны, но и заведомо решаемы: если модель не справляется, причина однозначно в её ограничениях, а не в некорректности задачи.

Фрагменты отбирались по геометрическим и физико-химическим свойствам, а не по биологической функции — это принципиальное отличие от существующих бенчмарков.

Задачи выстроены по нарастающей сложности. Модель получает один или два мотива, содержащих от одного до семи непрерывных фрагментов, и должна достроить вокруг них полноценную белковую молекулу. Один непрерывный фрагмент — относительно простая задача. Несколько разрозненных фрагментов существенно усложняют её. Два мотива, разнесённых в пространстве, требуют от модели учитывать дальние взаимосвязи внутри будущего белка — это наиболее трудный класс задач, с которым не справилась ни одна из протестированных систем.

Для тестирования исследователи выбрали десять генеративных моделей двух архитектурных типов. Первый тип — структурные модели, работающие напрямую с трёхмерными координатами атомов: RFdiffusion, Genie2, La-Proteina, Protpardelle-1c, FrameFlow и RFdiffusion2. Второй тип — последовательностные модели, которые генерируют цепочку аминокислот, а пространственная форма затем предсказывается отдельным инструментом: ESM3 и две версии DPLM с 650 миллионами и 3 миллиардами параметров соответственно. Лидерами оказались структурные модели Genie2, La-Proteina и RFdiffusion. Последовательностные модели уступили им более чем на порядок — результат, который авторы интерпретируют как принципиальное ограничение подхода: при необходимости сохранять дальние геометрические связи двухэтапная схема «последовательность → структура» теряет критически важную информацию.

Ключевой вывод тестирования: существующие бенчмарки с функциональными участками лидирующие модели проходят почти полностью, тогда как на GeomMotif лучшая система набирает лишь 40 баллов из 100. Это расхождение говорит о том, что высокие результаты на прежних тестах не отражали реальных возможностей моделей в части геометрической точности. Кроме того, выяснилось, что у разных моделей проявляются разные сильные и слабые стороны в зависимости от биофизических свойств мотива и его окружения — что делает GeomMotif инструментом не только сравнения, но и диагностики.

По словам Павла Страшнова, ведущего научного сотрудника группы дизайна белков центра ИИ-разработки новых лекарственных препаратов AIRI, в дальнейшем команда планирует ускорить систему проверки результатов и расширить бенчмарк на полноатомные модели — те, что учитывают положение всех атомов белка, а не только его остова. Это следующий уровень детализации, необходимый для практического применения в разработке лекарств.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме