До недавнего времени разработка лекарств и клиническая диагностика опирались на разрозненные потоки данных: геномика существовала отдельно от медицинской визуализации, а клинические записи редко пересекались с молекулярными профилями пациентов. Такая фрагментация скрывала связи между данными, которые могли бы изменить диагноз или выбор терапии. Биологические фундаментальные модели — BioFM — появились как ответ на эту проблему.

BioFM — это ИИ-модели, предобученные на больших биологических наборах данных. Одномодальные версии работают с одним типом данных: например, модели предсказания структуры белков по аминокислотным последовательностям, за разработку которых в 2024 году была присуждена Нобелевская премия по химии. Мультимодальные BioFM идут дальше — они одновременно обрабатывают текст, изображения, геномные последовательности и химические структуры в рамках одной архитектуры. Это позволяет модели улавливать зависимости между типами данных, которые при раздельном анализе остаются невидимыми.

Согласно обзору Delile et al. (2025), распределение применений BioFM выглядит так: около 35% приходится на клиническую документацию, 30% — на анализ омиксных данных (ДНК, РНК, эпигенетика), 20% — на дизайн белков и молекул, 15% — на медицинскую визуализацию. Среди конкретных реализаций выделяется несколько проектов. Latent-X1 и Latent-X2 от Latent Labs не только предсказывают трёхмерные структуры белков, но и генерируют новые связывающие молекулы — антитела, макроциклические пептиды, минибелки. Модель Evo 2 от Arc Institute охватывает центральную догму молекулярной биологии и предсказывает структуру и функцию ДНК, РНК и белков. MADRIGAL, разработанный совместно Гарвардом и AstraZeneca, интегрирует структурные, транскриптомные и клеточные данные для прогнозирования исходов комбинированной терапии и выявления нежелательных лекарственных взаимодействий.

Модели, совмещающие геномику, снимки и клинические истории, дают прирост точности диагностики на 4–7% по метрике AUC по сравнению с одномодальными аналогами.

Мультимодальные биологические ИИ-модели: от поиска лекарств до лечения пациентов
· Источник: AWS Machine Learning Blog

Измеримые результаты применения мультимодальных подходов уже зафиксированы в нескольких клинических контекстах. Модели, объединяющие геномику, снимки и клинические данные, показывают прирост точности диагностики на 4–7% по метрике AUC для таких заболеваний, как болезнь Альцгеймера и рак мозга (Sun et al., 2024). Система, совмещающая лабораторные показатели, данные об активности пациента и клинические записи, достигает точности 92,74% и AUC 93,21 при оценке сердечно-сосудистого риска (Guo и Wu, 2025). Прогнозирование риска повторной госпитализации в течение 30 дней с точностью 76% позволяет экономить около $3,4 млн на больницу в год при работе с пациентами с сердечной недостаточностью (Golas et al., 2018). Модели, объединяющие носимые устройства с медицинскими данными, извлекают диагностические сигналы для диабета и сердечных заболеваний с точностью 96–97% (Mansour et al., 2021).

Одна из наиболее технически сложных областей применения — проектирование терапевтических белков для мишеней, которые ранее считались «недруггабельными», то есть недоступными для существующих препаратов. Мультимодальные BioFM интегрируют итеративные циклы дизайна и тестирования, в которых трёхмерные структурные данные, полученные методом криоэлектронной микроскопии, сопоставляются с вычислительными метриками и биофизическими измерениями. Это позволяет ускорить отбор кандидатов и снизить риски на ранних стадиях разработки.

Крупнейшие фармацевтические компании уже перешли от экспериментов к промышленному применению. Merck и Novo Nordisk используют BioFM для анализа биологических молекул, AstraZeneca — для геномных данных, Bayer — для патоморфологии, Roche — для клинических данных. По оценкам отраслевых аналитиков, специализированные ИИ-модели позволяют сократить затраты и время на разработку препаратов до 50%, а время постановки диагноза по медицинским снимкам — до 90%. AWS позиционирует себя как единую среду для построения и развёртывания таких систем, объединяя вычислительную инфраструктуру, инструменты партнёров и поддержку полного цикла разработки препарата.