Разработка нового лекарства в США занимает в среднем от 10 до 15 лет — от идентификации мишени до регуляторного одобрения. OpenAI рассчитывает сократить этот срок с помощью GPT-Rosalind: специализированной модели, обученной на задачах биологии, химии, геномики и трансляционной медицины. Модель доступна в режиме предварительного доступа через ChatGPT, Codex и API для квалифицированных корпоративных клиентов в США.

Название отсылает к Розалинд Франклин — британскому биофизику, чьи рентгеновские снимки ДНК стали ключевым материалом для расшифровки её двойной спирали в 1953 году. Выбор имени подчёркивает ориентацию модели на строгую научную работу с данными, а не на генерацию текста общего назначения.

GPT-Rosalind отличается от универсальных языковых моделей тем, что оптимизирована под конкретные исследовательские рабочие процессы: синтез литературы, генерацию гипотез, планирование экспериментов и интерпретацию биологических последовательностей. Модель умеет самостоятельно выбирать и использовать специализированные вычислительные инструменты и базы данных в ходе многоэтапных задач — то, с чем универсальные модели справляются значительно хуже.

На benchmark BixBench модель показала лучший результат среди всех моделей с опубликованными оценками.

Life science plugin demo static image
Life science plugin demo static image · Источник: OpenAI News

На публичном benchmark BixBench, ориентированном на реальные задачи биоинформатики и анализа данных, GPT-Rosalind показала лучший результат среди всех моделей с опубликованными оценками. На LABBench2, охватывающем поиск литературы, работу с базами данных и дизайн протоколов, модель превзошла GPT-5.4 в 6 из 11 задач. Наиболее заметный разрыв — в CloningQA, где требуется сквозное проектирование ДНК и ферментных реагентов для протоколов молекулярного клонирования.

Отдельно OpenAI провела испытание совместно с Dyno Therapeutics — компанией, разрабатывающей генную терапию с применением ИИ. Тест использовал неопубликованные последовательности РНК, исключающие утечку данных в обучающую выборку. Лучшие из десяти ответов модели по задаче предсказания функции последовательности превысили 95-й перцентиль из 57 исторических результатов экспертов-людей в области ИИ-биологии. По задаче генерации последовательностей результат составил около 84-го перцентиля.

Параллельно с моделью OpenAI выпустила бесплатный плагин Life Sciences для Codex, доступный на GitHub. Плагин предоставляет доступ к более чем 50 публичным базам данных и биологическим инструментам, охватывающим геномику человека, структуру белков, клинические данные и поиск публичных исследований. Корпоративные пользователи с доступом к GPT-Rosalind могут использовать плагин совместно с моделью; остальные — с основными моделями OpenAI.

Среди первых партнёров, уже применяющих модель в рабочих процессах, — Amgen, Moderna, Allen Institute и Thermo Fisher Scientific. Доступ к GPT-Rosalind пока ограничен квалифицированными корпоративными клиентами в США и предполагает проверку по трём критериям: полезность применения, наличие внутреннего управления и соблюдение требований безопасности. OpenAI позиционирует это как меру против потенциального биологического злоупотребления мощными специализированными моделями.