OpenAI запустила ChatGPT для врачей: GPT-5.4 обогнал докторов на клиническом benchmark

Подготовлено редакцией Malakhov AI

The Decoder·23 апр.·3 минИсследованияИндустрия

GPT-5.4 в специализированной среде ChatGPT for Clinicians набрал 59,0 баллов на новом benchmark HealthBench Professional — против 43,7 у врачей, работавших без ограничений по времени и с доступом в интернет. OpenAI открыла бесплатный доступ к инструменту для верифицированных медицинских специалистов в США.

Кратко

—GPT-5.4 в клинической среде набрал 59,0 на HealthBench Professional — на 15 пунктов выше, чем врачи (43,7).
—Конкуренты отстают: Claude Opus 4.7 — 47,0, Gemini 3.1 Pro — 43,8, Grok 4.2 — 36,1.
—99,6% из 6 924 протестированных ответов врачи оценили как безопасные и точные до запуска.
—Инструмент даёт доступ к миллионам рецензируемых источников и позволяет зарабатывать CME-кредиты.
—Доступ открыт только в США; разговоры не используются для обучения модели, доступно соглашение HIPAA.

Глоссарий · 6 терминов▾

Benchmark: Стандартизированный набор задач для измерения и сравнения производительности ИИ-моделей между собой.
HealthBench Professional: Разработанный OpenAI тест для оценки качества ИИ на клинических задачах: консультациях, документации и медицинских исследованиях.
CME (Continuing Medical Education): Система непрерывного медицинского образования в США, требующая от врачей регулярно подтверждать и обновлять квалификацию через обучение.
HIPAA: Американский закон о защите персональных медицинских данных пациентов, устанавливающий требования к их хранению и передаче.
Red teaming: Метод тестирования, при котором специалисты целенаправленно ищут уязвимости и слабые места системы, имитируя действия критически настроенного пользователя.
MedHELM: Независимый benchmark Стэнфордского университета для оценки ИИ-моделей на медицинских задачах.

Специализированная версия ChatGPT для медицинских специалистов стала доступна в США — бесплатно для верифицированных врачей, медсестёр с расширенной клинической квалификацией, фельдшеров и фармацевтов. Одновременно OpenAI опубликовала результаты нового benchmark HealthBench Professional, согласно которым GPT-5.4 в клинической среде превзошёл живых докторов даже при условии, что те работали без ограничений по времени и с полным доступом в интернет.

HealthBench Professional оценивает модели по трём направлениям: клинические консультации, медицинская документация и исследовательская работа с литературой. Около трети примеров получены через «красное тестирование» — врачи целенаправленно искали слабые места моделей, а наиболее сложные сценарии представлены в выборке в 3,5 раза чаще обычного. GPT-5.4 в среде ChatGPT for Clinicians набрал 59,0 баллов; врачи — 43,7. Базовая версия GPT-5.4 без клинической настройки показала 48,1, Claude Opus 4.7 от Anthropic — 47,0, Gemini 3.1 Pro от Google — 43,8, Grok 4.2 от xAI — 36,1. Разрыв в 11 пунктов между клинической и базовой версиями GPT-5.4 указывает на то, что специализированная настройка среды существенно влияет на результат, хотя точное соотношение вклада настройки и методологии benchmark остаётся неясным.

Здесь есть очевидная оговорка: OpenAI сама разработала benchmark и тестировала на нём собственные модели. Компания ссылается на независимые оценки — Stanford MedHELM и MedMarks, где модели OpenAI также занимают верхние строчки, — и публикует данные benchmark в открытом доступе. До запуска врачи протестировали 6 924 диалога в реальной клинической работе: 99,6% ответов были признаны безопасными и точными. В подвыборке из 355 примеров, где три независимых врача указывали корректные источники, ChatGPT for Clinicians цитировал их чаще, чем сами доктора. Суммарно более 700 000 ответов модели прошли врачебную проверку.

Конкуренты отстают: Claude Opus 4.7 — 47,0, Gemini 3.1 Pro — 43,8, Grok 4.2 — 36,1.

Image description · Источник: The Decoder

Инструмент включает клинический поиск по миллионам рецензируемых публикаций с цитированием в реальном времени, функцию углублённого анализа медицинской литературы и «навыки» — шаблоны для повторяющихся задач вроде направлений, предварительных авторизаций или инструкций для пациентов. Необычная деталь: исследовательская работа в ChatGPT for Clinicians может засчитываться как непрерывное медицинское образование (CME) в США. Разговоры не используются для обучения моделей; для работы с персональными медицинскими данными доступно соглашение о деловом партнёрстве по HIPAA.

Запуск происходит на фоне быстрого роста использования ИИ в медицине. По данным опроса Американской медицинской ассоциации 2026 года, 72% врачей в США применяют ИИ в клинической практике — против 48% годом ранее. OpenAI сообщает, что миллионы медицинских специалистов по всему миру уже используют ChatGPT еженедельно, а использование за последний год удвоилось. Ранее компания запустила ChatGPT for Healthcare для организаций — с административными инструментами и соответствием требованиям на уровне учреждений. Anthropic, Microsoft и Google также активно развивают медицинские направления: Google через подразделение DeepMind делает акцент на разработке лекарств. Международное расширение ChatGPT for Clinicians запланировано, пилотные проекты за пределами США ведутся совместно с Better Evidence Network.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ