GPT-5.5 Instant стал новым медицинским слоем ChatGPT — моделью, которую OpenAI специально адаптировала для ответов на вопросы о здоровье. По данным компании, на benchmark-тестах HealthBench и HealthBench Professional она показывает результаты, сопоставимые с куда более дорогими «думающими» моделями, при этом работая быстрее и дешевле. Ключевой показатель: за два месяца доля ошибочных медицинских утверждений в ответах снизилась на 71%.

Для оценки качества OpenAI привлекла сеть из более чем 260 врачей из 60 стран, которые в совокупности проверили свыше 700 000 ответов модели. Именно их разметка легла в основу обучения и оценки GPT-5.5 Instant. По пяти категориям внутреннего бенчмарка — включая точность, ясность, полноту и следование инструкциям — модель превзошла как GPT-4o, так и ответы, написанные самими врачами. По параметру следования инструкциям результат достиг 89,9%.

Модель / источникПревосходит GPT-4oПревосходит ответы врачейМакс. балл (следование инструкциям)
GPT-5.5 InstantДаДа89,9%
GPT-4oНет (по данным OpenAI)Не указан
Ответы врачейНет (по данным OpenAI)Не указан

HealthBench — это набор тестов, разработанных OpenAI для оценки медицинских ответов языковых моделей. Он включает как общие вопросы о здоровье, так и профессиональные клинические сценарии (HealthBench Professional). Подобные benchmark-тесты позволяют сравнивать модели в стандартизированных условиях, хотя они не заменяют реальную клиническую практику и не учитывают индивидуальный контекст пациента.

Модель доступна бесплатным пользователям ChatGPT, хотя с ограничениями по числу запросов.

GPT-5.5 Instant tops both GPT-4o and physician-written answers across all five evaluation categories in OpenAI's own benchmarks, scoring up to 89.9 percent on instruction following. | Image: OpenAI
GPT-5.5 Instant tops both GPT-4o and physician-written answers across all five evaluation categories in OpenAI's own benchmarks, scoring up to 89.9 percent on instruction following. | Image: OpenAI · Источник: The Decoder

Масштаб использования ChatGPT в медицинских целях уже значителен: по данным OpenAI, еженедельно более 230 миллионов человек задают модели вопросы о здоровье — от расшифровки анализов до подготовки к визиту к врачу и разбора страховых вопросов. Это делает качество медицинских ответов критически важным: даже небольшой процент ошибок в таком масштабе означает миллионы потенциально неверных рекомендаций.

Помимо потребительского ChatGPT, OpenAI развивает отдельные продукты для профессионального медицинского рынка — ChatGPT for Clinicians и OpenAI for Healthcare. Это указывает на двустороннюю стратегию: массовый доступ через бесплатный ChatGPT и специализированные инструменты для клиник и врачей.

Ограничения подхода очевидны: оценка проводилась по внутренним бенчмаркам самой OpenAI, а не независимых клинических испытаний. Сравнение с «ответами врачей» не раскрывает, в каком формате и при каких условиях эти ответы собирались. Кроме того, высокий балл за следование инструкциям не равнозначен клинической безопасности — модель по-прежнему не несёт юридической ответственности за рекомендации и не имеет доступа к истории болезни конкретного пациента. Тем не менее снижение частоты ошибок на 71% за два месяца — измеримый результат, который сложно игнорировать.