GPT-5.5 Instant стал новым медицинским слоем ChatGPT — моделью, которую OpenAI специально адаптировала для ответов на вопросы о здоровье. По данным компании, на benchmark-тестах HealthBench и HealthBench Professional она показывает результаты, сопоставимые с куда более дорогими «думающими» моделями, при этом работая быстрее и дешевле. Ключевой показатель: за два месяца доля ошибочных медицинских утверждений в ответах снизилась на 71%.
Для оценки качества OpenAI привлекла сеть из более чем 260 врачей из 60 стран, которые в совокупности проверили свыше 700 000 ответов модели. Именно их разметка легла в основу обучения и оценки GPT-5.5 Instant. По пяти категориям внутреннего бенчмарка — включая точность, ясность, полноту и следование инструкциям — модель превзошла как GPT-4o, так и ответы, написанные самими врачами. По параметру следования инструкциям результат достиг 89,9%.
| Модель / источник | Превосходит GPT-4o | Превосходит ответы врачей | Макс. балл (следование инструкциям) |
|---|---|---|---|
| GPT-5.5 Instant | Да | Да | 89,9% |
| GPT-4o | — | Нет (по данным OpenAI) | Не указан |
| Ответы врачей | Нет (по данным OpenAI) | — | Не указан |
HealthBench — это набор тестов, разработанных OpenAI для оценки медицинских ответов языковых моделей. Он включает как общие вопросы о здоровье, так и профессиональные клинические сценарии (HealthBench Professional). Подобные benchmark-тесты позволяют сравнивать модели в стандартизированных условиях, хотя они не заменяют реальную клиническую практику и не учитывают индивидуальный контекст пациента.
Модель доступна бесплатным пользователям ChatGPT, хотя с ограничениями по числу запросов.

Масштаб использования ChatGPT в медицинских целях уже значителен: по данным OpenAI, еженедельно более 230 миллионов человек задают модели вопросы о здоровье — от расшифровки анализов до подготовки к визиту к врачу и разбора страховых вопросов. Это делает качество медицинских ответов критически важным: даже небольшой процент ошибок в таком масштабе означает миллионы потенциально неверных рекомендаций.
Помимо потребительского ChatGPT, OpenAI развивает отдельные продукты для профессионального медицинского рынка — ChatGPT for Clinicians и OpenAI for Healthcare. Это указывает на двустороннюю стратегию: массовый доступ через бесплатный ChatGPT и специализированные инструменты для клиник и врачей.
Ограничения подхода очевидны: оценка проводилась по внутренним бенчмаркам самой OpenAI, а не независимых клинических испытаний. Сравнение с «ответами врачей» не раскрывает, в каком формате и при каких условиях эти ответы собирались. Кроме того, высокий балл за следование инструкциям не равнозначен клинической безопасности — модель по-прежнему не несёт юридической ответственности за рекомендации и не имеет доступа к истории болезни конкретного пациента. Тем не менее снижение частоты ошибок на 71% за два месяца — измеримый результат, который сложно игнорировать.
