ChatGPT поставил диагнозы, но проиграл на маршруте пациента

В эксперименте 26 апреля ChatGPT верно определил пять медицинских кейсов, включая MGUS и статин-индуцированный рабдомиолиз, но хуже специализированного сервиса расписал ближайшие действия пациента.

Проверка медицинских ответов показывает тонкую границу, на которой универсальные LLM уже выглядят сильными, но ещё не заменяют клинический продукт. В пяти кейсах ChatGPT не промахнулся с главным диагнозом: среди примеров были метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS и статин-индуцированный рабдомиолиз. На уровне распознавания картины модель показала результат, который несколько лет назад выглядел бы недостижимым для массового чат-бота.

Слабое место оказалось дальше. Пациенту мало назвать диагноз: ему нужен ближайший маршрут. Какие обследования надо сделать до терапии, к какому специалисту идти, какие целевые значения держать и когда возвращаться к врачу. По описанию авторов, именно на этом участке ChatGPT уступал специализированному МедАссисту: например, хуже фиксировал предварительные проверки перед гормональной терапией и недостаточно подробно разбирал контрольные шаги после острых состояний.

Интересен и обратный пример. В кейсе MGUS универсальная модель оказалась точнее: явно посчитала соотношение альбумин/глобулин и назвала набор подтверждающих тестов для гематолога. Это не отменяет риски, но хорошо показывает, почему медицинские LLM нельзя оценивать одним числом. Одна модель может быть сильнее в диагностической гипотезе, другая - в протоколе дальнейших действий.

Проблемы начались после диагноза: обследования, маршрутизация и контрольные сроки оказались слабее.

Пять кейсов эксперимента. Разбираем каждый по очереди — от 45-летнего инженера до ургентного рабдомиолиза. · Источник: Habr AI

Для рынка цифровой медицины вывод практичный: ценность будет не только в доступе к сильной модели, а в продуктовой обвязке вокруг неё. Нужны клинические сценарии, проверяемые чек-листы, ограничения по безопасности и понятная ответственность. LLM может стать мощным вторым мнением, но медицинский продукт выигрывает там, где превращает ответ в безопасный маршрут пациента.

ChatGPT поставил диагнозы, но проиграл на маршруте пациента

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска