Проверка медицинских ответов показывает тонкую границу, на которой универсальные LLM уже выглядят сильными, но ещё не заменяют клинический продукт. В пяти кейсах ChatGPT не промахнулся с главным диагнозом: среди примеров были метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS и статин-индуцированный рабдомиолиз. На уровне распознавания картины модель показала результат, который несколько лет назад выглядел бы недостижимым для массового чат-бота.
Слабое место оказалось дальше. Пациенту мало назвать диагноз: ему нужен ближайший маршрут. Какие обследования надо сделать до терапии, к какому специалисту идти, какие целевые значения держать и когда возвращаться к врачу. По описанию авторов, именно на этом участке ChatGPT уступал специализированному МедАссисту: например, хуже фиксировал предварительные проверки перед гормональной терапией и недостаточно подробно разбирал контрольные шаги после острых состояний.
Интересен и обратный пример. В кейсе MGUS универсальная модель оказалась точнее: явно посчитала соотношение альбумин/глобулин и назвала набор подтверждающих тестов для гематолога. Это не отменяет риски, но хорошо показывает, почему медицинские LLM нельзя оценивать одним числом. Одна модель может быть сильнее в диагностической гипотезе, другая - в протоколе дальнейших действий.
Проблемы начались после диагноза: обследования, маршрутизация и контрольные сроки оказались слабее.

Для рынка цифровой медицины вывод практичный: ценность будет не только в доступе к сильной модели, а в продуктовой обвязке вокруг неё. Нужны клинические сценарии, проверяемые чек-листы, ограничения по безопасности и понятная ответственность. LLM может стать мощным вторым мнением, но медицинский продукт выигрывает там, где превращает ответ в безопасный маршрут пациента.



