Бенчмарк ICASSP-2024 по томографии оказался невоспроизводимым

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·3 минРоссияКод

Попытка воспроизвести результаты открытого бенчмарка ICASSP-2024 по низкодозовой компьютерной томографии выявила системную проблему: часть измеряемого качества определяется не алгоритмом реконструкции, а особенностями самого датасета. Команда Smart Tomo Engine опубликовала расследование, показывающее, почему высокий результат в таблице лидеров не гарантирует качественный алгоритм.

Кратко

—Бенчмарк ICASSP-2024 — первый крупный открытый датасет для конусно-лучевой КТ, содержит синтетические данные на основе LIDC-IDRI.
—Более быстрый алгоритм STE-HFDK неожиданно обогнал точный STE-FDK, что указало на дефект метрики, а не на реальное преимущество.
—Скрипты генерации данных авторами датасета не опубликованы, что делает независимую проверку результатов принципиально затруднённой.
—Официальная метрика AMSE сравнивает реконструкцию с clean-объёмом, полученным тем же ASTRA-FDK, что создаёт системное смещение в пользу похожих методов.
—Top-3 участника соревнования показали AMSE в 40–80 раз лучше baseline, что само по себе вызывает вопросы о корректности оценки.

Глоссарий · 7 терминов▾

CBCT / КЛКТ: Конусно-лучевая компьютерная томография — метод, при котором рентгеновское излучение распространяется конусом и все проекции снимаются за один оборот источника.
FDK: Алгоритм обратной реконструкции томографических данных (Feldkamp–Davis–Kress), стандартный метод для конусно-лучевой КТ.
AMSE: Average Mean Squared Error — официальная метрика бенчмарка ICASSP-2024, усреднённая среднеквадратичная ошибка между реконструкцией и эталонным объёмом.
Синограмма: Набор проекционных данных, полученных детектором при сканировании объекта под разными углами; исходный материал для томографической реконструкции.
ASTRA Toolbox: Открытая библиотека для моделирования и реконструкции томографических данных, широко используемая в исследовательских проектах.
LIDC-IDRI: Публичный датасет из ~1000 КТ-объёмов грудной клетки, собранный для задач детекции лёгочных узлов и широко используемый в смежных исследованиях.
Low-dose CT: Режим компьютерной томографии с пониженной дозой излучения; задача алгоритмов — восстановить качество изображения, сопоставимое с полнодозовым.

Команда Smart Tomo Engine начала с рутинной задачи: воспроизвести baseline-результаты бенчмарка ICASSP-2024 по низкодозовой конусно-лучевой компьютерной томографии и понять, где находятся собственные алгоритмы относительно опубликованных показателей. Задача казалась технической формальностью. Вместо этого она превратилась в многодневное расследование.

Конусно-лучевая КТ (CBCT) — разновидность томографии, при которой излучение распространяется конусом от точечного источника, а все проекции снимаются за один оборот. Это делает её быстрее спиральной КТ при меньшей дозе облучения. Основные применения — стоматология, челюстно-лицевая хирургия, интервенционная радиология. Задача низкодозовой реконструкции состоит в том, чтобы при снижении дозы до 10% от стандартной получить изображение, сопоставимое по качеству с полнодозовым. В датасете ICASSP-2024 снижение дозы достигается уменьшением числа регистрируемых фотонов, что ухудшает соотношение сигнал/шум.

Метод реконструкции	AMSE (нормальная доза)	AMSE (низкая доза)
ASTRA-FDK (baseline)	0.03102	0.07959
ASTRA-SIRT	0.06648	0.04545
STE-FDK	0.04199	0.11923
STE-HFDK	0.03009	0.03764
BJTU_PKUCH (2-е место)	0.00077	0.00145
Mikael Brudfors (1-е место)	0.00084	0.00148
Andreas Hauptmann (9,4)	0.00097	0.00160

Первый тревожный сигнал появился при сравнении двух собственных алгоритмов. STE-HFDK — более быстрая и по определению менее точная версия FDK — неожиданно показала лучший результат по официальной метрике AMSE, чем более медленный и точный STE-FDK. Это физически невозможно при корректной оценке: если алгоритм считает грубее, он не должен выигрывать у более точного по метрике качества реконструкции. Вывод напрашивался один — «линейка» сломана.

Датасет ICASSP-2024 синтетический. За основу взят публичный датасет LIDC-IDRI (~1000 объёмов зоны грудной клетки со спиральных КТ-сканеров), из которого с помощью прямого проецирования через библиотеку ASTRA Toolbox смоделированы КЛКТ-проекции. Эталонные clean-объёмы получены обратной реконструкцией методом ASTRA-FDK из этих же смоделированных проекций. Официальная метрика AMSE сравнивает результат участника именно с этими clean-объёмами.

Здесь и возникает системная проблема. Алгоритмы, внутренне похожие на ASTRA-FDK или использующие ту же геометрию обратного проецирования, получают структурное преимущество: их артефакты частично совпадают с артефактами эталона. Метрика фиксирует близость к эталону, но эталон сам является продуктом конкретного алгоритма, а не «истинным» объёмом. Скрипты генерации данных авторами датасета не опубликованы, что лишает исследователей возможности проверить цепочку от исходных LIDC-IDRI-объёмов до финального clean.

Цифры в таблице лидеров усиливают подозрения. Три лидера соревнования — BJTU_PKUCH, Mikael Brudfors и Andreas Hauptmann — показали AMSE от 0,00077 до 0,00097 при нормальной дозе, тогда как baseline ASTRA-FDK даёт 0,03102. Разрыв в 40–80 раз за один соревновательный цикл выглядит нереалистично для задачи, где физические ограничения хорошо известны. Для сравнения: STE-HFDK команды Smart Tomo Engine при нормальной дозе получил 0,03009 — результат, сопоставимый с baseline, что соответствует ожиданиям для инженерного метода без нейросетевой постобработки.

Проблема воспроизводимости в медицинской томографии шире одного бенчмарка. Большинство датасетов в этой области закрыты из-за требований к персональным данным, синтетические наборы данных генерируются по непубличным скриптам, а метрики качества нередко привязаны к конкретному эталонному методу реконструкции. В результате таблица лидеров может отражать умение подстроиться под особенности датасета, а не реальное качество алгоритма на клинических данных. Расследование команды Smart Tomo Engine показывает, что даже при наличии открытого датасета и опубликованных baseline-значений независимое воспроизведение результатов остаётся нетривиальной задачей.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам