Команда Smart Tomo Engine начала с рутинной задачи: воспроизвести baseline-результаты бенчмарка ICASSP-2024 по низкодозовой конусно-лучевой компьютерной томографии и понять, где находятся собственные алгоритмы относительно опубликованных показателей. Задача казалась технической формальностью. Вместо этого она превратилась в многодневное расследование.

Конусно-лучевая КТ (CBCT) — разновидность томографии, при которой излучение распространяется конусом от точечного источника, а все проекции снимаются за один оборот. Это делает её быстрее спиральной КТ при меньшей дозе облучения. Основные применения — стоматология, челюстно-лицевая хирургия, интервенционная радиология. Задача низкодозовой реконструкции состоит в том, чтобы при снижении дозы до 10% от стандартной получить изображение, сопоставимое по качеству с полнодозовым. В датасете ICASSP-2024 снижение дозы достигается уменьшением числа регистрируемых фотонов, что ухудшает соотношение сигнал/шум.

Метод реконструкцииAMSE (нормальная доза)AMSE (низкая доза)
ASTRA-FDK (baseline)0.031020.07959
ASTRA-SIRT0.066480.04545
STE-FDK0.041990.11923
STE-HFDK0.030090.03764
BJTU_PKUCH (2-е место)0.000770.00145
Mikael Brudfors (1-е место)0.000840.00148
Andreas Hauptmann (9,4)0.000970.00160

Первый тревожный сигнал появился при сравнении двух собственных алгоритмов. STE-HFDK — более быстрая и по определению менее точная версия FDK — неожиданно показала лучший результат по официальной метрике AMSE, чем более медленный и точный STE-FDK. Это физически невозможно при корректной оценке: если алгоритм считает грубее, он не должен выигрывать у более точного по метрике качества реконструкции. Вывод напрашивался один — «линейка» сломана.

Датасет ICASSP-2024 синтетический. За основу взят публичный датасет LIDC-IDRI (~1000 объёмов зоны грудной клетки со спиральных КТ-сканеров), из которого с помощью прямого проецирования через библиотеку ASTRA Toolbox смоделированы КЛКТ-проекции. Эталонные clean-объёмы получены обратной реконструкцией методом ASTRA-FDK из этих же смоделированных проекций. Официальная метрика AMSE сравнивает результат участника именно с этими clean-объёмами.

Здесь и возникает системная проблема. Алгоритмы, внутренне похожие на ASTRA-FDK или использующие ту же геометрию обратного проецирования, получают структурное преимущество: их артефакты частично совпадают с артефактами эталона. Метрика фиксирует близость к эталону, но эталон сам является продуктом конкретного алгоритма, а не «истинным» объёмом. Скрипты генерации данных авторами датасета не опубликованы, что лишает исследователей возможности проверить цепочку от исходных LIDC-IDRI-объёмов до финального clean.

Цифры в таблице лидеров усиливают подозрения. Три лидера соревнования — BJTU_PKUCH, Mikael Brudfors и Andreas Hauptmann — показали AMSE от 0,00077 до 0,00097 при нормальной дозе, тогда как baseline ASTRA-FDK даёт 0,03102. Разрыв в 40–80 раз за один соревновательный цикл выглядит нереалистично для задачи, где физические ограничения хорошо известны. Для сравнения: STE-HFDK команды Smart Tomo Engine при нормальной дозе получил 0,03009 — результат, сопоставимый с baseline, что соответствует ожиданиям для инженерного метода без нейросетевой постобработки.

Проблема воспроизводимости в медицинской томографии шире одного бенчмарка. Большинство датасетов в этой области закрыты из-за требований к персональным данным, синтетические наборы данных генерируются по непубличным скриптам, а метрики качества нередко привязаны к конкретному эталонному методу реконструкции. В результате таблица лидеров может отражать умение подстроиться под особенности датасета, а не реальное качество алгоритма на клинических данных. Расследование команды Smart Tomo Engine показывает, что даже при наличии открытого датасета и опубликованных baseline-значений независимое воспроизведение результатов остаётся нетривиальной задачей.