На публичном датасете MMOTU / OTU-2D, содержащем 1202 УЗИ-снимка опухолей яичника, исследователи проверили восемь способов подготовки входных данных для классификатора — от полного кадра до жёсткой вырезки по пиксельной маске. Эксперимент занял 8 часов на GPU A100 в Google Colab и породил 64 обученные модели плюс 8 ансамблей.

Идея использовать область интереса (ROI) вместо полного снимка выглядит логично: УЗИ-кадр содержит подписи аппарата, измерительные маркеры и посторонний фон, которые теоретически мешают модели. Однако в ультразвуковой диагностике «лишний» контекст не всегда лишний: клиницист оценивает не только саму опухоль, но и акустические эффекты за ней, соседние ткани, масштаб объекта. Жёсткая обрезка по маске рискует вместе с шумом удалить диагностически значимую информацию.

Входmacro-F1 (7 классов)Разница к полному кадруmacro-F1 (2 класса)
Полный кадр0,497 ± 0,0190,675 ± 0,027
По маске, фон занулён0,605 ± 0,023+0,1080,724 ± 0,022
Прямоугольник, отступ 0%0,581 ± 0,031+0,083
Прямоугольник, отступ 10%0,570 ± 0,019+0,073
Прямоугольник, отступ 30%0,569 ± 0,041+0,072
Прямоугольник, отступ 50%0,576 ± 0,017+0,078
Прямоугольник, отступ 80%0,539 ± 0,013+0,042
Полный кадр + маска0,573 ± 0,029+0,076
Ансамбль восьми входов0,703 ± 0,012+0,2050,773 ± 0,030

Чтобы проверить, где именно находится полезный для классификатора сигнал, авторы сформировали восемь вариантов входа из одного и того же изображения и одной и той же маски: полный кадр, вырезка по маске с занулением фона, прямоугольные вырезки с отступами от 0% до 80% и полный кадр с маской в качестве дополнительного канала. Архитектура во всех случаях одинакова — EfficientNet-B0 с входом 224×224, оптимизатор AdamW, 25 эпох, четыре повтора с разными seed.

В задаче на 7 классов все варианты с маской или вырезкой превзошли полный кадр во всех 4 повторах.

В семиклассовой задаче результат оказался однозначным. Полный кадр дал macro-F1 = 0,497 ± 0,019. Вырезка по маске с занулённым фоном — 0,605 ± 0,023, то есть на 10,8 п.п. выше, и этот результат воспроизвёлся во всех четырёх повторах. Прямоугольные вырезки тоже превзошли полный кадр, но слабее: при отступе 80% выигрыш сократился до 4,1 п.п., поскольку модель снова получала большой фрагмент кадра с посторонней информацией. Добавление маски как дополнительного канала к полному кадру улучшило результат до 0,573, но не достигло уровня точной вырезки.

Ансамбль восьми входов — усреднение вероятностей восьми моделей, обученных на разных представлениях данных, — дал macro-F1 = 0,703 ± 0,012 для семи классов и 0,773 ± 0,030 для двух классов. Это лучший результат в обоих сценариях: разные входы сохраняют разные признаки и ошибаются по-разному, поэтому их объединение компенсирует слабости каждого.

Двухклассовая постановка — «простая киста против всего остального» — показала менее устойчивую картину. Датасет здесь резко несбалансирован: в тестовой выборке всего 19 простых кист против 363 остальных случаев. Полный кадр дал macro-F1 = 0,675 ± 0,027, вырезка по маске — 0,724 ± 0,022. Прирост есть, но разброс между повторами заметно выше, чем в семиклассовой задаче.

Практический вывод авторов: маскировка датасета полезна не только при обучении моделей сегментации, но и при решении задачи классификации. При этом конкретный способ использования маски нужно проверять экспериментально — разные варианты дают разные результаты, и универсального ответа нет. Ансамблирование нескольких входных представлений при наличии готовой разметки обходится относительно дёшево и стабильно улучшает итоговое качество.