На публичном датасете MMOTU / OTU-2D, содержащем 1202 УЗИ-снимка опухолей яичника, исследователи проверили восемь способов подготовки входных данных для классификатора — от полного кадра до жёсткой вырезки по пиксельной маске. Эксперимент занял 8 часов на GPU A100 в Google Colab и породил 64 обученные модели плюс 8 ансамблей.
Идея использовать область интереса (ROI) вместо полного снимка выглядит логично: УЗИ-кадр содержит подписи аппарата, измерительные маркеры и посторонний фон, которые теоретически мешают модели. Однако в ультразвуковой диагностике «лишний» контекст не всегда лишний: клиницист оценивает не только саму опухоль, но и акустические эффекты за ней, соседние ткани, масштаб объекта. Жёсткая обрезка по маске рискует вместе с шумом удалить диагностически значимую информацию.
| Вход | macro-F1 (7 классов) | Разница к полному кадру | macro-F1 (2 класса) |
|---|---|---|---|
| Полный кадр | 0,497 ± 0,019 | — | 0,675 ± 0,027 |
| По маске, фон занулён | 0,605 ± 0,023 | +0,108 | 0,724 ± 0,022 |
| Прямоугольник, отступ 0% | 0,581 ± 0,031 | +0,083 | — |
| Прямоугольник, отступ 10% | 0,570 ± 0,019 | +0,073 | — |
| Прямоугольник, отступ 30% | 0,569 ± 0,041 | +0,072 | — |
| Прямоугольник, отступ 50% | 0,576 ± 0,017 | +0,078 | — |
| Прямоугольник, отступ 80% | 0,539 ± 0,013 | +0,042 | — |
| Полный кадр + маска | 0,573 ± 0,029 | +0,076 | — |
| Ансамбль восьми входов | 0,703 ± 0,012 | +0,205 | 0,773 ± 0,030 |
Чтобы проверить, где именно находится полезный для классификатора сигнал, авторы сформировали восемь вариантов входа из одного и того же изображения и одной и той же маски: полный кадр, вырезка по маске с занулением фона, прямоугольные вырезки с отступами от 0% до 80% и полный кадр с маской в качестве дополнительного канала. Архитектура во всех случаях одинакова — EfficientNet-B0 с входом 224×224, оптимизатор AdamW, 25 эпох, четыре повтора с разными seed.
В задаче на 7 классов все варианты с маской или вырезкой превзошли полный кадр во всех 4 повторах.
В семиклассовой задаче результат оказался однозначным. Полный кадр дал macro-F1 = 0,497 ± 0,019. Вырезка по маске с занулённым фоном — 0,605 ± 0,023, то есть на 10,8 п.п. выше, и этот результат воспроизвёлся во всех четырёх повторах. Прямоугольные вырезки тоже превзошли полный кадр, но слабее: при отступе 80% выигрыш сократился до 4,1 п.п., поскольку модель снова получала большой фрагмент кадра с посторонней информацией. Добавление маски как дополнительного канала к полному кадру улучшило результат до 0,573, но не достигло уровня точной вырезки.
Ансамбль восьми входов — усреднение вероятностей восьми моделей, обученных на разных представлениях данных, — дал macro-F1 = 0,703 ± 0,012 для семи классов и 0,773 ± 0,030 для двух классов. Это лучший результат в обоих сценариях: разные входы сохраняют разные признаки и ошибаются по-разному, поэтому их объединение компенсирует слабости каждого.
Двухклассовая постановка — «простая киста против всего остального» — показала менее устойчивую картину. Датасет здесь резко несбалансирован: в тестовой выборке всего 19 простых кист против 363 остальных случаев. Полный кадр дал macro-F1 = 0,675 ± 0,027, вырезка по маске — 0,724 ± 0,022. Прирост есть, но разброс между повторами заметно выше, чем в семиклассовой задаче.
Практический вывод авторов: маскировка датасета полезна не только при обучении моделей сегментации, но и при решении задачи классификации. При этом конкретный способ использования маски нужно проверять экспериментально — разные варианты дают разные результаты, и универсального ответа нет. Ансамблирование нескольких входных представлений при наличии готовой разметки обходится относительно дёшево и стабильно улучшает итоговое качество.


