Маска вместо полного кадра: как ROI меняет точность классификации УЗИ-снимков

Подготовлено редакцией Malakhov AI

Habr AI·3 дня назад·2 минРоссияКод

На датасете MMOTU с 1202 УЗИ-снимками опухолей яичника вырезка по маске с занулением фона подняла macro-F1 с 0,497 до 0,605 в семиклассовой задаче — на 10,8 процентного пункта лучше, чем подача полного кадра. Ансамбль из восьми вариантов входа дал ещё более высокий результат — 0,703.

Кратко

—64 модели EfficientNet-B0 обучены за 8 часов на GPU A100; итого 72 результата с учётом ансамблей.
—В задаче на 7 классов все варианты с маской или вырезкой превзошли полный кадр во всех 4 повторах.
—Ансамбль восьми входов дал macro-F1 = 0,703 для 7 классов и 0,773 для 2 классов.
—Для двухклассовой задачи эффект маскировки менее устойчив из-за сильного дисбаланса классов.
—Добавление маски как дополнительного канала к полному кадру улучшает результат, но не догоняет точную вырезку.

Глоссарий · 7 терминов▾

macro-F1: Среднее значение F1-меры по всем классам без учёта их размера — штрафует модель за плохую работу на редких классах.
ROI (region of interest): Область интереса — фрагмент изображения, содержащий объект анализа; в медицинском зрении обычно выделяется по маске или ограничивающему прямоугольнику.
EfficientNet-B0: Компактная свёрточная нейросеть от Google, оптимизированная по соотношению точности и числа параметров; B0 — наименьшая версия семейства.
ансамбль моделей: Метод, при котором предсказания нескольких независимо обученных моделей усредняются или голосуются, чтобы снизить ошибку.
AUROC: Площадь под ROC-кривой — метрика качества классификатора, не зависящая от порога принятия решения; значение 1,0 соответствует идеальному разделению классов.
AdamW: Вариант оптимизатора Adam с явной регуляризацией весов, снижающей переобучение.
MMOTU / OTU-2D: Публичный датасет двумерных УЗИ-снимков опухолей яичника с пиксельной разметкой, опубликованный на платформе Figshare.

На публичном датасете MMOTU / OTU-2D, содержащем 1202 УЗИ-снимка опухолей яичника, исследователи проверили восемь способов подготовки входных данных для классификатора — от полного кадра до жёсткой вырезки по пиксельной маске. Эксперимент занял 8 часов на GPU A100 в Google Colab и породил 64 обученные модели плюс 8 ансамблей.

Идея использовать область интереса (ROI) вместо полного снимка выглядит логично: УЗИ-кадр содержит подписи аппарата, измерительные маркеры и посторонний фон, которые теоретически мешают модели. Однако в ультразвуковой диагностике «лишний» контекст не всегда лишний: клиницист оценивает не только саму опухоль, но и акустические эффекты за ней, соседние ткани, масштаб объекта. Жёсткая обрезка по маске рискует вместе с шумом удалить диагностически значимую информацию.

Вход	macro-F1 (7 классов)	Разница к полному кадру	macro-F1 (2 класса)
Полный кадр	0,497 ± 0,019	—	0,675 ± 0,027
По маске, фон занулён	0,605 ± 0,023	+0,108	0,724 ± 0,022
Прямоугольник, отступ 0%	0,581 ± 0,031	+0,083	—
Прямоугольник, отступ 10%	0,570 ± 0,019	+0,073	—
Прямоугольник, отступ 30%	0,569 ± 0,041	+0,072	—
Прямоугольник, отступ 50%	0,576 ± 0,017	+0,078	—
Прямоугольник, отступ 80%	0,539 ± 0,013	+0,042	—
Полный кадр + маска	0,573 ± 0,029	+0,076	—
Ансамбль восьми входов	0,703 ± 0,012	+0,205	0,773 ± 0,030

Чтобы проверить, где именно находится полезный для классификатора сигнал, авторы сформировали восемь вариантов входа из одного и того же изображения и одной и той же маски: полный кадр, вырезка по маске с занулением фона, прямоугольные вырезки с отступами от 0% до 80% и полный кадр с маской в качестве дополнительного канала. Архитектура во всех случаях одинакова — EfficientNet-B0 с входом 224×224, оптимизатор AdamW, 25 эпох, четыре повтора с разными seed.

В задаче на 7 классов все варианты с маской или вырезкой превзошли полный кадр во всех 4 повторах.

В семиклассовой задаче результат оказался однозначным. Полный кадр дал macro-F1 = 0,497 ± 0,019. Вырезка по маске с занулённым фоном — 0,605 ± 0,023, то есть на 10,8 п.п. выше, и этот результат воспроизвёлся во всех четырёх повторах. Прямоугольные вырезки тоже превзошли полный кадр, но слабее: при отступе 80% выигрыш сократился до 4,1 п.п., поскольку модель снова получала большой фрагмент кадра с посторонней информацией. Добавление маски как дополнительного канала к полному кадру улучшило результат до 0,573, но не достигло уровня точной вырезки.

Ансамбль восьми входов — усреднение вероятностей восьми моделей, обученных на разных представлениях данных, — дал macro-F1 = 0,703 ± 0,012 для семи классов и 0,773 ± 0,030 для двух классов. Это лучший результат в обоих сценариях: разные входы сохраняют разные признаки и ошибаются по-разному, поэтому их объединение компенсирует слабости каждого.

Двухклассовая постановка — «простая киста против всего остального» — показала менее устойчивую картину. Датасет здесь резко несбалансирован: в тестовой выборке всего 19 простых кист против 363 остальных случаев. Полный кадр дал macro-F1 = 0,675 ± 0,027, вырезка по маске — 0,724 ± 0,022. Прирост есть, но разброс между повторами заметно выше, чем в семиклассовой задаче.

Практический вывод авторов: маскировка датасета полезна не только при обучении моделей сегментации, но и при решении задачи классификации. При этом конкретный способ использования маски нужно проверять экспериментально — разные варианты дают разные результаты, и универсального ответа нет. Ансамблирование нескольких входных представлений при наличии готовой разметки обходится относительно дёшево и стабильно улучшает итоговое качество.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ