Подсчёт объектов на изображении — задача, которая выглядит тривиальной, но на практике остаётся одной из слабых точек современных мультимодальных систем. Врач, считающий клетки на гистологическом срезе, агроном, оценивающий урожайность по фото поля, или городской планировщик, анализирующий плотность трафика на снимке со спутника, — все они до сих пор вынуждены использовать разные специализированные инструменты. Исследователи из Tsinghua University и ряда других институтов предложили единую модель Count Anything, которая берётся за все эти задачи сразу.

Проблема, которую решает модель, хорошо известна в отрасли: система, обученная считать головы в толпе, теряет точность, когда сталкивается с плотно упакованными клетками под микроскопом или крошечными автомобилями на аэрофотоснимке. Визуальные домены слишком разные по масштабу, текстуре и плотности объектов, чтобы одна архитектура справлялась со всеми без специальной адаптации. Count Anything атакует эту проблему через комбинацию двух дополняющих друг друга подходов.

МодельСредняя ошибка (объектов на категорию)Тип
Count Anything~9универсальная
CountGD / CountGD++>18специализированная
CLIP-Count>18специализированная
Grounding DINO>18специализированная

Первый счётчик ориентирован на крупные, хорошо различимые объекты и обводит их ограничивающими рамками (bounding boxes). Второй работает с мелкими и плотно расположенными объектами, ставя точку на каждом обнаруженном элементе. Оба предсказания объединяются в итоговое множество точек. Чтобы один объект не засчитывался дважды, применяется простое правило: если оба счётчика зафиксировали одну цель, остаётся предсказание с более высокой уверенностью. Архитектура строится на базе SAM3 — мультимодальной модели Meta, способной обрабатывать изображения и текст совместно. Вместо переобучения всей сети поверх неё добавляются небольшие адаптерные компоненты, что существенно снижает вычислительные затраты.

Датасет CLOC содержит 220 000 изображений, 619 категорий и 15 млн размеченных объектов из шести визуальных доменов.

Count Anything combines a region-based and a pixel-based counter, then merges their results into a final point set. | Image: Lei et al.
Count Anything combines a region-based and a pixel-based counter, then merges their results into a final point set. | Image: Lei et al. · Источник: The Decoder

Отдельная часть работы — датасет CLOC, который авторы называют крупнейшим для задачи подсчёта с текстовым управлением. Существующие публичные датасеты создавались под конкретные домены: опухолевые клетки, спутниковые снимки, сельскохозяйственные культуры. Исследователи объединили их, устранили конфликтующие метки и выпустили результат в открытый доступ. CLOC охватывает шесть доменов: бытовые фотографии, спутниковые и дроновые снимки, медицинские срезы тканей, микроскопические изображения клеток, сельскохозяйственные снимки (в том числе колосья пшеницы) и фото бактериальных культур. Итог — 220 000 изображений, 619 категорий и 15 миллионов размеченных объектов.

На собственном сравнительном тесте Count Anything показывает среднюю ошибку около девяти объектов на запрашиваемую категорию в изображении. Ближайший конкурент — CountGD — ошибается более чем вдвое. CLIP-Count и Grounding DINO также уступают по всем протестированным запросам. Исключение составляет чистый подсчёт людей в толпе: здесь Count Anything остаётся конкурентоспособной, но не превосходит лучшие узкоспециализированные системы, заточенные именно под эту задачу.

Авторы честно обозначают ограничения. При неоднозначных или узкоспециальных текстовых запросах модель может пропускать объекты или ошибаться в классификации. В сценах с сильным перекрытием объектов (occlusion) возникает неопределённость: два предсказания могут относиться как к одному объекту, так и к двум разным. Код модели опубликован на GitHub.

Контекст шире одной модели. Недавний benchmark BabyVision показал, что большинство передовых систем справляются с базовыми визуальными задачами хуже среднестатистического трёхлетнего ребёнка. В тестах с участием 80 детей даже Gemini 3 Pro едва набирал 50%, тогда как взрослые давали результат выше 94%. Особенно показательным оказался подсчёт перекрытых трёхмерных блоков: лучшая модель достигла лишь 20,5%, люди не допустили ни одной ошибки. Count Anything не решает эту проблему целиком, но демонстрирует, что специализированная архитектура с правильно собранными данными способна существенно сократить разрыв в конкретной визуальной задаче.