Count Anything: модель из Tsinghua умеет считать объекты на любых изображениях

Подготовлено редакцией Malakhov AI

The Decoder·13 июн.·3 минИсследованияИндустрия

Исследователи из Tsinghua University выпустили модель Count Anything, которая считает объекты на изображениях разных типов — от спутниковых снимков до медицинских срезов — единой архитектуры. Средняя ошибка составляет около девяти объектов на категорию, тогда как у ближайших конкурентов этот показатель вдвое выше.

Кратко

—Count Anything объединяет два счётчика: один для крупных объектов с ограничивающими рамками, другой для плотно упакованных — с точечной разметкой.
—Датасет CLOC содержит 220 000 изображений, 619 категорий и 15 млн размеченных объектов из шести визуальных доменов.
—Модель строится на базе SAM3 от Meta и дообучается через адаптерные компоненты без переобучения всей сети.
—На собственном benchmark Count Anything опережает CountGD, CLIP-Count и Grounding DINO, но уступает узкоспециализированным системам в задаче подсчёта толпы.
—Модель испытывает трудности с неоднозначными терминами и сильно перекрытыми объектами в плотных сценах.

Глоссарий · 6 терминов▾

bounding box: Прямоугольная рамка, которой алгоритм обводит обнаруженный объект на изображении, фиксируя его положение и размер.
SAM3: Мультимодальная модель Meta, способная совместно обрабатывать изображения и текстовые запросы; используется как базовая архитектура для Count Anything.
occlusion: Частичное или полное перекрытие одного объекта другим на изображении, затрудняющее его обнаружение и подсчёт.
benchmark: Стандартизированный тест для сравнения производительности разных моделей или систем по одним и тем же метрикам.
адаптерные компоненты: Небольшие дополнительные модули, встраиваемые в уже обученную нейросеть для дообучения под новую задачу без изменения основных весов модели.
CLOC: Датасет для задачи подсчёта объектов с текстовым управлением, созданный авторами Count Anything; охватывает шесть визуальных доменов и содержит 15 млн размеченных объектов.

Подсчёт объектов на изображении — задача, которая выглядит тривиальной, но на практике остаётся одной из слабых точек современных мультимодальных систем. Врач, считающий клетки на гистологическом срезе, агроном, оценивающий урожайность по фото поля, или городской планировщик, анализирующий плотность трафика на снимке со спутника, — все они до сих пор вынуждены использовать разные специализированные инструменты. Исследователи из Tsinghua University и ряда других институтов предложили единую модель Count Anything, которая берётся за все эти задачи сразу.

Проблема, которую решает модель, хорошо известна в отрасли: система, обученная считать головы в толпе, теряет точность, когда сталкивается с плотно упакованными клетками под микроскопом или крошечными автомобилями на аэрофотоснимке. Визуальные домены слишком разные по масштабу, текстуре и плотности объектов, чтобы одна архитектура справлялась со всеми без специальной адаптации. Count Anything атакует эту проблему через комбинацию двух дополняющих друг друга подходов.

Модель	Средняя ошибка (объектов на категорию)	Тип
Count Anything	~9	универсальная
CountGD / CountGD++	>18	специализированная
CLIP-Count	>18	специализированная
Grounding DINO	>18	специализированная

Первый счётчик ориентирован на крупные, хорошо различимые объекты и обводит их ограничивающими рамками (bounding boxes). Второй работает с мелкими и плотно расположенными объектами, ставя точку на каждом обнаруженном элементе. Оба предсказания объединяются в итоговое множество точек. Чтобы один объект не засчитывался дважды, применяется простое правило: если оба счётчика зафиксировали одну цель, остаётся предсказание с более высокой уверенностью. Архитектура строится на базе SAM3 — мультимодальной модели Meta, способной обрабатывать изображения и текст совместно. Вместо переобучения всей сети поверх неё добавляются небольшие адаптерные компоненты, что существенно снижает вычислительные затраты.

Датасет CLOC содержит 220 000 изображений, 619 категорий и 15 млн размеченных объектов из шести визуальных доменов.

Count Anything combines a region-based and a pixel-based counter, then merges their results into a final point set. | Image: Lei et al. · Источник: The Decoder

Отдельная часть работы — датасет CLOC, который авторы называют крупнейшим для задачи подсчёта с текстовым управлением. Существующие публичные датасеты создавались под конкретные домены: опухолевые клетки, спутниковые снимки, сельскохозяйственные культуры. Исследователи объединили их, устранили конфликтующие метки и выпустили результат в открытый доступ. CLOC охватывает шесть доменов: бытовые фотографии, спутниковые и дроновые снимки, медицинские срезы тканей, микроскопические изображения клеток, сельскохозяйственные снимки (в том числе колосья пшеницы) и фото бактериальных культур. Итог — 220 000 изображений, 619 категорий и 15 миллионов размеченных объектов.

На собственном сравнительном тесте Count Anything показывает среднюю ошибку около девяти объектов на запрашиваемую категорию в изображении. Ближайший конкурент — CountGD — ошибается более чем вдвое. CLIP-Count и Grounding DINO также уступают по всем протестированным запросам. Исключение составляет чистый подсчёт людей в толпе: здесь Count Anything остаётся конкурентоспособной, но не превосходит лучшие узкоспециализированные системы, заточенные именно под эту задачу.

Авторы честно обозначают ограничения. При неоднозначных или узкоспециальных текстовых запросах модель может пропускать объекты или ошибаться в классификации. В сценах с сильным перекрытием объектов (occlusion) возникает неопределённость: два предсказания могут относиться как к одному объекту, так и к двум разным. Код модели опубликован на GitHub.

Контекст шире одной модели. Недавний benchmark BabyVision показал, что большинство передовых систем справляются с базовыми визуальными задачами хуже среднестатистического трёхлетнего ребёнка. В тестах с участием 80 детей даже Gemini 3 Pro едва набирал 50%, тогда как взрослые давали результат выше 94%. Особенно показательным оказался подсчёт перекрытых трёхмерных блоков: лучшая модель достигла лишь 20,5%, люди не допустили ни одной ошибки. Count Anything не решает эту проблему целиком, но демонстрирует, что специализированная архитектура с правильно собранными данными способна существенно сократить разрыв в конкретной визуальной задаче.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Count Anything: модель из Tsinghua умеет считать объекты на любых изображениях

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента