С ноября 2025 года, когда вышла первая версия OlmoEarth, партнёры Allen ИИ применяли модель для мониторинга мангровых зарослей, классификации причин вырубки лесов и построения карт сельскохозяйственных культур в масштабе целых стран — задач, требующих обработки десятков и сотен тысяч квадратных километров снимков. При таких объёмах вычислительные расходы становятся главным ограничением: они доминируют над стоимостью экспорта данных, препроцессинга и постобработки вместе взятых.

OlmoEarth v1.1 решает эту проблему через переосмысление базовой единицы обработки — токена. Модели семейства OlmoEarth основаны на трансформерной архитектуре, где вычислительная сложность растёт квадратично с длиной входной последовательности. Это означает, что даже умеренное сокращение числа токенов даёт непропорционально большой выигрыш в скорости и стоимости инференса. Метрика MACs (multiply-accumulate operations), оценивающая объём вычислений на один проход модели, у v1.1 существенно ниже, чем у v1 при аналогичных размерах.

МодельТокенов на патч (2 временных среза)Относительная стоимость вычислений
OlmoEarth v16 (2 среза × 3 разрешения)
OlmoEarth v1.12 (2 среза × 1 объединённый токен)до 0.33× (до 3× дешевле)

Спутниковые снимки Sentinel-2 — один из основных типов входных данных для OlmoEarth — содержат 12 каналов с тремя пространственными разрешениями: 10 м, 20 м и 60 м. В версии v1 каждое разрешение порождало отдельный токен на каждый временной срез и каждый пространственный патч. Для снимка с двумя временными метками это давало шесть токенов на патч. Такой подход используют и конкурирующие модели — Galileo и SatMAE, причём SatMAE демонстрирует заметно лучшие результаты именно благодаря раздельной токенизации разрешений. Однако модель CROMA показывает, что объединение всех каналов в один токен тоже работоспособно.

Эффективность достигнута за счёт объединения токенов трёх пространственных разрешений Sentinel-2 в один токен вместо трёх.

OlmoEarth v11 blog and social copy - Google Docs-image-1
OlmoEarth v11 blog and social copy - Google Docs-image-1 · Источник: Hugging Face Blog

В v1.1 команда Allen ИИ объединила три разрешения в единый токен, сократив их количество втрое. Прямолинейное слияние привело к падению точности на 10 процентных пунктов на benchmark m-eurosat kNN — одном из стандартных тестов для моделей дистанционного зондирования. Исследователи объясняют это тем, что разделение каналов по разным токенам облегчает модели моделирование межканальных зависимостей. Чтобы сохранить эти зависимости при объединении токенов, потребовалась модификация режима предобучения, подробности которой описаны в техническом отчёте.

Для исследовательского сообщества v1.1 представляет дополнительную ценность: обе версии обучены на одном и том же датасете, поэтому любые различия в поведении моделей можно однозначно отнести к методологическим изменениям, а не к составу обучающих данных. Это редкое условие для сравнительного анализа в области предобучения моделей дистанционного зондирования.

Практический результат: при сопоставимом качестве на смеси research benchmark-задач и прикладных задач партнёров v1.1 позволяет обновлять планетарные карты чаще и дешевле. Семейство включает модели трёх размеров — Base, Tiny и Nano, — веса и код предобучения опубликованы на Hugging Face и GitHub. Авторы оговариваются, что в отдельных задачах наблюдаются регрессии по сравнению с v1, и рекомендуют проверять результаты на конкретном применении перед переходом на новую версию.