Семантический поиск по аэрофотоснимкам — задача, с которой сталкиваются страховые компании, риелторы, государственные службы и аграрии. Традиционные методы требуют либо ручного просмотра изображений тайл за тайлом, либо обучения отдельной модели компьютерного зрения для каждого типа объектов. AWS и Vexcel — оператор одной из крупнейших в мире программ аэрофотосъемки — предложили альтернативу: однократное индексирование набора снимков с помощью мультимодальных эмбеддингов и последующий поиск по естественно-языковым запросам.

В основе решения — связка сервисов Amazon Bedrock и Amazon OpenSearch Serverless. Изображения преобразуются в векторные представления (эмбеддинги), которые хранятся в векторной базе данных. Для улучшения качества поиска система также генерирует текстовые аннотации каждого снимка с помощью большой языковой модели (LLM) и объединяет их с визуальными эмбеддингами. Поиск по геопространственным данным принципиально отличается от поиска по обычным фотографиям. Для одной локации Vexcel собирает семь комплементарных ракурсов: ортофотоснимок сверху, четыре наклонных снимка (север, юг, восток, запад), а также модели рельефа DSM и DTM. Каждый ракурс раскрывает разные детали — например, фасад здания может быть виден только на южном наклонном снимке.

ScenarioTile-Based RecallEntity-Based Recall
Found 1 tile with 5 pools, missed 1 tile with 1 pool (6 total)50%83%
Found 1 tile with 1 pool, missed 1 tile with 5 pools (6 total)50%17%

Совместно с AWS Generative ИИ Innovation Center Vexcel провела серию экспериментов, сравнивая различные модели эмбеддингов, стратегии фьюжн (объединения ракурсов), методы аннотирования и поиска. В качестве бенчмарка использовались данные OpenStreetMap с известными объектами. Наилучшие результаты по F1-метрике продемонстрировала модель Amazon Nova Multimodal Embeddings. Разработка легла в основу продукта Vexcel Intelligence, который в настоящее время находится в режиме предварительного просмотра. Система позволяет за секунды находить на миллионах снимков такие объекты, как бассейны, солнечные панели или граффити, без необходимости обучать новые модели под каждый запрос.