NVIDIA предложила три подхода к созданию точных Vision ИИ-агентов с помощью

Подготовлено редакцией Malakhov AI

NVIDIA Blog·3 часа назад·2 минЛабораторииКод

К 2028 году более двух третей корпоративных данных будет обрабатываться вне ЦОД и облака, прогнозирует Gartner. При этом до 90% данных на периферии остаются неиспользованными. NVIDIA представила три рабочие схемы для разработчиков Vision ИИ-агентов, объединяющие синтетическую генерацию данных, дообучение моделей и развёртывание видеоаналитики.

Кратко

—Gartner прогнозирует более 67% корпоративных данных к 2028 году будут обрабатываться вне ЦОД и облака, а к 2029 году более двух третей предприятий внедрят периферийный ИИ.
—До 90% данных на периферии не обрабатывается — Vision ИИ-агенты могут превратить их в операционную информацию.
—NVIDIA предложила три повторяемых пайплайна: генерация синтетических дефектов, дообучение моделей и сборка видеоагентов.
—Компания Roboflow интегрирует технологию NVIDIA Defect Image Generation для Corning, достигая почти идеальной точности детекции на основе всего 8 реальных изображений.

Видео по теме

Generate Synthetic Data for Physical AI With NVIDIA Brev Launchables and Agent Skills · Источник: NVIDIA Blog

Глоссарий · 5 терминов▾

Vision ИИ-агент: Автономная система компьютерного зрения, которая анализирует видеопоток с камер, распознаёт объекты и события, и принимает решения или запускает действия в реальном времени.
Синтетические данные: Искусственно сгенерированные изображения или сцены, создаваемые симуляторами или генеративными моделями, используемые для обучения ИИ, когда реальных данных недостаточно.
OpenUSD (Universal Scene Description): Открытый фреймворк для описания, компоновки и повторного использования трёхмерных сцен, изначально разработанный Pixar.
NVIDIA Omniverse: Платформа для создания трёхмерных симуляций, цифровых двойников и синтетических данных, построенная на OpenUSD.
Fine-tuning (дообучение): Процесс дополнительного обучения предварительно обученной модели на целевом наборе данных для улучшения её точности в конкретной задаче.

Рынок периферийного ИИ (edge ИИ) стремительно растёт. Согласно прогнозу Gartner, к 2028 году более двух третей корпоративных данных будет создаваться и обрабатываться вне дата-центров и облака. К 2029 году более двух третей всех предприятий в мире внедрят периферийный ИИ — против 10% в 2025 году. Однако, как отмечает та же Gartner, до 90% данных на периферии остаются неиспользованными. Превратить эти данные в полезные действия должны Vision ИИ-агенты — модели, способные анализировать видео в реальном времени, адаптироваться к условиям заводов, городов, складов и транспортных систем.

Разработчики таких агентов сталкиваются с тремя типовыми проблемами. Первая — плато точности из-за пробелов в данных. Например, модель инспекции может хорошо распознавать типовые царапины, но пропускать волосяные трещины, если они не были представлены в обучающей выборке. Вторая — нехватка экспертизы по дообучению: даже выявив проблему, команда должна подготовить размеченные данные, настроить конфигурацию, отслеживать эксперименты и оценивать улучшения. Третья — сложность сборки рабочего агента: нужно связать пайплайны видео, модели, метаданные, эмбеддинги, индексацию, поиск, оповещения и отчёты.

NVIDIA предлагает трёхкомпонентный подход. На уровне симуляции и генерации синтетических данных используется OpenUSD и NVIDIA Omniverse — фреймворк для описания, компоновки и повторного использования 3D-миров. Это позволяет моделировать разные условия освещения, погоды, трафика, ракурсов и редкие события. Затем идут agent skills (навыки агентов) и blueprints (шаблоны) NVIDIA Metropolis, которые дают готовые блоки для ключевых этапов: генерация изображений дефектов (Defect Image Generation), расширение сценариев через аугментацию видео, дообучение моделей через NVIDIA TAO, и превращение понимания видео в рабочие процессы через поиск и суммаризацию.

До 90% данных на периферии не обрабатывается — Vision ИИ-агенты могут превратить их в операционную информацию.

Пример из практики: компания Roboflow интегрирует Defect Image Generation skill и мировые модели NVIDIA Cosmos в свою платформу Vision ИИ. В бенчмарке с инженерами Corning по оптическому волокну модель, обученная всего на восьми реальных изображениях дефектов, достигла почти идеальной точности детекции — при этом значительно сократилась потребность в ежедневном ручном просмотре изображений. Таким образом, синтетические данные закрывают пробелы реальной выборки, а дообучение позволяет адаптировать модель под конкретный производственный участок.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ