Разработчик под псевдонимом fikstt2 представил десктопный инструмент VisionForge для разметки датасетов и обучения нейросетей. Программа написана на PyQt5 с использованием OpenGL и распространяется как единый исполняемый файл, не требующий установки Docker или других контейнеров. Инструмент ориентирован на разработчиков, которые работают с конфиденциальными данными или имеют ограничения по развертыванию веб-сервисов.

Поводом для создания VisionForge стали несколько проблем, с которыми автор столкнулся при использовании популярного веб-инструмента CVAT. Во‑первых, Docker не устанавливался на старой Windows. Во‑вторых, загрузка больших объёмов данных на сервер CVAT была неудобной и вызывала опасения по безопасности для специфических задач. В‑третьих, постоянная передача файлов на сервер замедляла работу. В итоге разработчик вернулся к своему собственному аннотатору, который постепенно превратился в полноценный продукт.

КритерийCVATVisionForge
РазвертываниеТребует Docker и веб-серверОдин exe-файл, не требует Docker
Работа с даннымиЗагрузка на серверПрямая работа с файловой системой
АвтоматизацияЧерез API и внешние модулиВстроенный конвейер с загрузкой весов
БезопасностьДанные передаются на серверПолная локальная работа
УстановкаУстановка Docker и настройкаСкачать и запустить

Ключевая особенность VisionForge — полный замкнутый цикл обработки данных. Пользователь может загрузить веса уже обученной модели и использовать её для автоматической разметки нового датасета, а затем дообучить модель на этих размеченных данных. Весь процесс происходит локально, без передачи данных на внешние серверы. Благодаря прямой работе с файловой системой инструмент обеспечивает высокую скорость обработки больших объёмов данных.

Программа поддерживает импорт аннотаций из популярных форматов (COCO, YOLO, Pascal VOC) и экспорт в форматы для обучения. Встроенные модули позволяют запускать обучение моделей прямо из интерфейса, без переключения между разными инструментами. Видео с демонстрацией работы можно найти на GitHub проекта.

В планах автора — добавить сегментацию и полигональную разметку, поддержку видео с покадровой разметкой, а также расширить список поддерживаемых моделей за рамки семейства YOLO. Исходный код VisionForge доступен на GitHub, разработчик приглашает к сотрудничеству и приёму фич-реквестов.

Для русского ИИ-сообщества появление такого инструмента означает ещё один шаг к снижению зависимости от зарубежных облачных сервисов и веб-платформ. Локальные решения, подобные VisionForge, позволяют разработчикам сохранять контроль над данными и упрощают интеграцию в существующие пайплайны.