Разработчик под псевдонимом fikstt2 представил десктопный инструмент VisionForge для разметки датасетов и обучения нейросетей. Программа написана на PyQt5 с использованием OpenGL и распространяется как единый исполняемый файл, не требующий установки Docker или других контейнеров. Инструмент ориентирован на разработчиков, которые работают с конфиденциальными данными или имеют ограничения по развертыванию веб-сервисов.
Поводом для создания VisionForge стали несколько проблем, с которыми автор столкнулся при использовании популярного веб-инструмента CVAT. Во‑первых, Docker не устанавливался на старой Windows. Во‑вторых, загрузка больших объёмов данных на сервер CVAT была неудобной и вызывала опасения по безопасности для специфических задач. В‑третьих, постоянная передача файлов на сервер замедляла работу. В итоге разработчик вернулся к своему собственному аннотатору, который постепенно превратился в полноценный продукт.
| Критерий | CVAT | VisionForge |
|---|---|---|
| Развертывание | Требует Docker и веб-сервер | Один exe-файл, не требует Docker |
| Работа с данными | Загрузка на сервер | Прямая работа с файловой системой |
| Автоматизация | Через API и внешние модули | Встроенный конвейер с загрузкой весов |
| Безопасность | Данные передаются на сервер | Полная локальная работа |
| Установка | Установка Docker и настройка | Скачать и запустить |
Ключевая особенность VisionForge — полный замкнутый цикл обработки данных. Пользователь может загрузить веса уже обученной модели и использовать её для автоматической разметки нового датасета, а затем дообучить модель на этих размеченных данных. Весь процесс происходит локально, без передачи данных на внешние серверы. Благодаря прямой работе с файловой системой инструмент обеспечивает высокую скорость обработки больших объёмов данных.
Программа поддерживает импорт аннотаций из популярных форматов (COCO, YOLO, Pascal VOC) и экспорт в форматы для обучения. Встроенные модули позволяют запускать обучение моделей прямо из интерфейса, без переключения между разными инструментами. Видео с демонстрацией работы можно найти на GitHub проекта.
В планах автора — добавить сегментацию и полигональную разметку, поддержку видео с покадровой разметкой, а также расширить список поддерживаемых моделей за рамки семейства YOLO. Исходный код VisionForge доступен на GitHub, разработчик приглашает к сотрудничеству и приёму фич-реквестов.
Для русского ИИ-сообщества появление такого инструмента означает ещё один шаг к снижению зависимости от зарубежных облачных сервисов и веб-платформ. Локальные решения, подобные VisionForge, позволяют разработчикам сохранять контроль над данными и упрощают интеграцию в существующие пайплайны.


