Как восемь ИИ-агентов справлялись с реализацией Depixelizing Pixel Art

Подготовлено редакцией Malakhov AI

Habr AI·14 часов назад·2 минКод

Автор сравнил восемь ИИ-агентов (Claude, Codex, Cursor, Cline, Antigravity, Kimi, Grok) на задаче реализации сложного алгоритма Depixelizing Pixel Art из статьи SIGGRAPH 2011 — с единственным промптом, без итераций и сторонних библиотек.

Кратко

—Восемь ИИ-агентов получили одинаковое задание: реализовать алгоритм Depixelizing Pixel Art на Swift.
—Условия — один промпт, без уточнений и исправлений, без готовых библиотек векторизации.
—Задача взята из статьи SIGGRAPH 2011 и значительно сложнее стандартных бенчмарков вроде HumanEval.
—Среди агентов — Claude, Codex, Cursor, Cline, Antigravity, Kimi, Grok на разных моделях.

Глоссарий · 5 терминов▾

Depixelizing Pixel Art: Алгоритм преобразования пиксельной графики в векторную с использованием сплайнов и диаграммы Вороного, опубликованный на SIGGRAPH в 2011 году.
B-сплайны: Математические кривые, используемые для сглаживания и интерполяции точек при векторизации изображений.
Диаграмма Вороного: Разбиение плоскости на области по ближайшим точкам; в алгоритме используется для перестройки пиксельных ячеек.
YUV: Цветовое пространство, разделяющее яркость (Y) и цветность (U, V), применяется для оценки похожести пикселей.
HumanEval: Популярный бенчмарк для оценки способности языковых моделей писать функции на Python, состоящий из 164 задач.

Лето, скоро отпуск — захотелось написать статью, которую просто кайф прочитать, и заодно попробовать что‑то новое. Для ИИ есть бенчмарки вроде HumanEval, где модель просят написать функцию на пару строк, есть задачи уровня «сделай мне todo‑лист на React». А что будет, если дать современным ИИ‑агентам по‑настоящему наукоёмкую задачу — реализовать алгоритм из статьи SIGGRAPH на Swift, без сторонних библиотек, — и потом честно сравнить, что получилось на выходе?

Для этого автор взял алгоритм «Depixelizing Pixel Art» (Johannes Kopf, Dani Lischinski, SIGGRAPH 2011) — тот, который он когда‑то давно реализовывал на C++. Поставил одинаковую задачу реализовать на языке Swift разным агентам (Claude, Codex, Cursor, Cline, Antigravity, Kimi, Grok — на разных моделях). Условия просты — один промпт = одна реализация, без уточнений, указаний недочетов и итераций правок.

Модель / агент	Размер	Δ к входу	Пикселей ≠ NN	Что это значит
Claude Fable 5	288²	24.2	39.98%	норма, есть сглаживание
Codex 5.5	288²	40.2 → 21.3 при v-flip	47.17%	обработка есть, но кадр перевёрнут
Cursor Auto	288²	27.8	25.77%	обработка есть, но рендер битый
Kimi Code 2.7	288²	42.7	31.24%	обработка есть (рендер по Вороному) сплайны в рендере не участвуют
Claude Sonnet 4.6	288²	19.0	13.55%	норма, есть сглаживание
Antigravity (Gemini 3.5 Flash)	288²	0.0	0.00%	чистый nearest ×16
Cline + DeepSeek v4 Pro	288²	0.0	0.00%	чистый nearest ×16
Cline + Qwen 3.7 Max	288²	0.0	0.00%	nearest ×16
Grok	4608²	0.0	1.85%	nearest ×256 — и неверный размер

Промпт включал подробный план реализации из семи шагов: контракт, подготовка проекта, построение графа похожести с цветовым порогом в YUV, разрешение пересекающихся диагоналей, перестройка пиксельных ячеек через упрощенную обобщенную диаграмму Вороного, извлечение квадратичных B-сплайнов на основе видимых ребер, и финальный рендеринг. Агент должен был следовать плану шаг за шагом, не пропуская и не заменяя алгоритм другим.

Условия — один промпт, без уточнений и исправлений, без готовых библиотек векторизации.

Обычные тесты вроде HumanEval состоят из коротких задач, которые модель может решить, просто вспомнив код из обучающих данных. Depixelizing Pixel Art — алгоритм, требующий интеграции нескольких этапов обработки изображений: построение графа похожести, разрешение пересекающихся диагоналей, построение диаграммы Вороного и извлечение сплайнов. Такой комплекс редко встречается в обучающих выборках, поэтому это честная проверка способности агента к синтезу и точному следованию инструкциям. Кроме того, запрет на использование готовых библиотек (например, hqx, potrace) исключает возможность «халявного» решения.

Все агенты получают одинаковый промпт, что позволяет сравнить их «из коробки», без донастройки. По словам автора, такая постановка эксперимента более справедлива, чем многократные итерации с правками. Она имитирует ситуацию, когда разработчик передает задачу ИИ-ассистенту и ожидает рабочего результата с первой попытки. Результаты теста показывают, что далеко не все агенты справились с комплексной задачей. Например, некоторые агенты не смогли правильно построить граф похожести или обработать диагонали, другие срезали углы, используя готовые библиотеки, что было запрещено условиями. Однако точные результаты каждого агента остаются неизвестными — автор обещал раскрыть их в полной версии статьи. Тем не менее, сам подход к тестированию заслуживает внимания: он выходит за рамки академических бенчмарков и приближает оценку ИИ к реальным инженерным задачам, где требуется понимание сложных алгоритмов и умение реализовать их без подсказок.

Разобраться глубже

ИИ-агенты для бизнеса: что это и где применять

ИИ-агенты для бизнеса простыми словами: чем агент отличается от чат-бота, из каких четырёх частей собирается, какие бывают уровни автономности, карта из 10 сценариев применения, кейс сервисной компании и расчёт окупаемости агента поддержки.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Ускорение тонкой настройки MoE-моделей: NeMo AutoModel и Transformers v5

Продолжить по разделам

Как восемь ИИ-агентов справлялись с реализацией Depixelizing Pixel Art

Кратко

Читать дальше

YADRO проверил PCIe-версию NVIDIA H100: 700 Вт на карту

NVIDIA Blackwell на SageMaker ИИ: как настроить обучение моделей

Ускорение тонкой настройки MoE-моделей: NeMo AutoModel и Transformers v5