Генерация 3D-моделей с помощью ИИ — тема, которую маркетинговые материалы описывают как почти решённую задачу. Автор публикации на Habr решила проверить это утверждение на практике: взяла тираннозавра как объект с заведомо сложной геометрией и попыталась получить пригодную для печати модель, не потратив ни рубля.
Современные ИИ-генераторы 3D-объектов делятся на два класса. Text-to-3D принимает текстовое описание и строит геометрию — как правило, через промежуточный этап генерации 2D-изображения. Image-to-3D восстанавливает форму объекта по одной или нескольким фотографиям, анализируя перспективу и текстуры, чтобы «додумать» невидимые части. Второй подход чаще используют для оцифровки реальных предметов: мебели, скульптур, товаров для интернет-магазинов.
| Архитектура | Принцип работы | Сильные стороны | Ограничения |
|---|---|---|---|
| VAE | Сжимает 3D-данные в компактное представление, затем восстанавливает | Подходит для анимации и интерполяции | Слабо генерирует принципиально новые формы |
| GAN | Две нейросети соревнуются: одна генерирует, другая оценивает | Высокая скорость, подходит для набросков | Нестабильное качество геометрии |
| Авторегрессионные модели | Предсказывают следующий фрагмент модели на основе предыдущих | Правильная топология сетки | Медленная генерация, ошибка в начале портит всё |
| Diffusion Models | Убирают шум из случайного облака точек | Лучший выбор для Text-to-3D, справляются со сложными формами | Результат может не соответствовать ожиданиям |
В основе большинства сервисов лежат четыре архитектуры. VAE (вариационный автоэнкодер) сжимает 3D-данные в компактное представление и разжимает обратно — полезен для анимации, но слабо подходит для создания принципиально новых форм. GAN (генеративно-состязательная сеть) использует две нейросети: одна генерирует, другая оценивает — быстро, но качество геометрии нестабильно. Авторегрессионные модели предсказывают следующий фрагмент модели на основе предыдущих, что даёт правильную топологию, но работает медленно. Diffusion Models убирают шум из случайного облака точек — лучший выбор для Text-to-3D, хорошо справляются со сложными формами.
Современные 3D-генераторы строятся на четырёх архитектурах: VAE, GAN, авторегрессионных моделях и Diffusion Models.
Популярные сервисы — Tripo, Meshy, HiTech — используют гибриды этих архитектур. VAE+GAN даёт высокое качество геометрии, но требователен к ресурсам. VAE+AR обещает отличную топологию, однако ошибка на старте портит весь результат. Diffusion+GAN работает быстро и хорошо с текстурами, но уступает по контролю геометрии.
На практике у всех этих подходов есть общие болезни. Артефакты геометрии — «дыры» и детали, висящие в воздухе, — встречаются регулярно. Текстуры нередко размытые, со швами. Топология сетки случайна: количество и расположение полигонов непредсказуемы, что делает модель непригодной для анимации и требует ручной доработки перед печатью.
Автор приводит три показательных случая из практики. Солнечные часы, сгенерированные нейросетью, выглядели красиво: циферблат с римскими цифрами, изящный гномон. Проблема обнаружилась после печати — гномон стоял строго вертикально, тогда как для работы солнечных часов его наклон должен соответствовать широте местности. Модель лица оказалась состоящей из 40+ миллионов полигонов: ремэш положил компьютер на колени несколько раз подряд. Трубка, по которой должен был катиться металлический шарик, пришла без внутреннего отверстия и с дырами в сетке — пришлось доделывать вручную в Blender.
Тираннозавр выбран не случайно. Массивное тело, непропорционально маленькие передние лапы, хвост и текстовые элементы — это набор геометрических задач, на которых ИИ-генераторы традиционно спотыкаются. Передние конечности динозавра стали своеобразным аналогом «рук» в портретной генерации — деталью, которую модели воспроизводят с наибольшим числом ошибок. Если сервис справится с такой моделью в рамках бесплатного лимита, это будет аргументом в пользу практической применимости технологии. Если нет — по крайней мере, станет понятно, где именно проходит граница между рекламными обещаниями и реальностью 3D-печати.


