Модель Lens от Microsoft Research обучена на 800 млн изображений с подробными текстовыми описаниями, сгенерированными GPT-4.1, — в среднем около 100 слов на пару. Это принципиально отличает её от типичного подхода, при котором датасеты собираются из веб-альтернативных текстов: те зачастую расплывчаты, неточны или вовсе не описывают содержимое изображения. Исследователи показали в ablation-экспериментах, что обучение на длинных детализированных подписях даёт заметно лучшее качество генерации, чем на коротких или смешанных.

Проблема, которую решает Lens, — не столько качество само по себе, сколько эффективность: большинство конкурирующих систем требуют колоссальных вычислительных ресурсов. Hunyuan-Image-3.0 насчитывает около 80 млрд параметров, Qwen-Image — в пять раз больше параметров, чем у Lens. При этом Lens с 3,8 млрд параметров по ряду benchmark-тестов — prompt fidelity, рендеринг текста, сложные сцены — превосходит FLUX.2-Klein и Z-Image, а в некоторых случаях и Qwen-Image. Предобучение потребовало примерно пятой части вычислений, которые нужны Z-Image.

МодельПараметрыОтносительные затраты на обучениеСкорость инференса (1 Мпкс, H100)
Lens3,8 млрд~1/5 от Z-Image~3 секунды
Lens-Turbo3,8 млрд (дистилляция)< 1 секунды
Hunyuan-Image-3.0~80 млрд
Qwen-Image~19 млрд (×5 от Lens)
Z-Imageсопоставима с Lensбазовая (×5 от Lens)

Архитектурные решения также сыграли роль. Команда протестировала несколько вариантов вариационных автоэнкодеров (VAE) — компонентов, отвечающих за перевод между пиксельным пространством и сжатым представлением. Победил семантический VAE из FLUX.2: он не только показал лучшее качество, но и ускорил сходимость при обучении. В качестве текстового энкодера используется GPT-OSS — открытая языковая модель от OpenAI. Более сильный энкодер дал два эффекта: модель быстрее обучается и способна обрабатывать запросы на языках, которых не было в обучающих данных. Lens обучена исключительно на английских парах, однако принимает промпты на китайском, французском, японском и испанском.

Модель требует примерно 1/5 вычислений при предобучении по сравнению с Z-Image.

Lens and Lens-Turbo score high on benchmarks while keeping inference time short and model size small; larger models need far more compute. | Image: Microsoft
Lens and Lens-Turbo score high on benchmarks while keeping inference time short and model size small; larger models need far more compute. | Image: Microsoft · Источник: The Decoder

После предобучения модель прошла фазу обучения с подкреплением на наборе Lens-RL-8K — 8000 промптов по десяти категориям: люди, животные, пейзажи, еда, вымышленные миры, UI-дизайн и другие. GPT-4.1 генерировал критерии оценки для каждого промпта, GPT-4.1-mini выступал моделью вознаграждения. Ablation-эксперименты показали: разнообразие промптов важнее их количества — сокращение набора или исключение отдельной категории ухудшает результаты именно в этой области.

Перед самой моделью Microsoft поставила «рассуждатель» (reasoner) — компонент, переписывающий расплывчатые пользовательские запросы в детализированные промпты. По умолчанию это GPT-5.5, но GPT-OSS тоже справляется без дополнительных затрат памяти. Исследователи описали метод итеративного улучшения системного промпта reasoner'а без дообучения — и отметили, что стратегия перенеслась на значительно более крупную Qwen-Image с положительным эффектом.

Для быстрого инференса создана дистиллированная версия Lens-Turbo: четыре шага вместо стандартных, генерация изображения — менее секунды на H100 против примерно трёх секунд у базовой модели. Модель поддерживает разные соотношения сторон и разрешения вплоть до ~2 мегапикселей, хотя обучалась на фиксированном наборе размеров.

Среди ограничений исследователи называют слабый рендеринг текста на японском и французском — следствие недостаточного покрытия в обучающих данных. Модель также может генерировать предвзятый или проблемный контент из-за веб-источников в датасете, поэтому Microsoft рекомендует добавлять собственные защитные фильтры. Lens позиционируется исключительно как исследовательский инструмент и не предназначена для продакшн-использования. Веса и код опубликованы под лицензией MIT на Hugging Face и GitHub.