Модель Lens от Microsoft Research обучена на 800 млн изображений с подробными текстовыми описаниями, сгенерированными GPT-4.1, — в среднем около 100 слов на пару. Это принципиально отличает её от типичного подхода, при котором датасеты собираются из веб-альтернативных текстов: те зачастую расплывчаты, неточны или вовсе не описывают содержимое изображения. Исследователи показали в ablation-экспериментах, что обучение на длинных детализированных подписях даёт заметно лучшее качество генерации, чем на коротких или смешанных.
Проблема, которую решает Lens, — не столько качество само по себе, сколько эффективность: большинство конкурирующих систем требуют колоссальных вычислительных ресурсов. Hunyuan-Image-3.0 насчитывает около 80 млрд параметров, Qwen-Image — в пять раз больше параметров, чем у Lens. При этом Lens с 3,8 млрд параметров по ряду benchmark-тестов — prompt fidelity, рендеринг текста, сложные сцены — превосходит FLUX.2-Klein и Z-Image, а в некоторых случаях и Qwen-Image. Предобучение потребовало примерно пятой части вычислений, которые нужны Z-Image.
| Модель | Параметры | Относительные затраты на обучение | Скорость инференса (1 Мпкс, H100) |
|---|---|---|---|
| Lens | 3,8 млрд | ~1/5 от Z-Image | ~3 секунды |
| Lens-Turbo | 3,8 млрд (дистилляция) | — | < 1 секунды |
| Hunyuan-Image-3.0 | ~80 млрд | — | — |
| Qwen-Image | ~19 млрд (×5 от Lens) | — | — |
| Z-Image | сопоставима с Lens | базовая (×5 от Lens) | — |
Архитектурные решения также сыграли роль. Команда протестировала несколько вариантов вариационных автоэнкодеров (VAE) — компонентов, отвечающих за перевод между пиксельным пространством и сжатым представлением. Победил семантический VAE из FLUX.2: он не только показал лучшее качество, но и ускорил сходимость при обучении. В качестве текстового энкодера используется GPT-OSS — открытая языковая модель от OpenAI. Более сильный энкодер дал два эффекта: модель быстрее обучается и способна обрабатывать запросы на языках, которых не было в обучающих данных. Lens обучена исключительно на английских парах, однако принимает промпты на китайском, французском, японском и испанском.
Модель требует примерно 1/5 вычислений при предобучении по сравнению с Z-Image.

После предобучения модель прошла фазу обучения с подкреплением на наборе Lens-RL-8K — 8000 промптов по десяти категориям: люди, животные, пейзажи, еда, вымышленные миры, UI-дизайн и другие. GPT-4.1 генерировал критерии оценки для каждого промпта, GPT-4.1-mini выступал моделью вознаграждения. Ablation-эксперименты показали: разнообразие промптов важнее их количества — сокращение набора или исключение отдельной категории ухудшает результаты именно в этой области.
Перед самой моделью Microsoft поставила «рассуждатель» (reasoner) — компонент, переписывающий расплывчатые пользовательские запросы в детализированные промпты. По умолчанию это GPT-5.5, но GPT-OSS тоже справляется без дополнительных затрат памяти. Исследователи описали метод итеративного улучшения системного промпта reasoner'а без дообучения — и отметили, что стратегия перенеслась на значительно более крупную Qwen-Image с положительным эффектом.
Для быстрого инференса создана дистиллированная версия Lens-Turbo: четыре шага вместо стандартных, генерация изображения — менее секунды на H100 против примерно трёх секунд у базовой модели. Модель поддерживает разные соотношения сторон и разрешения вплоть до ~2 мегапикселей, хотя обучалась на фиксированном наборе размеров.
Среди ограничений исследователи называют слабый рендеринг текста на японском и французском — следствие недостаточного покрытия в обучающих данных. Модель также может генерировать предвзятый или проблемный контент из-за веб-источников в датасете, поэтому Microsoft рекомендует добавлять собственные защитные фильтры. Lens позиционируется исключительно как исследовательский инструмент и не предназначена для продакшн-использования. Веса и код опубликованы под лицензией MIT на Hugging Face и GitHub.


