Microsoft Research выпустила Lens: 3,8 млрд параметров против 80 млрд у конкурентов

Подготовлено редакцией Malakhov AI

The Decoder·вчера·3 минИсследованияИндустрия

Модель Lens от Microsoft Research генерирует изображения с 3,8 млрд параметров и требует в пять раз меньше вычислений при обучении, чем сопоставимые системы — за счёт датасета из 800 млн пар с подробными подписями, созданными GPT-4.1. По ряду benchmark-тестов она обходит Qwen-Image с пятикратно большим числом параметров.

Кратко

—Lens обучена на датасете Lens-800M: 800 млн пар изображение–текст с подписями ~100 слов от GPT-4.1.
—Модель требует примерно 1/5 вычислений при предобучении по сравнению с Z-Image.
—Lens-Turbo генерирует изображение за менее чем секунду на GPU H100 — против ~3 секунд у базовой версии.
—Модель обучена только на английских данных, но принимает запросы на китайском, французском, японском и испанском.
—Код и веса опубликованы под лицензией MIT на Hugging Face и GitHub, но только для исследований.

Глоссарий · 7 терминов▾

VAE (вариационный автоэнкодер): Нейросетевой компонент, который сжимает изображение в компактное математическое представление и восстанавливает его обратно — это позволяет модели работать в сжатом пространстве вместо пиксельного.
Ablation study: Метод оценки вклада отдельных компонентов системы: исследователи поочерёдно убирают или заменяют части модели и смотрят, как меняется результат.
Обучение с подкреплением (RL): Этап обучения, при котором модель получает оценки за свои выходы и корректирует поведение в сторону более высоких наград.
Дистилляция модели: Процесс создания компактной «ученической» модели, которая воспроизводит поведение более крупной «учительской» с меньшими вычислительными затратами.
Benchmark: Стандартизированный тест для сравнения производительности разных моделей по одним и тем же критериям.
Prompt fidelity: Степень соответствия сгенерированного изображения текстовому запросу пользователя.
MIT-лицензия: Одна из наиболее разрешительных лицензий с открытым исходным кодом: позволяет свободно использовать, модифицировать и распространять программное обеспечение.

Модель Lens от Microsoft Research обучена на 800 млн изображений с подробными текстовыми описаниями, сгенерированными GPT-4.1, — в среднем около 100 слов на пару. Это принципиально отличает её от типичного подхода, при котором датасеты собираются из веб-альтернативных текстов: те зачастую расплывчаты, неточны или вовсе не описывают содержимое изображения. Исследователи показали в ablation-экспериментах, что обучение на длинных детализированных подписях даёт заметно лучшее качество генерации, чем на коротких или смешанных.

Проблема, которую решает Lens, — не столько качество само по себе, сколько эффективность: большинство конкурирующих систем требуют колоссальных вычислительных ресурсов. Hunyuan-Image-3.0 насчитывает около 80 млрд параметров, Qwen-Image — в пять раз больше параметров, чем у Lens. При этом Lens с 3,8 млрд параметров по ряду benchmark-тестов — prompt fidelity, рендеринг текста, сложные сцены — превосходит FLUX.2-Klein и Z-Image, а в некоторых случаях и Qwen-Image. Предобучение потребовало примерно пятой части вычислений, которые нужны Z-Image.

Модель	Параметры	Относительные затраты на обучение	Скорость инференса (1 Мпкс, H100)
Lens	3,8 млрд	~1/5 от Z-Image	~3 секунды
Lens-Turbo	3,8 млрд (дистилляция)	—	< 1 секунды
Hunyuan-Image-3.0	~80 млрд	—	—
Qwen-Image	~19 млрд (×5 от Lens)	—	—
Z-Image	сопоставима с Lens	базовая (×5 от Lens)	—

Архитектурные решения также сыграли роль. Команда протестировала несколько вариантов вариационных автоэнкодеров (VAE) — компонентов, отвечающих за перевод между пиксельным пространством и сжатым представлением. Победил семантический VAE из FLUX.2: он не только показал лучшее качество, но и ускорил сходимость при обучении. В качестве текстового энкодера используется GPT-OSS — открытая языковая модель от OpenAI. Более сильный энкодер дал два эффекта: модель быстрее обучается и способна обрабатывать запросы на языках, которых не было в обучающих данных. Lens обучена исключительно на английских парах, однако принимает промпты на китайском, французском, японском и испанском.

Модель требует примерно 1/5 вычислений при предобучении по сравнению с Z-Image.

Lens and Lens-Turbo score high on benchmarks while keeping inference time short and model size small; larger models need far more compute. | Image: Microsoft · Источник: The Decoder

После предобучения модель прошла фазу обучения с подкреплением на наборе Lens-RL-8K — 8000 промптов по десяти категориям: люди, животные, пейзажи, еда, вымышленные миры, UI-дизайн и другие. GPT-4.1 генерировал критерии оценки для каждого промпта, GPT-4.1-mini выступал моделью вознаграждения. Ablation-эксперименты показали: разнообразие промптов важнее их количества — сокращение набора или исключение отдельной категории ухудшает результаты именно в этой области.

Перед самой моделью Microsoft поставила «рассуждатель» (reasoner) — компонент, переписывающий расплывчатые пользовательские запросы в детализированные промпты. По умолчанию это GPT-5.5, но GPT-OSS тоже справляется без дополнительных затрат памяти. Исследователи описали метод итеративного улучшения системного промпта reasoner'а без дообучения — и отметили, что стратегия перенеслась на значительно более крупную Qwen-Image с положительным эффектом.

Для быстрого инференса создана дистиллированная версия Lens-Turbo: четыре шага вместо стандартных, генерация изображения — менее секунды на H100 против примерно трёх секунд у базовой модели. Модель поддерживает разные соотношения сторон и разрешения вплоть до ~2 мегапикселей, хотя обучалась на фиксированном наборе размеров.

Среди ограничений исследователи называют слабый рендеринг текста на японском и французском — следствие недостаточного покрытия в обучающих данных. Модель также может генерировать предвзятый или проблемный контент из-за веб-источников в датасете, поэтому Microsoft рекомендует добавлять собственные защитные фильтры. Lens позиционируется исключительно как исследовательский инструмент и не предназначена для продакшн-использования. Веса и код опубликованы под лицензией MIT на Hugging Face и GitHub.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ