Исследователи из Renmin University и ByteDance представили iLLaDA — диффузионную языковую модель на 8 миллиардов параметров. В отличие от подавляющего большинства современных языковых моделей (GPT, Claude, Qwen), которые генерируют текст авторегрессионно — слово за словом слева направо, iLLaDA использует метод диффузии. Модель начинает с последовательности маскированных токенов-заполнителей и затем уточняет их за несколько проходов параллельно, подобно тому, как диффузионные модели изображений превращают шум в картинку. Это позволяет каждому токену одновременно учитывать контекст со всех сторон.

Команда предобучила iLLaDA на 12 триллионах токенов, что в пять раз больше, чем у предшественника LLaDA (2,3 трлн), и дообучала модель в течение двенадцати эпох. Согласно статье, iLLaDA-Base значительно улучшила показатели по сравнению с LLaDA: например, на тесте на рассуждение BBH прирост составил 21,6 пункта. В среднем по всем бенчмаркам iLLaDA набрала 63,9 балла, что немного выше 63,3 балла у авторегрессионного Qwen2.5 7B. Модель также превзошла другой диффузионный аналог Dream 7B (61,4 балла), который был дообучен из существующего чекпоинта Qwen2.5, а не обучен с нуля.

ModelТипОбучение (токены)MMLUBBHARC-CHellaswagGSM8KMathHumanEvalMBPPСредний
iLLaDA 8BDiffusion12T74.871.360.876.681.938.450.057.863.9
LLaDA 8BDiffusion2.3T65.949.745.970.570.331.435.440.051.1
Dream 7BDiffusion18T + 0.6T69.557.959.873.377.239.657.956.261.4
Qwen2.5 7BAR18T71.963.951.579.078.941.156.763.663.3

Однако после инструктивного дообучения разрыв становится заметным: iLLaDA-Instruct набрал 67,1 балла, тогда как Qwen2.5 7B Instruct — 77,1. Основное отставание приходится на задачи по математике и программированию. Авторы связывают это с тем, что Qwen2.5 прошла дополнительное выравнивание с помощью обучения с подкреплением (RL), которого у iLLaDA нет. В приложении к статье также отмечается, что модель может зацикливаться в рассуждениях на сложных задачах. iLLaDA — часть более широкого движения, в которое входит и Google. В июне 2026 года Google DeepMind выпустила DiffusionGemma — диффузионную версию своей 25-миллиардной модели Gemma 4 (смесь экспертов). DiffusionGemma генерирует текст примерно в четыре раза быстрее, но уступает авторегрессионной Gemma 4 на бенчмарках вроде MMLU и кода. Google рекомендует эту модель для сценариев с низкой задержкой, а не для задач, критичных к качеству. Прямое численное сравнение iLLaDA и DiffusionGemma затруднено из-за разных версий бенчмарков и разного размера моделей. Тем не менее, результаты iLLaDA показывают, что диффузионный подход, обученный с нуля, может конкурировать с авторегрессионными моделями на базовом уровне, хотя для практического применения требуется дополнительная работа по выравниванию.

Базовая модель iLLaDA превосходит Qwen2.5 7B по среднему баллу (63,9 против 63,3)