Исследователи из Renmin University и ByteDance представили iLLaDA — диффузионную языковую модель на 8 миллиардов параметров. В отличие от подавляющего большинства современных языковых моделей (GPT, Claude, Qwen), которые генерируют текст авторегрессионно — слово за словом слева направо, iLLaDA использует метод диффузии. Модель начинает с последовательности маскированных токенов-заполнителей и затем уточняет их за несколько проходов параллельно, подобно тому, как диффузионные модели изображений превращают шум в картинку. Это позволяет каждому токену одновременно учитывать контекст со всех сторон.
Команда предобучила iLLaDA на 12 триллионах токенов, что в пять раз больше, чем у предшественника LLaDA (2,3 трлн), и дообучала модель в течение двенадцати эпох. Согласно статье, iLLaDA-Base значительно улучшила показатели по сравнению с LLaDA: например, на тесте на рассуждение BBH прирост составил 21,6 пункта. В среднем по всем бенчмаркам iLLaDA набрала 63,9 балла, что немного выше 63,3 балла у авторегрессионного Qwen2.5 7B. Модель также превзошла другой диффузионный аналог Dream 7B (61,4 балла), который был дообучен из существующего чекпоинта Qwen2.5, а не обучен с нуля.
| Model | Тип | Обучение (токены) | MMLU | BBH | ARC-C | Hellaswag | GSM8K | Math | HumanEval | MBPP | Средний |
|---|---|---|---|---|---|---|---|---|---|---|---|
| iLLaDA 8B | Diffusion | 12T | 74.8 | 71.3 | 60.8 | 76.6 | 81.9 | 38.4 | 50.0 | 57.8 | 63.9 |
| LLaDA 8B | Diffusion | 2.3T | 65.9 | 49.7 | 45.9 | 70.5 | 70.3 | 31.4 | 35.4 | 40.0 | 51.1 |
| Dream 7B | Diffusion | 18T + 0.6T | 69.5 | 57.9 | 59.8 | 73.3 | 77.2 | 39.6 | 57.9 | 56.2 | 61.4 |
| Qwen2.5 7B | AR | 18T | 71.9 | 63.9 | 51.5 | 79.0 | 78.9 | 41.1 | 56.7 | 63.6 | 63.3 |
Однако после инструктивного дообучения разрыв становится заметным: iLLaDA-Instruct набрал 67,1 балла, тогда как Qwen2.5 7B Instruct — 77,1. Основное отставание приходится на задачи по математике и программированию. Авторы связывают это с тем, что Qwen2.5 прошла дополнительное выравнивание с помощью обучения с подкреплением (RL), которого у iLLaDA нет. В приложении к статье также отмечается, что модель может зацикливаться в рассуждениях на сложных задачах. iLLaDA — часть более широкого движения, в которое входит и Google. В июне 2026 года Google DeepMind выпустила DiffusionGemma — диффузионную версию своей 25-миллиардной модели Gemma 4 (смесь экспертов). DiffusionGemma генерирует текст примерно в четыре раза быстрее, но уступает авторегрессионной Gemma 4 на бенчмарках вроде MMLU и кода. Google рекомендует эту модель для сценариев с низкой задержкой, а не для задач, критичных к качеству. Прямое численное сравнение iLLaDA и DiffusionGemma затруднено из-за разных версий бенчмарков и разного размера моделей. Тем не менее, результаты iLLaDA показывают, что диффузионный подход, обученный с нуля, может конкурировать с авторегрессионными моделями на базовом уровне, хотя для практического применения требуется дополнительная работа по выравниванию.
Базовая модель iLLaDA превосходит Qwen2.5 7B по среднему баллу (63,9 против 63,3)



