ByteDance представила диффузионную языковую модель iLLaDA на 8 миллиардов параметров

Подготовлено редакцией Malakhov AI

The Decoder·вчера·2 минИсследованияИндустрия

Исследователи из Renmin University и ByteDance представили iLLaDA — диффузионную языковую модель на 8 млрд параметров, которая на базовом уровне сравнялась с Qwen2.5 7B, набрав 63,9 балла в среднем против 63,3. Однако после инструктивного дообучения iLLaDA-Instruct уступает Qwen2.5 7B Instruct на 10 баллов.

Кратко

—iLLaDA обучена на 12 триллионах токенов, что в пять раз больше предшественника LLaDA
—Базовая модель iLLaDA превосходит Qwen2.5 7B по среднему баллу (63,9 против 63,3)
—После дообучения iLLaDA-Instruct набирает 67,1 балла против 77,1 у Qwen2.5 Instruct
—В отличие от авторегрессионных моделей, iLLaDA генерирует текст, одновременно уточняя маскированные токены
—Google также выпустил диффузионную модель DiffusionGemma, но она уступает авторегрессионной Gemma 4 на бенчмарках

Глоссарий · 4 термина▾

диффузионная языковая модель: Языковая модель, которая генерирует текст, начиная с шума или маскированных токенов и постепенно их уточняя, а не предсказывая следующее слово по порядку.
авторегрессионная генерация: Метод генерации текста, при котором каждое следующее слово предсказывается на основе предыдущих, обычно слева направо.
маскированные токены: Токены-заполнители, которые модель заменяет на осмысленные в процессе диффузионной генерации.
RL-выравнивание: Дообучение модели с помощью обучения с подкреплением для улучшения соответствия предпочтениям пользователя, часто используется в инструктивных моделях.

Исследователи из Renmin University и ByteDance представили iLLaDA — диффузионную языковую модель на 8 миллиардов параметров. В отличие от подавляющего большинства современных языковых моделей (GPT, Claude, Qwen), которые генерируют текст авторегрессионно — слово за словом слева направо, iLLaDA использует метод диффузии. Модель начинает с последовательности маскированных токенов-заполнителей и затем уточняет их за несколько проходов параллельно, подобно тому, как диффузионные модели изображений превращают шум в картинку. Это позволяет каждому токену одновременно учитывать контекст со всех сторон.

Команда предобучила iLLaDA на 12 триллионах токенов, что в пять раз больше, чем у предшественника LLaDA (2,3 трлн), и дообучала модель в течение двенадцати эпох. Согласно статье, iLLaDA-Base значительно улучшила показатели по сравнению с LLaDA: например, на тесте на рассуждение BBH прирост составил 21,6 пункта. В среднем по всем бенчмаркам iLLaDA набрала 63,9 балла, что немного выше 63,3 балла у авторегрессионного Qwen2.5 7B. Модель также превзошла другой диффузионный аналог Dream 7B (61,4 балла), который был дообучен из существующего чекпоинта Qwen2.5, а не обучен с нуля.

Model	Тип	Обучение (токены)	MMLU	BBH	ARC-C	Hellaswag	GSM8K	Math	HumanEval	MBPP	Средний
iLLaDA 8B	Diffusion	12T	74.8	71.3	60.8	76.6	81.9	38.4	50.0	57.8	63.9
LLaDA 8B	Diffusion	2.3T	65.9	49.7	45.9	70.5	70.3	31.4	35.4	40.0	51.1
Dream 7B	Diffusion	18T + 0.6T	69.5	57.9	59.8	73.3	77.2	39.6	57.9	56.2	61.4
Qwen2.5 7B	AR	18T	71.9	63.9	51.5	79.0	78.9	41.1	56.7	63.6	63.3

Однако после инструктивного дообучения разрыв становится заметным: iLLaDA-Instruct набрал 67,1 балла, тогда как Qwen2.5 7B Instruct — 77,1. Основное отставание приходится на задачи по математике и программированию. Авторы связывают это с тем, что Qwen2.5 прошла дополнительное выравнивание с помощью обучения с подкреплением (RL), которого у iLLaDA нет. В приложении к статье также отмечается, что модель может зацикливаться в рассуждениях на сложных задачах. iLLaDA — часть более широкого движения, в которое входит и Google. В июне 2026 года Google DeepMind выпустила DiffusionGemma — диффузионную версию своей 25-миллиардной модели Gemma 4 (смесь экспертов). DiffusionGemma генерирует текст примерно в четыре раза быстрее, но уступает авторегрессионной Gemma 4 на бенчмарках вроде MMLU и кода. Google рекомендует эту модель для сценариев с низкой задержкой, а не для задач, критичных к качеству. Прямое численное сравнение iLLaDA и DiffusionGemma затруднено из-за разных версий бенчмарков и разного размера моделей. Тем не менее, результаты iLLaDA показывают, что диффузионный подход, обученный с нуля, может конкурировать с авторегрессионными моделями на базовом уровне, хотя для практического применения требуется дополнительная работа по выравниванию.

Базовая модель iLLaDA превосходит Qwen2.5 7B по среднему баллу (63,9 против 63,3)

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ