GFusion: диффузионная LLM от GigaChat

Подготовлено редакцией Malakhov AI

Habr AI·12 часов назад·2 минРоссияКод

Сотрудники GigaChat Pretrain адаптировали авторегрессионную модель GigaChat3-10B-A1.8B-base к диффузионному режиму, получив GFusion — по их данным, в 1,7 раза быстрее при просадке качества всего на 2–4 процентных пункта.

Кратко

—GFusion генерирует текст на 70% быстрее исходной AR-модели GigaChat3-10B-A1.8B и на 39% быстрее варианта с MTP-головой.
—Качество снижается незначительно: 2–4 процентных пункта, причём trade-off можно контролировать параметрами диффузии.
—Модели GFusion-10B-A1.8B-base и GFusion-10B-A1.8B (инструктивная) открыты; поддержка добавлена в SGLang вместе с новым алгоритмом семплирования.
—В ходе обучения авторы оптимизировали attention для текстовой диффузии, получив прирост скорости обучения на 60% по сравнению с Flex-Attention.
—Диффузионная генерация использует маскирование блоков токенов и итеративное восстановление, что позволяет декодировать несколько токенов за один forward pass.

Глоссарий · 5 терминов▾

Диффузионная языковая модель (dLLM): Модель, генерирующая текст путём итеративного восстановления замаскированных токенов в блоке, а не последовательно по одному токену.
Авторегрессионная модель (AR): Модель, которая предсказывает следующий токен на основе предыдущих, генерируя текст строго последовательно.
Tokens-Per-Forward (TPF): Метрика, показывающая среднее количество токенов, генерируемых за один forward pass модели.
Спекулятивный декодинг: Метод ускорения генерации, при котором маленькая модель предлагает несколько гипотез, а большая проверяет их за один проход.
MTP-голова: Дополнительный выходной слой авторегрессионной модели, позволяющий предсказывать несколько будущих токенов за один шаг.

Команда GigaChat Pretrain представила GFusion — диффузионные языковые модели, полученные из авторегрессионной GigaChat3-10B-A1.8B-base. Основная идея — ускорить генерацию, не обучая модель с нуля и не жертвуя качеством. По данным авторов, в режиме одного пользователя GFusion в среднем на 70% быстрее исходной AR-модели и на 39% быстрее версии с MTP-головой (спекулятивный декодинг). Просадка качества составила лишь 2–4 процентных пункта, причём этот баланс можно регулировать через параметры диффузии.

Диффузионные языковые модели (dLLM) отличаются от стандартных авторегрессионных тем, что генерируют текст блоками фиксированного размера. При итеративном восстановлении замаскированных токенов модель может декодировать несколько токенов за один проход, увеличивая метрику TPF (Tokens-Per-Forward). В AR-генерации TPF всегда равен 1; у GFusion он значительно выше, что и даёт ускорение. При этом блоки генерируются авторегрессионно, поэтому KV-кеш можно переиспользовать для готового контекста.

Обучение GFusion прошло несколько этапов: базовый претрейн (адаптация весов), мидтрейн, расширение контекста до 32 тыс. токенов, SFT для следования инструкциям и финальный confidence tuning для дополнительного ускорения. На претрейне авторы сравнили различные функции потерь, attention-маски и стратегии зашумления в едином сетапе. Лучшие результаты показал шум из равномерного распределения от 0,25 до 0,85 — он даёт модели разную сложность, не делая задачу тривиальной или чрезмерно сложной.

Качество снижается незначительно: 2–4 процентных пункта, причём trade-off можно контролировать параметрами диффузии.

Для ускорения обучения команда оптимизировала attention для текстовой диффузии, что дало +60% к средней скорости обучения по сравнению с Flex-Attention. Также GFusion поддержан в SGLang — популярном фреймворке для инференса LLM. Вместе с этим был добавлен новый алгоритм семплирования, который ускоряет генерацию и других диффузионных LLM. Авторы опубликовали две версии модели: GFusion-10B-A1.8B-base и GFusion-10B-A1.8B (дообученная на инструкциях).

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

Продолжить по разделам

GFusion: диффузионная LLM от GigaChat

Кратко

Читать дальше

37% новых релизов на Яндекс Музыке — ИИ-музыка: алгоритм детекции

Сочинский филиал РУДН отменил дипломные работы для студентов-юристов

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ