Команда GigaChat Pretrain представила GFusion — диффузионные языковые модели, полученные из авторегрессионной GigaChat3-10B-A1.8B-base. Основная идея — ускорить генерацию, не обучая модель с нуля и не жертвуя качеством. По данным авторов, в режиме одного пользователя GFusion в среднем на 70% быстрее исходной AR-модели и на 39% быстрее версии с MTP-головой (спекулятивный декодинг). Просадка качества составила лишь 2–4 процентных пункта, причём этот баланс можно регулировать через параметры диффузии.
Диффузионные языковые модели (dLLM) отличаются от стандартных авторегрессионных тем, что генерируют текст блоками фиксированного размера. При итеративном восстановлении замаскированных токенов модель может декодировать несколько токенов за один проход, увеличивая метрику TPF (Tokens-Per-Forward). В AR-генерации TPF всегда равен 1; у GFusion он значительно выше, что и даёт ускорение. При этом блоки генерируются авторегрессионно, поэтому KV-кеш можно переиспользовать для готового контекста.
Обучение GFusion прошло несколько этапов: базовый претрейн (адаптация весов), мидтрейн, расширение контекста до 32 тыс. токенов, SFT для следования инструкциям и финальный confidence tuning для дополнительного ускорения. На претрейне авторы сравнили различные функции потерь, attention-маски и стратегии зашумления в едином сетапе. Лучшие результаты показал шум из равномерного распределения от 0,25 до 0,85 — он даёт модели разную сложность, не делая задачу тривиальной или чрезмерно сложной.
Качество снижается незначительно: 2–4 процентных пункта, причём trade-off можно контролировать параметрами диффузии.
Для ускорения обучения команда оптимизировала attention для текстовой диффузии, что дало +60% к средней скорости обучения по сравнению с Flex-Attention. Также GFusion поддержан в SGLang — популярном фреймворке для инференса LLM. Вместе с этим был добавлен новый алгоритм семплирования, который ускоряет генерацию и других диффузионных LLM. Авторы опубликовали две версии модели: GFusion-10B-A1.8B-base и GFusion-10B-A1.8B (дообученная на инструкциях).

