IBM выпустила мультиязычные эмбеддинг-модели Granite R2 на базе ModernBERT с контекстом

Hugging Face Blog·4 часа назад·3 минИсследованияКод

Две новые модели Granite Embedding Multilingual R2 от IBM — 97M и 311M параметров — поддерживают 200+ языков и контекстное окно 32 768 токенов, что в 64 раза больше, чем у предыдущего поколения. Компактная 97M-модель набрала 60,3 балла на MTEB Multilingual Retrieval — лучший результат среди открытых мультиязычных эмбеддеров до 100M параметров.

Кратко

—97M-модель набирает 60,3 на MTEB Multilingual Retrieval — на 9,4 балла выше ближайшего конкурента multilingual-e5-small в том же классе размера.
—311M-модель занимает второе место среди открытых моделей до 500M параметров с результатом 65,2 на том же benchmark.
—Обе модели построены на архитектуре ModernBERT с поддержкой Flash Attention 2.0 и ротационных позиционных эмбеддингов, что обеспечивает 32K-токенный контекст без хаков интерполяции.
—Модели поддерживают 52 языка с явным обучением на парах запрос–документ, а также поиск по коду на 9 языках программирования.
—Лицензия Apache 2.0, совместимость с LangChain, LlamaIndex, Haystack и Milvus — замена одной строкой без изменения API.

Глоссарий · 7 терминов▾

Эмбеддинг: Числовой вектор фиксированной размерности, в который нейросеть кодирует текст так, чтобы семантически близкие тексты имели близкие векторы.
MTEB: Massive Text Embedding Benchmark — стандартный набор задач для оценки качества эмбеддинг-моделей, включающий поиск, классификацию и кластеризацию.
ModernBERT: Архитектура энкодера, переработавшая оригинальный BERT с применением современных техник: Flash Attention, ротационных позиционных эмбеддингов и чередующихся длин внимания.
Matryoshka embeddings: Техника обучения, при которой вектор можно усечь до меньшей размерности без потери совместимости — это позволяет экономить память индекса при приемлемом снижении качества.
Контрастивное обучение: Метод обучения, при котором модель учится сближать векторы релевантных пар (запрос–документ) и отдалять векторы нерелевантных.
RAG (retrieval-augmented generation): Подход, при котором языковая модель перед генерацией ответа извлекает релевантные фрагменты из базы знаний с помощью эмбеддинг-поиска.
Knowledge distillation: Перенос знаний от большой обученной модели-учителя к меньшей модели-ученику через имитацию выходов учителя.

Эмбеддинг-модели — это нейросети, которые превращают текст в числовые векторы для последующего поиска по смыслу, а не по ключевым словам. Они лежат в основе RAG-систем (retrieval-augmented generation), семантического поиска и рекомендательных движков. Главная проблема мультиязычных эмбеддингов — компромисс между охватом языков и размером модели: маленькие модели плохо справляются с редкими языками, большие — дороги в эксплуатации.

IBM опубликовала два новых эмбеддинг-модели под лицензией Apache 2.0: granite-embedding-97m-multilingual-r2 и granite-embedding-311m-multilingual-r2. Оба построены на архитектуре ModernBERT — переработанном BERT с техниками последних пяти лет трансформерных исследований. Ключевое отличие от предыдущего поколения R1, которое базировалось на XLM-RoBERTa с окном 512 токенов, — контекст 32 768 токенов. Это достигается за счёт ротационных позиционных эмбеддингов (RoPE), которые не требуют позиционной интерполяции, и поддержки Flash Attention 2.0 для ускорения на современных GPU.

Модель	Параметры	MTEB Multilingual Retrieval	Контекст	Размерность
granite-embedding-97m-multilingual-r2	97M	60,3	32 768 токенов	384
granite-embedding-311m-multilingual-r2	311M	65,2	32 768 токенов	768
multilingual-e5-small (конкурент)	~117M	50,9	512 токенов	—

Главный результат релиза — 97M-модель с результатом 60,3 на MTEB Multilingual Retrieval по 18 языкам. Ближайший конкурент в классе до 100M параметров, multilingual-e5-small, набирает 50,9 — разрыв составляет 9,4 балла на зрелом benchmark. По сравнению с прямым предшественником прирост составил 12,2 балла. 311M-модель набирает 65,2 — второе место среди открытых моделей до 500M параметров, прирост над R1 — 13,0 балла.

311M-модель занимает второе место среди открытых моделей до 500M параметров с результатом 65,2 на том же benchmark.

Granite Embedding Multilingual R2 · Источник: Hugging Face Blog

Архитектурные решения двух моделей различаются. 311M-модель использует токенизатор Gemma 3 с словарём 262K токенов. Для 97M-модели IBM разработала собственный подход: взяла токенизатор GPT-OSS и обрезала его до 180K токенов, сохранив мультиязычное покрытие при меньшем размере таблицы эмбеддингов. Выбор токенизатора критичен для длинного контекста: неэффективный токенизатор способен «съесть» значительную часть 32K-окна на тексте с нелатинскими символами.

Обучение 311M-модели проходило в три этапа. Сначала — дистилляция знаний от двух учителей: Granite 3.3 Instruct и Mistral v0.2 Instruct, дообученных под задачи эмбеддингов. Затем — контрастивное дообучение на парах запрос–документ по 52 языкам и коду. Финальный этап — слияние чекпоинтов из разных стадий обучения, что позволяет объединить модели, оптимизированные под разные цели (мультиязычный охват и глубину для английского), без дополнительных вычислительных затрат.

311M-модель поддерживает Matryoshka embeddings — технику, при которой вектор можно усечь до меньшей размерности без переобучения. Это позволяет гибко балансировать между качеством поиска и затратами на хранение индекса. Оба варианта поставляются с весами в форматах ONNX и OpenVINO для оптимизированного инференса на CPU.

С точки зрения практического применения обе модели совместимы как drop-in замена в LangChain, LlamaIndex, Haystack и Milvus — достаточно изменить одну строку с названием модели. Для фреймворков, использующих англоязычный эмбеддер по умолчанию, это означает автоматическую поддержку 200+ языков для всех пользователей без изменения API и зависимостей.

Granite Embedding R2 Architecture · Источник: Hugging Face Blog

Ограничения, которые следуют из описания: 52 языка получают явное обучение на парах запрос–документ, остальные 150+ поддерживаются только через предобучение на общем тексте — качество для них будет ниже. Кроме того, IBM намеренно исключила из обучения датасет MS-MARCO и наборы с некоммерческими лицензиями, что снижает риски для корпоративного использования, но потенциально ограничивает охват обучающих данных по сравнению с моделями, которые эти ограничения не соблюдают.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

США одобрили продажу H200 десяти китайским компаниям, но Пекин блокирует сделку

Продолжить по разделам

IBM выпустила мультиязычные эмбеддинг-модели Granite R2 на базе ModernBERT с контекстом

Кратко

Читать также

AWS раскрыл архитектуру инфраструктуры для обучения и инференса больших моделей

Zero-day эксплойт YellowKey обходит BitLocker в Windows 11 за секунды

США одобрили продажу H200 десяти китайским компаниям, но Пекин блокирует сделку