Эмбеддинг-модели — это нейросети, которые превращают текст в числовые векторы для последующего поиска по смыслу, а не по ключевым словам. Они лежат в основе RAG-систем (retrieval-augmented generation), семантического поиска и рекомендательных движков. Главная проблема мультиязычных эмбеддингов — компромисс между охватом языков и размером модели: маленькие модели плохо справляются с редкими языками, большие — дороги в эксплуатации.
IBM опубликовала два новых эмбеддинг-модели под лицензией Apache 2.0: granite-embedding-97m-multilingual-r2 и granite-embedding-311m-multilingual-r2. Оба построены на архитектуре ModernBERT — переработанном BERT с техниками последних пяти лет трансформерных исследований. Ключевое отличие от предыдущего поколения R1, которое базировалось на XLM-RoBERTa с окном 512 токенов, — контекст 32 768 токенов. Это достигается за счёт ротационных позиционных эмбеддингов (RoPE), которые не требуют позиционной интерполяции, и поддержки Flash Attention 2.0 для ускорения на современных GPU.
| Модель | Параметры | MTEB Multilingual Retrieval | Контекст | Размерность |
|---|---|---|---|---|
| granite-embedding-97m-multilingual-r2 | 97M | 60,3 | 32 768 токенов | 384 |
| granite-embedding-311m-multilingual-r2 | 311M | 65,2 | 32 768 токенов | 768 |
| multilingual-e5-small (конкурент) | ~117M | 50,9 | 512 токенов | — |
Главный результат релиза — 97M-модель с результатом 60,3 на MTEB Multilingual Retrieval по 18 языкам. Ближайший конкурент в классе до 100M параметров, multilingual-e5-small, набирает 50,9 — разрыв составляет 9,4 балла на зрелом benchmark. По сравнению с прямым предшественником прирост составил 12,2 балла. 311M-модель набирает 65,2 — второе место среди открытых моделей до 500M параметров, прирост над R1 — 13,0 балла.
311M-модель занимает второе место среди открытых моделей до 500M параметров с результатом 65,2 на том же benchmark.

Архитектурные решения двух моделей различаются. 311M-модель использует токенизатор Gemma 3 с словарём 262K токенов. Для 97M-модели IBM разработала собственный подход: взяла токенизатор GPT-OSS и обрезала его до 180K токенов, сохранив мультиязычное покрытие при меньшем размере таблицы эмбеддингов. Выбор токенизатора критичен для длинного контекста: неэффективный токенизатор способен «съесть» значительную часть 32K-окна на тексте с нелатинскими символами.
Обучение 311M-модели проходило в три этапа. Сначала — дистилляция знаний от двух учителей: Granite 3.3 Instruct и Mistral v0.2 Instruct, дообученных под задачи эмбеддингов. Затем — контрастивное дообучение на парах запрос–документ по 52 языкам и коду. Финальный этап — слияние чекпоинтов из разных стадий обучения, что позволяет объединить модели, оптимизированные под разные цели (мультиязычный охват и глубину для английского), без дополнительных вычислительных затрат.
311M-модель поддерживает Matryoshka embeddings — технику, при которой вектор можно усечь до меньшей размерности без переобучения. Это позволяет гибко балансировать между качеством поиска и затратами на хранение индекса. Оба варианта поставляются с весами в форматах ONNX и OpenVINO для оптимизированного инференса на CPU.
С точки зрения практического применения обе модели совместимы как drop-in замена в LangChain, LlamaIndex, Haystack и Milvus — достаточно изменить одну строку с названием модели. Для фреймворков, использующих англоязычный эмбеддер по умолчанию, это означает автоматическую поддержку 200+ языков для всех пользователей без изменения API и зависимостей.

Ограничения, которые следуют из описания: 52 языка получают явное обучение на парах запрос–документ, остальные 150+ поддерживаются только через предобучение на общем тексте — качество для них будет ниже. Кроме того, IBM намеренно исключила из обучения датасет MS-MARCO и наборы с некоммерческими лицензиями, что снижает риски для корпоративного использования, но потенциально ограничивает охват обучающих данных по сравнению с моделями, которые эти ограничения не соблюдают.


