Новая лаборатория методов эффективного ИИ и инфраструктуры данных для низкоресурсных сред появилась на стыке академической и корпоративной науки: ИТМО обеспечивает исследовательскую базу и кадры, MWS ИИ — прикладную экспертизу и инфраструктуру. Работать в ней будут сотрудники обеих организаций, а также студенты и аспиранты факультета информационных технологий и программирования ИТМО.
В центре исследовательской повестки — две связанные проблемы. Первая: современные большие языковые модели требуют значительных вычислительных мощностей, что делает их запуск на пользовательских устройствах практически невозможным. Вторая: качество поддержки так называемых малоресурсных языков — тех, по которым накоплено мало размеченных данных, — существенно уступает английскому, китайскому или русскому. Арабский и казахский попадают в эту категорию несмотря на сотни миллионов носителей: качественных речевых датасетов для них катастрофически мало, а их ручной сбор и разметка обходятся дорого.
| Направление | Цель | Целевой показатель |
|---|---|---|
| Ускорение трансформеров | Увеличить скорость инференса | В 4 раза |
| Снижение ресурсоёмкости | Уменьшить требования к вычислениям | В 2 раза |
| Сжатие моделей | Уменьшить размер при сохранении качества | Потеря точности до 5% |
| Речевые данные для арабского | Собрать датасет для обучения | ~100 часов речи |
Для решения первой задачи исследователи намерены применять квантизацию, прунинг и линеаризацию механизма внимания — математические методы, позволяющие уменьшить размер модели и снизить вычислительную нагрузку при минимальных потерях качества. Заявленный ориентир: ускорение существующих моделей-трансформеров в четыре раза и снижение требований к ресурсам вдвое при деградации точности не более 5%. Методы будут универсальными — подходящими для любых архитектур на основе трансформера, включая Qwen и Llama.
Планируется собрать около 100 часов речи на арабском языке и обучить модель VibeVoice от Microsoft на русском, казахском и арабском.
По второму направлению лаборатория планирует собрать около 100 часов размеченной арабской речи и на её основе обучить модели синтеза и распознавания. В планах также дообучение VibeVoice — речевой модели Microsoft — на русском, казахском и арабском языках. Параллельно команда будет создавать бенчмарки для оценки работы больших языковых моделей, в том числе ChatGPT и Claude, на новых языковых данных. Руководитель лаборатории Аммар Али, чей родной язык — арабский, объясняет мотивацию прямо: обучение модели для арабского обходится значительно дороже, чем для английского, и это структурно ограничивает ИИ-исследования для носителей малоресурсных языков.
Практический смысл снижения ресурсоёмкости выходит за рамки академического интереса. Если модели удастся запускать локально на смартфонах или корпоративных серверах без выхода в облако, это решает сразу несколько проблем: конфиденциальность данных (актуально для университетов, медицины, бизнеса), независимость от инфраструктуры крупных провайдеров и бесперебойный доступ к ИИ-инструментам. Все алгоритмы и модели лаборатория планирует публиковать в открытом доступе на GitHub и HuggingFace, что делает результаты доступными для широкого круга разработчиков.



