Новая лаборатория методов эффективного ИИ и инфраструктуры данных для низкоресурсных сред появилась на стыке академической и корпоративной науки: ИТМО обеспечивает исследовательскую базу и кадры, MWS ИИ — прикладную экспертизу и инфраструктуру. Работать в ней будут сотрудники обеих организаций, а также студенты и аспиранты факультета информационных технологий и программирования ИТМО.

В центре исследовательской повестки — две связанные проблемы. Первая: современные большие языковые модели требуют значительных вычислительных мощностей, что делает их запуск на пользовательских устройствах практически невозможным. Вторая: качество поддержки так называемых малоресурсных языков — тех, по которым накоплено мало размеченных данных, — существенно уступает английскому, китайскому или русскому. Арабский и казахский попадают в эту категорию несмотря на сотни миллионов носителей: качественных речевых датасетов для них катастрофически мало, а их ручной сбор и разметка обходятся дорого.

НаправлениеЦельЦелевой показатель
Ускорение трансформеровУвеличить скорость инференсаВ 4 раза
Снижение ресурсоёмкостиУменьшить требования к вычислениямВ 2 раза
Сжатие моделейУменьшить размер при сохранении качестваПотеря точности до 5%
Речевые данные для арабскогоСобрать датасет для обучения~100 часов речи

Для решения первой задачи исследователи намерены применять квантизацию, прунинг и линеаризацию механизма внимания — математические методы, позволяющие уменьшить размер модели и снизить вычислительную нагрузку при минимальных потерях качества. Заявленный ориентир: ускорение существующих моделей-трансформеров в четыре раза и снижение требований к ресурсам вдвое при деградации точности не более 5%. Методы будут универсальными — подходящими для любых архитектур на основе трансформера, включая Qwen и Llama.

Планируется собрать около 100 часов речи на арабском языке и обучить модель VibeVoice от Microsoft на русском, казахском и арабском.

По второму направлению лаборатория планирует собрать около 100 часов размеченной арабской речи и на её основе обучить модели синтеза и распознавания. В планах также дообучение VibeVoice — речевой модели Microsoft — на русском, казахском и арабском языках. Параллельно команда будет создавать бенчмарки для оценки работы больших языковых моделей, в том числе ChatGPT и Claude, на новых языковых данных. Руководитель лаборатории Аммар Али, чей родной язык — арабский, объясняет мотивацию прямо: обучение модели для арабского обходится значительно дороже, чем для английского, и это структурно ограничивает ИИ-исследования для носителей малоресурсных языков.

Практический смысл снижения ресурсоёмкости выходит за рамки академического интереса. Если модели удастся запускать локально на смартфонах или корпоративных серверах без выхода в облако, это решает сразу несколько проблем: конфиденциальность данных (актуально для университетов, медицины, бизнеса), независимость от инфраструктуры крупных провайдеров и бесперебойный доступ к ИИ-инструментам. Все алгоритмы и модели лаборатория планирует публиковать в открытом доступе на GitHub и HuggingFace, что делает результаты доступными для широкого круга разработчиков.