ИТМО и MWS ИИ открыли лабораторию для ускорения нейросетей и поддержки малоресурсных

Подготовлено редакцией Malakhov AI

CNews·17 июн.·2 минРоссия

Университет ИТМО и MWS ИИ (структура МТС Web Services) запустили совместную онлайн-лабораторию, которая займётся сжатием и ускорением нейросетей, а также созданием речевых моделей для арабского и казахского языков. Среди заявленных целей — ускорить существующие трансформеры в четыре раза и вдвое снизить требования к вычислительным ресурсам.

Кратко

—Лаборатория будет работать над ускорением и сжатием моделей Qwen и Llama с потерей точности не более 5%.
—Планируется собрать около 100 часов речи на арабском языке и обучить модель VibeVoice от Microsoft на русском, казахском и арабском.
—Целевые показатели: скорость трансформеров вырастет в 4 раза, потребность в вычислительных ресурсах снизится в 2 раза.
—Все разработки будут опубликованы в открытом доступе на GitHub и HuggingFace.
—Лабораторию возглавят три руководителя — сотрудники ИТМО и MWS ИИ Аммар Али, Стаматиос Лефкиммиатис и Алексей Кашевник.

Глоссарий · 6 терминов▾

Малоресурсный язык: Язык, для которого существует недостаточно размеченных текстовых или речевых данных, необходимых для качественного обучения ИИ-моделей.
Квантизация: Метод сжатия нейросети путём снижения точности представления весов модели — например, с 32-битных чисел до 8-битных, что уменьшает размер модели и ускоряет её работу.
Прунинг: Метод оптимизации нейросети, при котором удаляются наименее значимые связи или нейроны, снижая вычислительную нагрузку без существенной потери качества.
Линеаризация внимания: Техника упрощения механизма self-attention в трансформерах, снижающая вычислительную сложность с квадратичной до линейной относительно длины входной последовательности.
Трансформер: Архитектура нейронной сети, лежащая в основе большинства современных больших языковых моделей; использует механизм внимания для обработки последовательностей данных.
Benchmark (бенчмарк): Стандартизированный набор тестов и метрик для сравнительной оценки качества работы ИИ-моделей.

Новая лаборатория методов эффективного ИИ и инфраструктуры данных для низкоресурсных сред появилась на стыке академической и корпоративной науки: ИТМО обеспечивает исследовательскую базу и кадры, MWS ИИ — прикладную экспертизу и инфраструктуру. Работать в ней будут сотрудники обеих организаций, а также студенты и аспиранты факультета информационных технологий и программирования ИТМО.

В центре исследовательской повестки — две связанные проблемы. Первая: современные большие языковые модели требуют значительных вычислительных мощностей, что делает их запуск на пользовательских устройствах практически невозможным. Вторая: качество поддержки так называемых малоресурсных языков — тех, по которым накоплено мало размеченных данных, — существенно уступает английскому, китайскому или русскому. Арабский и казахский попадают в эту категорию несмотря на сотни миллионов носителей: качественных речевых датасетов для них катастрофически мало, а их ручной сбор и разметка обходятся дорого.

Направление	Цель	Целевой показатель
Ускорение трансформеров	Увеличить скорость инференса	В 4 раза
Снижение ресурсоёмкости	Уменьшить требования к вычислениям	В 2 раза
Сжатие моделей	Уменьшить размер при сохранении качества	Потеря точности до 5%
Речевые данные для арабского	Собрать датасет для обучения	~100 часов речи

Для решения первой задачи исследователи намерены применять квантизацию, прунинг и линеаризацию механизма внимания — математические методы, позволяющие уменьшить размер модели и снизить вычислительную нагрузку при минимальных потерях качества. Заявленный ориентир: ускорение существующих моделей-трансформеров в четыре раза и снижение требований к ресурсам вдвое при деградации точности не более 5%. Методы будут универсальными — подходящими для любых архитектур на основе трансформера, включая Qwen и Llama.

Планируется собрать около 100 часов речи на арабском языке и обучить модель VibeVoice от Microsoft на русском, казахском и арабском.

По второму направлению лаборатория планирует собрать около 100 часов размеченной арабской речи и на её основе обучить модели синтеза и распознавания. В планах также дообучение VibeVoice — речевой модели Microsoft — на русском, казахском и арабском языках. Параллельно команда будет создавать бенчмарки для оценки работы больших языковых моделей, в том числе ChatGPT и Claude, на новых языковых данных. Руководитель лаборатории Аммар Али, чей родной язык — арабский, объясняет мотивацию прямо: обучение модели для арабского обходится значительно дороже, чем для английского, и это структурно ограничивает ИИ-исследования для носителей малоресурсных языков.

Практический смысл снижения ресурсоёмкости выходит за рамки академического интереса. Если модели удастся запускать локально на смартфонах или корпоративных серверах без выхода в облако, это решает сразу несколько проблем: конфиденциальность данных (актуально для университетов, медицины, бизнеса), независимость от инфраструктуры крупных провайдеров и бесперебойный доступ к ИИ-инструментам. Все алгоритмы и модели лаборатория планирует публиковать в открытом доступе на GitHub и HuggingFace, что делает результаты доступными для широкого круга разработчиков.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

ИТМО и MWS ИИ открыли лабораторию для ускорения нейросетей и поддержки малоресурсных

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента