Оптимизация памяти в ML-библиотеке LANCETNIC: две ключевые проблемы и их решения

Подготовлено редакцией Malakhov AI

Habr AI·7 часов назад·1 минКод

В библиотеке LANCETNIC версии 4.0.0 обнаружили две причины критического расхода оперативной памяти при обучении на больших датасетах. Первая связана с преобразованием разреженных матриц в плотные, вторая — с двойным хранением данных в PyTorch Dataset.

Кратко

—При векторизации текста использовался плотный массив вместо разреженного формата, что резко увеличивало потребление памяти.
—В PyTorch Dataset создавалась копия данных при конвертации в тензор, удваивая объём занимаемой памяти.
—Исправления позволили обучать модель на 25 тыс. строк на ноутбуке с 16 ГБ RAM без перегрузки.

Глоссарий · 3 термина▾

разреженная матрица (sparse matrix): Матрица, в которой хранятся только ненулевые элементы, что экономит память при большом количестве нулей.
TfidfVectorizer: Инструмент из библиотеки sklearn для преобразования текста в числовые векторы на основе TF-IDF.
PyTorch Dataset: Класс в PyTorch, представляющий набор данных и обеспечивающий загрузку по индексу.

Библиотека LANCETNIC предназначена для поиска взаимосвязей между признаками и целевой переменной, поддерживая классификацию, регрессию и многозадачное обучение. Разработчик столкнулся с проблемой: при обучении на текстовых датасетах из 25 тыс. строк на ноутбуке с 16 ГБ RAM модель не могла завершить процесс из-за перегрузки оперативной памяти.

Первая причина заключалась в использовании плотных матриц вместо разреженных. При векторизации текста с помощью TfidfVectorizer из sklearn метод.fit_transform() возвращает разреженную матрицу (sparse), но в исходном коде LANCETNIC v4.0.0 разработчик вызывал.toarray(), превращая её в плотную матрицу. Это приводило к хранению всех нулевых значений, что кратно увеличивало объём памяти. На датасете из 25 тыс. строк матрица переставала помещаться в RAM. Исправление состояло в отказе от.toarray() и сохранении разреженного формата на всём конвейере.

№ строки	Текст
1	Мастер маникюра. Обучим от 7000 в день
2	Куплю iPhone 15 недорого. Срочно
3	Бесплатный кредит без справок за 1 час
4	Мастер маникюра.Пиши в Личные сообщения

Вторая причина — двойное хранение данных в классе PyTorch Dataset. Конструктор ClassifierDataset сразу конвертировал весь массив X в тензор через torch.tensor(X), создавая полную копию данных в памяти. С учётом того, что X уже был плотной матрицей, итоговый расход памяти утраивался: исходная матрица, плюс плотная копия от TF-IDF, плюс тензор. В исправленной версии конструктор сохраняет ссылку на исходную матрицу, а тензор создаётся на лету в методе __getitem__ для одной строки, что значительно снижает пиковое потребление памяти.

Обе оптимизации не изменили поведение модели, но сделали обучение возможным на стандартном оборудовании. Теперь LANCETNIC может работать с датасетами, содержащими десятки тысяч текстов, без специальных серверов.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Оптимизация памяти в ML-библиотеке LANCETNIC: две ключевые проблемы и их решения

Кратко

Читать дальше

Исследование: после появления ChatGPT GitHub стал более шаблонным

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

NVIDIA внедряет модель разделения выручки для доступа к ИИ-инфраструктуре