Турнир 21 алгоритма ML: кто справился с задачей в 2000-мерном пространстве шума

Подготовлено редакцией Malakhov AI

Habr AI·вчера·3 минРоссияКод

Российский исследователь протестировал 21 алгоритм машинного обучения — от линейной регрессии до CatBoost и нейросетей с механизмом внимания — на специально сконструированной задаче, где полезный сигнал размазан по двум тысячам признаков.

Кратко

—Задача: восстановить сложную двумерную функцию, когда два информативных признака спрятаны среди 1998 шумовых в 2000-мерном пространстве.
—Шумовые признаки неотличимы от полезных по распределению и амплитуде — это делает стандартный отбор признаков бесполезным.
—Дополнительное усложнение — случайный матричный поворот всего пространства: ни один отдельный признак не несёт полной информации.
—Качество измеряется через RMSE; значение ~0,2 соответствует предсказанию средней яркости, то есть фактическому провалу.
—Авторский алгоритм «Полигармонический каскад», основанный на теории случайных функций, по заявлению автора показал результаты, выделяющиеся на фоне признанных лидеров табличного ML.

Глоссарий · 6 терминов▾

RMSE: Среднеквадратичная ошибка — метрика качества регрессионной модели: корень из среднего квадрата отклонений предсказаний от реальных значений; чем ближе к нулю, тем точнее модель.
Градиентный бустинг: Семейство алгоритмов (XGBoost, LightGBM, CatBoost), которые строят ансамбль слабых моделей последовательно, каждый раз исправляя ошибки предыдущего; считается стандартом для табличных данных.
Ортогональное преобразование: Математическая операция поворота многомерного пространства, которая сохраняет расстояния между точками, но меняет направление осей координат.
TabNet: Архитектура нейросети для табличных данных от Google (2019), использующая механизм внимания для последовательного выбора наиболее информативных признаков на каждом шаге.
Отбор признаков: Процесс определения, какие входные переменные влияют на результат, а какие являются шумом — одна из ключевых задач при работе с высокоразмерными данными.
Benchmark: Стандартизированная задача или набор данных, используемый для сравнения алгоритмов между собой в одинаковых условиях.

Стандартные benchmark-задачи вроде MNIST или Titanic давно перестали быть настоящим испытанием: на изображениях побеждают свёрточные сети, на таблицах — градиентный бустинг. Российский исследователь решил сконструировать задачу, где ни один из этих привычных ответов не работает автоматически.

Исходная идея проста: взять сложную двумерную функцию — визуально напоминающую сильно измятый шёлк — и превратить её в задачу регрессии. Два входных признака (координаты x и y), на выходе — нормализованная яркость от 0 до 1. Изображение разрешением 512×512 пикселей даёт 262 144 примера, из которых 240 000 уходят в обучение, 22 144 — в тест. Сама по себе задача нетривиальна из-за высокой нелинейности функции, но для современных методов всё равно выглядит решаемой.

№	Алгоритм	Конфигурация
1	Ridge регрессия	стандартная
2	kNN	стандартная
3	SVR	стандартная
4	HistGradientBoostingRegressor	настройки Claude
5	HistGradientBoostingRegressor	по умолчанию
6	LightGBM	настройки Claude
7	LightGBM	по умолчанию
8	XGBoost	настройки Claude
9	XGBoost	по умолчанию
10	CatBoost	настройки Claude
11	RandomForest	настройки Claude
12	RandomForest	по умолчанию
13	ExtraTrees	настройки Claude
14	ExtraTrees	по умолчанию
15	Нейросеть (bottleneck)	код Claude
16	Нейросеть (два режима)	код Claude
17	Нейросеть	авторская реализация
18	TabNet	настройки Claude, вариант 1
19	TabNet	настройки Claude, вариант 2
20	TabNet	по умолчанию
21	Полигармонический каскад	авторская реализация

Подвох автор добавил намеренно. Вместо двух признаков алгоритмы получают 500, 1000 или 2000 входных колонок. Из них только две содержат настоящие координаты — остальные заполнены шумом, который генерируется перестановкой тех же значений x и y. Распределение, амплитуда и средние у шумовых признаков идентичны полезным: отличить сигнал от мусора, анализируя входные данные напрямую, невозможно. Это доведённая до предела классическая проблема отбора признаков — та же, с которой сталкиваются при работе с геномными данными, финансовыми рядами или показаниями промышленных датчиков.

Второй уровень сложности — матричный поворот. Автор умножает всё многомерное пространство признаков на случайную ортогональную матрицу. Геометрия данных не меняется, расстояния между точками сохраняются, но полезный сигнал оказывается равномерно размазан по всем двум тысячам координат. Древовидные алгоритмы, которые ищут информативные признаки, перебирая отдельные столбцы, после такого преобразования теряют главное преимущество: ни одна ось больше не совпадает с информативным направлением.

В турнире участвуют 21 алгоритм: Ridge-регрессия, kNN, SVR, HistGradientBoostingRegressor, LightGBM, XGBoost, CatBoost, RandomForest, ExtraTrees — каждый в нескольких конфигурациях (настройки по умолчанию и настройки, подобранные с помощью Claude). Отдельно представлены три варианта нейросетей, три варианта TabNet и авторский алгоритм «Полигармонический каскад».

TabNet — архитектура, разработанная Google в 2019 году специально для табличных данных: она использует механизм внимания для последовательного отбора признаков на каждом шаге обработки. Именно такие модели теоретически должны справляться с задачами, где важные признаки нужно выделить из шума. «Полигармонический каскад» — авторская разработка, выведенная из принципов теории случайных функций и индифферентности; широкой аудитории и сообществу Kaggle она практически неизвестна.

Качество каждого алгоритма измеряется через RMSE на тестовой выборке из 262 144 примеров. Принципиальная деталь: шумовые признаки в тестовых данных генерируются заново — алгоритм, который просто запомнил обучающую выборку, на тесте немедленно проваливается. RMSE около 0,2 соответствует предсказанию константы (средней яркости) — то есть фактическому отказу от решения задачи. Помимо числовой метрики, результат можно визуализировать: упорядоченные предсказания превращаются в изображение, которое сравнивается с исходным.

Автор позиционирует эксперимент как приглашение к репликации, а не как финальный вердикт. Методологические детали — в том числе то, как именно «Полигармонический каскад» обошёл фаворитов — он обещает раскрыть в продолжении. Тем не менее сама постановка задачи представляет самостоятельный интерес: синтетический benchmark с контролируемой сложностью, где можно точно знать, что именно должен найти алгоритм, — редкость для табличного ML.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

AWS представила Nova Sonic Test Harness

Продолжить по разделам

Турнир 21 алгоритма ML: кто справился с задачей в 2000-мерном пространстве шума

Кратко

Читать дальше

Как читать одну строку файла вместо всего содержимого в Claude Code

ЦОД к 2030 году будут потреблять воды больше, чем всё человечество — доклад ООН

AWS представила Nova Sonic Test Harness