Вышла русскоязычная книга по машинному обучению на табличных данных с XGBoost и LLM

Подготовлено редакцией Malakhov AI

Habr AI·5 мая·3 минРоссияКод

Издательство «Питер» выпустило перевод книги Марка Райана и Луки Массарона «Машинное обучение на табличных данных: XGBoost, глубокое обучение и ИИ» — практическое руководство для специалистов по данным и ML-инженеров, работающих с бизнес-данными из таблиц, баз данных и реестров.

Кратко

—Книга охватывает XGBoost, Keras, глубокое обучение и генеративный ИИ применительно к табличным данным.
—Среди практических примеров — прогнозирование цен на аренду недвижимости и развёртывание моделей через Python и Flask.
—Авторы — руководитель отдела ИИ в Google Марк Райан и трёхкратный гроссмейстер Kaggle Лука Массарон.
—Код рассчитан на запуск в Jupyter Notebook и Google Colab; главы 10–11 используют Google Cloud.
—Книга адресована тем, кто знаком с базовыми методами машинного обучения и Python-библиотеками pandas и NumPy.

Глоссарий · 6 терминов▾

XGBoost: Библиотека градиентного бустинга, строящая ансамбль деревьев решений последовательно — каждое новое дерево исправляет ошибки предыдущего; один из наиболее точных методов для табличных данных.
Градиентный бустинг: Метод машинного обучения, при котором модели обучаются последовательно: каждая следующая минимизирует остаточную ошибку предыдущей.
LLM: Large Language Model — большая языковая модель, обученная на текстовых данных и способная генерировать текст, код и структурированные данные.
Пайплайн обучения: Последовательность автоматизированных шагов обработки данных и обучения модели, которую можно воспроизводить и масштабировать.
Kaggle Grandmaster: Высший ранг на платформе Kaggle, присваиваемый участникам, занявшим призовые места в нескольких соревнованиях по машинному обучению.
Flask: Лёгкий Python-фреймворк для создания веб-приложений и API, часто используемый для развёртывания ML-моделей в виде сервисов.

Табличные данные — электронные таблицы, реляционные базы данных, бухгалтерские реестры — остаются основным форматом хранения бизнес-информации в большинстве компаний. При этом большая часть литературы по машинному обучению сосредоточена на изображениях, тексте и аудио, оставляя «скучные» таблицы на периферии. Книга Марка Райана и Луки Массарона закрывает этот пробел: авторы разбирают полный цикл работы с табличными данными — от предобработки до деплоя и сопровождения модели в продакшене.

Райан руководит отделом ИИ в Developer Knowledge Platform в Google, имеет степени Университета Ватерлоо и Университета Торонто и ранее выпустил две книги в издательстве Manning — «Deep Learning with Structured Data» (2020) и «Deep Learning with fastai Cookbook» (2021). Массарон — специалист по data science с более чем десятилетним опытом, автор бестселлеров по ИИ и алгоритмам, трёхкратный гроссмейстер Kaggle, достигавший 7-го места в мировом рейтинге соревнований, и Developer Expert Google в области машинного обучения. Сочетание академической строгости и соревновательной практики делает авторский дуэт нетипичным для жанра.

Центральный инструмент книги — XGBoost, библиотека градиентного бустинга, которая на протяжении последнего десятилетия остаётся одним из самых эффективных методов для задач классификации и регрессии на табличных данных. Градиентный бустинг строит ансамбль деревьев решений последовательно: каждое новое дерево исправляет ошибки предыдущего, что даёт высокую точность даже на относительно небольших выборках. XGBoost добавляет к этому регуляризацию и оптимизацию под параллельные вычисления, что объясняет его популярность на Kaggle и в промышленных системах.

Среди практических примеров — прогнозирование цен на аренду недвижимости и развёртывание моделей через Python и Flask.

Помимо градиентного бустинга авторы рассматривают применение глубокого обучения — в частности, Keras — к табличным данным. Это менее очевидный выбор: нейронные сети традиционно уступают бустингу на структурированных данных, однако дают преимущества при работе с большими объёмами, смешанными типами признаков и задачами, где важна интерпретируемость через механизмы внимания. Отдельная глава посвящена генеративному ИИ: авторы разбирают создание синтетических данных, генерацию признаков и интерпретацию моделей с помощью LLM — направление, которое только начинает оформляться в самостоятельную практику.

Практическая часть построена на конкретных примерах: прогнозирование цен на краткосрочную аренду недвижимости с использованием XGBoost и Keras, развёртывание локальной модели через Python и Flask, построение пайплайнов обучения. Главы 10 и 11 предполагают работу в среде Google Cloud, хотя авторы обещают объяснить всё необходимое с нуля. Код рассчитан на Jupyter Notebook и Google Colab, что снижает порог входа: читателю не нужна локальная GPU-машина.

Книга вышла с положительными отзывами от специалистов Google, Amazon и Nikkei Inc. Дмитрий Ефимов из Amazon назвал её «бесценным ресурсом для изучения практических методов без погружения в излишне сложную теорию». Гас Мартинс из Google отметил раздел о генеративном ИИ для анализа табличных данных как охватывающий темы синтетических данных и генерации признаков. Приобрести книгу можно на сайте издательства; при покупке бумажной версии электронная высылается на e-mail.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Вышла русскоязычная книга по машинному обучению на табличных данных с XGBoost и LLM

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США