Табличные данные — электронные таблицы, реляционные базы данных, бухгалтерские реестры — остаются основным форматом хранения бизнес-информации в большинстве компаний. При этом большая часть литературы по машинному обучению сосредоточена на изображениях, тексте и аудио, оставляя «скучные» таблицы на периферии. Книга Марка Райана и Луки Массарона закрывает этот пробел: авторы разбирают полный цикл работы с табличными данными — от предобработки до деплоя и сопровождения модели в продакшене.
Райан руководит отделом ИИ в Developer Knowledge Platform в Google, имеет степени Университета Ватерлоо и Университета Торонто и ранее выпустил две книги в издательстве Manning — «Deep Learning with Structured Data» (2020) и «Deep Learning with fastai Cookbook» (2021). Массарон — специалист по data science с более чем десятилетним опытом, автор бестселлеров по ИИ и алгоритмам, трёхкратный гроссмейстер Kaggle, достигавший 7-го места в мировом рейтинге соревнований, и Developer Expert Google в области машинного обучения. Сочетание академической строгости и соревновательной практики делает авторский дуэт нетипичным для жанра.
Центральный инструмент книги — XGBoost, библиотека градиентного бустинга, которая на протяжении последнего десятилетия остаётся одним из самых эффективных методов для задач классификации и регрессии на табличных данных. Градиентный бустинг строит ансамбль деревьев решений последовательно: каждое новое дерево исправляет ошибки предыдущего, что даёт высокую точность даже на относительно небольших выборках. XGBoost добавляет к этому регуляризацию и оптимизацию под параллельные вычисления, что объясняет его популярность на Kaggle и в промышленных системах.
Среди практических примеров — прогнозирование цен на аренду недвижимости и развёртывание моделей через Python и Flask.
Помимо градиентного бустинга авторы рассматривают применение глубокого обучения — в частности, Keras — к табличным данным. Это менее очевидный выбор: нейронные сети традиционно уступают бустингу на структурированных данных, однако дают преимущества при работе с большими объёмами, смешанными типами признаков и задачами, где важна интерпретируемость через механизмы внимания. Отдельная глава посвящена генеративному ИИ: авторы разбирают создание синтетических данных, генерацию признаков и интерпретацию моделей с помощью LLM — направление, которое только начинает оформляться в самостоятельную практику.
Практическая часть построена на конкретных примерах: прогнозирование цен на краткосрочную аренду недвижимости с использованием XGBoost и Keras, развёртывание локальной модели через Python и Flask, построение пайплайнов обучения. Главы 10 и 11 предполагают работу в среде Google Cloud, хотя авторы обещают объяснить всё необходимое с нуля. Код рассчитан на Jupyter Notebook и Google Colab, что снижает порог входа: читателю не нужна локальная GPU-машина.
Книга вышла с положительными отзывами от специалистов Google, Amazon и Nikkei Inc. Дмитрий Ефимов из Amazon назвал её «бесценным ресурсом для изучения практических методов без погружения в излишне сложную теорию». Гас Мартинс из Google отметил раздел о генеративном ИИ для анализа табличных данных как охватывающий темы синтетических данных и генерации признаков. Приобрести книгу можно на сайте издательства; при покупке бумажной версии электронная высылается на e-mail.


