Андрей Бурков выпустил книгу о LLM с практикой на PyTorch

Подготовлено редакцией Malakhov AI

Habr AI·1 июн.·2 минРоссияКод

Андрей Бурков, автор бестселлера «Машинное обучение без лишних слов», переведённого на 12 языков, опубликовал новую книгу «Языковые модели без лишних слов: Практика на PyTorch» — продолжение серии компактных технических учебников, на этот раз посвящённое архитектуре и обучению LLM. Предисловие написал Томаш Миколов, создатель word2vec и FastText.

Кратко

—Книга охватывает путь от основ машинного обучения до тонкой настройки LLM с помощью LoRA и промпт-инжиниринга.
—Каждая концепция сопровождается готовым кодом на PyTorch в формате Jupyter-блокнотов, запускаемых в Google Colab.
—Предисловие написал Томаш Миколов — автор алгоритмов word2vec и FastText, один из пионеров нейронных языковых моделей.
—Книгу рекомендуют руководители Weaviate, MindsDB, Dataiku, Qdrant и LlamaIndex.
—Механизм самовнимания (Self-Attention), обычно занимающий 20 страниц формул, изложен в виде класса Python из 15 строк.

Глоссарий · 7 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть с миллиардами параметров, обученная предсказывать текст и решать широкий круг языковых задач.
Трансформер: Архитектура нейронной сети, основанная на механизме внимания; лежит в основе большинства современных языковых моделей, включая GPT и Claude.
Self-Attention: Механизм самовнимания — способ, которым трансформер взвешивает важность каждого токена в последовательности относительно всех остальных.
LoRA: Low-Rank Adaptation — метод тонкой настройки LLM, при котором обновляется лишь небольшое число дополнительных параметров, что существенно снижает вычислительные затраты.
RoPE: Rotary Position Embedding — способ кодирования позиции токена в последовательности через поворот векторов, улучшающий обобщение на длинные тексты.
BPE: Byte Pair Encoding — алгоритм токенизации, разбивающий текст на подслова путём итеративного слияния наиболее частых пар символов.
Mixture of Experts: Архитектурный приём, при котором модель состоит из множества специализированных подсетей («экспертов»), и для каждого входа активируется только их часть — это снижает вычислительную нагрузку при большом числе параметров.

Андрей Бурков известен в ML-сообществе прежде всего благодаря «The Hundred-Page Machine Learning Book» — учебнику, который стал стандартом быстрого входа в профессию и был переведён на 12 языков. Новая книга «Языковые модели без лишних слов: Практика на PyTorch» продолжает ту же философию: минимум воды, максимум инженерии.

Бурков — доктор философии в области ИИ, руководитель ML-команд в Gartner и TalentNeuron. В своих интервью и еженедельной рассылке True Positive Weekly (более 20 000 подписчиков на Substack) он последовательно критикует хайп вокруг ИИ-агентов и позиционирует языковую модель как математическую функцию, а не магию. Эта установка определяет и структуру книги.

Материал выстроен последовательно: от градиентного спуска и нейронных сетей — через эмбеддинги (word2vec, GloVe, FastText, токенизация методом BPE) — к архитектуре трансформеров. Отдельно разобраны механизм самовнимания, многопотоковое внимание (multi-head attention), поворотные позиционные эмбеддинги RoPE и остаточные связи. Раздел о больших языковых моделях включает методы тонкой настройки — в том числе LoRA, — промпт-инжиниринг, управление генерацией через температуру, top-k и top-p, а также разбор практических проблем: галлюцинации, авторское право, этика. Финальные главы касаются продвинутых тем: Mixture of Experts, слияние моделей, сжатие, RLHF и визуально-языковые модели.

Каждая концепция сопровождается готовым кодом на PyTorch в формате Jupyter-блокнотов, запускаемых в Google Colab.

Каждая концепция сопровождается работающим кодом на PyTorch. Механизм самовнимания, который в академических текстах занимает десятки страниц формул, в книге реализован в виде класса Python из 15 строк — с пояснением, зачем нужна маска (masked_fill) и почему Rotary Position Embedding улучшает позиционные эмбеддинги по сравнению с классическим подходом. Блокноты Jupyter можно запустить бесплатно в Google Colab.

Предисловие написал Томаш Миколов — старший научный сотрудник Чешского института информатики, робототехники и кибернетики, создатель word2vec и FastText. Миколов начинал работу с нейронными языковыми моделями два десятилетия назад, когда это направление считалось тупиковым, и называет книгу Буркова оптимальной точкой входа для новичков. Среди других рецензентов — руководители Weaviate, MindsDB, Dataiku, Qdrant и LlamaIndex.

Книга адресована разработчикам, дата-сайентистам и ML-инженерам, которые хотят не просто вызывать API, а понимать устройство моделей и обучать их самостоятельно. По данным книжных сервисов, в 2025 году спрос на литературу об ИИ и LLM в России вырос кратно — книга выходит в момент, когда русскоязычная аудитория активно ищет структурированные технические источники. Издаётся в России издательством «БХВ».

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ