Три этапа, из которых строится любая языковая модель

Подготовлено редакцией Malakhov AI

Habr AI·вчера·3 минРоссияКод

GPT-4 обучался на 13 триллионах токенов, а его тренировка обошлась в десятки миллионов долларов — и это лишь первый из трёх обязательных этапов, без которых модель не станет полезным ассистентом. Каждый этап решает строго свою задачу: знания, формат диалога и характер поведения.

Кратко

—Предобучение: модель предсказывает следующий токен на триллионах текстов и усваивает знания о мире как побочный эффект.
—Supervised Fine-Tuning (SFT): на десятках тысяч размеченных пар «вопрос — ответ» модель учится формату диалога.
—RLHF формирует «характер»: отдельная reward model оценивает ответы, алгоритм PPO итеративно улучшает поведение модели.
—DPO — более дешёвая альтернатива RLHF: обучение напрямую на парах «хороший/плохой ответ» без отдельной reward model.
—Новые тренды: Mixture of Experts, синтетические данные, test-time compute и RLAIF меняют классическую схему обучения.

Глоссарий · 7 терминов▾

Токен: Минимальная единица текста, с которой работает языковая модель: примерно слово или часть слова.
Предобучение (pretraining): Первый этап обучения модели на огромных массивах текста с задачей предсказания следующего токена.
Supervised Fine-Tuning (SFT): Дообучение модели на размеченных парах «вопрос — ответ» для освоения формата диалога.
RLHF: Reinforcement Learning from Human Feedback — обучение с подкреплением, где оценки людей формируют «характер» модели.
Reward Model: Отдельная нейросеть, обученная предсказывать, какой из двух ответов предпочтут люди.
DPO: Direct Preference Optimization — метод обучения на парах «хороший/плохой ответ» без отдельной reward model, более дешёвый аналог RLHF.
Mixture of Experts (MoE): Архитектура, при которой для каждого токена активируется только часть специализированных подсетей, что снижает вычислительные затраты.

GPT-4 обучался на текстах объёмом порядка 13 триллионов токенов — и это лишь фундамент, на котором строятся все остальные способности модели. Сама по себе эта «базовая модель» не умеет вести диалог: она продолжает текст так, как встречала похожие фразы в обучающих данных, без понимания того, что собеседник ждёт ответа.

Первый этап — предобучение — технически выглядит просто: модель учится предсказывать следующий токен в последовательности. Показали «Земля вращается вокруг» — нужно угадать «Солнца». Но хорошо справляться с этой задачей на триллионах примеров невозможно без усвоения грамматики, фактов, логики и контекста. Знания о мире — не цель, а побочный эффект качественного предсказания. Стоимость одного такого обучения — десятки миллионов долларов, время — месяцы непрерывной работы на тысячах видеокарт.

Этап	Задача	Данные	Результат
Предобучение	Предсказание следующего токена	Триллионы токенов из интернета, книг, кода	Базовая модель со знаниями о мире
Supervised Fine-Tuning	Формат диалога ассистента	Десятки тысяч размеченных пар вопрос–ответ	Модель, понимающая структуру диалога
RLHF / DPO	Формирование характера и предпочтений	Тысячи сравнений пар ответов людьми	Вежливая, структурированная, безопасная модель

Второй этап — Supervised Fine-Tuning (SFT), или Instruction Tuning. Разметчики составляют десятки тысяч пар «вопрос — образцовый ответ», и модель обучается на них заново, но уже не на всём подряд, а на конкретных примерах поведения ассистента. После этого модель понимает формат диалога: есть запрос пользователя, есть её ответ, нужно отвечать по существу. Датасет мал по меркам предобучения, но тщательно отобран.

Supervised Fine-Tuning (SFT): на десятках тысяч размеченных пар «вопрос — ответ» модель учится формату диалога.

Третий этап — RLHF (Reinforcement Learning from Human Feedback). Разметчикам показывают два варианта ответа на один вопрос и просят выбрать лучший. Из тысяч таких сравнений обучается отдельная нейросеть — Reward Model, автоматический судья качества. Затем алгоритм PPO (Proximal Policy Optimization) итеративно подталкивает основную модель к ответам с высокими оценками. Именно RLHF объясняет, почему ChatGPT отвечает иначе, чем «базовый GPT»: у неё сформирован характер через обратную связь на миллионах примеров человеческих предпочтений.

Существует более простая альтернатива — DPO (Direct Preference Optimization). Вместо отдельной reward model и сложного цикла обучения с подкреплением, DPO напрямую обучает модель на парах «хороший ответ / плохой ответ». Математически строже и дешевле в реализации — поэтому сейчас активно вытесняет классический RLHF во многих лабораториях.

Классическая трёхэтапная схема продолжает развиваться. Mixture of Experts (MoE) позволяет строить модели с большим числом параметров без пропорционального роста стоимости инференса: для каждого токена активируется лишь часть специализированных «экспертов». По такому принципу устроен Mixtral, по слухам — и GPT-4. Синтетические данные решают проблему исчерпания качественных текстов в интернете: сильная модель генерирует задачи и эталонные решения для обучения следующей версии. Test-time compute меняет саму парадигму: модели o1, o3 и DeepSeek-R1 «думают» длинными цепочками внутренних рассуждений перед финальным ответом — качество теперь определяется не только размером модели, но и вычислениями в момент инференса. Наконец, RLAIF заменяет дорогих людей-разметчиков другой моделью: Constitutional ИИ от Anthropic оценивает собственные ответы по набору принципов и итеративно корректирует себя без участия человека на каждом шаге.

Убери любой из трёх базовых этапов — и модель либо ничего не знает, либо не умеет разговаривать, либо ведёт себя непредсказуемо. Предобучение даёт знания, Supervised Fine-Tuning даёт формат, RLHF даёт характер. Именно в этой связке рождается то, что принято называть «умным ИИ».

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам