GPT-4 обучался на текстах объёмом порядка 13 триллионов токенов — и это лишь фундамент, на котором строятся все остальные способности модели. Сама по себе эта «базовая модель» не умеет вести диалог: она продолжает текст так, как встречала похожие фразы в обучающих данных, без понимания того, что собеседник ждёт ответа.

Первый этап — предобучение — технически выглядит просто: модель учится предсказывать следующий токен в последовательности. Показали «Земля вращается вокруг» — нужно угадать «Солнца». Но хорошо справляться с этой задачей на триллионах примеров невозможно без усвоения грамматики, фактов, логики и контекста. Знания о мире — не цель, а побочный эффект качественного предсказания. Стоимость одного такого обучения — десятки миллионов долларов, время — месяцы непрерывной работы на тысячах видеокарт.

ЭтапЗадачаДанныеРезультат
ПредобучениеПредсказание следующего токенаТриллионы токенов из интернета, книг, кодаБазовая модель со знаниями о мире
Supervised Fine-TuningФормат диалога ассистентаДесятки тысяч размеченных пар вопрос–ответМодель, понимающая структуру диалога
RLHF / DPOФормирование характера и предпочтенийТысячи сравнений пар ответов людьмиВежливая, структурированная, безопасная модель

Второй этап — Supervised Fine-Tuning (SFT), или Instruction Tuning. Разметчики составляют десятки тысяч пар «вопрос — образцовый ответ», и модель обучается на них заново, но уже не на всём подряд, а на конкретных примерах поведения ассистента. После этого модель понимает формат диалога: есть запрос пользователя, есть её ответ, нужно отвечать по существу. Датасет мал по меркам предобучения, но тщательно отобран.

Supervised Fine-Tuning (SFT): на десятках тысяч размеченных пар «вопрос — ответ» модель учится формату диалога.

Третий этап — RLHF (Reinforcement Learning from Human Feedback). Разметчикам показывают два варианта ответа на один вопрос и просят выбрать лучший. Из тысяч таких сравнений обучается отдельная нейросеть — Reward Model, автоматический судья качества. Затем алгоритм PPO (Proximal Policy Optimization) итеративно подталкивает основную модель к ответам с высокими оценками. Именно RLHF объясняет, почему ChatGPT отвечает иначе, чем «базовый GPT»: у неё сформирован характер через обратную связь на миллионах примеров человеческих предпочтений.

Существует более простая альтернатива — DPO (Direct Preference Optimization). Вместо отдельной reward model и сложного цикла обучения с подкреплением, DPO напрямую обучает модель на парах «хороший ответ / плохой ответ». Математически строже и дешевле в реализации — поэтому сейчас активно вытесняет классический RLHF во многих лабораториях.

Классическая трёхэтапная схема продолжает развиваться. Mixture of Experts (MoE) позволяет строить модели с большим числом параметров без пропорционального роста стоимости инференса: для каждого токена активируется лишь часть специализированных «экспертов». По такому принципу устроен Mixtral, по слухам — и GPT-4. Синтетические данные решают проблему исчерпания качественных текстов в интернете: сильная модель генерирует задачи и эталонные решения для обучения следующей версии. Test-time compute меняет саму парадигму: модели o1, o3 и DeepSeek-R1 «думают» длинными цепочками внутренних рассуждений перед финальным ответом — качество теперь определяется не только размером модели, но и вычислениями в момент инференса. Наконец, RLAIF заменяет дорогих людей-разметчиков другой моделью: Constitutional ИИ от Anthropic оценивает собственные ответы по набору принципов и итеративно корректирует себя без участия человека на каждом шаге.

Убери любой из трёх базовых этапов — и модель либо ничего не знает, либо не умеет разговаривать, либо ведёт себя непредсказуемо. Предобучение даёт знания, Supervised Fine-Tuning даёт формат, RLHF даёт характер. Именно в этой связке рождается то, что принято называть «умным ИИ».