От n-грамм до трансформера: как за 40 лет появились современные языковые модели

Подготовлено редакцией Malakhov AI

Habr AI·11 июн.·4 минРоссияКод

Архитектура трансформера, лежащая в основе GPT-4o, Claude и Gemini, была описана в статье Google Brain «Attention Is All You Need» в 2017 году — но путь к ней занял четыре десятилетия и прошёл через статистику 1980-х, нейросетевую «зиму ИИ» и тихую работу команд, которые почти никто не замечал.

Кратко

—N-граммные модели 1980-х предсказывали следующее слово по статистике, но не понимали контекст длиннее двух-трёх слов.
—В 2003 году Йошуа Бенджио предложил word embeddings — числовые векторы слов, из которых выросло всё современное NLP.
—Word2Vec от Google (2013) показал, что модель сама выводит аналогии: «король» − «мужчина» + «женщина» = «королева».
—Трансформер (2017) отказался от последовательного чтения текста и ввёл механизм attention, позволив эффективно обучать модели на GPU.
—GPT-1 вышел в 2018 году с 117 млн параметров; к 2020-му GPT-3 уже содержал 175 млрд параметров.

Глоссарий · 7 терминов▾

n-граммная модель: Статистическая языковая модель, которая предсказывает следующее слово на основе фиксированного числа предшествующих слов (n-граммы).
word embeddings: Способ представления слов в виде числовых векторов в многомерном пространстве, где семантически близкие слова расположены рядом.
Word2Vec: Модель Google (2013), обучающая векторные представления слов через предсказание соседних слов в тексте.
трансформер: Архитектура нейронной сети, обрабатывающая весь текст одновременно с помощью механизма attention; основа большинства современных LLM.
attention (механизм внимания): Компонент трансформера, позволяющий модели определять степень смысловой связи между любыми двумя словами в тексте независимо от их позиции.
few-shot learning: Способность модели выполнять новую задачу, получив лишь несколько примеров прямо в тексте запроса, без дополнительного обучения.
NLP: Natural Language Processing — обработка естественного языка; раздел ИИ, занимающийся пониманием и генерацией текста.

В 2018 году Йошуа Бенджио, Джеффри Хинтон и Ян Лекун получили премию Тьюринга — высшую награду в компьютерных науках. Журналисты написали об этом пару строчек. Четыре года спустя весь мир узнал, что такое ChatGPT, — и почти никто не связал эти два события.

История языковых моделей начинается в конце 1980-х, когда никаких нейросетей в практическом смысле ещё не существовало. Первые системы работали на статистике: модель смотрела, какое слово чаще всего следует за предыдущим, и выдавала наиболее вероятный вариант. Такой подход называется n-граммными моделями. Он работал, но с жёстким ограничением: контекст длиннее двух-трёх слов модель не удерживала, а хранение статистики для всех возможных сочетаний слов требовало гигабайтов памяти — по тем временам это было серьёзной проблемой.

Год	Событие	Ключевые параметры / авторы
Конец 1980-х	N-граммные языковые модели	Статистика, ограничение контекста 2–3 словами
Начало 1990-х	IBM Model 1–5, нейросети Bell Labs	Машинный перевод; Ян Лекун
2003	«A Neural Probabilistic Language Model»	Йошуа Бенджио; word embeddings
2013	Word2Vec	Томас Миколов, Google
2017	«Attention Is All You Need», трансформер	Google Brain
2018	ELMo; GPT-1	AllenNLP; OpenAI, 117 млн параметров
2019	GPT-2	OpenAI, 1,5 млрд параметров
2020	GPT-3	OpenAI, 175 млрд параметров
2022	ChatGPT	OpenAI

Параллельно в IBM Research разрабатывали модели машинного перевода IBM Model 1–5, которые учились находить соответствия между словами разных языков на корпусах параллельных текстов. А в AT&T Bell Labs Ян Лекун занимался нейронными сетями — направлением, которое тогда считалось академической экзотикой. Период с конца 1980-х по середину 1990-х в исследовательском сообществе называют «зимой ИИ»: финансирование сокращалось, скептики объявляли нейросети тупиком, большинство исследователей переключались на другие задачи.

В 2003 году Йошуа Бенджио предложил word embeddings — числовые векторы слов, из которых выросло всё современное NLP.

Поворотным моментом стал 2003 год. Йошуа Бенджио с коллегами опубликовал статью «A Neural Probabilistic Language Model», в которой предложил не считать частоту слов, а обучать нейросеть предсказывать слово по контексту. Каждое слово при этом превращалось в вектор — числовое представление в многомерном пространстве, где слова с похожим смыслом оказывались «рядом». Этот подход получил название word embeddings. На конференции NeurIPS статью встретили вежливым интересом — не более. Сам Бенджио впоследствии говорил, что команда не до конца понимала значимость сделанного.

Широкую аудиторию идея word embeddings нашла в 2013 году, когда команда Google во главе с Томасом Миколовым выпустила Word2Vec. Модель демонстрировала поразительное свойство: арифметика над векторами давала осмысленные результаты. Вектор слова «король» минус вектор «мужчина» плюс вектор «женщина» давал вектор, ближайшим к которому оказывалась «королева». Никто этого не программировал — модель сама извлекла структуру языка из задачи предсказания соседних слов. Именно тогда крупные технологические компании начали всерьёз смотреть в сторону NLP.

Однако у Word2Vec оставалась принципиальная слабость: каждое слово имело один фиксированный вектор вне зависимости от контекста. Слово «ключ» в значении «ключ от квартиры» и «ключ» в значении «музыкальный ключ» были неразличимы. В 2018 году команда AllenNLP выпустила ELMo (Embeddings from Language Models), которая читала предложение в обоих направлениях — слева направо и справа налево — и формировала представление слова с учётом окружения. Это существенно улучшило качество на большинстве задач понимания текста.

Годом раньше, в 2017-м, Google Brain опубликовал статью «Attention Is All You Need», описав архитектуру трансформера. До этого нейросети обрабатывали текст последовательно — слово за словом. Трансформер смотрит на весь текст сразу и через механизм attention определяет, какие слова связаны по смыслу независимо от расстояния между ними. Читая местоимение в конце длинного абзаца, модель может соотнести его с существительным, упомянутым десятью предложениями раньше. Кроме того, трансформер допускает параллельные вычисления — в отличие от рекуррентных сетей, которые применялись прежде. Это сделало возможным эффективное обучение на GPU и открыло путь к масштабированию.

В 2018 году OpenAI выпустил GPT-1 — 117 млн параметров, обучение на текстах из открытого интернета. Модель умела генерировать связный текст и переключаться между задачами без отдельного дообучения под каждую, получая лишь несколько примеров прямо в запросе. GPT-2 в 2019 году (1,5 млрд параметров) OpenAI поначалу отказался публиковать полностью, сославшись на риски. GPT-3 в 2020-м содержал уже 175 млрд параметров. В конце 2022 года вышел ChatGPT — и то, что десятилетиями строилось в тишине исследовательских лабораторий, стало частью повседневной жизни сотен миллионов людей.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

От n-грамм до трансформера: как за 40 лет появились современные языковые модели

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений