В 2018 году Йошуа Бенджио, Джеффри Хинтон и Ян Лекун получили премию Тьюринга — высшую награду в компьютерных науках. Журналисты написали об этом пару строчек. Четыре года спустя весь мир узнал, что такое ChatGPT, — и почти никто не связал эти два события.
История языковых моделей начинается в конце 1980-х, когда никаких нейросетей в практическом смысле ещё не существовало. Первые системы работали на статистике: модель смотрела, какое слово чаще всего следует за предыдущим, и выдавала наиболее вероятный вариант. Такой подход называется n-граммными моделями. Он работал, но с жёстким ограничением: контекст длиннее двух-трёх слов модель не удерживала, а хранение статистики для всех возможных сочетаний слов требовало гигабайтов памяти — по тем временам это было серьёзной проблемой.
| Год | Событие | Ключевые параметры / авторы |
|---|---|---|
| Конец 1980-х | N-граммные языковые модели | Статистика, ограничение контекста 2–3 словами |
| Начало 1990-х | IBM Model 1–5, нейросети Bell Labs | Машинный перевод; Ян Лекун |
| 2003 | «A Neural Probabilistic Language Model» | Йошуа Бенджио; word embeddings |
| 2013 | Word2Vec | Томас Миколов, Google |
| 2017 | «Attention Is All You Need», трансформер | Google Brain |
| 2018 | ELMo; GPT-1 | AllenNLP; OpenAI, 117 млн параметров |
| 2019 | GPT-2 | OpenAI, 1,5 млрд параметров |
| 2020 | GPT-3 | OpenAI, 175 млрд параметров |
| 2022 | ChatGPT | OpenAI |
Параллельно в IBM Research разрабатывали модели машинного перевода IBM Model 1–5, которые учились находить соответствия между словами разных языков на корпусах параллельных текстов. А в AT&T Bell Labs Ян Лекун занимался нейронными сетями — направлением, которое тогда считалось академической экзотикой. Период с конца 1980-х по середину 1990-х в исследовательском сообществе называют «зимой ИИ»: финансирование сокращалось, скептики объявляли нейросети тупиком, большинство исследователей переключались на другие задачи.
В 2003 году Йошуа Бенджио предложил word embeddings — числовые векторы слов, из которых выросло всё современное NLP.
Поворотным моментом стал 2003 год. Йошуа Бенджио с коллегами опубликовал статью «A Neural Probabilistic Language Model», в которой предложил не считать частоту слов, а обучать нейросеть предсказывать слово по контексту. Каждое слово при этом превращалось в вектор — числовое представление в многомерном пространстве, где слова с похожим смыслом оказывались «рядом». Этот подход получил название word embeddings. На конференции NeurIPS статью встретили вежливым интересом — не более. Сам Бенджио впоследствии говорил, что команда не до конца понимала значимость сделанного.
Широкую аудиторию идея word embeddings нашла в 2013 году, когда команда Google во главе с Томасом Миколовым выпустила Word2Vec. Модель демонстрировала поразительное свойство: арифметика над векторами давала осмысленные результаты. Вектор слова «король» минус вектор «мужчина» плюс вектор «женщина» давал вектор, ближайшим к которому оказывалась «королева». Никто этого не программировал — модель сама извлекла структуру языка из задачи предсказания соседних слов. Именно тогда крупные технологические компании начали всерьёз смотреть в сторону NLP.
Однако у Word2Vec оставалась принципиальная слабость: каждое слово имело один фиксированный вектор вне зависимости от контекста. Слово «ключ» в значении «ключ от квартиры» и «ключ» в значении «музыкальный ключ» были неразличимы. В 2018 году команда AllenNLP выпустила ELMo (Embeddings from Language Models), которая читала предложение в обоих направлениях — слева направо и справа налево — и формировала представление слова с учётом окружения. Это существенно улучшило качество на большинстве задач понимания текста.
Годом раньше, в 2017-м, Google Brain опубликовал статью «Attention Is All You Need», описав архитектуру трансформера. До этого нейросети обрабатывали текст последовательно — слово за словом. Трансформер смотрит на весь текст сразу и через механизм attention определяет, какие слова связаны по смыслу независимо от расстояния между ними. Читая местоимение в конце длинного абзаца, модель может соотнести его с существительным, упомянутым десятью предложениями раньше. Кроме того, трансформер допускает параллельные вычисления — в отличие от рекуррентных сетей, которые применялись прежде. Это сделало возможным эффективное обучение на GPU и открыло путь к масштабированию.
В 2018 году OpenAI выпустил GPT-1 — 117 млн параметров, обучение на текстах из открытого интернета. Модель умела генерировать связный текст и переключаться между задачами без отдельного дообучения под каждую, получая лишь несколько примеров прямо в запросе. GPT-2 в 2019 году (1,5 млрд параметров) OpenAI поначалу отказался публиковать полностью, сославшись на риски. GPT-3 в 2020-м содержал уже 175 млрд параметров. В конце 2022 года вышел ChatGPT — и то, что десятилетиями строилось в тишине исследовательских лабораторий, стало частью повседневной жизни сотен миллионов людей.

