Исследование: после появления ChatGPT GitHub стал более шаблонным

Разработан GitHub Uniformity Index (GUI) для измерения однообразия открытого кода. Анализ данных GH Archive с 2019 по 2025 год показал, что после ноября 2022 года README, комментарии и имена функций стали чаще повторяться.

30 ноября 2022 года OpenAI представила ChatGPT, что для многих стало точкой отсчёта эры генеративного ИИ в разработке. Вслед за этим массовое распространение получили GitHub Copilot, Cursor, Claude Code и другие ИИ-инструменты, ускорившие написание кода, тестов и документации. Однако вместе с продуктивностью возник и менее заметный вопрос: не делает ли повсеместное использование похожих моделей открытый код более однообразным?

Для проверки этой гипотезы был разработан GitHub Uniformity Index (GUI) — составной индекс, измеряющий шаблонность по нескольким признакам одновременно. В него входят похожесть README, повторяемость commit messages и комментариев, концентрация имён функций, а также proxy-метрика AST similarity и похожесть структуры проектов. Данные берутся из GH Archive — публичного архива событий GitHub, доступного через BigQuery. Анализируются PushEvent, PullRequestEvent, CreateEvent и другие типы активности за 2019–2025 годы, а также выборка README, комментариев и имён функций из публичных репозиториев.

Исследование не пытается определить, какой конкретный файл написан нейросетью — надёжного способа массово отличать ИИ-код от человеческого пока не существует. Цель — проверить, изменились ли статистические свойства GitHub после ноября 2022 года. Основные зоны потенциальной стандартизации: README (структура «Overview, Features, Installation, Usage» стала встречаться чаще), комментарии (LLM склонны к универсальным пояснениям вроде «Initialize...», «Validate input»), имена функций (безопасные варианты — fetchData, processData, handleError) и структура проектов (типовые каркасы src/, tests/, docs/, config/).

Наиболее заметный рост шаблонности зафиксирован в README-документации и структурных каркасах проектов.

Аналогичные исследования уже проводились: Microsoft Research совместно с GitHub и MIT изучали влияние Copilot на скорость разработки; GitHub Octoverse описывает макротренды open source; Stack Overflow Developer Survey фиксирует рост использования ИИ-инструментов. Однако почти никто не анализировал, как ИИ влияет на разнообразие артефактов кода. GitHub Uniformity Index заполняет эту нишу, позволяя отслеживать концентрацию шаблонов в экосистеме.

Автор исследования подчёркивает, что рост однообразия не обязательно означает ухудшение качества. README с единой структурой может быть удобнее для восприятия, а типовые имена функций — облегчать чтение кода. Тем не менее, open source исторически был не только производственной средой, но и культурной экосистемой с разными стилями проектирования, соглашениями об именовании и архитектурными подходами. Если распределение языковых и структурных паттернов становится слишком концентрированным, это может снизить разнообразие и, в долгосрочной перспективе, инновационный потенциал сообщества.

Исследование: после появления ChatGPT GitHub стал более шаблонным

Кратко

Читать дальше

Карта грантов ИИ safety на лето-осень 2026: 50 фондов, дедлайны и условия

Лучшие практики многократного обучения с подкреплением в Amazon SageMaker ИИ

Почти 90 стартапов стали единорогами в 2026 году — больше половины связаны с ИИ