30 ноября 2022 года OpenAI представила ChatGPT, что для многих стало точкой отсчёта эры генеративного ИИ в разработке. Вслед за этим массовое распространение получили GitHub Copilot, Cursor, Claude Code и другие ИИ-инструменты, ускорившие написание кода, тестов и документации. Однако вместе с продуктивностью возник и менее заметный вопрос: не делает ли повсеместное использование похожих моделей открытый код более однообразным?
Для проверки этой гипотезы был разработан GitHub Uniformity Index (GUI) — составной индекс, измеряющий шаблонность по нескольким признакам одновременно. В него входят похожесть README, повторяемость commit messages и комментариев, концентрация имён функций, а также proxy-метрика AST similarity и похожесть структуры проектов. Данные берутся из GH Archive — публичного архива событий GitHub, доступного через BigQuery. Анализируются PushEvent, PullRequestEvent, CreateEvent и другие типы активности за 2019–2025 годы, а также выборка README, комментариев и имён функций из публичных репозиториев.
Исследование не пытается определить, какой конкретный файл написан нейросетью — надёжного способа массово отличать ИИ-код от человеческого пока не существует. Цель — проверить, изменились ли статистические свойства GitHub после ноября 2022 года. Основные зоны потенциальной стандартизации: README (структура «Overview, Features, Installation, Usage» стала встречаться чаще), комментарии (LLM склонны к универсальным пояснениям вроде «Initialize...», «Validate input»), имена функций (безопасные варианты — fetchData, processData, handleError) и структура проектов (типовые каркасы src/, tests/, docs/, config/).
Наиболее заметный рост шаблонности зафиксирован в README-документации и структурных каркасах проектов.
Аналогичные исследования уже проводились: Microsoft Research совместно с GitHub и MIT изучали влияние Copilot на скорость разработки; GitHub Octoverse описывает макротренды open source; Stack Overflow Developer Survey фиксирует рост использования ИИ-инструментов. Однако почти никто не анализировал, как ИИ влияет на разнообразие артефактов кода. GitHub Uniformity Index заполняет эту нишу, позволяя отслеживать концентрацию шаблонов в экосистеме.
Автор исследования подчёркивает, что рост однообразия не обязательно означает ухудшение качества. README с единой структурой может быть удобнее для восприятия, а типовые имена функций — облегчать чтение кода. Тем не менее, open source исторически был не только производственной средой, но и культурной экосистемой с разными стилями проектирования, соглашениями об именовании и архитектурными подходами. Если распределение языковых и структурных паттернов становится слишком концентрированным, это может снизить разнообразие и, в долгосрочной перспективе, инновационный потенциал сообщества.

