Яндекс автоматизировал обновление Chromium с помощью LLM-агента

Habr AI·6 часов назад·3 минРоссияКод

Каждые четыре недели команда Яндекс Браузера сталкивается с более чем тысячей конфликтов кода и тысячами ошибок компиляции — неизбежное следствие слияния 10 000 коммитов апстрима Chromium с 1500 собственными изменениями. Инженеры автоматизировали два самых трудоёмких этапа этого процесса, встроив LLM-агента в пайплайн мерджа.

Кратко

—Один цикл обновления Chromium занимал несколько человеко-месяцев и требовал участия до 100 разработчиков.
—Старый авторезолв на регулярных выражениях закрывал лишь половину простейших конфликтов, остальное разбиралось вручную.
—Подход «скормить весь файл модели» провалился: файлы C++ в Chromium достигают 20 000 строк и переполняют контекст LLM.
—Команда перешла к локальному контексту конфликта — небольшим фрагментам с ограниченным окружением вместо целых файлов.
—Из реальных человеческих резолвов сформировали обучающий набор и попросили LLM вывести обобщённые правила решения конфликтов.

Глоссарий · 7 терминов▾

мердж (merge): Операция слияния двух веток кода в системе контроля версий; в данном случае — объединение кодовой базы Chromium с внутренними изменениями Яндекса.
VCS-конфликт: Ситуация, когда в одном и том же месте файла независимо изменились обе ветки кода и система контроля версий не может автоматически выбрать правильный вариант.
апстрим (upstream): Оригинальный открытый проект (здесь — Chromium), на основе которого создан форк; изменения из апстрима периодически переносятся в форк.
форк: Самостоятельная копия открытого проекта, которую команда развивает независимо, добавляя собственные изменения поверх оригинального кода.
контекстное окно: Максимальный объём текста, который языковая модель может обработать за один запрос; при превышении этого лимита качество ответов падает.
авторезолв: Автоматическое разрешение конфликтов кода по заранее заданным правилам, без участия человека.
бенчмарк: Набор тестовых задач с известными правильными ответами, используемый для измерения качества модели или алгоритма.

Яндекс Браузер — не просто сборка открытого Chromium, а крупный форк с собственным слоем изменений: доработки рендеринга, оптимизации движка, уникальные функции. Chromium при этом выпускает новую мажорную версию примерно раз в четыре недели. Каждое такое обновление означает стыковку двух активно развивающихся кодовых баз: около 10 000 коммитов апстрима накладываются на примерно 1500 внутренних изменений Яндекса.

Процесс мерджа устроен в два шага. Сначала снимаются VCS-конфликты — текстовые пересечения правок в одних и тех же файлах. Затем запускается сборка, и здесь всплывает второй класс проблем: изменения API, переименования, удалённые сущности, архитектурные перестройки. Формально код объединён, но компилятор с этим не согласен. Число уникальных ошибок компиляции после мерджа превышает тысячу, а с учётом повторений вырастает в 2–10 раз.

Исторически на ручной разбор конфликтов и починку компиляции уходил почти весь месяц между релизами. В пиковые периоды к работе подключались до 100 разработчиков браузера — значительная часть команды временно откладывала продуктовые задачи. Мердж при этом не отдельный проект, а параллельная нагрузка: инженеров выдёргивают из текущих задач, они переключаются на ветку мерджа, чинят свой участок и возвращаются обратно. Такие переключения снижают фокус, а повторяющийся цикл каждые четыре недели съедает заметную долю ресурсов команды.

Старый авторезолв на регулярных выражениях закрывал лишь половину простейших конфликтов, остальное разбиралось вручную.

Почему не подошли готовые ИИ-ассистенты вроде Cursor или Copilot — вопрос масштаба и контекста одновременно. Интерактивный ассистент работает по схеме «увидел проблему — передал контекст — получил ответ». Для нескольких ошибок этого достаточно, но при сотнях конфликтных файлов человек остаётся в процессе на каждом шаге. Кроме того, по сообщению компилятора или конфликтному фрагменту ассистент видит только локальный код: он не знает, какой коммит Chromium изменил API, зачем в этом месте стоят внутренние изменения Яндекса и какую версию нужно сохранить при объединении. Без обращения к истории изменений корректное решение неочевидно.

Первый наивный подход — скормить модели целый файл и попросить «починить конфликты» — провалился сразу. В Chromium встречаются файлы на 20 000 строк C++. Такой объём просто переполняет контекстное окно модели, и качество ответов резко падает. Команда перешла к локальному контексту конфликта: небольшие файлы подавались целиком, для больших находились блоки с конфликтными маркерами и к ним добавлялось ограниченное число строк до и после — именно этот фрагмент отправлялся в LLM вместе с промптом.

Для обучения модели инженеры собрали реальные кейсы, где старый авторезолв не справлялся, а человек справлялся, и сформировали размеченный набор примеров. Данные разделили на обучающую выборку и бенчмарк. Обучающую выборку разбили на блоки одинакового размера и для каждого блока просили LLM вывести не более десяти обобщённых правил решения конфликтов на основе человеческих резолвов. Такой подход позволяет модели работать не с конкретными примерами, а с извлечёнными паттернами — что важно при пакетной обработке тысяч конфликтов за один цикл.

Архитектурно решение строится как пайплайн, а не как точечный инструмент: поиск конфликтов и ошибок, сбор контекста из репозитория Chromium и внутреннего репозитория Яндекса, генерация правки, проверка результата через сборку или ревью. LLM здесь — один из шагов в автоматизированной цепочке, а не замена разработчику. Основной эффект достигается именно за счёт пакетной обработки и исключения человека из рутинных итераций.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме