Как Kodik строит собственный benchmark для оценки LLM в редакторе кода

Команда Kodik, разрабатывающая ИИ-редактор кода, описала пять системных проблем публичных benchmark'ов — от манипуляций с осями графиков до скрытого финансирования тестов самими вендорами — и рассказала, почему создала KodikBenchmark для внутреннего использования.

Команда Kodik, строящая редактор кода с ИИ, опубликовала разбор системных проблем публичных LLM-benchmark'ов и описала логику собственного инструмента оценки — KodikBenchmark. Авторы выделили пять категорий искажений, которые делают сравнение моделей по официальным цифрам ненадёжным.

Отправной точкой служит наблюдение, знакомое каждому, кто следит за анонсами моделей: вендоры публикуют результаты только тех тестов, где их модель выглядит выигрышно, и замалчивают остальные. Это не прямая ложь, но полной картины не даёт. Поверх этого накладываются визуальные манипуляции — ось Y на графиках нередко начинается не с нуля, отчего разница между 81% и 83% выглядит как трёхкратный разрыв.

Наиболее показательный пример прямого искажения — слайд из презентации GPT-5, где число 52.8 у новой модели визуально подавалось как превышающее 69.1 у предыдущей. Отдельный скандал связан с бенчмарком FrontierMath: когда OpenAI ссылалась на его результаты как на независимую оценку, выяснилось, что создание теста финансировала сама компания. Факт финансирования скрывался, что подорвало доверие сообщества к показателям.

Бенчмарк FrontierMath, который OpenAI использовала для оценки своих моделей, финансировался самой компанией — факт скрывался.

Другая проблема — релевантность. Benchmark'и измеряют конкретные наборы задач, которые могут не совпадать с реальным использованием. Terminal-Bench, например, включает 89 задач — среди них поиск лучшего хода на шахматной доске по картинке. Полезность такого теста для разработчика, пишущего код, неочевидна. Humanity's Last Exam оценивает знания от биологии до математики, GDPval — навыки «популярных профессий». Ни один из них не отвечает напрямую на вопрос «как модель справится с моей задачей».

К этому добавляется data contamination: вопросы и ответы популярных тестов попадают в открытый интернет, затем — в обучающие датасеты новых моделей. Создатели GPQA прямо просят не публиковать примеры из датасета открытым текстом, однако механизма принуждения нет. Наконец, явление benchmaxxing — целенаправленная оптимизация модели под конкретный тест — превращает соревнование в гонку чисел, не отражающую реальные возможности. Андрей Карпатый в своих итогах 2025 года написал, что потерял веру в бенчмарки именно по этой причине.

Kodik противопоставляет этому закрытый внутренний benchmark. Логика простая: если тест не опубликован, вендоры не могут оптимизировать под него модели; если его делает сама команда, нет риска ангажированности; задачи можно подобрать именно те, что отражают реальный сценарий — написание кода. Авторы признают, что создание качественного benchmark'а — нетривиальная задача, где легко случайно измерить не то. Детали методологии KodikBenchmark и результаты конкретных моделей в нём команда обещает раскрыть в продолжении.

Как Kodik строит собственный benchmark для оценки LLM в редакторе кода

Кратко

Читать также

Как ИИ берёт на себя тестирование сотрудников: кейс и готовый промпт

«Архитех ИИ» выпустила российский аналог OpenRouter с защитой персональных данных

Брокман раскрыл долю в OpenAI на $30 млрд — в ходе суда по иску Маска