Amazon закрыл внутренний рейтинг ИИ-активности после того, как сотрудники его накрутили

Amazon отказался от дашборда Kirorank, который оценивал разработчиков по частоте использования ИИ: сотрудники начали запускать агентов на бессмысленные задачи ради строчки в рейтинге, раздувая облачные расходы компании. Вице-президент Дэйв Тредвелл признал, что система создавалась с добрыми намерениями, но привела к обратному эффекту.

Внутренний дашборд Kirorank, который Amazon запустил для платформы Kiro, должен был стимулировать разработчиков активнее работать с ИИ-инструментами. Логика была простой: чем больше взаимодействий с ИИ — тем выше балл сотрудника. На практике система породила классический эффект Гудхарта: когда метрика становится целью, она перестаёт быть хорошей метрикой.

Сотрудники быстро поняли, что проще всего поднять рейтинг, направив ИИ-агентов на заведомо бессмысленные задачи. Агенты работали, токены сгорали, баллы росли — а вместе с ними и расходы на облачную инфраструктуру Amazon. По данным Financial Times, старший вице-президент Дэйв Тредвелл был вынужден обратиться к сотрудникам с прямым призывом: «Пожалуйста, не используйте ИИ ради самого использования ИИ». Он признал, что дашборд создавался с хорошими намерениями, но в итоге породил лишние издержки.

Проблема возникла в неудобный момент. Amazon поставил цель перевести более 80% разработчиков на еженедельное использование ИИ и планирует потратить около 200 млрд долларов в 2026 году — преимущественно на ИИ-инфраструктуру. Накрутка рейтинга не только искажала картину реального внедрения, но и напрямую увеличивала операционные расходы на те самые мощности, в которые компания вкладывает сотни миллиардов.

Сотрудники запускали ИИ-агентов на пустые задачи ради рейтинга, что увеличивало облачные расходы Amazon.

Amazon не одинок в этой проблеме. Аналогичная история произошла в Meta, где сотрудники точно так же гнались за показателями использования ИИ, не заботясь о реальной пользе. Это указывает на системную сложность: корпоративные метрики внедрения ИИ пока не научились отличать продуктивное использование от имитации активности.

В ответ Amazon изменил подход к измерению. Вместо подсчёта сырого потребления токенов компания теперь отслеживает «нормализованные деплои» — ИИ-сгенерированный код, который попал в продакшн и используется. Это принципиально иная логика: метрика привязана к результату, а не к процессу. Для отрасли в целом этот эпизод — наглядное свидетельство того, что количественные KPI внедрения ИИ требуют тщательного проектирования. Простые прокси-метрики вроде числа запросов или токенов легко поддаются оптимизации в обход реальной цели — и крупнейшие технологические компании сейчас учатся на собственных ошибках.

Amazon закрыл внутренний рейтинг ИИ-активности после того, как сотрудники его накрутили

Кратко