Caveman не работает: тест показал рост токенов и падение качества у некоторых моделей

Репозиторий Caveman, созданный 4 апреля, за сутки набрал более 1000 звезд, обещая экономию токенов до 75% без потери качества. Автор блога на Habr провел собственное тестирование скилла на Claude Opus 4.8 и Sonnet 4.6 и не подтвердил заявленных результатов.

Конец апреля ознаменовался появлением репозитория Caveman, который обещал сокращение расхода токенов в разговорах с LLM до 75% за счет стилизации ответа «как у пещерного человека» — без артиклей, короткими фразами. Проект стремительно набрал звезды на GitHub: созданный 4 апреля, уже в первые сутки перешагнул отметку в 1000 звезд, а затем ежедневно получал по 1400–2500 новых звезд. Такой вертикальный рост насторожил многих разработчиков, особенно на фоне нехватки объективных бенчмарков.

Тестирование провели на двух моделях: Claude Opus 4.8 и Claude Sonnet 4.6. Для каждой модели запускалась одна и та же задача — написать игру про огромного робота с видом сверху. Всего было получено четыре варианта игры: с включенным Caveman и без него. Качество оценивалось визуально и по факту работоспособности. Результаты оказались разочаровывающими: игра от Opus 4.8 без Caveman вышла значительно лучше (с прогрессией), тогда как версия с Caveman содержала множество ошибок и геймплейных проблем. Случай с Sonnet 4.6 был еще хуже — игра без скилла работала, а с Caveman и вовсе не запустилась.

Модель	Использование Caveman?	Токены	Время
Sonnet 4.6	нет	42.2k	16m 12s
Sonnet 4.6	да	52k	12m 50s
Opus 4.8	нет	32.5k	5m 16s
Opus 4.8	да	29k	4m 34s

Особенно любопытна статистика затрат токенов и времени. Вопреки ожиданиям, на Sonnet 4.6 расход токенов вырос с 42.2k до 52k в первом запуске и до 59.1k — во втором. На Opus 4.8 наблюдалась небольшая экономия (с 32.5k до 29k), но она далека от обещанных 75% и сопровождалась падением качества. Время выполнения на обеих моделях с Caveman сократилось (с 16 до 13 минут на Sonnet, с 5 до 4.5 минут на Opus), что, вероятно, связано с генерацией более коротких ответов, но без реальной пользы.

Автор теста делает вывод: Caveman — очередной «нейрослопный скам». По его мнению, продвижение строится на покупке звезд на GitHub, агрессивной раскрутке в X (Twitter) и SEO-оптимизации под запросы о бенчмарках. Пользователи, ставящие скилл, просто не видят, насколько ухудшились результаты, так как нет бенчмарков в принципе. В качестве альтернативы коллега автора предлагает простое указание «Be brief» в начале системного промпта — это работает не хуже и без потери качества.

Пока репозиторий продолжает набирать звезды, разработчикам стоит критически оценивать подобные «хаки». Эффективная экономия токенов обычно требует более тонкой настройки, а не грубой обрезки ответов через стилизацию.

Caveman не работает: тест показал рост токенов и падение качества у некоторых моделей

Кратко

Читать дальше

7 месяцев вайбкодинга: один разработчик, семь проектов и 3 тысячи пользователей

«Мои слова должны быть моими»: Хэнк Грин о нездоровом использовании ИИ

Червь для Microsoft Copilot распространяется через скрытый текст в документах Word