Конец апреля ознаменовался появлением репозитория Caveman, который обещал сокращение расхода токенов в разговорах с LLM до 75% за счет стилизации ответа «как у пещерного человека» — без артиклей, короткими фразами. Проект стремительно набрал звезды на GitHub: созданный 4 апреля, уже в первые сутки перешагнул отметку в 1000 звезд, а затем ежедневно получал по 1400–2500 новых звезд. Такой вертикальный рост насторожил многих разработчиков, особенно на фоне нехватки объективных бенчмарков.
Тестирование провели на двух моделях: Claude Opus 4.8 и Claude Sonnet 4.6. Для каждой модели запускалась одна и та же задача — написать игру про огромного робота с видом сверху. Всего было получено четыре варианта игры: с включенным Caveman и без него. Качество оценивалось визуально и по факту работоспособности. Результаты оказались разочаровывающими: игра от Opus 4.8 без Caveman вышла значительно лучше (с прогрессией), тогда как версия с Caveman содержала множество ошибок и геймплейных проблем. Случай с Sonnet 4.6 был еще хуже — игра без скилла работала, а с Caveman и вовсе не запустилась.
| Модель | Использование Caveman? | Токены | Время |
|---|---|---|---|
| Sonnet 4.6 | нет | 42.2k | 16m 12s |
| Sonnet 4.6 | да | 52k | 12m 50s |
| Opus 4.8 | нет | 32.5k | 5m 16s |
| Opus 4.8 | да | 29k | 4m 34s |
Особенно любопытна статистика затрат токенов и времени. Вопреки ожиданиям, на Sonnet 4.6 расход токенов вырос с 42.2k до 52k в первом запуске и до 59.1k — во втором. На Opus 4.8 наблюдалась небольшая экономия (с 32.5k до 29k), но она далека от обещанных 75% и сопровождалась падением качества. Время выполнения на обеих моделях с Caveman сократилось (с 16 до 13 минут на Sonnet, с 5 до 4.5 минут на Opus), что, вероятно, связано с генерацией более коротких ответов, но без реальной пользы.
Автор теста делает вывод: Caveman — очередной «нейрослопный скам». По его мнению, продвижение строится на покупке звезд на GitHub, агрессивной раскрутке в X (Twitter) и SEO-оптимизации под запросы о бенчмарках. Пользователи, ставящие скилл, просто не видят, насколько ухудшились результаты, так как нет бенчмарков в принципе. В качестве альтернативы коллега автора предлагает простое указание «Be brief» в начале системного промпта — это работает не хуже и без потери качества.
Пока репозиторий продолжает набирать звезды, разработчикам стоит критически оценивать подобные «хаки». Эффективная экономия токенов обычно требует более тонкой настройки, а не грубой обрезки ответов через стилизацию.



