Инструмент с открытым исходным кодом pxpipe, созданный разработчиком Стивеном Чонгом, решает проблему высокой стоимости токенов для длинных текстовых запросов в моделях семейства Claude и Fable. Он перехватывает запросы к Claude Code и преобразует объёмные статические части — системные промпты, документацию инструментов и историю чата — в PNG-изображения. По данным автора, экономия токенов составляет от 59 до 70 процентов.
Механизм основан на разнице в ценообразовании токенов у Anthropic: текст стоит примерно один токен за символ, а изображения — фиксированное количество токенов в зависимости от размера пикселей, независимо от содержимого. pxpipe упаковывает до 3,1 символа в один токен изображения. Например, системный промпт и документация объёмом около 48 000 символов занимают как текст 25 000 токенов, а как PNG — всего 2 700. В демонстрации с моделью Fable 5 стоимость полной сессии снизилась с $42,21 до $6,06.
| Параметр | Текстовый ввод | Изображение (PNG) |
|---|---|---|
| Объём промпта | 48 000 символов | 48 000 символов |
| Расход токенов | 25 000 токенов | 2 700 токенов |
| Стоимость сессии Fable 5 | $42,21 | $6,06 |
По умолчанию pxpipe поддерживает Claude Fable 5 и GPT 5.6. В бенчмарках Fable 5 показывает 100-процентную точность при чтении текста из изображений, включая задачи с новыми случайными числами. Opus 4.7 и 4.8 ошибаются примерно в 7 процентах случаев, а GPT 5.5 работает ещё хуже, поэтому обе модели отключены по умолчанию и включаются только вручную.
В демонстрации с Fable 5 стоимость сессии упала с $42,21 до $6,06.

Метод имеет ограничения: он является lossy — хеши и точные строки могут читаться с искажениями. Обработка также замедляется, так как модели требуется обрабатывать изображения через энкодер зрения. Тем не менее, сама идея не нова: Deepseek разработал OCR-систему, которая сжимает текстовые документы как изображения в десять раз с сохранением 97 процентов информации.



