Утром обнаружить в чате 127 непрочитанных сообщений и потратить десять минут на восстановление контекста — ситуация, знакомая большинству активных пользователей Telegram. Разработчик под именем Ян решил автоматизировать этот процесс и опубликовал бота @ContextChatAiBot с открытым исходным кодом на GitHub.

Бот выполняет две функции. Первая — периодическая суммаризация: крон-задача собирает накопившиеся сообщения и отправляет выжимку либо в сам чат, либо подписчикам в личные сообщения. Вторая — встроенный ИИ-ассистент: команда /ask_ai передаёт вопрос модели DeepSeek-V3.2 и возвращает ответ прямо в беседу, без необходимости переключаться в браузер или отдельное приложение.

СообщенийЦена
50$0.00019
100$0.00038
200$0.00076
500$0.0019
1 000$0.0038

Ключевое архитектурное решение — так называемые «кирпичи» (Brick Context). Каждые 50 сообщений языковая модель сжимает в короткий промежуточный контекст. Когда нужно сделать суточное саммари из 200 сообщений, система складывает четыре таких кирпича и передаёт их модели вместе с итоговым промптом. Подход решает известную проблему LLM: при очень длинном контексте модели хуже удерживают информацию из середины — явление, которое в исследовательской литературе называют Lost in the Middle.

Из пяти протестированных локальных моделей лучший результат на русском языке показала YandexGPT-5-Lite в формате GGUF-квант.

Разработчик написал Telegram-бота для саммари чатов на YandexGPT-5-Lite и DeepSeek
· Источник: Habr AI

Перед выбором модели автор провёл нагрузочное тестирование: через ChatGPT сгенерировал 300 случайных сообщений для трёх тематических чатов и прогнал суммаризацию на выборках по 50, 100, 200 и 300 сообщений. Тестировались пять локальных моделей через клиент Ollama: Qwen 2.5 периодически отвечал на китайском, Llama 3 8B переключалась на английский, Saiga YandexGPT 8B уходила в длинные рассуждения, T-Lite-it-2.1 иногда не возвращала результат вовсе. YandexGPT-5-Lite в формате GGUF-квант показала наиболее стабильное следование промпту на русском языке, хотя и с редкими галлюцинациями.

Для продакшн-хостинга моделей автор выбрал RunPod с оплатой по факту использования. Обработка 50 сообщений обходится в $0,00019, 200 сообщений — в $0,00076, а весь трафик 10 000 чатов с суммарным объёмом 5 миллионов сообщений в месяц — около $19. Для сравнения: аналогичный объём через API GPT-4o mini стоил бы порядка $400. Стек проекта — PHP с фреймворком Symfony, очереди на RabbitMQ, хранилище на PostgreSQL.

Подобные инструменты для суммаризации мессенджеров существуют и в коммерческом сегменте, однако большинство из них либо требуют подписки, либо не поддерживают русскоязычные чаты на приемлемом уровне. Открытая реализация с возможностью самостоятельного хостинга и выбора модели закрывает нишу для разработчиков, которым важен контроль над данными и стоимостью.