Идея появилась в чате автовладельцев: когда встал вопрос о подключении стороннего антиспам-решения, разработчик решил написать своё — заодно протестировав собственную библиотеку для обучения нейросетей. Так появился Telegram Antispam Bot (TAB), который с 25 мая 2025 года работает в реальных чатах.

В основе бота лежит нейросеть на архитектуре LSTM (Long Short-Term Memory) с механизмом внимания. LSTM — класс рекуррентных нейросетей, хорошо улавливающих контекст в последовательностях текста. Добавление механизма внимания приближает архитектуру к трансформерам, но требует значительно меньше вычислительных ресурсов — что принципиально важно при обучении на домашнем железе. Готовые модели с Hugging Face автор намеренно не использовал: задача бинарной классификации коротких сообщений не требует тяжёлых LLM, а собственная архитектура даёт полный контроль над процессом обучения.

Самой трудоёмкой частью оказался сбор данных. Готовых актуальных датасетов по русскоязычному телеграм-спаму не нашлось, поэтому автор парсил публичные чаты, барахолки и обменники валют, вручную размечая тысячи сообщений. Сейчас датасет насчитывает более 25 000 примеров. Чтобы ускорить пополнение, в интерфейс бота добавили кнопку «✅ Это не спам»: нажатие модератора автоматически отправляет сообщение в датасет с меткой ложного срабатывания — модель дообучается на реальных ошибках.

Датасет из 25 000+ сообщений собран вручную: парсинг публичных чатов и ручная разметка.

Telegram Antispam Bot (TAB)
Telegram Antispam Bot (TAB) · Источник: Habr AI

Бот поддерживает два режима. В стандартном режиме нейросеть оценивает каждое сообщение: если оно классифицировано как спам и отправитель уже есть в базе спамеров, бот удаляет сообщение и банит пользователя автоматически. Если пользователь в базе не числится — бот помечает сообщение и вызывает модератора. Решение модератора сохраняется для дообучения. В автоматическом режиме спам удаляется сразу, бан следует только при совпадении двух условий: нейросеть распознала спам и пользователь уже в базе.

Отдельная проблема — обход фильтров. Спамеры подменяют кириллические буквы визуально похожими латинскими или греческими символами («нyжны» с латинской y, «вαс» с греческой α), вставляют пробелы между буквами, меняют контекст и подачу сообщений. Автор признаёт, что это постоянная гонка: модель приходится дообучать по мере появления новых приёмов. В планах — автоматизация разметки и публичный дашборд со статистикой в реальном времени.

Проект остаётся пет-проектом: бот бесплатный, доступен по адресу @tantispam_bot, для подключения достаточно добавить его в группу и выдать права администратора на удаление сообщений и бан пользователей.