Разработчик написал антиспам-бота для Telegram на собственной LSTM-нейросети

Подготовлено редакцией Malakhov AI

Habr AI·28 апр.·2 минРоссияКод

С 25 мая 2025 года в Telegram работает бот @tantispam_bot, построенный на нейросети с архитектурой LSTM и механизмом внимания — автор обучил её на датасете из более чем 25 000 размеченных сообщений, собранных вручную.

Кратко

—Бот классифицирует сообщения как спам или не-спам с помощью собственной LSTM-модели с механизмом внимания.
—Датасет из 25 000+ сообщений собран вручную: парсинг публичных чатов и ручная разметка.
—Два режима работы: стандартный с участием модератора и автоматический с немедленным удалением спама.
—Кнопка «Это не спам» позволяет модераторам пополнять датасет данными о ложных срабатываниях.
—Бот бесплатный и открыт для подключения в любой Telegram-чат.

Глоссарий · 6 терминов▾

LSTM: Long Short-Term Memory — тип рекуррентной нейросети, способный учитывать долгосрочные зависимости в последовательностях текста.
Механизм внимания: Компонент нейросети, позволяющий модели взвешивать важность разных частей входного текста при классификации.
Датасет: Размеченный набор данных, на котором обучается нейросеть: в данном случае — сообщения с метками «спам» или «не спам».
Бинарная классификация: Задача, при которой модель относит каждый объект к одному из двух классов — здесь «спам» или «не спам».
Дообучение: Продолжение обучения уже готовой модели на новых данных, чтобы она лучше справлялась с ранее не встречавшимися случаями.
Ложное срабатывание: Ситуация, когда модель классифицирует обычное сообщение как спам — ошибка первого рода.

Идея появилась в чате автовладельцев: когда встал вопрос о подключении стороннего антиспам-решения, разработчик решил написать своё — заодно протестировав собственную библиотеку для обучения нейросетей. Так появился Telegram Antispam Bot (TAB), который с 25 мая 2025 года работает в реальных чатах.

В основе бота лежит нейросеть на архитектуре LSTM (Long Short-Term Memory) с механизмом внимания. LSTM — класс рекуррентных нейросетей, хорошо улавливающих контекст в последовательностях текста. Добавление механизма внимания приближает архитектуру к трансформерам, но требует значительно меньше вычислительных ресурсов — что принципиально важно при обучении на домашнем железе. Готовые модели с Hugging Face автор намеренно не использовал: задача бинарной классификации коротких сообщений не требует тяжёлых LLM, а собственная архитектура даёт полный контроль над процессом обучения.

Самой трудоёмкой частью оказался сбор данных. Готовых актуальных датасетов по русскоязычному телеграм-спаму не нашлось, поэтому автор парсил публичные чаты, барахолки и обменники валют, вручную размечая тысячи сообщений. Сейчас датасет насчитывает более 25 000 примеров. Чтобы ускорить пополнение, в интерфейс бота добавили кнопку «✅ Это не спам»: нажатие модератора автоматически отправляет сообщение в датасет с меткой ложного срабатывания — модель дообучается на реальных ошибках.

Датасет из 25 000+ сообщений собран вручную: парсинг публичных чатов и ручная разметка.

Telegram Antispam Bot (TAB) · Источник: Habr AI

Бот поддерживает два режима. В стандартном режиме нейросеть оценивает каждое сообщение: если оно классифицировано как спам и отправитель уже есть в базе спамеров, бот удаляет сообщение и банит пользователя автоматически. Если пользователь в базе не числится — бот помечает сообщение и вызывает модератора. Решение модератора сохраняется для дообучения. В автоматическом режиме спам удаляется сразу, бан следует только при совпадении двух условий: нейросеть распознала спам и пользователь уже в базе.

Отдельная проблема — обход фильтров. Спамеры подменяют кириллические буквы визуально похожими латинскими или греческими символами («нyжны» с латинской y, «вαс» с греческой α), вставляют пробелы между буквами, меняют контекст и подачу сообщений. Автор признаёт, что это постоянная гонка: модель приходится дообучать по мере появления новых приёмов. В планах — автоматизация разметки и публичный дашборд со статистикой в реальном времени.

Проект остаётся пет-проектом: бот бесплатный, доступен по адресу @tantispam_bot, для подключения достаточно добавить его в группу и выдать права администратора на удаление сообщений и бан пользователей.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Разработчик написал антиспам-бота для Telegram на собственной LSTM-нейросети

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США