FinTRACE: как Sber ИИ Lab превращает историю платежей в базу знаний для LLM

Подготовлено редакцией Malakhov AI

Habr AI·2 дня назад·2 минРоссияКод

Исследователи Sber ИИ Lab представили FinTRACE — метод построения структурированной базы знаний из транзакций, который позволяет языковым моделям анализировать платёжное поведение на уровне специализированных моделей без дорогостоящей разметки. Работа принята на конференцию SIGIR 2026.

Кратко

—LLM в задаче анализа транзакций достигают потолка 0,30 MCC, в то время как специализированные модели (CatBoost, TabPFN) — 0,48.
—FinTRACE строит трехуровневую базу знаний: сырые фичи, поведенческие паттерны и портреты клиентов.
—Метод не требует дообучения модели, достаточно переработать формат входных данных в промпте.
—Подход основан на нейросимвольном представлении: связи между показателями задаются явно, а не через текст.

Глоссарий · 5 терминов▾

MCC: Коэффициент корреляции Мэтьюса — метрика качества бинарной классификации, устойчивая к дисбалансу классов.
Knowledge Base (KB): Структурированный набор данных, организованный по семантическим слоям, в котором явно заданы связи между элементами.
Feature essence: Числовая характеристика, вычисленная непосредственно из последовательности транзакций (например, дисперсия сумм).
Behavioral pattern: Интерпретируемый признак более высокого уровня, собираемый из комбинации feature essences (например, финансовая стабильность).
POS: Point of Sale — терминал оплаты в магазине.

Исследователи из Sber ИИ Lab (тимлид Дмитрий Валов) представили работу FinTRACE, посвящённую анализу банковских транзакций с помощью больших языковых моделей. Основная проблема в том, что LLM плохо справляются с сырыми платёжными данными: если просто скормить модели таблицу с датами, суммами и кодами категорий, её точность (MCC) не превышает 0,30, тогда как специализированные модели вроде CatBoost или TabPFN показывают 0,48. Разрыв возникает из-за того, что транзакции содержат предсказательный сигнал не в словах, а в закономерностях — регулярности, дисперсии, концентрации категорий. Коды категорий и идентификаторы мерчантов у каждого банка свои и не несут устойчивого лингвистического смысла.

Ключевая гипотеза FinTRACE заключается в том, что модель не умеет работать с транзакциями не из-за недостатка генерации, а из-за отсутствия структурированного представления, где связи между показателями были бы явно прописаны. Вместо сериализации сырой таблицы в текст авторы строят базу знаний (KB), организованную в три слоя. Первый слой — сырые показатели (feature essences): средний интервал между операциями, дисперсия сумм, энтропия категорий и так далее. Второй слой собирает из этих фич интерпретируемые поведенческие паттерны — например, финансовая стабильность или поведенческая лояльность. Третий слой — портреты клиентов, которые уже можно напрямую подавать в задачу оттока или кредитного риска.

Метод	MCC
LLM (готовые, 0/4/16 примеров)	0,30
Специализированные модели (TabPFN, CatBoost, CoLES)	0,48

Такой подход позволяет избежать дообучения модели на размеченных тысячах примеров. Новые источники данных достаточно описать на уровне фич или паттернов, и модель на инференсе сможет их использовать через обновлённый промпт. Авторы утверждают, что при такой организации данных LLM сокращают разрыв с узкоспециализированными моделями, сохраняя гибкость языкового интерфейса. Работа принята на конференцию SIGIR 2026, что подтверждает интерес академического сообщества к нейросимвольным методам для финансовых данных.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ