Брокерские платформы — от маркетплейсов до логистических сервисов — зарабатывают ровно до тех пор, пока покупатель и продавец общаются через них. Как только стороны обмениваются прямыми контактами и уходят «в офлайн», платформа теряет комиссию, а со временем и саму ценность как посредника. Проблема не нова, но методы её обхода становятся всё изощрённее.

Традиционный инструмент защиты — регулярные выражения (regex). Они хорошо ловят стандартные форматы: номер вида XXX-XXX-XXXX или адрес электронной почты name@company.com. Паттерн `\d{3}-\d{3}-\d{4}` надёжно срабатывает на очевидный американский номер. Но пользователи быстро учатся его обходить. Сообщение «Congratulations. Here are some more details 555inches 555inches 5555inches» — это замаскированный номер телефона, где «inches» используется как разделитель вместо дефиса. Для этого конкретного трюка можно написать специальный паттерн, но завтра появится новый: числа заменят словами, добавят эмодзи, переключатся на leetspeak или рассыплют данные по всему тексту. Поддерживать библиотеку regex в актуальном состоянии становится отдельной инженерной задачей, которая никогда не заканчивается.

Метод маскировкиПример из источникаRegex справляется?Nova Lite справляется?
Стандартный формат номера321-555-0177ДаДа
Псевдоизмерения321inches 555inches 0177inchesТолько с заранее известным паттерномДа
Эмодзи:five: :five: :five:-:five: :five: :five:-:zero: :one: :one: :one:НетДа
Leetspeak в названии компанииAm@z0n, Inc.НетДа
Рассыпанные данные по текстуИмя + адрес + email в разных частях сообщенияНетДа

Amazon Bedrock предлагает другой подход: вместо набора правил — языковая модель, которая понимает контекст. В AWS Machine Learning Blog описан сценарий с использованием Amazon Nova Lite — одной из моделей семейства Amazon Nova, доступных через Bedrock. Сервис полностью управляемый и serverless: не нужно разворачивать инфраструктуру или вручную обновлять правила детектирования.

Регулярные выражения (regex) справляются со стандартными форматами, но не адаптируются к постоянно меняющимся методам обфускации.

Как Amazon Bedrock защищает брокерские платформы от утечки сделок в обход системы
· Источник: AWS Machine Learning Blog

Для демонстрации авторы взяли намеренно сложное сообщение, в котором одновременно присутствуют: очевидный email (tylerh@anycompany.com), название компании в leetspeak (Am@z0n, Inc.), номер телефона через эмодзи (:five: :five: :five:-:five: :five: :five:-:zero: :one: :one: :one:), номер через псевдоизмерения (321inches 555inches 0177inches), физический адрес (410 Terry Avenue North, Seattle, WA 98109), имя и внешность отправителя (Tyler Huehmer, brown hair, 6'2"). При этом в том же тексте есть легитимные габариты посылки — 12"L X 12"W x 6" high under 10 lbs — которые трогать не нужно.

Промпт для Nova Lite формулируется в духе детективного задания: модель должна проанализировать переписку покупателя и продавца и найти все контактные данные, нарушающие политику платформы, — в любом формате, включая эмодзи, leetspeak и другие способы маскировки. Реальные транспортные размеры при этом явно исключаются из проверки. Такой подход позволяет не перечислять все возможные техники обфускации, а описать задачу на уровне намерения — и модель сама адаптируется к новым способам скрыть информацию.

Помимо защитной функции, тот же инструментарий позволяет извлекать бизнес-аналитику из переписки: тональность сообщений, частые запросы, паттерны поведения — всё то, с чем regex принципиально не справляется. Для работы с Amazon Bedrock через консоль AWS нужны активный аккаунт, соответствующие IAM-права и базовое понимание prompt engineering. Playground в консоли позволяет тестировать промпты и сравнивать разные LLM без написания кода.