Брокерские платформы — от маркетплейсов до логистических сервисов — зарабатывают ровно до тех пор, пока покупатель и продавец общаются через них. Как только стороны обмениваются прямыми контактами и уходят «в офлайн», платформа теряет комиссию, а со временем и саму ценность как посредника. Проблема не нова, но методы её обхода становятся всё изощрённее.
Традиционный инструмент защиты — регулярные выражения (regex). Они хорошо ловят стандартные форматы: номер вида XXX-XXX-XXXX или адрес электронной почты name@company.com. Паттерн `\d{3}-\d{3}-\d{4}` надёжно срабатывает на очевидный американский номер. Но пользователи быстро учатся его обходить. Сообщение «Congratulations. Here are some more details 555inches 555inches 5555inches» — это замаскированный номер телефона, где «inches» используется как разделитель вместо дефиса. Для этого конкретного трюка можно написать специальный паттерн, но завтра появится новый: числа заменят словами, добавят эмодзи, переключатся на leetspeak или рассыплют данные по всему тексту. Поддерживать библиотеку regex в актуальном состоянии становится отдельной инженерной задачей, которая никогда не заканчивается.
| Метод маскировки | Пример из источника | Regex справляется? | Nova Lite справляется? |
|---|---|---|---|
| Стандартный формат номера | 321-555-0177 | Да | Да |
| Псевдоизмерения | 321inches 555inches 0177inches | Только с заранее известным паттерном | Да |
| Эмодзи | :five: :five: :five:-:five: :five: :five:-:zero: :one: :one: :one: | Нет | Да |
| Leetspeak в названии компании | Am@z0n, Inc. | Нет | Да |
| Рассыпанные данные по тексту | Имя + адрес + email в разных частях сообщения | Нет | Да |
Amazon Bedrock предлагает другой подход: вместо набора правил — языковая модель, которая понимает контекст. В AWS Machine Learning Blog описан сценарий с использованием Amazon Nova Lite — одной из моделей семейства Amazon Nova, доступных через Bedrock. Сервис полностью управляемый и serverless: не нужно разворачивать инфраструктуру или вручную обновлять правила детектирования.
Регулярные выражения (regex) справляются со стандартными форматами, но не адаптируются к постоянно меняющимся методам обфускации.

Для демонстрации авторы взяли намеренно сложное сообщение, в котором одновременно присутствуют: очевидный email (tylerh@anycompany.com), название компании в leetspeak (Am@z0n, Inc.), номер телефона через эмодзи (:five: :five: :five:-:five: :five: :five:-:zero: :one: :one: :one:), номер через псевдоизмерения (321inches 555inches 0177inches), физический адрес (410 Terry Avenue North, Seattle, WA 98109), имя и внешность отправителя (Tyler Huehmer, brown hair, 6'2"). При этом в том же тексте есть легитимные габариты посылки — 12"L X 12"W x 6" high under 10 lbs — которые трогать не нужно.
Промпт для Nova Lite формулируется в духе детективного задания: модель должна проанализировать переписку покупателя и продавца и найти все контактные данные, нарушающие политику платформы, — в любом формате, включая эмодзи, leetspeak и другие способы маскировки. Реальные транспортные размеры при этом явно исключаются из проверки. Такой подход позволяет не перечислять все возможные техники обфускации, а описать задачу на уровне намерения — и модель сама адаптируется к новым способам скрыть информацию.
Помимо защитной функции, тот же инструментарий позволяет извлекать бизнес-аналитику из переписки: тональность сообщений, частые запросы, паттерны поведения — всё то, с чем regex принципиально не справляется. Для работы с Amazon Bedrock через консоль AWS нужны активный аккаунт, соответствующие IAM-права и базовое понимание prompt engineering. Playground в консоли позволяет тестировать промпты и сравнивать разные LLM без написания кода.



