Игорь Дмитриев, Data Business Partner в Wildberries & Russ, опубликовал на Habr подробный разбор того, как LLM встраивается в процессы сопровождения данных — и при каких условиях это действительно работает. Центральная идея: не любые данные готовы к потреблению ИИ, и степень этой готовности можно измерить.
Проблема, которую решает автор, хорошо знакома крупным организациям. Когда таблиц сотни тысяч, ручное описание метаданных физически не успевает за темпом создания новых объектов. Дмитриев описывает конкретный случай: ТЗ на аналитический отчёт включало более 100 источников, при этом в организации не было нормального бизнес-каталога. Задача просто собрать актуальный список нужных таблиц превратилась, по его словам, в «детективный квест». Параллельно существует риск расхождения показателей: один и тот же бизнес-параметр, посчитанный по-разному в разных витринах, привёл к тому, что высшему руководству легли на стол два отчёта с несовпадающими цифрами за один период.
Для классификации уровней зрелости автор использует метафору степеней прожарки стейка. Уровень Rare — минимальный: данные можно безопасно распространять, есть владелец, физическая модель и разметка конфиденциальности. Medium — данные уже пригодны для работы аналитиков, описание можно подгружать в LLM, и модель начинает работать в режиме второго пилота. Well-Done — данные готовы к потреблению ИИ-агентом: модель самостоятельно ходит в любую базу организации и сразу выдаёт инсайт и SQL-запрос.
На уровне Rare LLM помогает автоматически расшифровывать названия таблиц и столбцов через Naming Convention, а также обогащать метаданные через RAG и MCP-серверы.
На уровне Rare ключевую роль играют три атрибута. Физическая модель — каркас из системных таблиц — должна извлекаться полностью автоматически через коннекторы дата-каталогов, таких как DataHub или OpenMetadata. Если поля description пустые, LLM восстанавливает их, опираясь на Naming Convention или обращаясь к корпоративным базам знаний через RAG и MCP-серверы. Владелец данных автоматизируется слабо: ИИ может предложить кандидата по бизнес-домену, но назначение ответственности всегда остаётся ручным и декларативным. Разметка конфиденциальности — по оценке автора, важнейшая точка применения LLM на старте. Алгоритм анализирует метаданные: названия таблиц, столбцов, бизнес-термины — и проставляет теги классов информационной безопасности, не обращаясь к самим данным. Дмитриев оговаривается, что для полноценной DLP-системы этого недостаточно и нужен второй метод — сканирование по сигнатурам внутри данных, — однако первый подход уже существенно повышает уровень защиты при значительно меньших трудозатратах.
Контекст для этих решений задаёт регуляторная среда: оборотные штрафы за утечки персональных данных достигают 3% от годовой выручки. При этом закрытие доступа к неразмеченным данным — тоже не выход: потребители не получают данные, процессы останавливаются, бизнес теряет деньги. Автоматическая разметка снимает это противоречие.
Уровень Medium вводит логический слой — абстракцию над физической моделью. Если физическая модель описывает, как данные хранятся (таблица clients_v2_f, колонка c_inn), то логический слой переводит это в бизнес-язык: сущность «Клиент», атрибут «ИНН». Этот слой скрывает технические детали — системные префиксы, сложные джойны, партиционирование — и делает данные понятными для бизнес-пользователей без постоянных вопросов в чатах. Именно на этом уровне LLM начинает работать как полноценный второй пилот, а не просто инструмент восстановления описаний.


