МТС создала систему Метан: ИИ-интерфейс к 500 тысячам таблиц данных

Подготовлено редакцией Malakhov AI

Habr AI·18 мая·3 минРоссияКод

МТС пилотирует систему Метан, которая позволяет аналитикам получать SQL-запросы к корпоративному хранилищу через диалог на естественном языке — без ручного поиска по каталогу из 500 тысяч таблиц. Система объединяет накопленную экспертизу по data governance с возможностями LLM для построения семантического слоя над данными.

Кратко

—В дата-каталоге МТС зарегистрировано более 500 тысяч таблиц, с которыми ежедневно работают сотни специалистов.
—Система Метан состоит из двух компонентов: тулкита для полуавтоматической генерации метаданных и чата для навигации по данным.
—Поиск данных разбит на три этапа — «Что?», «Где?», «Как?» — с использованием семантического сопоставления, графового поиска и LLM.
—Семантический слой AIMeta описывает предметную область на четырёх уровнях: продукт, термины, таблицы и поля.
—Типизация объектов онтологии позволяет агенту автоматически применять бизнес-правила — например, агрегировать метрики через SUM без явного указания.

Глоссарий · 7 терминов▾

Data governance: Система управления данными в организации: правила, роли и процессы, обеспечивающие качество, доступность и согласованность данных.
Семантический слой: Промежуточный уровень описания данных, который переводит бизнес-термины в физические структуры хранилища и позволяет задавать вопросы на понятном пользователю языке.
Онтология: Формальное описание предметной области через сущности, их свойства и связи между ними — используется для структурирования знаний о данных.
LLM: Large Language Model — большая языковая модель, обученная на текстах и способная генерировать, анализировать и преобразовывать текст, в том числе писать SQL-запросы.
Lineage: Граф происхождения данных: показывает, откуда взялись данные в таблице, через какие трансформации прошли и куда используются дальше.
Гранулярность: Уровень детализации данных в таблице — например, данные могут быть агрегированы по дням, месяцам или храниться на уровне отдельных событий.
Golden set: Набор эталонных примеров запросов, используемых для обучения и оценки качества ИИ-системы.

В Data Office МТС накоплен дата-каталог из более чем 500 тысяч таблиц. Сотни аналитиков и инженеров данных ежедневно ищут в нём нужные источники — но каталог хорошо отвечает на вопрос «что в этой таблице», а не «какие данные мне нужны для этой задачи». Разрыв между бизнес-вопросом и физической структурой хранилища аналитики закрывали вручную: изучали документацию, консультировались с коллегами. Система Метан, которую команда сейчас пилотирует, пытается автоматизировать этот путь.

Метан состоит из двух частей. Метан-тулкит полуавтоматически строит так называемый семантический слой AIMeta — структурированное описание данных, понятное языковой модели. Метан-чат использует этот слой как основу для диалога: принимает вопрос на естественном языке, находит нужные термины и таблицы, генерирует SQL и объясняет каждое принятое решение.

Тип сущности	Описание	Примеры типов элементов
Fact	События, транзакции	Key, Timekey, Measure
Masterdata	Объекты предметной области	Key, Title, Attribute
Dictionary	Классификаторы и справочники	Key, Title, Attribute

Ключевая архитектурная идея — разделение описания данных на два уровня. Уровень знаний (онтология) содержит термины предметной области: «количество уникальных абонентов», «дата начала периода», «название приложения» — с определениями, синонимами и правилами использования. Уровень данных (физика) — конкретные таблицы и поля. Один термин может быть реализован в нескольких таблицах с разной гранулярностью и глубиной хранения. Такое разделение логического и физического уровней существует в теории data governance давно, но Метан использует его как основу для работы ИИ-агента.

Система Метан состоит из двух компонентов: тулкита для полуавтоматической генерации метаданных и чата для навигации по данным.

Диалог в Метан-чате проходит три этапа. На этапе «Что?» агент анализирует запрос и определяет, какие термины онтологии в нём упоминаются, предлагая пользователю подтвердить понимание. На этапе «Где?» — подбирает подходящие таблицы и ранжирует их, объясняя выбор. На этапе «Как?» — генерирует SQL с комментариями: какие допущения сделаны, какие фильтры добавлены и почему. Пользователь может скорректировать набор терминов, выбрать другую таблицу или уточнить условия на любом шаге. Для каждого этапа используется своя технология: семантическое сопоставление для поиска терминов, графовый поиск для навигации по связям между объектами, LLM для генерации и ранжирования.

Семантический слой AIMeta описывает предметную область на четырёх уровнях: продукт (общие правила и контекст), термины (суть данных), таблицы (гранулярность, периодичность, сочетание полей) и поля (маппинг на термины). Структура задаётся через YAML-манифест. Каждый объект онтологии получает тип: сущности делятся на Fact, Masterdata и Dictionary, а их элементы — на Key, Timekey, Title, Measure и Attribute. Типизация позволяет агенту автоматически применять правила: встретив Measure, он знает, что нужна агрегация через SUM; встретив Timekey у факта — фильтрует по периоду. Правила описываются один раз и применяются автоматически во всех таблицах, где встречается данный тип.

Создать семантический слой вручную для сотен таблиц невозможно, поэтому Метан-тулкит генерирует его полуавтоматически. Входные материалы — Confluence-страницы продуктов, дата-каталог, справочники значений, lineage, логи SQL-запросов и задачи аналитиков. Из логов запросов извлекается метаинформация: алиасы, джойны, текстовые условия, востребованность полей. На основе топ-30 популярных типов SQL-запросов формируется так называемый golden set — эталонные запросы и их аналоги на естественном языке, которые используются для обучения и оценки системы.

Подход МТС вписывается в более широкий тренд на построение семантических слоёв над корпоративными хранилищами — аналогичные задачи решают инструменты вроде dbt Semantic Layer или коммерческие платформы типа AtScale. Отличие Метана — глубокая интеграция с внутренней онтологией и ставка на типизацию как механизм переноса бизнес-правил в контекст ИИ-агента. Система находится на стадии пилота, и команда продолжает собирать обратную связь от пользователей.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ