20 мая в Москве прошёл Inside ИИ Meetup, организованный Wildberries & Russ. Десять докладов и панельная дискуссия охватили темы, с которыми ML-команды сталкиваются при переходе от экспериментов к промышленной эксплуатации: управление ресурсами, качество поиска, защита LLM от атак и реальная стоимость вывода ИИ-продуктов в прод.

Один из центральных докладов — кейс MWS о RAG-ассистенте для корпоративных менеджеров. Сегодня более 1000 сотрудников готовятся к звонкам вручную, без единого инструмента, что приводит к неточным ответам и потерям в десятках и сотнях миллионов рублей. Команда построила систему на модели QWEN3-8B, эмбеддингах BGE-M3 и гибридном поиске, объединяющем векторный поиск и BM25 через алгоритм RRF. Ключевым элементом качества стал реранкер: докладчики сравнили две его версии — на основе FlagEmbedding и metadata-эвристик — и показали, как один неудачный ранжировщик способен полностью сломать всю систему.

ДокладчикКомпанияТема
Павел РаваевWildberries & RussПрименение ИИ в Wildberries & Russ
Даниил Понизов, Роман ЛазовскийWildberries & RussAIOps-практики: утилизация ресурсов ×1,5 для тысяч ML-сервисов
Владимир СолодкинИнститут ИИ МФТИАвтоматические guardrails с мультиагентным дообучением
Денис СамохваловVKDiscovery-платформа: 10+ продуктов, time-to-market 3 месяца
Антон Костин, Виталий ПодобедовWildberries & RussГенерация текстов и тегов из видео для платформы Wibes
Вадим ВахрушевAvitoЭволюция ML-поиска вакансий на Avito
Дмитрий ЛахвичM2ИИ-платформа для компании среднего размера
Лев НечаевWildberries & RussВекторный поиск: 200+ моделей в одном ансамбле для модерации
Артем Каледин, Александр ШвайкоMWSRAG-ассистент на QWEN3-8B для 1000+ корпоративных менеджеров
Юрий СофроновWildberries & RussЧто на самом деле представляет запуск LLM-продуктов в прод

RAG (Retrieval-Augmented Generation) — архитектура, при которой языковая модель перед генерацией ответа извлекает релевантные фрагменты из базы знаний. Это снижает галлюцинации, но качество ответа напрямую зависит от точности поиска и ранжирования. Именно поэтому выбор реранкера в подобных системах становится критическим инженерным решением.

MWS построили RAG-ассистента на QWEN3-8B и гибридном поиске (Vector + BM25), которым готовятся к звонкам более 1000 корпоративных менеджеров.

Wildberries & Russ представили сразу несколько собственных кейсов. Команда MLOps рассказала о внедрении AIOps-платформы KeepHQ, которая позволила поднять утилизацию ресурсов исследовательского кластера и сотен продовых ML-сервисов в 1,5 раза, а также автоматизировать реагирование на алерты. Отдельный доклад был посвящён векторному поиску в модерации контента: система объединяет более 200 моделей в один ансамбль и снижает time-to-market без дополнительного обучения каждой модели. Для платформы коротких видео Wibes разработан сервис, который генерирует текстовые описания и теги напрямую из аудиовизуального контента — это используется для поиска, модерации и определения тематик каналов.

VK поделилась опытом построения Discovery-платформы — единой инфраструктуры для рекомендаций, поиска и рекламы. Платформа прошла путь от градиентного бустинга к нейроранку, объединила более 10 продуктов и сократила время внедрения новых рекомендаций до 3 месяцев. Codeless-подход и переиспользование готовых пайплайнов позволяют продуктовым командам не писать инфраструктурный код с нуля.

Институт ИИ МФТИ представил мультиагентную систему автоматических guardrails — защитных моделей, которые работают поверх основной LLM и блокируют попытки извлечь запрещённую или компрометирующую информацию. Система в реальном времени анализирует новые векторы атак из научных публикаций и блогов, автоматически дообучает модели защиты и может генерировать новые концепции атак для проверки устойчивости.

Avito рассказала об эволюции поиска вакансий — от отбора кандидатов до переранжирования выдачи для ИИ-ассистента. M2 поделилась опытом развёртывания ИИ-платформы внутри компании среднего размера: как выбирали стек, от чего пришлось отказаться и как не потратить на это миллиарды. Юрий Софронов из Wildberries & Russ разобрал, что на самом деле скрывается за запуском LLM-продукта в прод — в противовес распространённому представлению о том, что достаточно скачать open-source библиотеки и настроить промпты.

Панельная дискуссия с участием Альфа-Банка, Сбера и red_mad_robot затронула вопрос границ между LLM, классическим ML и автоматизацией, а также трансформацию ролей в ML-командах: фокус смещается от обучения моделей к платформам, интеграции и управлению качеством в продакшне. Все записи докладов опубликованы на YouTube и VK.