20 мая в Москве прошёл Inside ИИ Meetup, организованный Wildberries & Russ. Десять докладов и панельная дискуссия охватили темы, с которыми ML-команды сталкиваются при переходе от экспериментов к промышленной эксплуатации: управление ресурсами, качество поиска, защита LLM от атак и реальная стоимость вывода ИИ-продуктов в прод.
Один из центральных докладов — кейс MWS о RAG-ассистенте для корпоративных менеджеров. Сегодня более 1000 сотрудников готовятся к звонкам вручную, без единого инструмента, что приводит к неточным ответам и потерям в десятках и сотнях миллионов рублей. Команда построила систему на модели QWEN3-8B, эмбеддингах BGE-M3 и гибридном поиске, объединяющем векторный поиск и BM25 через алгоритм RRF. Ключевым элементом качества стал реранкер: докладчики сравнили две его версии — на основе FlagEmbedding и metadata-эвристик — и показали, как один неудачный ранжировщик способен полностью сломать всю систему.
| Докладчик | Компания | Тема |
|---|---|---|
| Павел Раваев | Wildberries & Russ | Применение ИИ в Wildberries & Russ |
| Даниил Понизов, Роман Лазовский | Wildberries & Russ | AIOps-практики: утилизация ресурсов ×1,5 для тысяч ML-сервисов |
| Владимир Солодкин | Институт ИИ МФТИ | Автоматические guardrails с мультиагентным дообучением |
| Денис Самохвалов | VK | Discovery-платформа: 10+ продуктов, time-to-market 3 месяца |
| Антон Костин, Виталий Подобедов | Wildberries & Russ | Генерация текстов и тегов из видео для платформы Wibes |
| Вадим Вахрушев | Avito | Эволюция ML-поиска вакансий на Avito |
| Дмитрий Лахвич | M2 | ИИ-платформа для компании среднего размера |
| Лев Нечаев | Wildberries & Russ | Векторный поиск: 200+ моделей в одном ансамбле для модерации |
| Артем Каледин, Александр Швайко | MWS | RAG-ассистент на QWEN3-8B для 1000+ корпоративных менеджеров |
| Юрий Софронов | Wildberries & Russ | Что на самом деле представляет запуск LLM-продуктов в прод |
RAG (Retrieval-Augmented Generation) — архитектура, при которой языковая модель перед генерацией ответа извлекает релевантные фрагменты из базы знаний. Это снижает галлюцинации, но качество ответа напрямую зависит от точности поиска и ранжирования. Именно поэтому выбор реранкера в подобных системах становится критическим инженерным решением.
MWS построили RAG-ассистента на QWEN3-8B и гибридном поиске (Vector + BM25), которым готовятся к звонкам более 1000 корпоративных менеджеров.
Wildberries & Russ представили сразу несколько собственных кейсов. Команда MLOps рассказала о внедрении AIOps-платформы KeepHQ, которая позволила поднять утилизацию ресурсов исследовательского кластера и сотен продовых ML-сервисов в 1,5 раза, а также автоматизировать реагирование на алерты. Отдельный доклад был посвящён векторному поиску в модерации контента: система объединяет более 200 моделей в один ансамбль и снижает time-to-market без дополнительного обучения каждой модели. Для платформы коротких видео Wibes разработан сервис, который генерирует текстовые описания и теги напрямую из аудиовизуального контента — это используется для поиска, модерации и определения тематик каналов.
VK поделилась опытом построения Discovery-платформы — единой инфраструктуры для рекомендаций, поиска и рекламы. Платформа прошла путь от градиентного бустинга к нейроранку, объединила более 10 продуктов и сократила время внедрения новых рекомендаций до 3 месяцев. Codeless-подход и переиспользование готовых пайплайнов позволяют продуктовым командам не писать инфраструктурный код с нуля.
Институт ИИ МФТИ представил мультиагентную систему автоматических guardrails — защитных моделей, которые работают поверх основной LLM и блокируют попытки извлечь запрещённую или компрометирующую информацию. Система в реальном времени анализирует новые векторы атак из научных публикаций и блогов, автоматически дообучает модели защиты и может генерировать новые концепции атак для проверки устойчивости.
Avito рассказала об эволюции поиска вакансий — от отбора кандидатов до переранжирования выдачи для ИИ-ассистента. M2 поделилась опытом развёртывания ИИ-платформы внутри компании среднего размера: как выбирали стек, от чего пришлось отказаться и как не потратить на это миллиарды. Юрий Софронов из Wildberries & Russ разобрал, что на самом деле скрывается за запуском LLM-продукта в прод — в противовес распространённому представлению о том, что достаточно скачать open-source библиотеки и настроить промпты.
Панельная дискуссия с участием Альфа-Банка, Сбера и red_mad_robot затронула вопрос границ между LLM, классическим ML и автоматизацией, а также трансформацию ролей в ML-командах: фокус смещается от обучения моделей к платформам, интеграции и управлению качеством в продакшне. Все записи докладов опубликованы на YouTube и VK.
