Дата-сайентист Lamoda Tech Артём Нигоян описал на Habr, как команда строила ИИ-стилиста с нуля — от идеи до интеграции в мобильное приложение. Продукт прошёл три итерации за полгода: в начале третьего квартала 2025 года появился Magic Search — чат-бот в Telegram, который переводил сложные запросы в поисковые строки, но не поддерживал диалог. К концу того же квартала вышел v1-агент с аргументацией выбора и обработкой уточнений по цвету, бренду и цене. В конце декабря 2025 года полноценный диалоговый ассистент появился в приложении Lamoda.

Отправной точкой стала проблема, знакомая любому e-commerce: стандартный поисковый движок хорошо находит «белые кроссовки Nike 42-го размера», но пасует перед «образом в стиле барбикор» или «луком на гендер-пати». Команда проверила, справятся ли с этим готовые проприетарные модели. Эксперимент оказался показательным: популярная нейросеть собрала описание образа в стиле Джейсона Стетхема и предложила ссылки на Lamoda, но почти все они оказались нерабочими. Единственная рабочая ссылка вела на женские джинсовые шорты вместо мужских джинсов.

ПодходЮридическая защитаОтказоустойчивостьГибкость дообученияСтоимость при масштабировании
Готовое решение вне РФНизкаяНизкая (риски блокировок)Низкая (только системный промпт)Высокая (оплата за токены)
Готовое решение в РФВысокаяВысокая (нет блокировок)Низкая (только системный промпт)Высокая (оплата за токены)
Собственное решениеМаксимальнаяМаксимальная (внутренний контур)Высокая (дообучение и обратная связь)Средняя (компромисс достижим)

Помимо качества, команда оценила три сценария по ключевым критериям: готовое решение вне РФ, российский аналог и собственная разработка. Зарубежные модели получили низкую оценку по юридической защите и отказоустойчивости из-за риска блокировок. Российские решения закрывают вопрос доступности, но не дают полного контроля над данными и ограничены в гибкости — управление только через системный промпт. Собственная модель на open-source чекпоинте с коммерческой лицензией позволяет дообучаться на обратной связи, держать данные внутри контура и снизить стоимость при масштабировании — вместо оплаты за каждый токен.

Для обучения использовали GPU A100 80 ГБ и около 11 тысяч примеров — реальных запросов и синтетических данных.

Обучающую выборку из примерно 11 тысяч примеров собирали двумя способами. Первый — реальные запросы: коллег из Lamoda попросили тестировать прототип, а из поисковых логов приложения отобрали запросы с короткой выдачей или низкой конверсией в корзину. Среди них — «ремень цепочка», «образ на гендер-пати», «утро невесты». Второй способ — синтетика: другая LLM генерировала профайли пользователей с указанием гендера, возраста, профессии, увлечений и стиля общения, а затем для каждого персонажа создавались эталонные ответы. Например, для запроса «образ в стиле Джеймса Бонда» модель должна была выдать поисковые строки вида «чёрный смокинг приталенный», «туфли оксфорды чёрные кожа».

Для обучения использовали видеокарту A100 на 80 ГБ. Тестировали модели двух классов: для 4b и 8b проводили файнтюнинг всех весов, для 14b обучали только LoRA-адаптер с rank и alpha равными 384. Качество оценивала модель-судья GPT-4o по шкале от 0 до 5 — метод G-eval. Стартовый чекпоинт набрал 3.958. Qwen3-8B-Instruct с обучением на диалогах и интентах вышла на 4.491. Лучший результат — 4.506 — показала Qwen3-14B-Base на той же комбинированной выборке. Прирост от правильного подбора обучающих данных оказался сопоставим с приростом от увеличения размера модели.

Qwen3 — семейство open-source языковых моделей от китайской компании Alibaba, выпущенное в 2025 году. Модели доступны с коммерческой лицензией, что позволяет использовать их в продуктовых решениях без ограничений, характерных для закрытых API. LoRA (Low-Rank Adaptation) — метод эффективного дообучения больших моделей: вместо изменения всех весов обучается небольшой адаптер, что существенно снижает требования к памяти GPU. Именно это позволило команде Lamoda обучить 14-миллиардную модель на одной карте A100.