Epicure: модель для кулинарии, которая отличает рецептурное соседство от химического

Подготовлено редакцией Malakhov AI

The Decoder·31 мая·4 минИсследованияИндустрия

Стартап Kaikaku.AI опубликовал три модели под общим названием Epicure, обученные на 4,14 млн рецептов на семи языках: каждая из них по-разному отвечает на вопрос, какие ингредиенты сочетаются с курицей — в зависимости от того, смотрит ли она на рецепты или на молекулы вкуса. Веса моделей и датасеты выложены на Hugging Face.

Кратко

—Три модели Epicure различаются только обучающими данными: рецепты, химия вкуса или их комбинация.
—Химическая модель Chem точнее классифицирует вкусовые свойства (сладкий, кислый, горький) и нутриенты, хотя эти данные не были в обучающей выборке.
—Корпус охватывает 7 языков и 11 источников, но половина материала — из восточноазиатских источников; латиноамериканская и южноазиатская кухни представлены слабо.
—Очистка 200 000 сырых терминов до 1 790 ингредиентов выполнена с помощью Claude и Gemini embeddings.
—За исследованием стоит лондонский стартап с роботизированным рестораном и pre-seed раундом $1,8 млн в 2024 году.

Глоссарий · 5 терминов▾

FlavorDB: Химическая база данных, содержащая информацию о молекулах вкуса и аромата для тысяч пищевых ингредиентов.
FlavorGraph: Публичная модель-граф ингредиентов, построенная на англоязычных рецептах; до Epicure считалась наиболее полной в своём классе.
Embeddings: Числовые векторные представления объектов (слов, ингредиентов), в которых близкие по смыслу объекты располагаются рядом в многомерном пространстве.
Hugging Face: Платформа для публикации и совместного использования моделей машинного обучения и датасетов.
Pre-seed раунд: Самый ранний этап венчурного финансирования стартапа, обычно предшествующий запуску продукта.

Исследователи Якуб Радзиковски и Йозеф Чен из Kaikaku.AI поставили простой, но показательный эксперимент: взяли три почти идентичные модели и обучили каждую на принципиально разных данных. Первая, Cooc, видела только реальные рецепты — какие ингредиенты встречаются рядом. Вторая, Chem, работала исключительно с химической базой FlavorDB: какие молекулы вкуса у ингредиентов совпадают. Третья, Core, объединила оба источника. Вопрос «что идёт с курицей?» дал три разных ответа: Cooc назвала чеснок, лук и чёрный перец — типичных рецептурных соседей; Chem предложила говядину и свинину — ингредиенты со схожим вкусовым профилем; Core дала нечто среднее.

Проблема, которую авторы пытаются решить, не тривиальна. Предыдущие модели для работы с едой — в частности, FlavorGraph, наиболее полная публичная модель до Epicure — смешивали рецептурную и химическую логику без возможности переключаться между ними. Это создавало неоднозначность: модель не могла чётко ответить, предлагает ли она замену по вкусу или по кулинарной традиции. Epicure разделяет эти два режима и позволяет выбирать нужный.

Модель	Обучающие данные	Ответ на «курица»	Ответ на «базилик»
Cooc	Рецепты (соседство ингредиентов)	Чеснок, лук, чёрный перец	Петрушка, оливковое масло, пармезан
Chem	Молекулы вкуса (FlavorDB)	Говядина, свинина	Орегано, эстрагон, розмарин
Core	Рецепты + молекулы вкуса	Комбинация обоих подходов	Комбинация обоих подходов

Особенно неожиданным оказался результат химической модели Chem: она точнее других классифицирует вкусовые характеристики — сладкий, кислый, горький — и даже нутриентный состав (белки, жиры), хотя эти параметры напрямую не присутствовали в обучающих данных. Авторы объясняют это тем, что химические связи между ингредиентами работают как косвенный сигнал, настраивающий модель на более широкие кулинарные концепции. Иными словами, молекулярное родство оказывается более информативным представлением пространства ингредиентов, чем рецептурное соседство.

Химическая модель Chem точнее классифицирует вкусовые свойства (сладкий, кислый, горький) и нутриенты, хотя эти данные не были в обучающей выборке.

Each point represents an ingredient, with similar ingredients clustered together. The models were never told which cuisine an ingredient belongs to, yet they sort themselves into clear regional cuisine groups. | Image: Radzikowski & Chen · Источник: The Decoder

Для обучения авторы собрали корпус из 4,14 млн рецептов на семи языках — китайском, русском, вьетнамском, турецком, индонезийском, немецком и английском — из 11 источников. Сырые данные содержали около 200 000 терминов: орфографические варианты, торговые марки, описания способов приготовления. Очистка до 1 790 чистых ингредиентов выполнена с помощью Claude и Gemini embeddings. Это существенно шире, чем у FlavorGraph, построенного на англоязычном корпусе.

Однако у корпуса есть структурный перекос: около половины материала приходится на восточноазиатские источники, тогда как латиноамериканская, восточноевропейская и южноазиатская кухни представлены единичными процентами. Кроме того, лишь треть ингредиентов напрямую привязана к химической базе FlavorDB — остальные получают химический сигнал косвенно, через связанные ингредиенты. Это означает, что качество модели в слабо представленных регионах, вероятно, заметно ниже, чем в доминирующих восточноазиатской и западной кухнях.

Помимо простого поиска ближайших ингредиентов, модель поддерживает режим «поворота»: пользователь задаёт исходный ингредиент и направление смещения — например, «рис» в сторону Южной Азии — и получает карри-лист, урад-дал, чана-дал и семена пажитника. «Курица» в сторону переработанной западноатлантической кухни выдаёт крем-суп из курицы, круассаны и ранч-дрессинг. Один и тот же запрос «шоколад» в направлении «сладкая выпечка» даёт разные ответы в зависимости от модели: Cooc и Core приходят к какао, ванили и разрыхлителю, а Chem — к пасте из красной фасоли, матче и фиолетовому батату.

За исследованием стоит лондонский стартап Kaikaku, основанный в 2023 году. Компания управляет роботизированным рестораном Common Room в торговом центре Brunswick Centre и планирует масштабировать его в сеть. Её машина Fusion теоретически способна выдавать 360 порций в час; система включает ML-управление запасами и компоненты из пищевого пластика, напечатанные на 3D-принтере. В 2024 году стартап привлёк около $1,8 млн в pre-seed раунде. Для компании, автоматизирующей приготовление еды, машиночитаемая карта ингредиентного пространства — не академический проект, а инструмент для разработки меню, замены ингредиентов при перебоях поставок и адаптации к новым рынкам.

The test measures how accurately properties like fruity, bitter, or protein content can be read from each model. The farther right a point sits, the more reliable the reading. The chemistry-based Chem model leads almost across the board. | · Источник: The Decoder

Веса моделей и датасеты опубликованы на Hugging Face, что делает независимую проверку возможной. Тем не менее примеры в статье подобраны вручную, а очистка словаря зависит от языковых моделей, которые сами несут культурные смещения. Соавтор Йозеф Чен описывает результат как «крупнейшую многоязычную пищевую модель» и утверждает, что «всё человеческое кулинарное знание сжато в 2 мегабайта». Демо старой версии доступно на epicure.kaikaku.ai.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ