Исследователи Якуб Радзиковски и Йозеф Чен из Kaikaku.AI поставили простой, но показательный эксперимент: взяли три почти идентичные модели и обучили каждую на принципиально разных данных. Первая, Cooc, видела только реальные рецепты — какие ингредиенты встречаются рядом. Вторая, Chem, работала исключительно с химической базой FlavorDB: какие молекулы вкуса у ингредиентов совпадают. Третья, Core, объединила оба источника. Вопрос «что идёт с курицей?» дал три разных ответа: Cooc назвала чеснок, лук и чёрный перец — типичных рецептурных соседей; Chem предложила говядину и свинину — ингредиенты со схожим вкусовым профилем; Core дала нечто среднее.
Проблема, которую авторы пытаются решить, не тривиальна. Предыдущие модели для работы с едой — в частности, FlavorGraph, наиболее полная публичная модель до Epicure — смешивали рецептурную и химическую логику без возможности переключаться между ними. Это создавало неоднозначность: модель не могла чётко ответить, предлагает ли она замену по вкусу или по кулинарной традиции. Epicure разделяет эти два режима и позволяет выбирать нужный.
| Модель | Обучающие данные | Ответ на «курица» | Ответ на «базилик» |
|---|---|---|---|
| Cooc | Рецепты (соседство ингредиентов) | Чеснок, лук, чёрный перец | Петрушка, оливковое масло, пармезан |
| Chem | Молекулы вкуса (FlavorDB) | Говядина, свинина | Орегано, эстрагон, розмарин |
| Core | Рецепты + молекулы вкуса | Комбинация обоих подходов | Комбинация обоих подходов |
Особенно неожиданным оказался результат химической модели Chem: она точнее других классифицирует вкусовые характеристики — сладкий, кислый, горький — и даже нутриентный состав (белки, жиры), хотя эти параметры напрямую не присутствовали в обучающих данных. Авторы объясняют это тем, что химические связи между ингредиентами работают как косвенный сигнал, настраивающий модель на более широкие кулинарные концепции. Иными словами, молекулярное родство оказывается более информативным представлением пространства ингредиентов, чем рецептурное соседство.
Химическая модель Chem точнее классифицирует вкусовые свойства (сладкий, кислый, горький) и нутриенты, хотя эти данные не были в обучающей выборке.

Для обучения авторы собрали корпус из 4,14 млн рецептов на семи языках — китайском, русском, вьетнамском, турецком, индонезийском, немецком и английском — из 11 источников. Сырые данные содержали около 200 000 терминов: орфографические варианты, торговые марки, описания способов приготовления. Очистка до 1 790 чистых ингредиентов выполнена с помощью Claude и Gemini embeddings. Это существенно шире, чем у FlavorGraph, построенного на англоязычном корпусе.
Однако у корпуса есть структурный перекос: около половины материала приходится на восточноазиатские источники, тогда как латиноамериканская, восточноевропейская и южноазиатская кухни представлены единичными процентами. Кроме того, лишь треть ингредиентов напрямую привязана к химической базе FlavorDB — остальные получают химический сигнал косвенно, через связанные ингредиенты. Это означает, что качество модели в слабо представленных регионах, вероятно, заметно ниже, чем в доминирующих восточноазиатской и западной кухнях.
Помимо простого поиска ближайших ингредиентов, модель поддерживает режим «поворота»: пользователь задаёт исходный ингредиент и направление смещения — например, «рис» в сторону Южной Азии — и получает карри-лист, урад-дал, чана-дал и семена пажитника. «Курица» в сторону переработанной западноатлантической кухни выдаёт крем-суп из курицы, круассаны и ранч-дрессинг. Один и тот же запрос «шоколад» в направлении «сладкая выпечка» даёт разные ответы в зависимости от модели: Cooc и Core приходят к какао, ванили и разрыхлителю, а Chem — к пасте из красной фасоли, матче и фиолетовому батату.
За исследованием стоит лондонский стартап Kaikaku, основанный в 2023 году. Компания управляет роботизированным рестораном Common Room в торговом центре Brunswick Centre и планирует масштабировать его в сеть. Её машина Fusion теоретически способна выдавать 360 порций в час; система включает ML-управление запасами и компоненты из пищевого пластика, напечатанные на 3D-принтере. В 2024 году стартап привлёк около $1,8 млн в pre-seed раунде. Для компании, автоматизирующей приготовление еды, машиночитаемая карта ингредиентного пространства — не академический проект, а инструмент для разработки меню, замены ингредиентов при перебоях поставок и адаптации к новым рынкам.

Веса моделей и датасеты опубликованы на Hugging Face, что делает независимую проверку возможной. Тем не менее примеры в статье подобраны вручную, а очистка словаря зависит от языковых моделей, которые сами несут культурные смещения. Соавтор Йозеф Чен описывает результат как «крупнейшую многоязычную пищевую модель» и утверждает, что «всё человеческое кулинарное знание сжато в 2 мегабайта». Демо старой версии доступно на epicure.kaikaku.ai.



