Бенчмарк распознавания еды на Gemini 2.5 Flash: 84,8% точности и нерабочий confidence

Подготовлено редакцией Malakhov AI

Habr AI·13 июн.·3 минРоссияКод

Разработчик приложения для подсчёта калорий по фото прогнал 66 снимков через Gemini 2.5 Flash и выяснил, что модель правильно распознаёт 84,8% блюд, но поле confidence оказалось почти константой — 49 из 66 ответов получили ровно 0.90 вне зависимости от правильности.

Кратко

—Из 66 фотографий блюд модель дала верный или близкий ответ в 93,9% случаев, неисправимых ошибок — 6,1%.
—Русская еда распознана без единого промаха (14/14), европейская — хуже всего (90%), вопреки ожиданиям.
—Все четыре неисправимые ошибки — запечённые блюда, где ключевой ингредиент скрыт под сыром или соусом.
—Confidence от Gemini не коррелирует с правильностью: ни одна из четырёх ошибок не получила предупреждения.
—Справочник Скурихина + USDA (226 записей) с биграммным поиском поднял попадание калорий в референсный диапазон с ~50% до более высокого уровня.

Глоссарий · 7 терминов▾

LLM-as-judge: Метод оценки качества языковой модели, при котором другая (или та же) языковая модель выступает автоматическим судьёй и выносит вердикт по каждому ответу.
confidence: Числовое значение от 0 до 1, которое модель возвращает вместе с ответом как оценку собственной уверенности.
benchmark: Стандартизированный тест для измерения производительности модели на фиксированном наборе данных с известными правильными ответами.
КБЖУ: Аббревиатура: калории, белки, жиры, углеводы — основные нутриенты, которые рассчитывает приложение для каждого блюда.
коэффициент Дайса: Метрика схожести двух строк на основе общих биграмм (пар символов); используется для нечёткого поиска по названиям блюд.
ground truth: Эталонный правильный ответ в датасете, с которым сравнивается предсказание модели.
self-serving bias: Ситуация, когда модель, оценивающая саму себя, склонна завышать оценку собственных ответов.

Приложение для подсчёта калорий по фото — идея распространённая, но большинство решений плохо справляются с русской кухней. Разработчик, строящий собственный сервис, решил не полагаться на ощущение «кажется, работает» и провёл структурированный бенчмарк на 66 фотографиях блюд из трёх кухонь: русской, азиатской и европейской.

Для оценки он ввёл три категории ответов: correct — блюдо названо верно (уточнения вроде «борщ с говядиной» вместо «борщ» ошибкой не считаются), wrong-but-close — другое, но похожее блюдо той же категории, которое пользователь может исправить парой тапов, и wrong — принципиально другое блюдо, после которого доверие к приложению не восстановить. Критическая планка — доля wrong ниже 20%.

Кухня	Правильно распознано	Всего	Точность
Русская (RU)	14	14	100,0%
Азиатская (ASIA)	21	22	95,5%
Европейская (EU)	27	30	90,0%

Модель — Gemini 2.5 Flash через OpenRouter — показала 84,8% точных ответов, 9,1% близких и 6,1% неисправимых ошибок. Восстановимых случаев в сумме 93,9% — запас до критической планки значительный. Оценку вердиктов автоматизировали через LLM-as-judge: та же модель получала ground truth и предсказание и отвечала одним словом при temperature=0. Подход спорный из-за возможного self-serving bias, но ручная проверка части результатов явных расхождений не выявила.

Распределение по кухням оказалось контринтуитивным. Русская еда — 14 из 14, 100%. Азиатская — 21 из 22, 95,5%. Европейская — 27 из 30, 90%. Ожидалось обратное: западных блюд в обучающих данных заведомо больше. Объяснение нашлось при разборе четырёх провалов: жареный рис принят за омлет, лазанья дважды — за тефтели в соусе и жульен, курица терияки — за лосось на гриле. Все четыре — составные или запечённые блюда, где ключевой ингредиент скрыт под сыром, соусом или корочкой. Открытые блюда — борщ, суп, тарелка с гарниром — читаются без проблем. Граница проходит не по кухне, а по визуальной доступности ингредиентов.

Главный неожиданный вывод касается поля confidence. Gemini возвращает значение от 0 до 1, и разработчик планировал показывать пользователю предупреждение при значении ниже 0.85. Анализ распределения разрушил эту идею: 49 из 66 ответов получили ровно 0.90. За весь датасет модель опустилась ниже порога один раз. Ни одна из четырёх неисправимых ошибок предупреждения не получила — все четыре пришли с пометкой high. Confidence не коррелирует с правильностью; это почти константа, которую модель выставляет по умолчанию. Строить на нём UX-логику («перефотографируйте, мы не уверены») бессмысленно.

Отдельный блок бенчмарка — калории. Из правильно распознанных блюд лишь около половины попали в референсный диапазон. Причина очевидна: LLM интерполирует значения КБЖУ по памяти, не имея структурированной базы данных. Решение — справочник Скурихина (советская база состава пищевых продуктов) плюс часть USDA для зарубежных позиций, итого 226 записей. Резолвер работает в два уровня: сначала точный поиск по нормализованному ключу, затем полнотекстовый поиск MySQL с биграммным ре-ранжированием (коэффициент Дайса, порог 0.85). Нормализация убирает стоп-слова — «варёный», «жареный», «свежий» — чтобы «варёная говядина» и «говядина» совпадали на первом уровне. Если совпадение не найдено, остаются значения от LLM.

Методологически проект демонстрирует рабочий подход к оценке vision-моделей в продуктовом контексте: небольшой, но размеченный датасет, чёткое разделение ошибок по критичности для пользователя и автоматизированная оценка через LLM-as-judge с возможностью ручной правки вердиктов без повторного прогона распознавания. Для масштабирования до тысяч строк автор рекомендует заменить судью на отдельную, более дешёвую модель.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Бенчмарк распознавания еды на Gemini 2.5 Flash: 84,8% точности и нерабочий confidence

Кратко

Читать дальше

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений