На benchmark BIRD, де-факто главном тесте для text-to-SQL систем, Gemini-SQL2 набрала 80,04% execution accuracy — показатель, который Google Research называет первым местом в публичном рейтинге. Разрыв с ближайшим преследователем, GPT-5.5-xhigh от OpenAI (72,8%), составляет более семи процентных пунктов. Claude Opus 4.6 от Anthropic занимает третью строчку с 70,9%. Системы Databricks, AWS, Tencent и Alibaba отстают ещё значительнее.

Text-to-SQL — это класс задач, при котором модель принимает вопрос на естественном языке («Сколько заказов поступило из Москвы за последний квартал?») и генерирует корректный SQL-запрос, пригодный для непосредственного выполнения в базе данных. Задача сложнее, чем кажется: реальные корпоративные базы данных многоуровневые, схемы таблиц запутаны, а запросы должны отражать специфическую бизнес-логику — агрегации, фильтры, джойны нескольких таблиц. Google Research особо подчёркивает, что сгенерированные Gemini-SQL2 запросы не просто выглядят синтаксически правильными, но и успешно исполняются — именно это и измеряет метрика execution accuracy в BIRD.

СистемаРазработчикExecution accuracy на BIRD
Gemini-SQL2Google Research80,04%
GPT-5.5-xhighOpenAI72,8%
Claude Opus 4.6Anthropic70,9%

BIRD (Big Bench for Large-scale Database Grounded Text-to-SQL Evaluation) появился как ответ на ограниченность более ранних benchmark-ов вроде Spider: он включает реальные базы данных с «грязными» данными и нетривиальными схемами, что делает его ближе к производственным условиям. Именно поэтому результаты на BIRD считаются более репрезентативными для оценки практической применимости систем.

Ближайший конкурент — GPT-5.5-xhigh от OpenAI — отстаёт на 7,2 процентных пункта (72,8%).

Gemini-SQL2 leads the BIRD text-to-SQL leaderboard with 80.04 percent execution accuracy, outpacing competitors from OpenAI, Anthropic, Databricks, and others. | Image: Google
Gemini-SQL2 leads the BIRD text-to-SQL leaderboard with 80.04 percent execution accuracy, outpacing competitors from OpenAI, Anthropic, Databricks, and others. | Image: Google · Источник: The Decoder

Для Google практическая ценность Gemini-SQL2 выходит за рамки академического рейтинга. Компания прямо указывает, что улучшенное понимание SQL может усилить функции на естественном языке в её продуктах для работы с данными — BigQuery, Looker и смежных сервисах. Корпоративные пользователи этих платформ потенциально получат возможность задавать вопросы к данным без написания запросов вручную.

Вместе с тем Google Research не раскрыла технических деталей архитектуры: ни научной статьи, ни описания методологии пока нет. Неизвестно, является ли Gemini-SQL2 отдельной моделью, дообученной версией Gemini 3.1 Pro или системой с дополнительными компонентами — например, retrieval-augmented generation для работы со схемами баз данных. Отсутствие публикации не позволяет независимо верифицировать заявленные результаты или оценить воспроизводимость подхода. Публичного релиза также не анонсировано, что пока ограничивает практическую доступность системы для сторонних разработчиков.