Gemini-SQL2 от Google Research возглавил рейтинг text-to-SQL с точностью 80%

Подготовлено редакцией Malakhov AI

The Decoder·13 июн.·2 минИсследованияИндустрия

Система Gemini-SQL2, построенная на базе Gemini 3.1 Pro, набрала 80,04% на benchmark BIRD — против 72,8% у GPT-5.5-xhigh от OpenAI и 70,9% у Claude Opus 4.6 от Anthropic. Google Research пока не объявляла о публичном релизе и не публиковала научную статью.

Кратко

—Gemini-SQL2 достигла 80,04% execution accuracy на benchmark BIRD, заняв первое место в рейтинге text-to-SQL.
—Ближайший конкурент — GPT-5.5-xhigh от OpenAI — отстаёт на 7,2 процентных пункта (72,8%).
—Системы Databricks, AWS, Tencent и Alibaba значительно уступают тройке лидеров.
—Сложность задачи — в многоуровневых данных и необходимости учитывать бизнес-логику при генерации запросов.
—Публичного релиза модели и научной публикации пока нет.

Глоссарий · 4 термина▾

Text-to-SQL: Технология автоматического перевода вопроса на естественном языке в SQL-запрос, пригодный для выполнения в реляционной базе данных.
Execution accuracy: Метрика качества text-to-SQL систем: доля запросов, которые не только синтаксически корректны, но и возвращают правильный результат при выполнении.
BIRD benchmark: Набор тестов для оценки text-to-SQL систем на реальных базах данных с нетривиальными схемами и «грязными» данными.
Benchmark: Стандартизированный набор задач и метрик для сравнения производительности разных моделей или систем между собой.

На benchmark BIRD, де-факто главном тесте для text-to-SQL систем, Gemini-SQL2 набрала 80,04% execution accuracy — показатель, который Google Research называет первым местом в публичном рейтинге. Разрыв с ближайшим преследователем, GPT-5.5-xhigh от OpenAI (72,8%), составляет более семи процентных пунктов. Claude Opus 4.6 от Anthropic занимает третью строчку с 70,9%. Системы Databricks, AWS, Tencent и Alibaba отстают ещё значительнее.

Text-to-SQL — это класс задач, при котором модель принимает вопрос на естественном языке («Сколько заказов поступило из Москвы за последний квартал?») и генерирует корректный SQL-запрос, пригодный для непосредственного выполнения в базе данных. Задача сложнее, чем кажется: реальные корпоративные базы данных многоуровневые, схемы таблиц запутаны, а запросы должны отражать специфическую бизнес-логику — агрегации, фильтры, джойны нескольких таблиц. Google Research особо подчёркивает, что сгенерированные Gemini-SQL2 запросы не просто выглядят синтаксически правильными, но и успешно исполняются — именно это и измеряет метрика execution accuracy в BIRD.

Система	Разработчик	Execution accuracy на BIRD
Gemini-SQL2	Google Research	80,04%
GPT-5.5-xhigh	OpenAI	72,8%
Claude Opus 4.6	Anthropic	70,9%

BIRD (Big Bench for Large-scale Database Grounded Text-to-SQL Evaluation) появился как ответ на ограниченность более ранних benchmark-ов вроде Spider: он включает реальные базы данных с «грязными» данными и нетривиальными схемами, что делает его ближе к производственным условиям. Именно поэтому результаты на BIRD считаются более репрезентативными для оценки практической применимости систем.

Ближайший конкурент — GPT-5.5-xhigh от OpenAI — отстаёт на 7,2 процентных пункта (72,8%).

Gemini-SQL2 leads the BIRD text-to-SQL leaderboard with 80.04 percent execution accuracy, outpacing competitors from OpenAI, Anthropic, Databricks, and others. | Image: Google · Источник: The Decoder

Для Google практическая ценность Gemini-SQL2 выходит за рамки академического рейтинга. Компания прямо указывает, что улучшенное понимание SQL может усилить функции на естественном языке в её продуктах для работы с данными — BigQuery, Looker и смежных сервисах. Корпоративные пользователи этих платформ потенциально получат возможность задавать вопросы к данным без написания запросов вручную.

Вместе с тем Google Research не раскрыла технических деталей архитектуры: ни научной статьи, ни описания методологии пока нет. Неизвестно, является ли Gemini-SQL2 отдельной моделью, дообученной версией Gemini 3.1 Pro или системой с дополнительными компонентами — например, retrieval-augmented generation для работы со схемами баз данных. Отсутствие публикации не позволяет независимо верифицировать заявленные результаты или оценить воспроизводимость подхода. Публичного релиза также не анонсировано, что пока ограничивает практическую доступность системы для сторонних разработчиков.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

Продолжить по разделам

Gemini-SQL2 от Google Research возглавил рейтинг text-to-SQL с точностью 80%

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента