Mistral выпустила открытую модель Leanstral 1.5 для формальной верификации

Подготовлено редакцией Malakhov AI

The Decoder·23 часа назад·2 минИсследованияИндустрия

Mistral ИИ представила Leanstral 1.5 — открытую модель под Apache 2.0 для формальной верификации на Lean 4. Модель показала 100% на miniF2F, решила 587 из 672 задач PutnamBench и обнаружила пять багов в open-source коде. Она также лидирует среди открытых моделей на алгебраических бенчмарках FATE-H и FATE-X.

Кратко

—Leanstral 1.5 — открытая модель Mistral для формальной верификации на Lean 4.
—Модель набрала 100% на бенчмарке miniF2F (олимпиадные задачи по математике).
—На PutnamBench модель решила 587 из 672 задач, превзойдя все открытые аналоги.
—В ходе тестирования модель нашла пять ранее неизвестных багов в open-source коде, включая переполнение в Rust-библиотеке varinteger.
—Модель доступна через Hugging Face и бесплатное API; обучена с помощью mid-training, SFT и RL.

Глоссарий · 4 термина▾

Lean 4: Функциональный язык программирования и proof assistant для формальной верификации математических теорем и программ.
формальная верификация: Метод математического доказательства корректности работы программы или теоремы.
бенчмарк: Стандартизированный набор тестов для оценки производительности алгоритмов или моделей.
mid-training: Этап промежуточного обучения языковой модели на специализированных данных перед финальной донастройкой.

Mistral ИИ выпустила Leanstral 1.5 — модель для формальной верификации на языке Lean 4 под открытой лицензией Apache 2.0. Модель показала 100% точность на бенчмарке miniF2F, который включает задачи от школьного уровня до олимпиадного. На PutnamBench, содержащем 672 задачи из престижного математического конкурса, Leanstral 1.5 решила 587. На алгебраических бенчмарках FATE-H и FATE-X, охватывающих задачи уровня магистратуры и докторантуры в теории групп и колец, модель показала лучшие результаты среди открытых: 87% и 34% соответственно. Среди закрытых моделей её превосходит только Aleph Prover.

Leanstral 1.5 обучалась в три этапа: промежуточное обучение (mid-training), контролируемая донастройка и обучение с подкреплением. Несмотря на основную направленность на математику, модель также справляется с верификацией кода. В практическом тестировании Leanstral 1.5 просканировала 57 открытых репозиториев и обнаружила пять ранее неизвестных ошибок, в том числе переполнение в Rust-библиотеке varinteger. Это демонстрирует практическую пользу модели для повышения надёжности программного обеспечения.

Бенчмарк	Результат Leanstral 1.5	Примечание
miniF2F	100%	Задачи от школьного уровня до олимпиадного
PutnamBench	587/672 (87,4%)	Лучший среди открытых; превзойдён только Aleph Prover
FATE-H	87%	Лучший среди открытых; задачи уровня магистратуры
FATE-X	34%	Лучший среди открытых; задачи уровня докторантуры

Формальная верификация — это процесс математического доказательства корректности программ и теорем. Традиционно она требует высокой квалификации, но модели вроде Leanstral 1.5 могут автоматизировать часть работы. Открытая лицензия и бесплатный API делают технологию доступной для исследователей и разработчиков. Leanstral 1.5 уже доступна для загрузки на Hugging Face и через API Mistral.

Модель набрала 100% на бенчмарке miniF2F (олимпиадные задачи по математике).

Leanstral 1.5 tops the open-source field on PutnamBench, FATE-H, and FATE-X. Only the closed-source Aleph Prover beats it on PutnamBench. | Image: Mistral · Источник: The Decoder

Тем не менее, Leanstral 1.5 — узкоспециализированная модель: её сила именно в формальной верификации, а не в общих задачах. Для сравнения, закрытая Aleph Prover показывает более высокие результаты на PutnamBench. Открытость модели позволяет сообществу дорабатывать её и адаптировать под свои нужды. Выход Leanstral 1.5 — ещё один шаг к интеграции ИИ в формальные методы доказательства.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%

Продолжить по разделам

Mistral выпустила открытую модель Leanstral 1.5 для формальной верификации

Кратко

Читать дальше

Anthropic запускает собственные программы поиска лекарств от забытых болезней

Google DeepMind и A24 заключили партнёрство в области ИИ для киноиндустрии

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%