3-миллиардная модель VibeThinker-3B от Sina догоняет гигантов в математике и кодинге

Подготовлено редакцией Malakhov AI

The Decoder·4 часа назад·2 минИсследованияИндустрия

Модель VibeThinker-3B с 3 миллиардами параметров, выпущенная компанией Sina, выполняет задачи по математике и программированию на уровне моделей с сотнями миллиардов параметров, но уступает им в фактологических знаниях. Исследователи связывают это с разной природой способностей ИИ и выдвинули гипотезу параметрического сжатия.

Кратко

—VibeThinker-3B от Sina на бенчмарке AIME26 показывает результаты, сопоставимые с DeepSeek V3.2 и Kimi K2.5, несмотря на 200–333 раза меньше параметров.
—На проверке знаний GPQA-Diamond модель уступает крупным конкурентам.
—Исследователи выдвинули гипотезу параметрического сжатия: логическое рассуждение требует мало параметров, а фактические знания — много.
—Пост-тренинг, включающий дообучение и RL, обеспечил производительность, не уступающую большим моделям.

Глоссарий · 3 термина▾

пост-тренинг: Этап обучения модели после предварительного обучения на больших данных, включающий дообучение и обучение с подкреплением для улучшения конкретных навыков.
RL (обучение с подкреплением): Метод машинного обучения, при котором модель учится через пробу и ошибку, получая награду за правильные действия.
бенчмарк: Стандартизированный тест для сравнения производительности различных моделей ИИ.

Компания Sina, владеющая соцсетью Weibo, представила языковую модель VibeThinker-3B. При трех миллиардах параметров она на некоторых тестах по математике и программированию показывает результаты, сопоставимые с моделями, имеющими от 200 до 333 миллиардов параметров. Например, на бенчмарке AIME26 модель сравнима с DeepSeek V3.2 и Kimi K2.5. Однако на тесте фактологических знаний GPQA-Diamond VibeThinker-3B заметно уступает более крупным конкурентам. Исследователи видят причину в принципиально разной структуре различных способностей ИИ.

Модель построена на основе Qwen2.5-Coder-3B от Alibaba. Основной вклад Sina заключается в этапе пост-тренинга, который включает несколько стадий: supervised fine-tuning, RL для математики, кода и STEM, самодистилляцию и финальную настройку следования инструкциям. По мнению авторов, именно пост-тренинг, а не увеличение числа параметров, обеспечивает высокую производительность в задачах с четко верифицируемыми решениями. Чтобы исключить засорение данных, модель протестировали на соревнованиях LeetCode, проходивших с конца апреля по конец мая 2026 года. VibeThinker-3B решила 123 из 128 задач с первой попытки, опередив GPT-5.2, Qwen3-Max и Claude Opus 4.6.

На основе полученных результатов исследователи сформулировали гипотезу параметрического сжатия и покрытия (Parametric Compression-Coverage Hypothesis). Логическое рассуждение, такое как пошаговое решение математических задач, основано на небольшом наборе повторяющихся паттернов — проверка условий, исправление ошибок, комбинирование промежуточных результатов. Эти паттерны можно компактно упаковать в небольшое количество параметров. Фактические знания, напротив, требуют широкого охвата: для ответов на вопросы из разных областей нужно много параметров, хранящих факты. Это означает, что для задач, где решение верифицируемо и имеет четкую структуру, размер модели перестает быть основным ограничением.

На проверке знаний GPQA-Diamond модель уступает крупным конкурентам.

Across six math and coding benchmarks, the 3B model (orange) falls within the performance range of five current top models including Gemini 3 Pro, GLM-5, and Claude Opus 4.5. | Image: Sina Weibo · Источник: The Decoder

VibeThinker-3B доступна на Hugging Face и GitHub. Предшественница модели, VibeThinker-1.5B, была выпущена в ноябре 2025 года. Новая версия подтверждает, что малый размер не всегда означает компромисс в производительности. Тенденция, когда небольшие модели догоняют крупные на узких задачах, становится все заметнее. В апреле Alibaba выпустила Qwen3.6-27B, которая на кодовых бенчмарках превзошла свою предшественницу, бывшую в 15 раз больше. Модель Falcon H1R 7B из Абу-Даби, по заявлениям разработчиков, достигла производительности моделей в 2–7 раз крупнее. При этом более ранние исследования указывали на то, что маленькие модели обычно упираются в потолок на многошаговых рассуждениях. Результаты VibeThinker-3B опровергают это предположение для задач с верифицируемыми ответами.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ