Компания Sina, владеющая соцсетью Weibo, представила языковую модель VibeThinker-3B. При трех миллиардах параметров она на некоторых тестах по математике и программированию показывает результаты, сопоставимые с моделями, имеющими от 200 до 333 миллиардов параметров. Например, на бенчмарке AIME26 модель сравнима с DeepSeek V3.2 и Kimi K2.5. Однако на тесте фактологических знаний GPQA-Diamond VibeThinker-3B заметно уступает более крупным конкурентам. Исследователи видят причину в принципиально разной структуре различных способностей ИИ.
Модель построена на основе Qwen2.5-Coder-3B от Alibaba. Основной вклад Sina заключается в этапе пост-тренинга, который включает несколько стадий: supervised fine-tuning, RL для математики, кода и STEM, самодистилляцию и финальную настройку следования инструкциям. По мнению авторов, именно пост-тренинг, а не увеличение числа параметров, обеспечивает высокую производительность в задачах с четко верифицируемыми решениями. Чтобы исключить засорение данных, модель протестировали на соревнованиях LeetCode, проходивших с конца апреля по конец мая 2026 года. VibeThinker-3B решила 123 из 128 задач с первой попытки, опередив GPT-5.2, Qwen3-Max и Claude Opus 4.6.
На основе полученных результатов исследователи сформулировали гипотезу параметрического сжатия и покрытия (Parametric Compression-Coverage Hypothesis). Логическое рассуждение, такое как пошаговое решение математических задач, основано на небольшом наборе повторяющихся паттернов — проверка условий, исправление ошибок, комбинирование промежуточных результатов. Эти паттерны можно компактно упаковать в небольшое количество параметров. Фактические знания, напротив, требуют широкого охвата: для ответов на вопросы из разных областей нужно много параметров, хранящих факты. Это означает, что для задач, где решение верифицируемо и имеет четкую структуру, размер модели перестает быть основным ограничением.
На проверке знаний GPQA-Diamond модель уступает крупным конкурентам.

VibeThinker-3B доступна на Hugging Face и GitHub. Предшественница модели, VibeThinker-1.5B, была выпущена в ноябре 2025 года. Новая версия подтверждает, что малый размер не всегда означает компромисс в производительности. Тенденция, когда небольшие модели догоняют крупные на узких задачах, становится все заметнее. В апреле Alibaba выпустила Qwen3.6-27B, которая на кодовых бенчмарках превзошла свою предшественницу, бывшую в 15 раз больше. Модель Falcon H1R 7B из Абу-Даби, по заявлениям разработчиков, достигла производительности моделей в 2–7 раз крупнее. При этом более ранние исследования указывали на то, что маленькие модели обычно упираются в потолок на многошаговых рассуждениях. Результаты VibeThinker-3B опровергают это предположение для задач с верифицируемыми ответами.



