Дообученная открытая модель превзошла GPT и Claude в тестах Bridgewater

Bridgewater и стартап Thinking Machines Lab представили исследование, в котором fine-tuned open-weight модель на базе Qwen3-235B достигла 84,7% точности в оценке финансовых документов, превзойдя лучшие frontier модели (78,2%) при в 14 раз меньшей стоимости.

Bridgewater и стартап Thinking Machines Lab представили исследование, в котором fine-tuned open-weight модель на базе Qwen3-235B достигла 84,7% точности при оценке финансовых документов. Это на 6,5 процентных пункта выше, чем у лучших проприетарных моделей (Gemini, Claude, GPT), и при в 14 раз меньшей стоимости выполнения задач.

Инвесторы ежедневно сталкиваются с потоком новостей, аналитики, корпоративных отчётов и писем. Основная работа — не чтение, а принятие множества мелких суждений о том, что важно. Автоматизировать этот процесс сложно, потому что правила редко можно явно формализовать. Например, заголовок о претензиях Трампа на Гренландию — нерелевантен, а угроза новых пошлин на Китай — релевантна, хотя обе темы затрагивают геополитику и финансы.

Конфигурация	Точность
Базовый промпт (frontier)	~50%
Экспертные инструкции (лучшая frontier модель)	78,2%
Fine-tuned Qwen3-235B	84,7%

Исследователи выделили шесть типов задач из ежедневной рутины инвестора. Frontier модели с базовым промптом показали лишь около 50% точности. С экспертными инструкциями и трёхуровневой системой оценки точность выросла до 78,2% для лучшей frontier модели, но не достигла порога 80%, необходимого для надёжного развёртывания.

Стоимость выполнения задач оказалась в 14 раз ниже, чем у аналогов

Image description · Источник: The Decoder

Чтобы преодолеть этот барьер, команда применила дообучение на проприетарных данных. Ключевой проблемой стала разметка: дешёвые внешние исполнители часто ошибались. Вместо того чтобы привлекать дорогих экспертов для проверки каждой записи, исследователи обучили первую модель на ошибочных метках и использовали расхождения между моделью и исходной меткой для выявления сомнительных случаев. Только эти спорные примеры отправлялись инвесторам на исправление. Финальное дообучение прошло на платформе Tinker, использующей модель Qwen3-235B.

В собственной оценке команды fine-tuned модель достигла 84,7% точности, превзойдя лучшую frontier модель (78,2%). При этом стоимость выполнения задач оказалась почти в 14 раз ниже. Исследователи признают, что сравнение не является независимым: обе компании заинтересованы в продвижении своих продуктов. Тем не менее, результат подтверждает, что крупные лаборатории вроде OpenAI не исчерпали все доступные данные. Огромные массивы корпоративных данных и неформализованная человеческая экспертиза остаются неиспользованными. Компании, передающие такие данные frontier-лабораториям, рискуют конкурировать с продуктом, построенным на их же информации. Fine-tuning открытых моделей через инструменты вроде Tinker даёт альтернативу: веса и данные остаются под контролем заказчика.

Дообученная открытая модель превзошла GPT и Claude в тестах Bridgewater

Кратко

Читать дальше

Tesla ввела лимит на ИИ-расходы сотрудников — $200 в неделю

OpenAI предложила США 5% акций — Сэндерс настаивает на налоге в 50%

Платформа Cursor после покупки SpaceX: смогут ли Anthropic и OpenAI остаться партнёрами?