Bridgewater и стартап Thinking Machines Lab представили исследование, в котором fine-tuned open-weight модель на базе Qwen3-235B достигла 84,7% точности при оценке финансовых документов. Это на 6,5 процентных пункта выше, чем у лучших проприетарных моделей (Gemini, Claude, GPT), и при в 14 раз меньшей стоимости выполнения задач.

Инвесторы ежедневно сталкиваются с потоком новостей, аналитики, корпоративных отчётов и писем. Основная работа — не чтение, а принятие множества мелких суждений о том, что важно. Автоматизировать этот процесс сложно, потому что правила редко можно явно формализовать. Например, заголовок о претензиях Трампа на Гренландию — нерелевантен, а угроза новых пошлин на Китай — релевантна, хотя обе темы затрагивают геополитику и финансы.

КонфигурацияТочность
Базовый промпт (frontier)~50%
Экспертные инструкции (лучшая frontier модель)78,2%
Fine-tuned Qwen3-235B84,7%

Исследователи выделили шесть типов задач из ежедневной рутины инвестора. Frontier модели с базовым промптом показали лишь около 50% точности. С экспертными инструкциями и трёхуровневой системой оценки точность выросла до 78,2% для лучшей frontier модели, но не достигла порога 80%, необходимого для надёжного развёртывания.

Стоимость выполнения задач оказалась в 14 раз ниже, чем у аналогов

Image description
Image description · Источник: The Decoder

Чтобы преодолеть этот барьер, команда применила дообучение на проприетарных данных. Ключевой проблемой стала разметка: дешёвые внешние исполнители часто ошибались. Вместо того чтобы привлекать дорогих экспертов для проверки каждой записи, исследователи обучили первую модель на ошибочных метках и использовали расхождения между моделью и исходной меткой для выявления сомнительных случаев. Только эти спорные примеры отправлялись инвесторам на исправление. Финальное дообучение прошло на платформе Tinker, использующей модель Qwen3-235B.

В собственной оценке команды fine-tuned модель достигла 84,7% точности, превзойдя лучшую frontier модель (78,2%). При этом стоимость выполнения задач оказалась почти в 14 раз ниже. Исследователи признают, что сравнение не является независимым: обе компании заинтересованы в продвижении своих продуктов. Тем не менее, результат подтверждает, что крупные лаборатории вроде OpenAI не исчерпали все доступные данные. Огромные массивы корпоративных данных и неформализованная человеческая экспертиза остаются неиспользованными. Компании, передающие такие данные frontier-лабораториям, рискуют конкурировать с продуктом, построенным на их же информации. Fine-tuning открытых моделей через инструменты вроде Tinker даёт альтернативу: веса и данные остаются под контролем заказчика.