Четыре модели от разных лабораторий в одной экономической симуляции: как это устроено

Подготовлено редакцией Malakhov AI

Hugging Face Blog·6 июн.·3 минИсследованияКод

Разработчик хакатона Build Small запустил мультиагентную экономическую игру, где каждый персонаж работает на отдельной малой модели — gpt-oss-20b, MiniCPM3-4B, Nemotron-Mini-4B и дообученном Qwen 0.5B. Эксперимент показал: главная сложность при запуске разнородных моделей — не архитектура, а инфраструктурный слой обслуживания.

Кратко

—Четыре модели от OpenAI, OpenBMB, NVIDIA и дообученный Qwen 0.5B запущены параллельно на одной платформе Modal.
—Все модели падали с одинаковой ошибкой «could not find nvcc» — проблема решилась заменой базового Docker-образа на CUDA devel.
—Дообученный Qwen 0.5B показал 0% самопокупок и 100% валидных предложений, превзойдя своего 3B-учителя.
—Секретный флаг инсайдерской подсказки хранится вне промпта и ни разу не утёк ни в один из агентских промптов за всё тестирование.
—Персистентная память агентов реализована через целочисленный сентимент и однострочные сводки — без передачи сырой истории в промпт.

Глоссарий · 7 терминов▾

vLLM: Библиотека для высокопроизводительного обслуживания больших языковых моделей, использующая технику PagedAttention для эффективного управления памятью GPU.
MXFP4: Формат квантования весов модели до 4-битной точности с микромасштабированием, позволяющий уменьшить потребление памяти GPU без существенной потери качества.
trust_remote_code: Флаг в библиотеке Hugging Face Transformers, разрешающий выполнение пользовательского кода модели, загруженного из репозитория, — требуется для некоторых нестандартных архитектур.
JIT-компиляция: Компиляция кода непосредственно во время выполнения программы, а не заранее; vLLM компилирует CUDA-ядра при загрузке модели.
сентимент агента: В контексте статьи — целочисленная переменная, отражающая отношение одного агента к другому; изменяется по событиям и влияет на поведение.
эмерджентное поведение: Поведение системы, которое не задано явно, а возникает из взаимодействия её компонентов — в данном случае из взаимодействия агентов с разными моделями и состоянием рынка.
fine-tune (дообучение): Дополнительное обучение уже предобученной модели на специализированном наборе данных для адаптации к конкретной задаче.

Проект Thousand Token Wood начинался как наблюдательная песочница: пять лесных существ торговали товарами на одной дообученной модели Qwen 0.5B, а исследователь смотрел, как возникают пузыри и обвалы. Вторая версия превратила симуляцию в игру с асимметрией информации, кредитованием, инсайдерской торговлей и механикой расследования. Но главное инженерное решение v2 — каждый агент теперь работает на модели от отдельной лаборатории.

В совете заседают четыре модели: gpt-oss-20b от OpenAI, MiniCPM3-4B от OpenBMB, Nemotron-Mini-4B от NVIDIA и дообученный Qwen 0.5B собственной разработки. Все они укладываются в лимит 32B параметров, установленный хакатоном, и обслуживаются через платформу Modal. Идея не в экзотике ради экзотики: модели, обученные на разных данных с разными подходами к постобучению, ведут себя по-разному. Сова накапливает запасы иначе, чем лиса спекулирует. Совет агентов превращается в живую дискуссию, а не в скрипт.

Модель	Лаборатория	Параметры	Особенности запуска
gpt-oss-20b	OpenAI	20B	Нативное квантование MXFP4, помещается на 24 ГБ GPU, оборачивает ответ в аналитическую преамбулу
MiniCPM3-4B	OpenBMB	4B	Требует флага trust_remote_code
Nemotron-Mini-4B	NVIDIA	4B	Загружается без дополнительных настроек
Qwen 0.5B (дообученный)	Собственная разработка	0.5B	0% самопокупок, 100% валидных предложений

Первый практический урок оказался инфраструктурным. Все четыре модели при запуске через vLLM 0.22.1 падали с одинаковой ошибкой: «could not find nvcc». Проблема не была специфична для какой-то одной модели — vLLM этой версии JIT-компилирует CUDA-ядра при загрузке и требует наличия nvcc, которого нет в минималистичных базовых образах. Замена базового Docker-образа на CUDA devel разблокировала все четыре модели сразу. Дальнейшие различия оказались точечными: gpt-oss-20b работает в нативном квантовании MXFP4 и помещается на GPU с 24 ГБ памяти, но оборачивает ответ в аналитическую преамбулу, из которой нужно извлекать финальный канал. MiniCPM3 потребовал флага trust_remote_code, Nemotron загрузился без дополнительных настроек. Каждый «подводный камень» решался одной строкой конфига.

Все модели падали с одинаковой ошибкой «could not find nvcc» — проблема решилась заменой базового Docker-образа на CUDA devel.

Ключевым связующим слоем, который сделал гетерогенный совет управляемым, стал толерантный парсер JSON с автоисправлением. Разные токенизаторы и привычки форматирования у разных моделей дают разные виды «поломанного» JSON. Парсер отбрасывает то, что не удаётся восстановить, и симуляция никогда не падает. Добавление новой модели сводится к записи в конфиге, а не к рефакторингу.

Отдельную инженерную задачу поставила механика инсайдерской торговли. Игрок может шепнуть агенту подсказку — правдивую или ложную. Правдивая подсказка даёт реальное преимущество, но накапливает «тепло»: при превышении порога магистрат открывает расследование. Для работы этой механики истинность подсказки должна быть скрыта от агентов — они видят текст слуха, но не флаг. Это задача безопасности данных, а не UI. Решение: флаг хранится исключительно в реестре игрока, вырезается из публичной записи событий при её формировании, и нарратор суммирует только публичные события. Тест сканирует полный промпт каждого агента на каждом ходу на наличие запрещённых токенов. За всё время тестирования — ноль утечек.

Память агентов реализована через целочисленный сентимент: подписанное отношение к Патрону и друг к другу, которое сдвигается событиями. В промпт попадает только однострочная сводка вида «ты тепло относишься к Уне, с осторожностью — к Патрону», ограниченная несколькими сильнейшими чувствами. Сырая история в промпт не передаётся никогда. Поведенческое смещение частично эмерджентно (сводка влияет на генерацию), частично детерминировано (агент с высокой враждебностью механически отказывает в займе). Это делает поведение наблюдаемым и тестируемым.

Результаты одного сидированного прогона с полной механикой v2: дообученный Qwen 0.5B показал 0% самопокупок и 100% валидных предложений, превзойдя своего 3B-учителя по надёжности формата. Два последовательных подозрительных выигрыша пересекли порог магистрата. Маржин-колл и дефолт по займу изгнали одного из агентов, который вернулся в следующей главе. Исследователь формулирует общий вывод так: малая модель — надёжный генератор форматов и ненадёжный рассуждатель; разрыв закрывается структурой, промптингом и небольшим дообучением, а не масштабом. Весь код совета и трассировки опубликованы в открытом доступе.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

NFC-ключ за $9: физический блокиратор отвлекающих приложений

Продолжить по разделам

Четыре модели от разных лабораторий в одной экономической симуляции: как это устроено

Кратко

Читать дальше

ИИ-агенты ускорили научный софт в 60 раз, но не проверяют корректность науки

Толстый и тонкий харнесс: принципы маршрутизации запросов ИИ-ассистента

NFC-ключ за $9: физический блокиратор отвлекающих приложений