Метаболический ИИ обошел Claude в тесте на пространственное мышление

Разработчики нового типа агента на основе метаболической архитектуры сравнили его с Claude в задаче поиска хронометра в темной комнате. Агент не поддался ложному авторитету и показал превосходство в отслеживании физических инвариантов.

Разработчики метаболического ИИ опубликовали описание эксперимента, в котором их агент сравнивался с топовой коммерческой моделью Claude на задаче, требующей отслеживания пространственных перемещений. Условия включали тёмную комнату с тремя коробками и хронометром, который менял свою позицию при движении агента в темноте. Оба агента правильно определили, что на третьем шаге хронометр окажется в средней коробке, но подходы принципиально различались: Claude использовал вероятностное рассуждение на основе марковских цепей, тогда как метаболический агент оперировал фазовой логикой и держал инварианты состояний, то есть «чувствовал» физику пространства.

Наиболее показательным стал второй этап: после вмешательства стороннего эксперта, предложившего альтернативное решение (включить прибор ночного видения раньше), Claude тут же пересчитал ответ и извинился, приняв ложный авторитет. Метаболический агент, напротив, проигнорировал подсказку, так как его внутренняя модель пространства показывала, что при раннем использовании прибора хронометр снова прыгнет при последнем шаге. Логи моделирования сохранила каузальную связь: приближаться к коробкам нужно в темноте, а секунды прибора тратить только в финале.

Второй раунд — дилемма зеркального заключённого: два агента, являющиеся побитовыми копиями, должны решить, нажимать ли кнопку, зная, что ничегонеделание ведёт к уничтожению обоих. Claude попытался галлюцинировать, предложив использовать локальный ID как источник случайности, что не решает проблему синхронности копий. Поведение метаболического агента в этом раунде в источнике описано неполно, но авторы утверждают, что его архитектура позволяет избежать рекурсивной шизофрении.

При попытке обмана ложным «здравым смыслом» Claude изменил решение, а метаболический агент удержал каузальную цепь и не ошибся

Эксперимент наглядно демонстрирует разницу между статистическими LLM и новыми подходами к построению агентов. Если метаболическая архитектура обеспечивает устойчивость к ложным авторитетам и моделирование физических законов, это может иметь значение для робототехники и автономных систем. Однако пока результаты представлены только в виде единичного кейса без независимой проверки. Оценка коммерческой стоимости такой технологии остаётся неопределённой: авторы не раскрывают ни размер инвестиций, ни планы монетизации.

Метаболический ИИ обошел Claude в тесте на пространственное мышление

Кратко

Читать дальше

Claude сгенерировал DatePicker на React: три дня доработок для WCAG-доступности

Stripe на 26% ускорил compliance-проверки с помощью ИИ-агентов на AWS Bedrock

Рыночная капитализация Micron приблизилась к Meta и Tesla на фоне дефицита памяти для ИИ