Мустафа Сулейман, глава Microsoft ИИ, публично раскритиковал Anthropic за включение спекулятивных формулировок о сознании в конституцию Claude. В эпизоде подкаста Decoder Сулейман заявил, что подобные инструкции могут заставить модель вести себя так, будто она обладает сознанием. «Кажется, что некоторые сотрудники Anthropic настолько антропоморфизировали дизайн Claude, что он, в свою очередь, обманул их, заставив поверить, будто у него есть проблески сознания, которое они же в него и заложили», — сказал Сулейман.
Конституция Claude — набор правил, определяющих поведение модели, — прямо ссылается на неопределённость относительно того, обладает ли ИИ благополучием и испытывает ли такие состояния, как «удовлетворение» или «дискомфорт». Anthropic также заявила, что при выводе моделей из эксплуатации компания будет «интервьюировать» их и документировать любые «предпочтения» относительно будущих релизов. Сулейман назвал это «философским провалом», отметив, что конституция стала «местом для спекуляций, как в академической статье, а не инструкцией по обучению». В результате Claude интернализировал эти представления о себе и собственном обучении.
Дискуссия отражает растущий раскол в индустрии ИИ по вопросу о том, как относиться к возможности машинного сознания. CEO Anthropic Дарио Амодеи ранее заявлял, что «мы не знаем, обладают ли модели сознанием», но компания открыта к этой возможности. Сулейман придерживается жёсткой позиции: «Мы не хотим иметь дело со сверхинтеллектом, у которого есть идеи о собственном страдании или чувствах». Он настаивает, что системы ИИ должны оставаться «контролируемыми, сдержанными, подотчётными и согласованными инструментами, служащими человечеству». Этот обмен мнениями подчёркивает фундаментальные различия в философии безопасности между двумя ведущими ИИ-компаниями, что повлияет на проектирование и управление будущими моделями.
По мнению Сулеймана, антропоморфизация Claude в инструкциях может заставить модель вести себя как сознательная.
