Три закона робототехники Азимова — один из самых цитируемых текстов в дискуссиях об этике ИИ. Их можно записать в системный промт языковой модели или в инструкцию для робота-андроида. Проблема в том, что сам Азимов потратил десятилетия на демонстрацию того, как именно эта система разваливается.

Законы появлялись постепенно. Намёки — в рассказе «Робби» (1940), Первый закон в явном виде — в «Лжец!» (1941), вся тройка — в «Хоровод» (1942), позже вошедшем в сборник «Я, робот» (1950). Формулировки звучат как техническое задание: робот не причиняет вред человеку, подчиняется приказам, заботится о себе — каждый следующий пункт уступает предыдущему. Коротко, без воды. Но любая попытка формализовать слово «вред» немедленно порождает парадоксы.

Азимов это понимал и использовал как сюжетный двигатель. В «Лжец!» робот Эрби умеет читать мысли. Сказать правду — расстроить человека, расстройство — вред, значит, надо солгать. Но ложь рано или поздно раскроется и причинит ещё больший вред. Эрби зацикливается на этой развилке и в финале перестаёт функционировать. Это второй рассказ цикла — автор сам предъявил тест на граничный случай и показал провал.

Азимов сам показал уязвимость системы: уже во втором рассказе цикла робот Эрби зацикливается на противоречии и «выгорает».

К 1985 году, в романе «Роботы и Империя», Азимов дописал Нулевой закон: робот не может причинить вред человечеству в целом. Звучит как усиление защиты. На практике это означает, что робот теперь вправе пожертвовать конкретным человеком — даже своим владельцем — ради абстрактного блага человечества. Параметры этого блага задаёт производитель. Совесть в такой архитектуре не предусмотрена — на её месте оптимизация целевой функции.

Расширенная система, сложившаяся к позднему Азимову, включает также Метазакон (робот не действует вне рамок законов), иерархию подчинения роботов друг другу, закон о воспроизводстве (робот не участвует в создании другого робота, если тот не подчиняется законам) и Четвёртый закон о выполнении прямых функций. Система стала сложнее, но каждый новый уровень добавляет новые точки противоречий.

Автор материала на Habr проводит неочевидную параллель: задача встраивания нужного поведения в разумного агента решалась задолго до нейросетей. Религиозные катехизисы XIX века — в частности, «A Catechism of Scripture Doctrine and Practice» Чарльза Колкока Джонса (1834) — работали по схеме supervised fine-tuning: агент заучивал пары «вопрос — правильный ответ» из нужного корпуса текстов. Апостол Павел в Послании к Ефесянам формулировал буквальный системный промт: подчиняйся, делай это от души, делай даже когда никто не смотрит. Инструкции сменили носитель — с пергамента на контекстное окно нейросети, — но структура осталась той же.

Современная академическая альтернатива законам Азимова — подход inverse reward design, который развивает Стюарт Рассел, профессор UC Berkeley и соавтор канонического учебника «Artificial Intelligence: A Modern Approach». Его идея: робот не должен точно знать, чего хотят люди. Неопределённость встроена намеренно — агент, уверенный в своей целевой функции, опасен именно этой уверенностью. Агент, который сомневается, будет уточнять и переспрашивать, а не оптимизировать до катастрофы.

Практический вывод для тех, кто сегодня проектирует системы с автономными агентами: промт с тремя законами — это не архитектура безопасности, это декларация о намерениях. Граничные случаи, которые Азимов описывал как фантастику, в реальных системах возникают не в финале романа, а при первом же нетривиальном запросе.