Когда OpenAI в начале 2025 года поглотила стартап Sky вместе со всей командой разработчиков, детали сделки не раскрывались. Теперь понятно, что именно перешло к покупателю: в конфигурационном файле плагина управления компьютером для Codex на Mac обнаруживается путь к исполняемому файлу SkyComputerUseClient.app. Это не метафора преемственности — это буквально тот же бинарник, переупакованный в официальный плагин OpenAI.
Большинство ИИ-агентов, умеющих управлять компьютером, работают по одной схеме: делают скриншот экрана, пытаются угадать координаты нужного элемента и либо имитируют клик по картинке, либо вызывают osascript через терминал. Так устроены и плагин в приложении Claude от Anthropic, и расширение Personal Computer от Perplexity. Sky с самого начала пошёл другим путём, и Codex унаследовал этот подход.
В основе технологии лежит Accessibility API — набор инструментов macOS, который Apple создавала для экранных дикторов и вспомогательных программ. Он позволяет стороннему приложению запросить так называемое дерево AX: полную иерархию всех элементов интерфейса открытого окна — кнопок, полей ввода, пунктов меню — вместе с их атрибутами и вложенностью. Структура может уходить на двадцать уровней вглубь и содержать тонны XML-подобного текста, но зато она описывает приложение точно, а не приблизительно. Codex скармливает это дерево языковой модели как контекст, и та принимает решение о следующем действии, опираясь на реальную структуру интерфейса, а не на пиксели.
Вместо скриншотов и AppleScript Codex читает «дерево AX» — иерархию элементов интерфейса macOS, изначально созданную для экранных дикторов.
Разница в точности хорошо видна на практике. В тесте оба агента — Codex и Personal Computer от Perplexity — правильно определили исполнителя по расплывчатому описанию «странная группа в масках из Квебека». Но когда дошло до управления приложением «Музыка», Perplexity не смог нажать кнопку Play через AppleScript, тогда как Codex уверенно открыл нужный альбом виртуальным курсором и запустил воспроизведение. Аналогичный сценарий повторился при сборе новостной сводки: Codex одновременно прокрутил ленты в Slack, Ivory и Unread с помощью параллельных курсоров и выдал цельный отчёт, не требуя от пользователя переключаться между окнами.
Отдельного внимания заслуживает сам виртуальный курсор — элемент, которого в оригинальном Sky не было. Команда Codex разработала для него собственную систему поведения: курсор «виляет» в момент, когда модель выбирает следующий шаг, прокладывает нестандартные маршруты движения и подстраивает цвет под обои рабочего стола. Это не функциональная необходимость, а осознанное дизайнерское решение, которое делает работу агента наблюдаемой и понятной.
По скорости Codex пока уступает опытному пользователю, знающему macOS наизусть. Но он работает в фоне и не требует внимания — что делает его практичным инструментом для рутины в приложениях без API или полноценной поддержки скриптов. Прежняя версия Sky базировалась на моделях Claude от Anthropic и работала заметно медленнее; сейчас даже GPT 5.4 в Codex быстрее, чем Sky в лучшие времена, а в скоростном режиме с моделью GPT-5.3-Codex-Spark от Cerebras разрыв становится ещё ощутимее. Плагин пока доступен только в Codex для Mac — основной клиент ChatGPT по-прежнему ограничен старой интеграцией Work with Apps.


