Алексей Бобрешов, руководитель отдела ИИ в федеральном холдинге, опубликовал шестую часть серии о разработке ИИ-проектов. На этот раз — ретроспективный разбор безопасности дипломной системы умного дома, созданной в 2020–2021 годах. Система распознавала голосовые команды с точностью 94,06% и управляла реальными устройствами, но не имела ни шифрования трафика, ни разграничения прав, ни защиты от перехвата.

В студенческом проекте приоритеты были предсказуемы: сначала функциональность, потом точность и производительность. Безопасность оставалась за скобками — диплом, не продакшен. Переход к коммерческим проектам в крупных компаниях изменил эту оптику: автор пришёл к выводу, что безопасность не надстройка над готовой системой, а её основание, и перестройка без него обходится дорого.

Автор выделил четыре ключевые уязвимости исходного проекта. Аудиопоток передавался от микрофона к нейросети без шифрования — в локальной сети терпимо, при выходе в интернет открывает перехват голосовых команд. Система не различала пользователей: команды выполнялись от любого, кто оказался в радиусе слышимости, — без ролей администратора, хозяина или гостя. Не было защиты от replay-атак: записанная команда «открой дверь» воспроизводилась без ограничений. Наконец, система не логировала ни команды, ни их источник — расследовать инцидент было невозможно.

Голосовые данные передавались без шифрования, а система выполняла команды любого человека в радиусе слышимости — без разграничения ролей.

Взамен Бобрешов предлагает шестиуровневую архитектуру. Первый уровень — физический: аппаратное отключение микрофонов и световые индикаторы активности. Второй — сетевой: шифрование трафика по TLS 1.3, сегментация через VLAN для IoT-устройств, фильтрация и VPN для удалённого доступа. Третий — аутентификация: верификация диктора, многофакторная проверка (голос плюс PIN или биометрия), защита от replay через nonce и временные метки. Четвёртый — авторизация по модели RBAC с гранулярными и контекстными правами. Пятый — защита данных: шифрование хранимых данных по AES-256, анонимизация, использование HSM и TPM. Шестой — мониторинг: логирование всех событий, SIEM-системы и ML-детекция аномалий.

Для защиты от replay-атак автор приводит конкретную схему: сервер генерирует challenge из случайного nonce и временной метки, клиент подписывает аудио этим challenge, сервер проверяет свежесть (TTL — 300 секунд) и уникальность nonce. Повторное использование одного nonce или истёкший challenge отклоняются с исключением. Аналогично описана двухэтапная обработка команды: сначала верификация диктора, затем распознавание команды, затем проверка прав конкретного пользователя на конкретное действие — и только потом выполнение с записью в аудит-лог.

Материал адресован прежде всего разработчикам, которые проектируют голосовые ИИ-системы для реального применения. Автор не претендует на исчерпывающий стандарт, но фиксирует минимальный набор решений, отсутствие которых превращает функциональную систему в уязвимую точку входа в домашнюю или корпоративную инфраструктуру.