Профессор Колумбийского университета Ним Месгарани начинал карьеру с изучения слуха у хорьков — их слуховая система близка к человеческой, но описать ощущения животные не могут. Это привело его к работе с пациентами, которым по медицинским показаниям имплантировали электроды на кору мозга для мониторинга эпилепсии. Метод называется электрокортикографией (ECoG): электроды фиксируют электрическую активность прямо с поверхности мозга с точностью до миллиметров. Именно эти данные стали основой для разработки системы декодирования слухового внимания.

В 2012 году Месгарани совместно с нейрохирургом Эдвардом Чангом опубликовал в Nature исследование, доказавшее: мозг способен выделять голос конкретного человека из шумной среды — так называемый эффект коктейльной вечеринки. Учёные смешивали два голоса в один поток, просили пациентов сосредоточиться на одном из говорящих и восстанавливали спектрограмму речи из нейронных сигналов. Восстановленная картина совпадала именно с тем голосом, на котором было сфокусировано внимание. Так появился термин Auditory Attention Decoding — декодирование слухового внимания.

МетодТочность декодированияТип электродов
Линейный декодер (стимул-реконструкция)66%Мокрые электроды (инвазивные)
AADNet (нейросеть, 2019)81%Инвазивные (ECoG)

Принцип работы AAD строится на том, что мозг слушателя синхронизируется с ритмом речи того, на кого направлено внимание. Алгоритм берёт многоканальную запись активности мозга и аудиоогибающую речи, подбирает весовые коэффициенты для каждого канала и восстанавливает огибающую — своего рода «отпечаток» того, что мозг реально слушает. Поскольку нейросигналы запаздывают относительно акустического стимула на 100–250 миллисекунд, алгоритм работает не с текущим моментом, а с окном активности — так называемым лагом. Линейные методы давали точность около 66%. В 2019 году команда разработала нейросеть AADNet, которая пропускает фрагменты записи мозга и аудио через параллельные фильтры разного масштаба и определяет, на каком источнике сосредоточено внимание. Точность выросла до 81% на тех же обучающих данных.

Точность декодирования выросла с 66% у линейных методов до 81% после внедрения нейросети AADNet.

В мае 2026 года в Nature Neuroscience опубликованы результаты следующего шага — замкнутой системы реального времени. Четверо испытуемых с имплантированными электродами слушали двух конкурирующих дикторов: одновременно велись два реалистичных диалога на бытовые темы. AADNet отслеживала внимание и через несколько секунд регулировала громкость целевого говорящего. Обработка нейронных и аудиоданных занимала менее полсекунды. Система справлялась даже с произвольным переключением внимания — когда испытуемые сами решали сменить фокус без каких-либо внешних команд, декодер улавливал внутреннее намерение.

Для проверки субъективного эффекта использовалась пупиллометрия: зрачок расширяется, когда мозг испытывает когнитивную нагрузку. При включённой AAD зрачки испытуемых сужались — нагрузка снижалась. Все четыре участника отметили улучшение понимания речи и выразили желание, чтобы система работала не менее 75% времени. Дополнительно те же записи — с коррекцией громкости и без неё — прослушали 40 человек с нарушениями слуха. Они также подтвердили, что с AAD разборчивость речи улучшилась.

Главное препятствие на пути к практическому применению — инвазивность. Электрокортикография требует хирургического вмешательства и применима только у пациентов, которым электроды уже установлены по медицинским показаниям. Для массового рынка слуховых аппаратов нужны неинвазивные методы: обычная электроэнцефалография с электродами на голове или ear-EEG, при котором электроды встроены непосредственно в слуховой аппарат. Сигнал от таких устройств значительно слабее и зашумлённее, чем от ECoG, — это отдельная инженерная задача, которую предстоит решить прежде, чем технология выйдет за пределы лаборатории.