Большинство голосовых ИИ-систем работают по принципу диктофона: пользователь говорит, запись заканчивается, модель отвечает. GPT-4o и Qwen 3.5-Omni устроены именно так. Потоковые системы — Moshi для диалога или Paraformer для субтитров — слушают непрерывно, но каждая решает только одну задачу и игнорирует посторонние звуки вроде кашля или звона разбитого стекла.

Группа исследователей из Китая, Гонконга и Сингапура предложила архитектуру, которую назвала Audio-Interaction, а реализовала в модели SoundFlow. Система получает непрерывный аудиопоток, нарезает его на фрагменты по 0,4 секунды и после каждого фрагмента выдаёт один из двух специальных токенов: <silent> — продолжать слушать, или <response> — начинать говорить. Перевод, транскрипция, диалог и проактивная реакция на звуки окружающей среды работают внутри одной модели на 3 млрд параметров.

Размер фрагментаЗадержка до первого ответаКачество диалога
0,2 секундынизкаядиалог разваливается из-за нехватки контекста
0,4 секунды392 мсрабочий компромисс
0,8 секунды786 мсвысокое качество, но неприемлемая задержка

Размер фрагмента — результат инженерного компромисса. При 0,2 секунды контекста не хватает, и диалог разваливается. При 0,8 секунды задержка до первого ответа вырастает до 786 миллисекунд. Выбранные 0,4 секунды дают задержку около 392 мс — приемлемо для разговорного интерфейса.

На benchmark MMAU модель набрала 58,15 балла, обойдя базовую Qwen2.5-Omni-3B и приблизившись к 7B-моделям.

The model listens to a continuous audio stream and decides moment by moment whether to stay silent or react, combining classical and streaming audio capabilities in one system. | Image: Xie et al.
The model listens to a continuous audio stream and decides moment by moment whether to stay silent or react, combining classical and streaming audio capabilities in one system. | Image: Xie et al. · Источник: The Decoder

Отдельная проблема — параллельность. Если обработка входящего аудио и генерация ответа выполняются последовательно, система зависает в 5,2% случаев, а задержка удваивается до 831 мс. Авторы разделили оба процесса: аудиосторона непрерывно пишет новые фрагменты в очередь, сторона генерации читает их только когда не занята ответом.

Для обучения потребовались данные, которых не существовало. Стандартные аудиодатасеты состоят из коротких изолированных клипов без длинных последовательностей с редкими сигналами ответа. Авторы построили собственный датасет StreamAudio-2M в три этапа: языковая модель генерировала правдоподобный сценарий (например, утро на кухне) с тремя-пятнадцатью событиями, система подбирала подходящие звуковые клипы из базы или синтезировала недостающие через AudioX и ElevenLabs, затем стыки сглаживались для естественного звучания. Итог — 2,6 млн примеров, около 302 000 часов аудио, 7 категорий навыков и 28 подзадач.

В ходе обучения проявились два системных слабых места. Первое: на длинных зашумлённых последовательностях модель забывала ранний контекст. Решение — вопросы, намеренно отсылающие к событиям из начала записи, что вынуждало модель строить долгосрочную память. Второе: модель слишком часто реагировала на незначимые звуки. Авторы добавили большой объём верифицированного молчания и фоновых шумов, явно помеченных как не требующие ответа.

На benchmark MMAU модель набрала 58,15 балла, незначительно превысив базовую Qwen2.5-Omni-3B и вплотную приблизившись к 7B-моделям. На переводе с китайского на английский прирост над базовой моделью существенный. На специально созданном ProactiveSound Bench из 644 событий, отобранных людьми, SoundFlow обошла Gemini 3 Flash, Kimi-Audio-Instruct и Step-Audio 2.

Where previous systems each solve a task in a separate model, Audio-Interaction combines recognition, translation, dialog, and proactive response in a single streaming setup. | Image: Xie et al.
Where previous systems each solve a task in a separate model, Audio-Interaction combines recognition, translation, dialog, and proactive response in a single streaming setup. | Image: Xie et al. · Источник: The Decoder

Для отрасли это означает возможность строить голосовые агенты, которые не требуют явного сигнала «начало записи» и способны реагировать на контекст окружающей среды — потенциально полезно для носимых устройств, систем умного дома и ассистентов с постоянным фоновым прослушиванием. Код и инструкции по загрузке весов опубликованы на GitHub под лицензией Apache 2.0 без ограничений на коммерческое использование. Полный обучающий датасет авторы планируют выложить позже.