Большинство голосовых ИИ-систем работают по принципу диктофона: пользователь говорит, запись заканчивается, модель отвечает. GPT-4o и Qwen 3.5-Omni устроены именно так. Потоковые системы — Moshi для диалога или Paraformer для субтитров — слушают непрерывно, но каждая решает только одну задачу и игнорирует посторонние звуки вроде кашля или звона разбитого стекла.
Группа исследователей из Китая, Гонконга и Сингапура предложила архитектуру, которую назвала Audio-Interaction, а реализовала в модели SoundFlow. Система получает непрерывный аудиопоток, нарезает его на фрагменты по 0,4 секунды и после каждого фрагмента выдаёт один из двух специальных токенов: <silent> — продолжать слушать, или <response> — начинать говорить. Перевод, транскрипция, диалог и проактивная реакция на звуки окружающей среды работают внутри одной модели на 3 млрд параметров.
| Размер фрагмента | Задержка до первого ответа | Качество диалога |
|---|---|---|
| 0,2 секунды | низкая | диалог разваливается из-за нехватки контекста |
| 0,4 секунды | 392 мс | рабочий компромисс |
| 0,8 секунды | 786 мс | высокое качество, но неприемлемая задержка |
Размер фрагмента — результат инженерного компромисса. При 0,2 секунды контекста не хватает, и диалог разваливается. При 0,8 секунды задержка до первого ответа вырастает до 786 миллисекунд. Выбранные 0,4 секунды дают задержку около 392 мс — приемлемо для разговорного интерфейса.
На benchmark MMAU модель набрала 58,15 балла, обойдя базовую Qwen2.5-Omni-3B и приблизившись к 7B-моделям.

Отдельная проблема — параллельность. Если обработка входящего аудио и генерация ответа выполняются последовательно, система зависает в 5,2% случаев, а задержка удваивается до 831 мс. Авторы разделили оба процесса: аудиосторона непрерывно пишет новые фрагменты в очередь, сторона генерации читает их только когда не занята ответом.
Для обучения потребовались данные, которых не существовало. Стандартные аудиодатасеты состоят из коротких изолированных клипов без длинных последовательностей с редкими сигналами ответа. Авторы построили собственный датасет StreamAudio-2M в три этапа: языковая модель генерировала правдоподобный сценарий (например, утро на кухне) с тремя-пятнадцатью событиями, система подбирала подходящие звуковые клипы из базы или синтезировала недостающие через AudioX и ElevenLabs, затем стыки сглаживались для естественного звучания. Итог — 2,6 млн примеров, около 302 000 часов аудио, 7 категорий навыков и 28 подзадач.
В ходе обучения проявились два системных слабых места. Первое: на длинных зашумлённых последовательностях модель забывала ранний контекст. Решение — вопросы, намеренно отсылающие к событиям из начала записи, что вынуждало модель строить долгосрочную память. Второе: модель слишком часто реагировала на незначимые звуки. Авторы добавили большой объём верифицированного молчания и фоновых шумов, явно помеченных как не требующие ответа.
На benchmark MMAU модель набрала 58,15 балла, незначительно превысив базовую Qwen2.5-Omni-3B и вплотную приблизившись к 7B-моделям. На переводе с китайского на английский прирост над базовой моделью существенный. На специально созданном ProactiveSound Bench из 644 событий, отобранных людьми, SoundFlow обошла Gemini 3 Flash, Kimi-Audio-Instruct и Step-Audio 2.

Для отрасли это означает возможность строить голосовые агенты, которые не требуют явного сигнала «начало записи» и способны реагировать на контекст окружающей среды — потенциально полезно для носимых устройств, систем умного дома и ассистентов с постоянным фоновым прослушиванием. Код и инструкции по загрузке весов опубликованы на GitHub под лицензией Apache 2.0 без ограничений на коммерческое использование. Полный обучающий датасет авторы планируют выложить позже.
