Open-source модель SoundFlow слушает непрерывно и каждые 0,4 секунды решает, отвечать

Подготовлено редакцией Malakhov AI

The Decoder·2 дня назад·3 минИсследованияИндустрия

Исследователи из Китая, Гонконга и Сингапура опубликовали модель SoundFlow на 3 млрд параметров, которая одновременно ведёт диалог, переводит речь и реагирует на бытовые звуки — всё в едином потоковом режиме без остановки записи. Код и веса доступны на GitHub под лицензией Apache 2.0.

Кратко

—Модель разбивает аудиопоток на фрагменты по 0,4 секунды и после каждого выбирает: молчать (<silent>) или отвечать (<response>).
—На benchmark MMAU модель набрала 58,15 балла, обойдя базовую Qwen2.5-Omni-3B и приблизившись к 7B-моделям.
—Для обучения авторы собрали датасет StreamAudio-2M: 2,6 млн примеров и около 302 000 часов аудио по 28 подзадачам.
—На бенчмарке ProactiveSound Bench из 644 событий модель превзошла Gemini 3 Flash, Kimi-Audio-Instruct и Step-Audio 2.
—Параллельная очередь обработки снизила задержку до первого ответа с 831 до 392 миллисекунд и устранила зависания в 5,2% случаев.

Видео по теме

Welcome the era of Audio Interaction Models ! · Источник: The Decoder

Глоссарий · 6 терминов▾

LLM: Large Language Model — большая языковая модель, нейросеть, обученная на текстах для генерации и понимания языка.
benchmark: Стандартизированный набор тестов для сравнения производительности разных моделей по одной шкале.
токен: Минимальная единица, которую модель обрабатывает или генерирует — может быть словом, частью слова или специальным управляющим символом.
потоковая обработка (streaming): Режим работы, при котором модель обрабатывает данные непрерывно по мере их поступления, не дожидаясь завершения всего ввода.
Apache 2.0: Открытая лицензия, разрешающая свободное использование, модификацию и коммерческое применение кода при сохранении указания авторства.
проактивный ответ: Реакция системы на событие без явного запроса пользователя — например, предупреждение о звуке сигнализации.

Большинство голосовых ИИ-систем работают по принципу диктофона: пользователь говорит, запись заканчивается, модель отвечает. GPT-4o и Qwen 3.5-Omni устроены именно так. Потоковые системы — Moshi для диалога или Paraformer для субтитров — слушают непрерывно, но каждая решает только одну задачу и игнорирует посторонние звуки вроде кашля или звона разбитого стекла.

Группа исследователей из Китая, Гонконга и Сингапура предложила архитектуру, которую назвала Audio-Interaction, а реализовала в модели SoundFlow. Система получает непрерывный аудиопоток, нарезает его на фрагменты по 0,4 секунды и после каждого фрагмента выдаёт один из двух специальных токенов: <silent> — продолжать слушать, или <response> — начинать говорить. Перевод, транскрипция, диалог и проактивная реакция на звуки окружающей среды работают внутри одной модели на 3 млрд параметров.

Размер фрагмента	Задержка до первого ответа	Качество диалога
0,2 секунды	низкая	диалог разваливается из-за нехватки контекста
0,4 секунды	392 мс	рабочий компромисс
0,8 секунды	786 мс	высокое качество, но неприемлемая задержка

Размер фрагмента — результат инженерного компромисса. При 0,2 секунды контекста не хватает, и диалог разваливается. При 0,8 секунды задержка до первого ответа вырастает до 786 миллисекунд. Выбранные 0,4 секунды дают задержку около 392 мс — приемлемо для разговорного интерфейса.

На benchmark MMAU модель набрала 58,15 балла, обойдя базовую Qwen2.5-Omni-3B и приблизившись к 7B-моделям.

The model listens to a continuous audio stream and decides moment by moment whether to stay silent or react, combining classical and streaming audio capabilities in one system. | Image: Xie et al. · Источник: The Decoder

Отдельная проблема — параллельность. Если обработка входящего аудио и генерация ответа выполняются последовательно, система зависает в 5,2% случаев, а задержка удваивается до 831 мс. Авторы разделили оба процесса: аудиосторона непрерывно пишет новые фрагменты в очередь, сторона генерации читает их только когда не занята ответом.

Для обучения потребовались данные, которых не существовало. Стандартные аудиодатасеты состоят из коротких изолированных клипов без длинных последовательностей с редкими сигналами ответа. Авторы построили собственный датасет StreamAudio-2M в три этапа: языковая модель генерировала правдоподобный сценарий (например, утро на кухне) с тремя-пятнадцатью событиями, система подбирала подходящие звуковые клипы из базы или синтезировала недостающие через AudioX и ElevenLabs, затем стыки сглаживались для естественного звучания. Итог — 2,6 млн примеров, около 302 000 часов аудио, 7 категорий навыков и 28 подзадач.

В ходе обучения проявились два системных слабых места. Первое: на длинных зашумлённых последовательностях модель забывала ранний контекст. Решение — вопросы, намеренно отсылающие к событиям из начала записи, что вынуждало модель строить долгосрочную память. Второе: модель слишком часто реагировала на незначимые звуки. Авторы добавили большой объём верифицированного молчания и фоновых шумов, явно помеченных как не требующие ответа.

На benchmark MMAU модель набрала 58,15 балла, незначительно превысив базовую Qwen2.5-Omni-3B и вплотную приблизившись к 7B-моделям. На переводе с китайского на английский прирост над базовой моделью существенный. На специально созданном ProactiveSound Bench из 644 событий, отобранных людьми, SoundFlow обошла Gemini 3 Flash, Kimi-Audio-Instruct и Step-Audio 2.

Where previous systems each solve a task in a separate model, Audio-Interaction combines recognition, translation, dialog, and proactive response in a single streaming setup. | Image: Xie et al. · Источник: The Decoder

Для отрасли это означает возможность строить голосовые агенты, которые не требуют явного сигнала «начало записи» и способны реагировать на контекст окружающей среды — потенциально полезно для носимых устройств, систем умного дома и ассистентов с постоянным фоновым прослушиванием. Код и инструкции по загрузке весов опубликованы на GitHub под лицензией Apache 2.0 без ограничений на коммерческое использование. Полный обучающий датасет авторы планируют выложить позже.

Разобраться глубже

Какие бизнес-процессы автоматизировать с помощью ИИ: матрица и 10 сценариев

Какие процессы реально автоматизировать с помощью ИИ в 2026 году: матрица фильтров эффект×сложность×риск×данные, 10 готовых сценариев, развёрнутый кейс агентства и калькулятор окупаемости поддержки интернет-магазина.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

Продолжить по разделам