Транскрибация аудио за доли цента: Parakeet-TDT и AWS Batch

AWS Machine Learning Blog·22 апр.·3 минЛабораторииКод

Модель NVIDIA Parakeet-TDT-0.6B-v3, вышедшая в августе 2025 года, распознаёт речь на 25 европейских языках с частотой ошибок 6,34% в чистых условиях — и при развёртывании через AWS Batch на Spot-инстансах позволяет снизить стоимость транскрибации до долей цента за час аудио.

Кратко

—Parakeet-TDT-0.6B-v3 поддерживает 25 европейских языков, включая русский и украинский, с автоматическим определением языка.
—Архитектура Token-and-Duration Transducer пропускает тишину и избыточные фрагменты, что даёт скорость обработки на порядки выше реального времени.
—Минимальные требования к GPU — 4 ГБ VRAM; лучшее соотношение цены и производительности показывают инстансы G6 с видеокартами NVIDIA L4.
—Spot-инстансы EC2 снижают стоимость вычислений до 90% — задания ASR идемпотентны и автоматически перезапускаются при прерывании.
—Пайплайн масштабируется до нуля в простое: расходы возникают только во время активной обработки файлов.

Глоссарий · 7 терминов▾

ASR (Automatic Speech Recognition): Автоматическое распознавание речи — технология преобразования аудиозаписи в текст без участия человека.
WER (Word Error Rate): Доля ошибочно распознанных слов относительно общего числа слов в эталонном тексте; чем ниже, тем точнее модель.
Token-and-Duration Transducer (TDT): Архитектура нейросети для ASR, которая одновременно предсказывает текстовые токены и их длительность, позволяя пропускать паузы и ускорять обработку.
Spot-инстансы: Виртуальные машины в AWS, работающие на неиспользуемых мощностях облака со скидкой до 90%, но с возможностью прерывания провайдером.
AWS Batch: Управляемый сервис AWS для запуска пакетных вычислительных задач: автоматически выделяет ресурсы, запускает контейнеры и масштабируется до нуля в простое.
SNR (Signal-to-Noise Ratio): Отношение сигнала к шуму в аудиозаписи; 0 дБ SNR означает, что уровень шума равен уровню полезного сигнала.
EventBridge: Сервис AWS для маршрутизации событий между облачными сервисами — например, для автоматического запуска задания при загрузке файла в S3.

В августе 2025 года NVIDIA опубликовала Parakeet-TDT-0.6B-v3 — открытую модель автоматического распознавания речи (ASR) под лицензией CC-BY-4.0. Модель охватывает 25 европейских языков, среди которых русский, украинский, немецкий, французский, испанский и ещё двадцать других, и автоматически определяет язык без дополнительной настройки. По данным NVIDIA, в чистых акустических условиях модель достигает 6,34% Word Error Rate (WER), а при сильном шуме (0 дБ SNR) — 11,66% WER. Поддерживается обработка аудиофайлов длиной до трёх часов через режим локального внимания.

Основное техническое отличие Parakeet-TDT от классических ASR-систем — архитектура Token-and-Duration Transducer (TDT). Вместо того чтобы обрабатывать каждый фрейм аудио последовательно, модель одновременно предсказывает текстовые токены и их длительность, что позволяет интеллектуально пропускать паузы и повторяющиеся участки. Результат — скорость инференса на порядки выше реального времени: модель обрабатывает часовую запись значительно быстрее, чем она длится. Именно это свойство делает её привлекательной для задач, где стоимость вычислений критична: архивирование медиатек, анализ записей колл-центров, подготовка обучающих данных для ИИ, генерация субтитров.

Pricing Model	Hourly Cost (g6.xlarge)*	Cost per Minute of Audio
On-Demand	~$0.805	$0.00011
Spot Instances	~$0.374	$0.00005

Для развёртывания в облаке AWS инженеры блога Machine Learning предложили событийно-управляемый пайплайн на базе AWS Batch. Схема работает следующим образом: загрузка аудиофайла в бакет Amazon S3 автоматически запускает правило Amazon EventBridge, которое отправляет задание в AWS Batch. Batch поднимает GPU-инстанс, скачивает контейнерный образ с предзагруженной моделью из Amazon ECR и запускает инференс. Готовый транскрипт с временными метками в формате JSON сохраняется в выходной S3-бакет. Когда очередь пуста, среда масштабируется до нуля — плата не начисляется.

Архитектура Token-and-Duration Transducer пропускает тишину и избыточные фрагменты, что даёт скорость обработки на порядки выше реального времени.

AWS architecture diagram showing audio transcription pipeline using Docker, AWS Batch, EventBridge, ECR, S3, and CloudWatch services · Источник: AWS Machine Learning Blog

По аппаратным требованиям модель достаточно экономична: минимум 4 ГБ VRAM, хотя 8 ГБ обеспечивают лучшую производительность. Авторы рекомендуют инстансы G6 с видеокартами NVIDIA L4 как оптимальные по соотношению цены и скорости для задач инференса. Также поддерживаются G5 (A10G), G4dn (T4), а для максимальной пропускной способности — P5 (H100) и P4 (A100). Дополнительный рычаг снижения затрат — Amazon EC2 Spot Instances: они предоставляют неиспользуемые мощности AWS со скидкой до 90% от цены по требованию. Поскольку задания ASR не хранят состояния между запусками, они хорошо переносят прерывания: AWS Batch автоматически перезапускает задание до двух раз при отзыве Spot-инстанса.

Для сравнения: управляемые ASR-сервисы крупных облачных провайдеров, как правило, тарифицируются поминутно и не зависят от реальной вычислительной нагрузки. При больших объёмах — десятки тысяч часов в месяц — эта модель ценообразования становится главным ограничением масштабирования. Подход с self-hosted моделью на Spot-инстансах переводит расходы в категорию «платишь только за реальные вычисления», что при высоких скоростях TDT-архитектуры даёт кратное снижение итоговой стоимости. Схожую логику ранее применяли для модели Whisper от OpenAI на AWS Inferentia — Parakeet-TDT предлагает аналогичный паттерн, но с многоязычным охватом и более высокой скоростью инференса на GPU.

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме