Голосовой ввод на русско-английском в 2026: обзор WisprFlow, GigaAM v3 и локальных решений

Подготовлено редакцией Malakhov AI

Habr AI·17 апр.·3 минРоссияКод

За полгода тестирования пяти приложений и двух моделей Whisper автор выяснил, что ни одно облачное решение не справляется с русско-английской смесью без потери пунктуации — и нашёл рабочие альтернативы. Голосовой набор даёт 179 слов в минуту против 90 при печати, но только если модель распознаёт «push», «deploy» и «pull request» внутри русской фразы.

Кратко

—Исследование Aalto University (168 000 участников) зафиксировало среднюю скорость набора 52 WPM — голос в 2–3 раза быстрее.
—WisprFlow ($15/мес или 750 ₽ через российский App Store) и SpeakFlow (690 ₽/мес) регулярно теряют пунктуацию при диктовке в Claude Desktop.
—ChatGPT — единственный бесплатный инструмент, корректно распознающий русскую речь на Windows, Mac и iPhone.
—GigaAM v3 от Сбера — локальная модель, ориентированная на русский язык с техническими терминами.
—Автор сделал pull request в open-source проект и нашёл промпт, восстанавливающий пунктуацию в 99% случаев после сырой транскрипции.

Глоссарий · 7 терминов▾

WPM: Words per minute — слов в минуту, единица измерения скорости набора текста или речи.
Whisper: Семейство моделей распознавания речи, выпущенное OpenAI в 2022 году и ставшее отраслевым стандартом; доступно для локального запуска.
GigaAM: Акустическая модель распознавания речи от Сбера, оптимизированная для русского языка.
LLM: Large Language Model — большая языковая модель; нейросеть, обученная на текстах и способная генерировать и понимать текст (GPT-4o, Claude, Gemini и др.).
Вайб-кодинг: Подход к разработке, при котором программист описывает задачу словами, а ИИ-ассистент генерирует код; термин ввёл Andrej Karpathy.
benchmark: Стандартизированный тест для сравнения производительности моделей или приложений по одному набору задач.
pull request: Запрос на включение изменений в основную ветку кода в системах контроля версий, таких как GitHub.

Разработчик, который диктует задачи в Claude или Cursor, сталкивается с проблемой, которой нет у англоязычных коллег: русская речь постоянно перемежается английскими терминами — pull request, deploy, Gemini, API. Большинство моделей распознавания речи на этой смеси ломаются: либо транслитерируют английское слово кириллицей («ресёрч» вместо «research»), либо теряют пунктуацию целыми абзацами.

Преимущество голосового набора в цифрах выглядит убедительно. Зак Прозер, developer advocate в Pinecone, замерил конкретно: 90 WPM при печати, 179 голосом. За год он надиктовал 180 000 слов в 36 приложениях. Исследование Aalto University с участием 168 000 человек зафиксировало среднюю скорость набора 52 WPM — IT-специалисты в среднем достигают 70 WPM. Разрыв между голосом и клавиатурой максимален именно на линейном тексте: объяснить задачу нейросети, надиктовать длинное сообщение, проговорить идею для статьи. Andrej Karpathy, один из основателей OpenAI и бывший директор по ИИ в Tesla, описал свой воркфлоу с Cursor в феврале 2025 года: «I just talk to Composer with SuperWhisper so I barely even touch the keyboard» — твит собрал 6,8 млн просмотров.

Модель	Параметры	Архитектура	Языки	Лицензия	Ключевое
Whisper Large v3	1,55B	Encoder-Decoder Transformer	100+	MIT	Лучшая на миксе языков
Whisper Turbo	809M	Дистиллят Large v3 (4 слоя декодера)	100+	MIT	В 3-4× быстрее Large
GigaAM v3	220M	Conformer + RNNT	ru	MIT	SOTA для чистого русского
Canary 1B v2	1B	FastConformer	25	CC-BY-4.0	Авто-пунктуация из коробки
Parakeet V3	600M	FastConformer + TDT	25	CC-BY-4.0	Потоковая, очень быстрая
Cohere Transcribe	2B	Conformer	14 (без ru)	Apache 2.0	Топ Open ASR Leaderboard

Из бесплатных инструментов реально работает только голосовой ввод в ChatGPT — на Windows, Mac и iPhone он корректно распознаёт русскую речь. Это объяснимо: именно OpenAI в 2022 году выпустила семейство моделей Whisper, которое стало отраслевым стандартом распознавания речи. Встроенный голосовой ввод iOS расставляет знаки препинания только если произносить их вслух. Claude на Windows и Mac по состоянию на март 2026 года поддерживает голосовой ввод только на английском. Windows 11 формально поддерживает русский через Win+H, но качество пригодно лишь для коротких фраз, офлайн-распознавание русского отсутствует.

WisprFlow ($15/мес или 750 ₽ через российский App Store) и SpeakFlow (690 ₽/мес) регулярно теряют пунктуацию при диктовке в Claude Desktop.

WisprFlow — приложение, которое популяризировал создатель концепции Second Brain Тиаго Форте, — стоит $15 в месяц или 750 рублей через российский App Store. Приложение умеет подстраиваться под активное окно: в терминале текст приходит с разметкой, в Claude Desktop — сплошным потоком без единой запятой. Помимо пунктуации, после длительной работы в фоне приложение начинает критически нагружать процессор. Российская альтернатива SpeakFlow (690 рублей в месяц, оплата российской картой) воспроизводит те же проблемы: нестабильная пунктуация, утечки памяти, подвисания после обновлений.

Потеря пунктуации — не косметическая проблема. Сырая транскрипция без знаков препинания влияет на то, как языковая модель интерпретирует запрос: границы предложений размыты, смысловые акценты смещаются. Автор нашёл промпт, который восстанавливает пунктуацию в 99% случаев постфактум, и оформил его как pull request в open-source проект — изменения приняли в основную ветку.

На фоне нестабильности облачных решений локальные модели выглядят привлекательнее. GigaAM v3 от Сбера — модель, ориентированная на русский язык, в том числе с техническими терминами. Локальный запуск Whisper-моделей разного размера позволяет контролировать качество и не зависеть от серверов стороннего сервиса. Компромисс очевиден: локальные решения требуют настройки и ресурсов машины, облачные — проще в использовании, но нестабильны. Для разработчика на Windows, который диктует задачи нейросетям на русско-английском, универсального готового решения в апреле 2026 года по-прежнему нет.

Разобраться глубже

Как внедрить ИИ в бизнес в 2026 году: пошаговый план для руководителя

Практический гайд для руководителя: как выбрать первый проект с ИИ, подготовить данные, посчитать экономику и довести пилот до рабочего процесса.

Внедряю ИИ в бизнес — обсудим задачу

Аудит, пилотные проекты, полное внедрение. Начинаем с консультации.

Перейти к услугам

Получать анонсы в Telegram

Ежедневный дайджест лучших материалов об ИИ

По теме

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США

Продолжить по разделам

Голосовой ввод на русско-английском в 2026: обзор WisprFlow, GigaAM v3 и локальных решений

Кратко

Читать дальше

VK вылетел из App Store, а в России готовят регулирование ИИ

«Яндекс» запустил платформу для создания ИИ-агентов в «Алисе ИИ»

Palantir внедряет NVIDIA Nemotron для ИИ в госучреждениях США