Разработчик, который диктует задачи в Claude или Cursor, сталкивается с проблемой, которой нет у англоязычных коллег: русская речь постоянно перемежается английскими терминами — pull request, deploy, Gemini, API. Большинство моделей распознавания речи на этой смеси ломаются: либо транслитерируют английское слово кириллицей («ресёрч» вместо «research»), либо теряют пунктуацию целыми абзацами.

Преимущество голосового набора в цифрах выглядит убедительно. Зак Прозер, developer advocate в Pinecone, замерил конкретно: 90 WPM при печати, 179 голосом. За год он надиктовал 180 000 слов в 36 приложениях. Исследование Aalto University с участием 168 000 человек зафиксировало среднюю скорость набора 52 WPM — IT-специалисты в среднем достигают 70 WPM. Разрыв между голосом и клавиатурой максимален именно на линейном тексте: объяснить задачу нейросети, надиктовать длинное сообщение, проговорить идею для статьи. Andrej Karpathy, один из основателей OpenAI и бывший директор по ИИ в Tesla, описал свой воркфлоу с Cursor в феврале 2025 года: «I just talk to Composer with SuperWhisper so I barely even touch the keyboard» — твит собрал 6,8 млн просмотров.

МодельПараметрыАрхитектураЯзыкиЛицензияКлючевое
Whisper Large v31,55BEncoder-Decoder Transformer100+MITЛучшая на миксе языков
Whisper Turbo809MДистиллят Large v3 (4 слоя декодера)100+MITВ 3-4× быстрее Large
GigaAM v3220MConformer + RNNTruMITSOTA для чистого русского
Canary 1B v21BFastConformer25CC-BY-4.0Авто-пунктуация из коробки
Parakeet V3600MFastConformer + TDT25CC-BY-4.0Потоковая, очень быстрая
Cohere Transcribe2BConformer14 (без ru)Apache 2.0Топ Open ASR Leaderboard

Из бесплатных инструментов реально работает только голосовой ввод в ChatGPT — на Windows, Mac и iPhone он корректно распознаёт русскую речь. Это объяснимо: именно OpenAI в 2022 году выпустила семейство моделей Whisper, которое стало отраслевым стандартом распознавания речи. Встроенный голосовой ввод iOS расставляет знаки препинания только если произносить их вслух. Claude на Windows и Mac по состоянию на март 2026 года поддерживает голосовой ввод только на английском. Windows 11 формально поддерживает русский через Win+H, но качество пригодно лишь для коротких фраз, офлайн-распознавание русского отсутствует.

WisprFlow ($15/мес или 750 ₽ через российский App Store) и SpeakFlow (690 ₽/мес) регулярно теряют пунктуацию при диктовке в Claude Desktop.

Голосовой ввод на русско-английском в 2026: обзор WisprFlow, GigaAM v3 и локальных решений
· Источник: Habr AI

WisprFlow — приложение, которое популяризировал создатель концепции Second Brain Тиаго Форте, — стоит $15 в месяц или 750 рублей через российский App Store. Приложение умеет подстраиваться под активное окно: в терминале текст приходит с разметкой, в Claude Desktop — сплошным потоком без единой запятой. Помимо пунктуации, после длительной работы в фоне приложение начинает критически нагружать процессор. Российская альтернатива SpeakFlow (690 рублей в месяц, оплата российской картой) воспроизводит те же проблемы: нестабильная пунктуация, утечки памяти, подвисания после обновлений.

Потеря пунктуации — не косметическая проблема. Сырая транскрипция без знаков препинания влияет на то, как языковая модель интерпретирует запрос: границы предложений размыты, смысловые акценты смещаются. Автор нашёл промпт, который восстанавливает пунктуацию в 99% случаев постфактум, и оформил его как pull request в open-source проект — изменения приняли в основную ветку.

На фоне нестабильности облачных решений локальные модели выглядят привлекательнее. GigaAM v3 от Сбера — модель, ориентированная на русский язык, в том числе с техническими терминами. Локальный запуск Whisper-моделей разного размера позволяет контролировать качество и не зависеть от серверов стороннего сервиса. Компромисс очевиден: локальные решения требуют настройки и ресурсов машины, облачные — проще в использовании, но нестабильны. Для разработчика на Windows, который диктует задачи нейросетям на русско-английском, универсального готового решения в апреле 2026 года по-прежнему нет.