Разработчик, который диктует задачи в Claude или Cursor, сталкивается с проблемой, которой нет у англоязычных коллег: русская речь постоянно перемежается английскими терминами — pull request, deploy, Gemini, API. Большинство моделей распознавания речи на этой смеси ломаются: либо транслитерируют английское слово кириллицей («ресёрч» вместо «research»), либо теряют пунктуацию целыми абзацами.
Преимущество голосового набора в цифрах выглядит убедительно. Зак Прозер, developer advocate в Pinecone, замерил конкретно: 90 WPM при печати, 179 голосом. За год он надиктовал 180 000 слов в 36 приложениях. Исследование Aalto University с участием 168 000 человек зафиксировало среднюю скорость набора 52 WPM — IT-специалисты в среднем достигают 70 WPM. Разрыв между голосом и клавиатурой максимален именно на линейном тексте: объяснить задачу нейросети, надиктовать длинное сообщение, проговорить идею для статьи. Andrej Karpathy, один из основателей OpenAI и бывший директор по ИИ в Tesla, описал свой воркфлоу с Cursor в феврале 2025 года: «I just talk to Composer with SuperWhisper so I barely even touch the keyboard» — твит собрал 6,8 млн просмотров.
| Модель | Параметры | Архитектура | Языки | Лицензия | Ключевое |
|---|---|---|---|---|---|
| Whisper Large v3 | 1,55B | Encoder-Decoder Transformer | 100+ | MIT | Лучшая на миксе языков |
| Whisper Turbo | 809M | Дистиллят Large v3 (4 слоя декодера) | 100+ | MIT | В 3-4× быстрее Large |
| GigaAM v3 | 220M | Conformer + RNNT | ru | MIT | SOTA для чистого русского |
| Canary 1B v2 | 1B | FastConformer | 25 | CC-BY-4.0 | Авто-пунктуация из коробки |
| Parakeet V3 | 600M | FastConformer + TDT | 25 | CC-BY-4.0 | Потоковая, очень быстрая |
| Cohere Transcribe | 2B | Conformer | 14 (без ru) | Apache 2.0 | Топ Open ASR Leaderboard |
Из бесплатных инструментов реально работает только голосовой ввод в ChatGPT — на Windows, Mac и iPhone он корректно распознаёт русскую речь. Это объяснимо: именно OpenAI в 2022 году выпустила семейство моделей Whisper, которое стало отраслевым стандартом распознавания речи. Встроенный голосовой ввод iOS расставляет знаки препинания только если произносить их вслух. Claude на Windows и Mac по состоянию на март 2026 года поддерживает голосовой ввод только на английском. Windows 11 формально поддерживает русский через Win+H, но качество пригодно лишь для коротких фраз, офлайн-распознавание русского отсутствует.
WisprFlow ($15/мес или 750 ₽ через российский App Store) и SpeakFlow (690 ₽/мес) регулярно теряют пунктуацию при диктовке в Claude Desktop.

WisprFlow — приложение, которое популяризировал создатель концепции Second Brain Тиаго Форте, — стоит $15 в месяц или 750 рублей через российский App Store. Приложение умеет подстраиваться под активное окно: в терминале текст приходит с разметкой, в Claude Desktop — сплошным потоком без единой запятой. Помимо пунктуации, после длительной работы в фоне приложение начинает критически нагружать процессор. Российская альтернатива SpeakFlow (690 рублей в месяц, оплата российской картой) воспроизводит те же проблемы: нестабильная пунктуация, утечки памяти, подвисания после обновлений.
Потеря пунктуации — не косметическая проблема. Сырая транскрипция без знаков препинания влияет на то, как языковая модель интерпретирует запрос: границы предложений размыты, смысловые акценты смещаются. Автор нашёл промпт, который восстанавливает пунктуацию в 99% случаев постфактум, и оформил его как pull request в open-source проект — изменения приняли в основную ветку.
На фоне нестабильности облачных решений локальные модели выглядят привлекательнее. GigaAM v3 от Сбера — модель, ориентированная на русский язык, в том числе с техническими терминами. Локальный запуск Whisper-моделей разного размера позволяет контролировать качество и не зависеть от серверов стороннего сервиса. Компромисс очевиден: локальные решения требуют настройки и ресурсов машины, облачные — проще в использовании, но нестабильны. Для разработчика на Windows, который диктует задачи нейросетям на русско-английском, универсального готового решения в апреле 2026 года по-прежнему нет.


