ScribeAir — офлайн распознавание речи для Windowsv2.2.4

Голосовой ввод и расшифровка речи для Windows без облака. Качество 3,3% ошибок на русском, разметка спикеров для записи встреч, пять режимов под разные задачи. Бесплатно, открытый исходный код.

Распознавание речи

Распознавание речи локально, без облака.

Голосовой ввод

Текст появляется у курсора в любой программе.

Офлайн

Всё считается на вашем компьютере. Интернет не требуется.

Открытый код

Лицензия MIT, исходный код открыт.

Бесплатно

Бесплатно для личного и коммерческого использования.

GigaAM

Акустическая модель Сбербанка, обучена на 700 000 часов русской речи.

Whisper

Whisper large-v3-turbo от OpenAI, мультиязычная модель.

Каскад AO

Whisper идёт первым, GigaAM подхватывает фрагменты с низкой уверенностью.

Разметка спикеров

Расставляет в тексте, кто что говорит, до четырёх голосов.

Расшифровка встреч

Записи созвонов и интервью превращаются в готовый к правке документ.

Голосовая активация

Скажите «Запись» для старта, «Стоп» для остановки.

Удержание клавиши

Зажмите клавишу, говорите, отпустите — текст уже на месте.

Двуязычие

Русский и английский в одной записи, в том числе со сменой языка.

Русский и английский

Каждый фрагмент уходит в свою модель по определённому языку.

ONNX

Оптимизированная среда выполнения, быстро на процессоре и видеокарте.

Ускорение на видеокарте

Поддержка NVIDIA CUDA, ускоряет расшифровку в несколько раз.

3,3% ошибок

Доля ошибочных слов на эталонной записи русских аудиокниг.

Windows

Windows 10 и Windows 11, разрядность x64.

УтилитыPython 3.12GigaAM v3Whisper large-v3-turboONNX RuntimeCTranslate2faster-whisperSilero VADpyannote-segmentation-3.0WeSpeakeropenWakeWordpymorphy3tkinterPyInstaller

Скриншоты

Документация

ScribeAir превращает речь в текст у курсора прямо в окне любой программы. Зажали клавишу, сказали фразу — она появилась там, где вы печатаете: в редакторе, в чате, в письме, в коде. Звук обрабатывается на вашем компьютере, в облако ничего не уходит.

Программа выручает, когда диктовать быстрее, чем печатать: на созвонах, при расшифровке интервью, при написании документации. Под русскую речь подобраны модели, которые работают лучше привычных альтернатив. Главная — GigaAM от Сбербанка, обученная на 700 000 часов русской речи; на чистой записи она показывает 3,3% ошибочных слов, что выше Google Speech-to-Text (около 10%) и Dragon (около 8%).

Как этим пользоваться

После запуска в системном трее появляется значок микрофона. Когда модели загрузятся, значок гаснет — можно записывать. Два способа:

Зажать настроенную клавишу (по умолчанию Win+Ctrl), сказать фразу, отпустить — текст появится у курсора.
Включить голосовую активацию и сказать «запись». Чтобы закончить, скажите «стоп». Без клавиш, руки свободны.

Во время записи поверх остальных окон висит маленькая подсказка: видно, что распознаётся прямо сейчас, и слышно ли вообще что-нибудь с микрофона.

Пять режимов распознавания

Меняются за пару секунд из меню в трее, без переустановки. Каждый режим — это конкретный набор моделей под конкретный профиль записи.

«Автоматически». На компьютере с видеокартой NVIDIA звук идёт в Whisper, на машинах без GPU — в GigaAM (если речь русская) или в Whisper (если английская и смешанная). Хороший выбор по умолчанию.

«Гибрид». Загружены сразу обе модели. Каждый фрагмент уходит туда, куда подходит по языку: русская речь — в GigaAM, английская — в Whisper. Удобно на разговорах с переключениями языков, на презентациях с английскими терминами в русском контексте.

«Каскад AO». Доученная русская версия Whisper делает первый проход. Если она сама сообщает о низкой уверенности в результате (логарифмическая вероятность сегмента опустилась ниже −0,20), её ответ заменяется на распознавание GigaAM. Этот режим выручает на записях переменного качества: совещаниях с удалёнными участниками, диктовках в тихий микрофон, шумной обстановке. Заодно убирает характерные галлюцинации Whisper, которые проскакивают на коротких или плохо слышных фрагментах: ложные «Корректор А. Семкин», «Субтитры создавал DimaTorzok», повторяющиеся «Thank you. Thank you.», случайные исландские циклы.

«Whisper». Только Whisper. Берут, когда нужна универсальная мультиязычная модель, и под рукой видеокарта.

«GigaAM». Только GigaAM. Самая короткая задержка (0,66 секунды на процессоре), пунктуация уже встроена в модель, на тишине возвращается пустая строка, а не выдуманная фраза. Минус один: понимает только русский.

Запись встреч и интервью

Для совещаний в приложении есть разметка спикеров. Модель pyannote-segmentation-3.0 находит границы реплик, нейросеть WeSpeaker строит для каждого голоса векторное представление, после чего голоса группируются в стабильные идентификаторы. В итоге текст содержит метки вроде [Speaker 1]:, [Speaker 2]: и далее, до четырёх спикеров.

Когда вы останавливаете запись, запускается дополнительный этап «Stage N»: pyannote проходит по всей записи ещё раз и собирает границы реплик уже не на лету, а с полным знанием контекста. После этого каждая реплика распознаётся целиком, от начала до конца. Так получается осмысленная пунктуация — модели не приходится угадывать, где заканчивается фраза, разрезанная посреди слова. Если выбран «Каскад AO», на выходе вы получаете протокол встречи, который остаётся только вставить в документ.

Коротким репликам (вроде «да» одним словом) нужно хотя бы полторы секунды звука, чтобы нейросеть успела построить устойчивое представление голоса. Если реплика короче, она может приписаться предыдущему говорящему. Финальный проход «Stage N» обычно такие случаи исправляет.

Кому это полезно

Программистам и техническим писателям. Программа подставляет латинские названия там, где вы говорите по-русски: «питон» становится Python, «гугл» — Google, «питест» — pytest. Падежи и формы слов разбирает библиотека pymorphy3, поэтому «питоне», «питоном», «питонов» тоже превращаются в Python. Словарь по умолчанию содержит 81 термин и легко расширяется через файл настроек.

Тем, кто записывает созвоны. Включаете «Каскад AO», ставите галку «Разметка спикеров», записываете созвон обычной клавишей. После остановки получаете текст с метками участников, готовый к редактированию или к загрузке в систему ведения протоколов.

Журналистам и блогерам. Длинная диктовка или расшифровка интервью идёт поточно. Программа показывает промежуточный результат сразу — не нужно ждать конца записи, чтобы увидеть, что распознаётся.

Людям с ограниченной подвижностью рук. Голосовая активация заменяет любые горячие клавиши и позволяет управлять записью только голосом.

Качество и скорость

Тесты проводились на русских аудиокнигах. Доля ошибочных слов и время обработки одной фразы:

GigaAM v3-e2e-rnnt: 3,3% ошибочных слов, 0,66 секунды на одном ядре процессора, 0,40 секунды на видеокарте.
Whisper large-v3-turbo на видеокарте: 7,9%, 0,44 секунды.
Whisper large-v3 на видеокарте: 8,8%, 2,30 секунды.
Whisper base на процессоре (точка отсчёта): 32,6%, 0,42 секунды.

На отдельном наборе из 1717 фрагментов смешанного качества — тихие участки, удалённые от микрофона голоса, шум — режим «Каскад AO» даёт 9,4% ошибок против 10,2% у Whisper и 10,9% у GigaAM, когда они работают по отдельности. То есть связка точнее каждой модели в одиночку именно на сложных записях.

Для сравнения, штатный голосовой ввод Windows даёт около 25% ошибок на русском, Google Speech-to-Text — около 10%, Dragon — около 8%. GigaAM на процессоре оказывается точнее любой Whisper-модели, запущенной на видеокарте RTX 4090.

Технологии

Под капотом — только проверенные библиотеки, нет своих экспериментов, тянущих за собой огромные зависимости:

Распознавание речи: faster-whisper поверх CTranslate2 для Whisper, onnx-asr для GigaAM. Один и тот же интерфейс работает и на процессоре, и на видеокарте.
Детектор речевой активности: Silero VAD в формате ONNX. Реагирует за миллисекунды, не пропускает речь, не залипает на длинных паузах.
Разметка спикеров: pyannote-segmentation-3.0 для границ реплик, WeSpeaker (voxceleb-resnet34-LM) для векторных представлений голосов. Обе модели лежат в ONNX, поэтому на стороне пользователя не нужны ни PyTorch, ни TensorFlow.
Голосовая активация: фреймворк openWakeWord с собственной двунаправленной LSTM-моделью на ключевые слова «запись» и «стоп». Натренирована на 1000+ синтезированных образцах от пяти голосов плюс набор реальных записей с микрофона.
Морфология: pymorphy3 разбирает русские падежи и формы слов при замене ИТ-терминов.
Интерфейс: tkinter для окна настроек и плавающей подсказки, pystray для значка в системном трее.
Упаковка: PyInstaller с параллельной установкой нескольких версий. Обновления ложатся рядом со старой сборкой, не трогая работающую программу.

Системные требования

Windows 10 или Windows 11, разрядность x64.
8 ГБ оперативной памяти — хватает для процессорной сборки; 16 ГБ комфортнее для сборки с видеокартой.
Любой микрофон, USB или встроенный в ноутбук.
Опционально: NVIDIA с 4 ГБ видеопамяти и старше, библиотеки CUDA 12.x с cuDNN 9.x. С такой видеокартой распознавание идёт быстрее, чем вы произносите слова.

Приватность

Звук, расшифровки, промежуточные результаты остаются на компьютере. Программа сама ничего никуда не отправляет, кроме двух явных случаев:

Раз в час проверяется наличие обновлений — на зеркало проекта уходит запрос подписанного манифеста. Эту проверку легко выключить в настройках.
Если вы включили отправку отчётов о сбоях, в случае краха уходит хвост лога и сведения о системе. Звук в отчёт никогда не попадает. Сервер, на который уходит отчёт, можно поменять в настройках.

Ни аналитики поведения, ни рекламных идентификаторов, ни телеметрии нет. Программа выпущена под лицензией MIT, исходный код полностью открыт.

Обновления и каналы релизов

Обновления подписаны ключом Ed25519 и идут по двум каналам. «Стабильный» включён по умолчанию — туда попадают только проверенные сборки. На «Бета» переключаются те, кто готов помочь с тестированием: новые версии падают сюда раньше, под суффиксом вида v2.0.10-beta1, и стабильные пользователи их не видят. Если после обновления программа не запускается, происходит автоматический откат на предыдущую версию.

Установка

На странице релизов GitFlic лежат две сборки в виде ZIP-архивов: процессорная (около 180 МБ) и для видеокарты (около 2,7 ГБ). Скачайте, распакуйте, запустите ScribeAir.exe. Модели подкачиваются автоматически при первом запуске, дальше всё работает офлайн.

Если HuggingFace заблокирован у вас провайдером, инструкция в репозитории описывает, как разложить модели по папкам вручную с зеркала проекта.