Реализация в среде Windows поддержки русскоязычного голосового ввода

Друзья, на днях мы рассматривали одно из новшеств, привнесённых в Windows 10 обновлением Fall Creators Update – штатную возможность голосового ввода данных на английском языке. Поддержку голосового ввода на русском языке компания Microsoft обещает в будущем, но не уточняет, близко или далеко это будущее обозримо. Возможно, это будет тогда, когда и Кортана сможет говорить, а главное, понимать по-русски. Ждать, пока Microsoft научит Windows 10 понимать наших не стоит. Если чего-то нет в среде самой системы, это практически всегда можно реализовать за счёт сторонних программных средств. Собственно, о них мы и будем говорить в этой статье. Ниже рассмотрим различные способы, как можно с помощью встроенного в ноутбук или подключённого к ПК микрофона вводить голосом поисковые запросы и надиктовывать текст документов.

Реализация в среде Windows поддержки русскоязычного голосового ввода

1. «Ок, Алиса» и голосовой поиск Google для поисковых запросов

Возможность голосового ввода поисковых запросов давным-давно присутствует в поисковике Google.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Непонятно, почему компания Google до сих пор не интегрировала эту технологию в интерфейс YouTube. Но в любом случае видеоролики можно искать в самом поисковике, проговаривая ключевые запросы. Просто затем нужно будет в результатах выдачи переключаться на вкладку «Видео». Львиная доля поисковых выдач по известным причинам всё равно будет с YouTube.

Успевшим уже познакомиться с Алисой – нашумевшим голосовым помощником от Яндекса – и вовсе не нужно отправляться на сайт поисковика в окне браузера. После установки программы поисковое поле Яндекса с возможностью голосового ввода запросов появится прямо на панели задач Windows. А на редкие несложные вопросы Алиса сможет ответить и без поисковика, не выходя за пределы своего диалогового окошка.

2. Веб-сервис Web Speech API от Google

У технологии Web Speech API, посредством которой в поисковике Google реализован голосовой ввод запросов, есть свой веб-интерфейс по адресу:

https://www.google.com/intl/ja/chrome/demos/speech.html

Функционал сервиса миинималистичен: в нём присутствует кнопка включения микрофона и результирующее поле, где затем будет отображаться распознанный текст.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Но в этом результирующем поле нельзя вносить правки. По итогу получим результаты распознавания как есть. И сможем отредактировать их только в каком-то текстовом редакторе или форме ввода данных. Кнопка ниже результирующего поля «Copy and Paste» завершает текущую сессию ввода и на весь распознанный текст автоматически ставит блок выделения. Так сделано для удобства копирования в буфер.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Для распознанного текста доступна ещё одна возможность, реализованная кнопкой создания электронного письма. Она запускает почтовый клиент, установленный в среде Windows таковым по умолчанию, создаёт новое письмо и переносит в него распознанный текст.

Примечательно, что Web Speech API может распознавать некоторые знаки препинания, как минимум точку и запятую. Так что во время диктовок в местах вставки точек и запятых их можно просто проговаривать.

Добавить в заметки чтобы посмотреть позже?

Чтобы узнавать о свежих записях укажите email:

Отсутствие возможности редактирования текста внутри результирующего поля делает использование интерфейса Web Speech API не совсем удобным для больших объёмов набора текста. Для длительных диктовок лучше использовать веб-интерфейс сервиса «Google Документы», в который технология Web Speech API встроена. В «Google Документах» можно и вводить текст голосом, и тут же править его, и ещё попутно форматировать документ.

Реализация в среде Windows поддержки русскоязычного голосового ввода

3. «Голосовой блокнот» на Speechpad.Ru

На базе технологии Web Speech API работает ещё сайт — самый популярный и самый функциональный в Рунете сервис голосового ввода данных «Голосовой блокнот». В числе основных его функций:

  • Поддержка нескольких языков, включая русский и украинский;
  • Результирующее поле распознавания голоса с возможностью правки текста, его перевода на другие языки, выгрузки результатов в TXT-файл;
  • Вывод распознанных фраз в буфер обмена;
  • Транскрибация;
  • Интеграция в веб-формы Chromium-браузеров;
  • Интеграция в среду Windows и Linux.

Плюс к этому всему, в «Голосовом блокноте» опция ввода голоса включается и отключается только по нажатию соответствующей кнопки. Эта опция не деактивируется сама по себе, как только мы на время призадумаемся в поисках точной формулировки мысли, как это происходит в прочих сервисах на базе Web Speech API.

Чтобы начать использовать возможности «Голосового блокнота», необходимо авторизоваться на сайте сервиса. Для этого нужно либо пройти регистрацию, либо задействовать имеющийся аккаунт Яндекса.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Далее активируем прослушивание микрофона кнопкой «Включить запись».

Реализация в среде Windows поддержки русскоязычного голосового ввода

И отслеживаем в результирующем поле распознанный текст.

4. Интеграция Speechpad в веб-формы браузера 

У «Голосового блокнота» есть расширение для Chrome и браузеров, поддерживающих работу с контентом из его магазина.

Реализация в среде Windows поддержки русскоязычного голосового ввода

После внедрения этого расширения в контекстном меню веб-форм ввода текста появится пункт «Speechpad». Жмём эту кнопку и говорим в микрофон. Таким образом можем, например, надиктовывать заметки в Google Keep.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Или общаться с людьми в соцсетях.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Единственное «но» — расширение «Голосового блокнота» работает не во всех веб-формах сайтов.

5. Интеграция Speechpad в среду Windows

Возможности веб-сервиса «Голосовой блокнот» можно интегрировать в среду Windows. И осуществлять набор текста голосом в любой программе операционной системы – штатном блокноте, Microsoft Word, прочих текстовых редакторах. Распознанная речь без посредничества веб-сервисов или буфера обмена будет вставляться прямо в редактируемые документы. Однако такая функция Speechpad.Ru не бесплатна, и стоит она 100 руб. в месяц. Предусматриваются варианты экономии: при оплате услуг сразу за квартал стоимость будет составлять 250 руб., а предоплата за год обойдётся в 800 руб. Каждый зарегистрированный пользователь может прежде протестировать интегрированный в среду своей операционной системы функционал сервиса. Создатели Speechpad.Ru предлагают двухдневный тестовый период бесплатно. Как непосредственно осуществляется интеграция «Голосового блокнота» в операционные системы, в частности, в Windows, подробно описывается на сайте самого Speechpad.Ru. Кликаем знак вопроса возле опции интеграции.

Реализация в среде Windows поддержки русскоязычного голосового ввода

И проходим все описываемые в инструкции шаги:

  • Устанавливаем вышеупомянутое расширение сервиса;
  • Скачиваем пакет файлов интеграции;
  • Распаковываем архив и запускаем файл install_host.bat;
  • На сайте Speechpad.Ru заходим в кабинет пользователя;

Реализация в среде Windows поддержки русскоязычного голосового ввода

Жмём кнопку «Включить тестовый период».

Реализация в среде Windows поддержки русскоязычного голосового ввода

Здесь же, ниже располагаются и способы оплаты услуг сервиса, если во время тестового периода работа с ним понравится. Далее возвращаемся на главную страничку Speechpad.Ru, активируем опцию «Интеграция с OS» и жмём кнопку «Включить запись».

Реализация в среде Windows поддержки русскоязычного голосового ввода

И так каждый раз, когда нужно активировать голосовой ввод. Вот, собственно, и всё. Теперь можно открывать Microsoft Word, LibreOffice Writer, прочие текстовые редакторы и начинать диктовку. Распознанный текст будет появляться в окне любого активного приложения, поддерживающего ввод данных. 

Важно: чтобы использовать интегрированный в систему Speechpad, нельзя закрывать вкладку его сайта в окне браузера. Закрытие последней деактивирует голосовой ввод.

5. Бесплатные альтернативы интеграции голосового ввода в среду Windows

Какие могут быть бесплатные альтернативы интеграции в среду Windows русскоязычного голосового ввода данных?

Вариант №1

Совершенно бесплатно на сайте Speechpad.Ru можно использовать опцию вывода распознанной речи в буфер обмена. Жмём на сайте кнопку «Включить запись» и перемещаемся в любое приложение Windows.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Теперь можем проговаривать отдельные фразы и вставлять их из буфера клавишами Ctrl+V. Как только сделаем паузу в речи, услышим писк Speechpad, свидетельствующий о том, что фраза распознана и скопирована в буфер обмена. Такой способ работы с голосовым вводом имеет свои преимущества: при вставке отдельных фраз можно попутно редактировать текст начисто.

Как и при полноценной интеграции «Голосового блокнота» в среду операционной системы, сайт Speechpad.Ru должен быть открыт в одной из вкладок браузера. 

Вариант №2

Работающим с приложениями офисного пакета компания Microsoft может предложить свою наработку по внедрению голосового ввода – надстройку Dictate, интегрирующую в Word, Outlook и PowerPoint дополнительную вкладку меню с инструментом распознавания речи. Надстройка может распознавать речь на 20 языках, включая русский, и позволяет попутно переводить текст на 60 языков.

Сайт скачивания Dictate:

http://dictate.ms

После установки надстройки в систему необходимо перезапустить Word, если он открыт, и активировать Dictate в настройках редактора. В меню «Файл» кликаем «Параметры», далее — «Надстройки». Из перечня надстроек выбираем WordDictate и кликаем внизу «Перейти».

Реализация в среде Windows поддержки русскоязычного голосового ввода

Активируем WordDictate.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Всё – можем тестировать голосовой ввод. Открываем любой документ Word и перемещаемся на вкладку «Dictation». Устанавливаем русский в качестве исходного языка, кликам кнопку со значком микрофона и говорим.

Реализация в среде Windows поддержки русскоязычного голосового ввода

Однако наряду с бесплатностью и удобством реализации голосового ввода таким образом, увы, получим и обратную сторону медали – ужасное качество самой технологии распознавания речи. Технология Microsoft по качеству всерьёз отстаёт от Web Speech API компании Google.

***

Ещё один бесплатный способ голосового ввода текста – запись речи в аудиофайл с дальнейшей автоматической транскрибацией (расшифровкой в текст). Далеко на каждый может сразу изложить свои мысли структурированным литературным языком, да ещё и попутно править ошибки распознавания, проставлять знаки препинания. При записи же речи на диктофон можно полностью сконцентрироваться на сути излагаемого материала, а в процессе транскрибации уже всю концентрацию внимания направить на красноречие и грамотность подачи этого материала. Но, друзья, автоматизация транскрибации аудиозаписей – это тема уже другой, отдельной статьи.

+ +