Голосовой набор текста онлайн на компьютере

Сравнение Microsoft.Speech с System.Speech

Если вы новичок в распознавании и синтезе речи для Windows-приложений, вы можете легко запутаться в документации, потому что существует несколько речевых платформ. В частности, помимо библиотеки Microsoft.Speech.dll, используемой демонстрационными программами в этой статье, есть библиотека System.Speech.dll, являющаяся частью операционной системы Windows. Эти две библиотеки похожи в том смысле, что их API почти, но не полностью идентичны. Поэтому, если вы отыскиваете примеры обработки речи в Интернете и видите фрагменты кода, а не полные программы, то совершенно не очевидно, относится данный пример к System.Speech или Microsoft.Speech.

Если вы новичок в обработке речи, используйте для добавления поддержки речи в .NET-приложение библиотеку Microsoft.Speech, а не System.Speech.

Хотя обе библиотеки имеют общую основную кодовую базу и похожие API, они определенно разные. Неокторые ключевые различия суммированы в табл. 1.

Табл. 1. Основные различия между Microsoft.Speech и System.Speech

Microsoft.Speech.dll System.Speech.dll
Требует отдельной установки Часть ОС (Windows Vista+)
Можно паковать с приложениями Не подлежит редистрибуции
Требует конструирования объектов Grammar Использует объекты Grammar или свободную диктовку
Без обучения пользователем Обучение под конкретного пользователя
API с управляемым кодом (C#) API с неуправляемым кодом (C++)

System.Speech DLL — часть ОС, поэтому она установлена в каждой системе Windows. Microsoft.Speech DLL (и связанные с ней исполняющая среда и языки) нужно скачивать и устанавливать в систему. Распознавание с применением System.Speech обычно требует обучения под конкретного пользователя, когда пользователь начитывает какой-то текст, а система учится понимать произношение, свойственное этому пользователю. Распознавание с применением Microsoft.Speech работает сразу для любого пользователя. System.Speech может распознавать практически любые слова (это называет свободной диктовкой). Microsoft.Speech будет распознавать лишь те слова и фразы, которые имеются в объекте Grammar, определенном в программе.

Яндекс Переводчик

Приложение Яндекс Переводчик имеет функцию преобразования речи в текст. Пользователь может надиктовать голосом, а программа переведет сказанное в текст. Заодно можно получить перевод на иностранный язык, если это нужно.

Распознавание голоса в текст в Яндекс Переводчике:

  1. Откройте Яндекс Переводчик, выберите направление перевода.
  2. Нажмите на значок голосового ввода (микрофон).
  3. Говорите, приложение будет вводить текст параллельно на русском (исходный текст) и иностранном языке (перевод).

Для того, чтобы у вас появилась возможность поделится получившимся текстом или сохранить его в удобном месте, измените направление перевода, в нашем случае с английского на русский. После этого, у вас появятся два одинаковых текста на русском языке. В поле для перевода станут доступными кнопки «Отправить с помощью» и «Сохранить».

Программы для воспроизведения текста голосом

Говорилка

Говорилка – полезный софт для любителей слушать, к сожалению не доступный в онлайн режиме. Поддерживает загрузку дополнительных речевых движков и языковой библиотеке прямо с официального сайта. Обладает полезными функциями:

  • Запись речи в аудио файл (*.WAV, *.MP3) с регулируемой скоростью воспроизведения.
  • Настройка скорости воспроизведения и тональности голоса в утилите.
  • Обработка текстов с интернет страниц и пакета офисных приложений.
  • Запоминание положения курса при выходе из программы.
  • Неограниченный объем читаемых символов.

Sacrament Talker

Уникальность Sacrament Talker заключается в том, что он работает на собственной системе озвучивания речи TTS Engine 3.0, где доступно шесть русских голосов. Как и другие программы обрабатывает текст из браузера, офисных приложений, а также сохраняет озвучку в MP3 формате.

2nd Speech Center

2nd Speech Center – очередной помощник, оберегающий зрение. Обладает максимально понятным пользовательским интерфейсом. Поддерживает запись произносимого текста в форматах mp3/wav. Обрабатывает форматы: .txt, .doc, .pdf, .eml, .rtf, .htm, .html.

Audiobook Recorder

Audiobook Recorder больше напоминает продвинутую аудиокнигу, чем традиционную говорилку. Утилита специализируется на конвертации текстовых документов в MP3. Отличительной особенностью программы служит наличие функции «Умная пауза», улучшающая качество чтения.

TNR JayJay

Утилита TNR JayJay – развлекательная говорилка, которая поможет узнать, как бы звучала фамилия пользователя на японском языке. Софт ориентирован на поклонников аниме, поскольку функцию голосов исполняют милые 2D девушки. При желании вы можете сохранить записанный материал на компьютере и поделиться полученным каламбуром с друзьями.

Балаболка

Балаболка – универсальная программа для чтения вслух, поддерживающая огромное количество форматов, начиная от страниц в браузере и заканчивая DjVu файлами. Имеет в распоряжении функционал текстового редактора, а также сохраняет озвученный текст на компьютере.

Говорун+

Говорун+ — компактная программа, которая может читать текст вслух на русском. Работает на предустановленном синтезаторе речи и использует встроенные голосовые движки. Читает RTF и TXT файлы. Дополнительно имеется плеер для воспроизведения записанных звуков, система оповещения, работа в трее и редактируемый интерфейс. Приятно порадует анимированные персонажи, выполняющие функции дикторов.

Foxit Reader

Foxit Reader – небольшая утилита для преобразования текста в речь, сосредоточенная на чтении PDF файлов. Отличается оперативной скоростью обработки данных и нетребовательностью к техническим ресурсам ПК. Отдельного внимания заслуживает дружелюбный пользовательский интерфейс, где управление инструментами редактирования осваиваются на интуитивном уровне.

Demagog

Проект Demagog – полезная утилита, которая больше походит на продвинутый текстовый редактор. Благодаря широким возможностям подходить не только для чтения и воспроизведения текстов, но и справляется с литературными произведениями. Порадует аудиалов следующими функциями:

  • Наличие инструментов форматирования, как в стандартных текстовых редакторах.
  • Уникальный алгоритм корректировки произношения.
  • Подсветка орфографических ошибок и омографов.
  • Распознавание многоязычных документов.
  • Поддержка словарей произношения DIC.

ICE Book Reader

ICE Book Reader – многофункциональная говорилка, которая не только озвучивает записанный русский и английский текст, но и конвертирует некоторые файлы. Специализируется на чтении книг. Отлично справляется с большинством известных форматов, а также имеет несколько полезных опций:

  • Пять режимов для пролистывания текста.
  • Оптимизация со всеми версиями ОС Windows.
  • Несколько тем оформления рабочего меню софта.
  • Стильный и удобный пользовательский интерфейс.
  • Корректное распознание не алфавитных символов.
  • Управление книжными коллекциями и автоматическая сортировка информации.

RussAcc

Проект RussAcc специализируется на воспроизведении русской речи. Представленная программа умеет правильно расставлять ударения при произношении, а также выделяет ударение на письме.

Дополнительно RussAcc используется, как текстовый редактор (форматирование текста) и конвертер FB2 в TXT. Имеется система закладок и запоминания читаемого фрагмента при выходе.

ListNote

Приложение ListNote предназначено для создания заметок при распознавании речи в текст. Для работы программы необходимо наличие на устройстве Google Voice Search (голосовой поиск Google), который установлен на большинстве смартфонов или планшетов.

Особенности программы ListNote:

  • Запуск одной кнопкой.
  • Текстовый редактор.
  • Защита заметок паролем.
  • Фильтрация заметок по цвету и категориям.
  • Экспорт заметок в SMS, по e-mail, в другие приложения, принимающие текст.
  • Возможность продолжить заметку в другое время.
  • Поддержка ввода голосом знаков пунктуации.

Выполните следующие действия:

  1. Нажмите на кнопку «Распознавание речи».
  2. Надиктуйте заметку голосом.
  3. Приложение отобразит текст из вашей речи.

Для чего это нужно

Смысл такой: если нуж­но пере­ве­сти ауди­о­за­пись в текст, мож­но это сде­лать очень быст­ро с помо­щью ней­ро­се­тей. Яндекс в этом вся­ко пре­успел, и мы теперь можем этим вос­поль­зо­вать­ся в своё удовольствие.

Если вы редак­тор или автор, вам нуж­но часто общать­ся с экс­пер­та­ми, что­бы полу­чить необ­хо­ди­мую инфор­ма­цию для сво­ей рабо­ты. Мож­но всё кон­спек­ти­ро­вать на ходу, а мож­но запи­сать на дик­то­фон и потом пере­ве­сти в текст за 10 минут.

Если кол­ле­га вам оста­вил длин­ное голо­со­вое сооб­ще­ние, текст кото­ро­го нуж­но раз­ме­стить на сай­те, то мож­но набрать всё рука­ми или отдать эту зада­чу компьютеру.

Если вы сту­дент и не хоти­те кон­спек­ти­ро­вать лек­ции по гума­ни­тар­ным нау­кам, запи­ши­те их на теле­фон, и ней­рон­ка пере­ве­дёт их в текст. У вас будут самые пол­ные лек­ции, и вся груп­па будет бегать за вами перед экзаменом.

В неко­то­рых веби­на­рах или видео на YouTube есть класс­ная инфор­ма­ция, но каж­дый раз при­хо­дит­ся их смот­реть и пере­ма­ты­вать, что­бы най­ти нуж­ное. Выход про­стой: берём видео, выре­за­ем отту­да звук, отправ­ля­ем в сер­вис рас­по­зна­ва­ния и полу­ча­ем гото­вый текст, с кото­рым рабо­тать гораз­до проще.

Программа «Laitis»

Бесплатная русскоязычная программа для распознавания голоса «Laitis.ru» обладает хорошим качеством понимания речи, и, по мнению её создателей, способна практически полностью заменить пользователю привычную клавиатуру. Программа хорошо работает и с голосовыми командами, позволяя с их помощью выполнять множество действий по управлению компьютером.

Для своей работы программа требует обязательного наличия на ПК скоростного интернета (в работе программы используются сетевые сервисы распознавания голоса от «Google» и «Yandex»).  Возможности программы позволяют, также, управлять с помощью голосовых команд и вашим браузером, для чего необходима установка на веб-навигатор специального расширения от «Laitis» (Chrome, Mozilla, Opera).

Классификация систем распознавания речи

Системы распознавания речи можно классифицировать в зависимости от:

  • назначения (системы диктовки, командные системы);
  • типа речи (слитная или раздельная речь);
  • размера словаря (ограниченный набор слов, словарь большого размера);
  • диктора (дикторозависимые и дикторонезависимые системы);
  • механизма функционирования ( простейшие (корреляционные) детекторы, экспертные системы с различным способом формирования и обработки базы знаний, вероятностно-сетевые модели принятия решения, в том числе нейронные сети);
  • используемого алгоритма (нейронные сети, скрытые Марковские модели, динамическое программирование);
  • типа структурной единицы (фразы, слова, фонемы, дифоны, аллофоны);
  • принципа выделения структурных единиц (распознавание по шаблону, выделение лексических элементов).


Рис.2. Различные классификации систем распознавания речи.

Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:

  • Использование нескольких, параллельно работающих, способов выделения одних и тех же элементов речевого сигнала на базе анализа акустического сигнала;
  • Параллельное независимое использование сегментного (фонемного) и целостного восприятия слов в потоке речи.

Типовые задачи

В настоящее время распознавание речи сводится к решению трех типов задач:

  1. распознавание отдельно произносимых слов (используется для речевого управления вычислительной машиной);
  2. распознавание слитной речи (имеет целью преобразования в текст естественной речи человека);
  3. идентификация по образцу речи (используется для целей обеспечения безопасности). Она состоит из трех стадий: регистрации, тестирования и допуска .

Рис.3. Схема идентификации по образцу речи.

В процессе регистрации пользователя запоминаются особенности его голоса и формируется так называемая речевая модель. При тестировании выполняется сравнение предложенного образца речи с запомненной речевой моделью пользователя, а также с моделью «самозванца», составленной на базе голосов множества других людей. Если результат сравнения окажется положительным для первого случая и отрицательным для второго, считается, что тестирование прошло успешно.

Цели идентификации личности по голосу

Основные цели программных пакетов идентификации личности по голосу заключаются в следующем:

  • использование компьютера для автоматической сегментации речевого сигнала и автоматического измерения параметров;
  • повышение надежности идентификации за счет комплексного анализа речевого сигнала;
  • уменьшение субъективности эксперта и времени проведения экспертизы за счет автоматической обработки информации.

Условия и ограничения

Рас­по­зна­ва­ние речи — плат­ная услу­га, но Яндекс даёт 60 дней и 3000 ₽ для тести­ро­ва­ния. За эти день­ги мож­но рас­по­знать 83 часа аудио — боль­ше трёх суток непре­рыв­но­го раз­го­во­ра. Это очень мно­го: за вре­мя под­го­тов­ки этой ста­тьи и тести­ро­ва­ния тех­но­ло­гии мы потра­ти­ли 4 руб­ля за 3 дня.

Если отправ­лять фай­лы с запи­сью боль­ше мину­ты, то одна секун­да аудио сто­ит одну копей­ку. Что­бы рас­по­знать запись дли­ной в час, нуж­но 36 руб­лей. Это при­мер­но в 20 раз дешев­ле, чем берут транс­кри­ба­то­ры — люди, кото­рые сами наби­ра­ют текст на слух, про­слу­ши­вая запись.

Ней­ро­сеть часто пони­ма­ет, когда текст нуж­но раз­бить на абза­цы, но дела­ет это не все­гда правильно. Ещё она не ста­вит запя­тые, тире и двое­то­чия. Мак­си­мум, что она дела­ет — ста­вит точ­ку в кон­це пред­ло­же­ния и начи­на­ет новое с боль­шой бук­вы. Но при этом почти все сло­ва рас­по­зна­ют­ся пра­виль­но, и отре­дак­ти­ро­вать такой текст намно­го про­ще, чем наби­рать его с нуля.

Послед­нее — из-за осо­бен­но­стей нашей речи и про­из­но­ше­ния SpeechKit может путать сло­ва, кото­рые зву­чат оди­на­ко­во (код — кот) или ста­вить непра­виль­ное окон­ча­ние («сла­ва обру­ши­лось на него неожи­дан­но»). Реше­ние про­стое: про­го­ня­ем такой текст через орфо­ней­ро­кор­рек­тор и всё в поряд­ке. Одна ней­рон­ка исправ­ля­ет дру­гую — реаль­ность XXI века 

Всё, при­сту­па­ем.

Ино­гда резуль­тат полу­ча­ет­ся вот таким, но на пони­ма­ние тек­ста это не силь­но влияет. 

Live Transcribe (Android)

Сервис Live Transcribe («Прямая расшифровка») ориентирован на людей с нарушением слуха. Приложение использует новейшие технологии Google в области автоматического распознавания звуков, речи.

Для использования программы, выполните ее активацию:

  1. Войдите в меню настроек на мобильном устройстве;
  2. В разделе «Специальные возможности» выберите «Прямая расшифровка»;
  3. Подтвердите все запрашиваемые разрешения.

Программа поддерживает более 70 языков. Переключение между двумя языками происходит мгновенно. При необходимости собеседнику можно отправить письменное сообщение напрямую через приложение. Среди других функций можно выделить возможность виброотклика при начале / окончании разговора.

Как распознавание речи используется в бизнесе

Использование распознавания речи сегодня помогает бизнесу развиваться в следующих направлениях: 

Интерактивные голосовые системы (IVR). Голосовые роботы позволяют автоматизировать общение с клиентами, снижают нагрузку на операторов и экономят средства компании на расширение контакт-центров. 

  • Аналитика телефонных звонков. Аналитика телефонных разговоров развита хуже других каналов коммуникаций с клиентами. Это связано с тем, что звонки нужно записывать, прослушивать и после этого анализировать. С помощью технологии распознавания речи звонки можно анализировать автоматически.
  • Проведение маркетинговых исследований. Система может самостоятельно обзванивать клиентов и узнавать их мнение о товарах или услугах. Для человека это не является трудной задачей, но автоматизация освобождает сотрудников от незначительных рутинных дел, а компании помогает сократить возможность человеческого фактора. 
  • Персонализация предложений. С помощью технологий распознавания речи система может определить пол, возраст и другие данные о клиенте. Анализ этих данных позволяет выявить его потребности и предоставить соответствующие уникальные предложения о товарах или услугах.
  • Сбор информации. Когда оператор получает информацию от клиента, ему необходимо занести ее в базу данных. Это действие можно автоматизировать, если настроить систему распознавания речи. 

Помимо этого технологии распознавания речи активно используются и в других сферах: 

  • Голосовая почта. Позволяет диктовать и отправлять сообщения.
  • Голосовой интерфейс. «Умный дом», голосовое управление бытовой техникой, навигацией в автомобиле и т. д.
  • Социальные сервисы. Сервисы для людей с ограниченными возможностями.

Как включить голосовой ввод в Гугл Документах

Рис. 3. Включаем голосовой ввод в Гугл Документах.

В Документах кликаем по вкладке «Инструменты» (1 на рис. 3), а в появившемся меню выбираем опцию «Голосовой ввод». Вместо этих двух кликов можно нажать на горячие клавиши Ctrl+Shift+S.

Далее может появиться маленькое окно по поводу вашего согласия на использование микрофона. По крайней мере, так бывает при первом использовании голосового ввода в Документах. Конечно, нужно согласиться и для этого кликнуть по кнопке «Разрешить»  доступ к микрофону. Иначе будет невозможно оцифровать свою речь в текст.

После согласия на использование микрофона появится значок микрофона (рис. 4). Теперь можно, наконец, приступить к голосовому вводу.

Рис. 4. Нажав кнопку микрофона, можно говорить в Гугл Документах.

Небольшое напутствие перед тем, как начать свою речь

Чтобы текст получился корректным, нужно добавить в него точки в конце каждого предложения. Кроме того, весьма желательно, чтобы были абзацы.

Если просто говорить текст, то там автоматически, сами по себе не появятся точки и абзацы. Поэтому в речи следует произносить команды: говорить «точка» в конце каждого предложения и произносить «новая строка» в том случае, когда понадобится начать новый абзац.

Возможно, такие команды кому-то покажутся утомительными. Можно их не произносить, но тогда потребуется потратить некоторое время на ручную обработку текста. Понадобится вставить  точки, заглавные буквы в начале каждого предложения и разбить текст на абзацы.

Рис. 5. Команды: Точка и Новая строка при голосовом вводе в Гугл Документах.

Ручная коррекция текста может понадобиться в любом случае. Здесь многое зависит от «сноровки» пользователя, четкой дикции и некоторого опыта работы с голосовым вводом.

Для записи речи следует нажать на серенький значок микрофона, он показан на рисунках 4 и 5. После этого значок станет красным (рис. 6). Это означает, что микрофон включен, идет запись, можно говорить и одновременно смотреть на экране, как идет запись текста.

Рис. 6. Микрофон включен, он стал красным. Можно говорить, идет запись речи.

По цвету значка микрофона легко определить, идет запись или нет. Серый значок означает, что запись речи не происходит, а значит, нет смысла говорить в микрофон.

Красный значок сигнализирует о том, что идет запись речи. Следовательно, можно говорить в микрофон, и одновременно будет появляться текст в Документах.

Рис. 7. Микрофон выключен, он серый. Это значит, что запись временно приостановлена или завершена.

Как отключить голосовой ввод в Гугл Документах

Если пользователь закончил запись свой речи, то для отключения голосового ввода нужно нажать на красный значок микрофона (рис. 6), который сразу же сменит свой цвет на серый, микрофон отключится, и речь перестанет записываться.

Также можно закрыть Гугл Документ. Тогда будет отключен не только голосовой ввод, но будет закрыт файл, куда шла запись речи,  а также закроется приложение Документы. Можно не беспокоиться про сохранение файла. Известно, что в Гугл Документах происходит автоматическое сохранение всех изменений файла.

Если не нужен Google Chrome, то можно его закрыть. Закроется браузер, Гугл Документы и прекратится запись речи.

Имеется также возможность выключить микрофон в своем устройстве. Для этого имеются встроенные системные средства. Но, на мой взгляд, такой вариант является крайней мерой. Ибо если выключить микрофон, то потом при необходимости понадобится снова включать его. Думаю, что для многих пользователей это неподходящий способ для того, чтобы отключить голосовой ввод.

Показатели оценки качества распознавания речи[править]

Существуют различные по сложности и прикладному значению задачи распознавания: изолированных слов (команд); ключевых слов в потоке речи; связанной речи (тщательное проговаривание текста с паузами между словами); слитной речи (разделяют диктовку в узкой тематической области, и спонтанную речь, например, в диалоге между людьми).

Оценка системы, распознающей отдельные команды, не представляет каких-либо трудностей – количество неправильно распознанных команд делится на общее количество испытаний и получается процент ошибки. Для систем, распознающих слитную речь, ситуация не столь проста.

Основными показателями качества распознавания слитной речи являются:

  • процент правильно распознанных слов (WRR — Word Recognition Rate);
  • процент неправильно распознанных слов (WER — Word Error Rate);
  • процент неправильно распознанных предложений/фраз (SER — Sentence Error Rate);

Поскольку с развитием речевых технологий показатель WER все более приближается к нулю, то значение улучшения WER более наглядно, чем улучшение точности распознавания слов.

где T — количество слов в распознаваемой фразе,
S — количество замененных слов,
D — количество удаленных слов,
I — количество вставленных слов.
Показатель WER может быть больше 100%.

Другим важным критерием оценки систем распознавания слитной речи является — скорость обработки речи. Она вычисляется с помощью показателя скорости (Real-Time Factor, Speed Factor):

— длительность обрабатываемого аудиосигнала; — время, необходимое для обработки сигнала.
Если — то распознавание речи ведется в режиме реального времени.

Что такое голосовой набор текста?

Мы привыкли к тому, что если нужно что-то напечатать на компьютере, то без клавиатуры не обойтись. А если нужно напечатать быстро? Тогда можно просто этому научиться. Сейчас есть масса платных и бесплатных тренажеров слепой быстрой печати. Да и курсы всякие имеются на эту тему. Было бы желание и время… И время… Если с желанием обычно нормально, то со временем часто не очень. Нужно около месяца на реальное убыстрение печати. А времени обычно нет. Как всегда, нужно уметь быстро печатать “всегда”. И еще.. Для быстрой печати очень часто нужно покупать специальную клавиатуру. Далеко не каждая “штатная” подходит для этого дела. Ну это так, к слову.

Ладно. Если учиться быстро печатать долго, то нет ли других технических способов убыстрить этот процесс? Ведь на дворе XXI век! Конечно же есть. Если Вы умеете быстро писать обычной ручкой, то есть смысл рассмотреть покупку “умной” ручки. Что это такое? Это ручка с умной электронной начинкой. Вы можете писать или на специальном блокноте, или даже на обычной бумаге, а умная ручка сразу же запоминает Ваши каракули к себе в память. И переводит их в электронный текст. И потом можно выгрузить готовую статью в любой текстовый редактор. Немного “подрихтовать” ее… И готово! Кстати, стоят такие “чудо-девайсы” не очень дорого. В районе 10 000 – 15 000 рублей (на момент написания данной статьи).

Что такое голосовой набор текста? Вкратце это выглядит так. Вы просто говорите текст в микрофон. При этом не забыв запустить специальную программу, открыв сайт или приложение на смартфоне. Ваши слова тут же отображаются в виде текста в окне программы. Потом можно отредактировать этот текст и сразу же копировать в текстовые редакторы. Кстати, в некоторых сервисах можно не только говорить самому, а подключить например Ютуб. Или загрузить аудиофайл. И сервис перевода голоса в текст тоже все прочитает и расшифрует.

Заключение

В нашей статье мы разобрали, каким образом выполнить конвертацию голоса в текст в режиме онлайн, познакомились с соответствующими сервисами, а также со схожими по функционалу стационарными и мобильными программами. Большинство таких программ для своей работы используют инструментарий от Google, потому имеют приблизительно схожее качество распознавания. Учтите, что для достижения высокого уровня распознавания следует использовать внешний микрофон от признанного производителя. Встроенные в ноутбуки и гаджеты микрофоны плохо работают со звуком, что неминуемо сказывается на качестве получаемого на выходе текста.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector