ЭКСПЕРИМЕНТАЛЬНАЯ ОЦЕНКА КАЧЕСТВА РАСПОЗНАВАНИЯ РЕЧИ В СОВРЕМЕННЫХ ТЕХНОЛОГИЯХ

Город конференции:

Красноярск

Авторы

Медведев М.С.

ВУЗ

Сибирский федеральный университет

Статья посвящена экспериментальной оценке качества распознавания современных систем автоматического распознавания речи. Для анализа были выбраны наиболее популярные технологии распознавания речи: Google Web Speech, Dragon Dictation (Nuance Communications), SIRI (Apple inc.) и VoiceNavigator (Центр речевых технологий). В эксперименте принимало участие 60 человек, для озвучивания использовались отрывки текста на русском языке. По результатам эксперимента была собрана статистика и определены показатели качества распознавания каждой из систем, а также отмечены их недостатки и особенности.

1.Введение

В настоящее время рынок систем распознавания речи представлен множеством приложений. Разработки в данном направлении занимаются крупнейшие компании, такие как Google, Apple, Microsoft и т.д. Основным показателем качества работы систем распознавания речи является объективная оценка результатов распознавания, что имеет важное значение, как для разработчиков, так и для конечных пользователей систем. Для определения качества работы современных решений по распознаванию речи было проведено экспериментальное исследование, в котором измерялись основные показатели следующих наиболее известных программных продуктов:

VoiceNavigator (Центр речевых технологий). VoiceNavigator является разработкой Центра Речевых технологий (ЦРТ) - российской компании с более чем 20-ти летней историей. Технология распознавания и синтеза речи от ЦРТ изначально разрабатывалась для русского языка с учетом его акцентов и диалектов, в отличие от подхода компаний Nuance и Google, для которых родным языком разработки является английский, а появление технологи распознавания для русской речи стало результатом адаптации технологии с одного языка на другой [2].

Dragon Dictation (Nuance Communications). На данный момент на русском языке доступна упрощенная мобильная версия технологии Dragon Dictation, которая работает на платформе iOS и позволяет распознать фразы длиной до 30 секунд с помощью облачных технологий. Это можно использовать для набора коротких сообщений электронной почты или вставить в любое другое приложение. По данным компании разработчика качество распознавания составляет 90% [3].

SIRI. От компании Apple в области речевых технологий представлена система Siri (англ. Speech Interpretation and Recognition Interface) — персональный помощник и справочная система, разработанная для iOS. Данное приложение использует обработку естественной речи для поиска ответов на сформулированные вопросы. Siri приспосабливается к каждому пользователю индивидуально, изучая его предпочтения в течение долгого времени [4]. С момента появления голосового помощника в iOS 5, ожидается поддержка русского языка.

Google Web Speech. Разработка применяется в мобильных устройствах, а также встроена в браузер Google Chrome и голосовой поиск. Стоит отметить поддержку русского языка, наличие API, возможность встраивать инструменты распознавания речи на сторонние ресурсы (интернет-сайты). Есть возможность ввода голосовых сообщений при отключенном доступе к интернету. Система распознает целые фразы, что значительно упрощает ввод смс-сообщений или текстовых заметок, а также возможность управления событиями на телефоне и в календаре [5]. Благодаря технологии Web Speech API разработчики могут встраивать в свои приложения функции, связанные с распознаванием речи и выполнением голосовых команд. Что особенно важно, среди трех десятков языков, которые поддерживает Web Speech API, есть и русский.

2. Сравнительный анализ показателей качества распознавания речи

В эксперименте по определению качества распознавания речи названными системами принимало участие 60 человек, среди которых 45 дикторов мужского пола и 15 – женского. Все дикторы являлись носителями русского языка. Средний возраст участвующих в эксперименте составлял 25 лет. Профессиональных дикторов в группе не было. Каждый диктор зачитывал текст, который в дальнейшем сравнивался с результатом распознавания. Для озвучивания использовались различные отрывки текста на русском языке из литературных произведений произвольных жанров, новостных статей, выдержек из энциклопедий. Общий исследуемый речевой материал содержал более двух часов озвученного текста, в среднем - около двух минут записи для каждого диктора. Средний темп чтения тестового материала составлял 112 слов в минуту.

Для исключения зависимости результатов распознавания от использования оборудования одинаковой конфигурации, принятия в учет различного акустического окружения, а также для приближения условий эксперимента к реальным, в которых, как правило, и осуществляется практическое применение исследуемых программных продуктов, пользователями использовались более шестидесяти различных компьютерных устройств, среди которых были как персональные компьютеры различных конфигураций, так и мобильные устройства. Для оценки результатов автоматического распознавания определялся такой показатель, как процент корректно распознанных слов WCR - Word Correctly Recognized [1] каждого диктора, а также общий итоговый коэффициент для каждого программного продукта.

где H — количество правильно распознанных слов, T – общее количество распознаваемых слов.

Далее приведен пример распознавания художественного текста программой Dragon Dictation, с мобильного устройства на системе Android 4.3. (Рисунок 1).

В результате распознавания из 100 слов надиктованной речи приложением было корректно преобразовано в текст восемьдесят четыре слова. Соответственно, коэффициент распознавания был определен равным 84%.

Для тестирования технологии распознавания Центра речевых технологий использовался демо-стенд на сайте разработчика, интерфейс которого изображен на Рисунке 2).

Также в исследование была включена технология распознавания речи, использующаяся в системе SIRI от Apple. На время проведения данного сравнения в этом приложении не была реализована поддержка русского языка. Поэтому определение качества распознавания велось на англоязычном речевом материале. Пользователями делались речевые команды, предусмотренные для работы с системой и по результату распознавания фиксировалось количество ошибок для определения коэффициента WCR.

Таблица 1

Система распознавания речи	Коэффициент WCR (%)
Dragon Dictation	83,9
Google Web Speech	73,1
VoiceNavigator (ЦРТ)	69,3
Apple SIRI	62.5

Были определены показатели качества распознавания речи для трех систем. (Табл.1). Сравнительный анализ систем распознавания речи

Результаты сравнительного анализа современных технологий распознавания русской речи на примере наиболее распространенных программных продуктов показал преимущество системы Dragon dictation от компании Nuance. Среднее значение коэффициента надежности у данного приложения составило 83,9%.

Результаты теста технологии распознавания русской речи от Google составили 73,1%. Наибольший процент ошибок составляют не корректно распознанные диалектные или устаревшие слова, также система изредка теряет множественное число, что приводит к снижению коэффициента распознавания. Существует особенность в виде вывода числовых значений с помощью цифр, что не позволяет точно определить склонение (в тесте цифры учитывались, как корректно распознанные слова).

Схожий коэффициент распознавания показала демонстрационная версия технологии распознавания Центра речевых технологий – 69,3%. Так как механизм распознавания данной системы изначально разрабатывался для работы с речью на русском языке, отмечены преимущества в виде более широкого словаря возможных сокращений и аббревиатур из различных тематических областей.

Несмотря на преимущество в виде предоставления речевого материала на английском языке, система SIRI показала самый низкий средний коэффициент распознавания среди тестируемых приложений – 62,5%. К одной из причин недостаточно качественной работы системы можно отнести возможное влияние акцента дикторов.

Заключение

Собрав статистику и проанализировав случаи ошибочного распознавания системами русской речи, можно сказать, что наиболее частыми ошибками являлись случаи формирования похожего по звучанию слова, ошибочное определение падежей, а также вставка изначально отсутствующих в тексте союзных частиц или слияние с окончаниями или приставками окружающих их слов.

Также отмечено существенное снижение качества распознавания при ускорении темпа речи. В среднем коэффициент распознавания снижался на 23% при переходе диктора от чтения на слитную речь.

Учитывая заявленные разработчиками рассмотренных систем показатели качества распознавания речи, можно сделать вывод о том, что в реальных условиях работы без специального обучения дикторов и создания лабораторных условий, эти характеристики имеют более низкие значения. Это свидетельствует об актуальности дальнейших исследований и разработки новых методов в области распознавания речи, в частности для русского языка.

Список литературы

1. Карпов А.А. Методология оценивания работы систем автоматического распознавания речи, А. А. Карпов, И. С. Кипяткова // Известия вузов. Приборостроение. - 2012. - Т. 55, № 11. - С. 38-43.2.

2. http://www.speechpro.ru (дата обращения: 15.07.2014).

3. http://www.nuance.com (дата обращения: 18.07.2017).

4. Melanie P. Speech Recognition Through the Decades: How We Ended Up With Siri // PCWorld. – 2011.

5. Johan Schalkwyk, Doug Beeferman, Francoise Beaufays, Bill Byrne, Ciprian Chelba, Mike Cohen, Maryam Garrett, Brian Strope, “Google Search by Voice: A Case Study“,Advances in Speech Recognition: Mobile Environments, Call Centers and Clinics, Springer (2010), pp. 61-90