Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ И МЕТОДИК ОЦЕНИВАНИЯ КАЧЕСТВА ПЕРЕДАЧИ И ОБРАБОТКИ РЕЧИ В ПАКЕТНЫХ СЕТЯХ

Авторы:
Город:
Москва
ВУЗ:
Дата:
05 декабря 2017г.

Для оценки качества передачи и обработки речи в соврем енных пакетных телекоммуникационных сетях, как и любых других, наиболее распространены и известны два метода: методика субъективной оценки качества передачи речи MOS (Mean Opinion Score) и Е-модель. Установлено, что наиболее точные результаты обеспечивают методики, основанные на комбинировании расчётов объективного показателя (R- фактор) с субъективной оценкой (MOS) качества передачи речи [5]. Однако помимо них существуют и применяются также и другие методики.

Все методы и методики оценивания качества передачи и обработки речи можно разделить на две группы: субъективные и объективные. К субъективным методам относятся: усреднённая субъективная оценка MOS, измерение разборчивости речи артикуляционными испытаниями, измерение разборчивости речи методом парных сравнений, измерение разборчивости речи методом оценки по селективным признакам и т.д. В свою очередь, к объективным методам относятся: метод Е-модель, аналитические методы расчёта слоговой разборчивости речи, алгоритм PESQ, оценка искажения спектральной плотности мощности сигнала  (СПМ) и др.

Рассмотрим подробнее наиболее распространённые методы и методики оценки качества передачи и обработки речи в пакетных сетях.

Методика  субъективной  оценки  качества  передачи речи MOS. Данная методика приведена в Рекомендации Международного союза электросвязи (ITU-T) P.800 [8]. В основе данной методики лежит оценка пользователем качества восприятия предоставляемой услуги связи. В соответствии с методикой MOS, качество передачи речи от одного пользователя к другому оценивается как среднее арифметическое значение оценок в баллах, выставляемых экспертами (пользователями) после прослушивания тестируемого тракта передачи. Эксперты выставляют оценки по пятибалльной шкале: 5 –  «отлично», 4 – «хорошо», 3 – «удовлетворительно», 2 – «неудовлетворительно», 1 – «плохо». Обычно за норму качества принимается средняя оценка не ниже 3,5 баллов [5].

Методы субъективной оценки  MOS могут быть использованы на любых сетях с коммутацией каналов и пакетов. Основной недостаток этой методики заключаетс я в том, что она не позволяет выявить причину снижения качества передачи речи. Особенно актуальна такая задача для трактов различной конфигурации, характеризующихся широкими пределами изменения параметров передачи [5]. Как правило, самый большой балл, который можно  получить по данной методике, равен 4,5. Рейтинг в 4,0 балла и выше рассматривается как очень высокий [6].

Значительным недостатком методики субъективной оценки MOS является то, что тесты рекомендации P.800 могут приводить к получению неоднозначных результатов, авторы этой рекомендации предупреждают о некорректности сравнения оценок MOS, полученных в разных условиях. К тому же лексика, рекомендуемая в P.800, даёт повод для субъективной интерпретации. Проблема состоит в том, что разница между «неудовлетворительным» («poor») и «плохим» («bad») качеством, намного меньше, чем между «неудовлетворительным» («poor») и «удовлетворительным» («fair»). Поэтому данную шкалу оценок нельзя считать равномерной. С изменением лексики изменятся и результаты. Они также могут зависеть от национальности участников тестов. Исследования показали, что если итальянцы, оценивая звонок положительно, ставят оценку «хорошо», то американцы – «удовлетворительно» [6]. Кроме того к недостаткам методов MOS следует отнести большую тр удоёмкость в его реализации, заключающуюся в необходимости опроса статистически значимого количества экспертов [5].

Е-модель. Данный метод относится к объективным методам и описывается рекомендацией ITU-T G.107. Е-модель является общей моделью оценки качества передачи речи в сетях. Основной задачей метода является поиск значений параметра, называемого R-фактором. R-фактор представляет собой интегральный показатель передачи речи, рассчитываемый по заданным параметрам речевого тракта с учётом его конфигурации [7]. Согласно [7] R-фактор вычисляется по формуле 1:

𝑅 = 𝑅0 − 𝐼𝑆 − 𝐼𝑑 − 𝐼𝐸−𝑒𝑓𝑓 + 𝐴,

где 𝑅0 – основное отношение сигнал/помеха, включая шум окружающего помещения;

𝐼𝑆 – коэффициент, отражающий комбинацию всех воздействий, которые могут одновременно появиться вместе с сигналом речи и ухудшить качество восприятия;

𝐼𝑑 – коэффициент, отражающий ухудшение качество восприятия речи из-за задержки;

𝐼𝐸−𝑒𝑓𝑓 – коэффициент, отражающий ухудшение качества восприятия речи из-за использования низкоскоростных вокодеров;

A – компенсирующий коэффициент ожидания ухудшения качества передачи речи по сравнению с вариантом передачи по сети общего пользования [4].

Методика расчёта R-фактора позволяет учесть следующие особенности передачи речи:

- появление потерь речевых пакетов при передаче речи в сети с коммутацией пакетов, в связи с увеличением времени задержки передачи;

-    использование в сети кодеков разных видов. Использование низкоскоростных кодеков, таких, например, как G723, G729 и др. может приводить к потере пакетов и появлению задержек передачи. Применение низкоскоростных кодеков позволяет увеличить  пропускную способность  сети, однако при этом значительно снижается качество речевого сигнала по сравнению с о случаем применения высокоскоростных кодеков, таких как G.711, G.726-32 и др.

- осуществление передачи речи между двумя абонентами или поддержка групповых вызовов;

-     использование в сети детекторов речевой активности VAD (Voice Activity Detection), позволяющих обнаруживать голосовую активность при возникновении  сигнала, что позволяет отделять речь от шума [5].

Отмеченные  особенности  оказывают   различное  влияние  на  время  задержки  сигнала,  которая создаёт неудобства за счёт, перекрытия разговоров и возникнове ния эха. Влияние задержки становится критичным, когда  её величина в одном направлении передачи превышает 250 мс [5].

При   расчёте   R-фактора   имеется   возможность   локализовать   следующие   причины   и  места возникновения задержек при формировании, передаче и обраб отке речевых пакетов в разговорном тракте: задержка накопления в кодеке (кодере или декодере); в буфере приёма или передачи; в сумматоре; в модуле адаптации; в IP-сети; в коммутаторе [5].

Кроме метода субъективной оценки MOS и Е-модели существует множество других методов оценки качества передачи и обработки речи, поскольку излагать суть каждого из методов не имеет смысла, то ограничимся только лишь наиболее популярными методами.

Алгоритм PESQ. Данный алгоритм представляет собой объективную методику определе ния качества передачи речи, которая прогнозирует результаты субъективной оценки качества MOS слушателями-экспертами. Для определения качества передачи речи в PESQ предусмотрено сравнение входного, или эталонного (reference), сигнала с его искажённой (degra ded) формой на выходе системы связи [6].

Результатом сравнения входного и выходного сигналов является оценка качества связи, которая аналогична усреднённой субъективной оценке MOS. Оценки PESQ калибруются с использованием огромной базы данных оценок MOS [6].

В алгоритме PESQ учитываются следующие причины ухудшения качества сигнала:  искажение его при кодировании, ошибки при передаче, потеря пакетов, время задержки передачи пакетов и флуктуация этого времени, фильтрация сигнала в аналоговых сетевых компонента х. В PESQ не учитывается влияние на качество связи изменений уровня сигнала в сети, наличия эхо -сигнала и круговой задержки (round-trip delay) [6].

Общий принцип работы алгоритма PESQ приведён на рисунке 1.


В процессе оценки качества передачи речи по алгоритму PESQ исследуемый сигнал претерпевает определённые изменения. В связи с этим для корректного сравнения входного и выходного речевых сигналов необходимо:

1.                Провести процесс выравнивания уровней мощности входно го и выходного сигналов.

2.                Провести процесс выравнивания входного и выходного сигналов относительно друг друга по времени. Процесс выравнивания сигнал по времени производится в три этапа: выравнивание больших фрагментов активной речи, идентифицируемых детектором голоса; выравнивание частично совпадающих по времени небольших участков речи (кадров); повторное выравнивание «плохих интервалов», т.е. фрагментов речи с очень большими искажениями (осуществляется после операции слухового преобразования).

3.                Провести операцию слухового преобразования, которая имитирует определённые особенности человеческого  слуха.

В ходе сравнения друг с другом входного и выходного файлов формируется некоторое различие между сигналами, называемое поверхностью ошибок (error surface), оно у казывает на все слышимые различия в звучании этих файлов, появляющиеся в тестируемой системе. На основании полученной поверхности ошибок рассчитываются два параметра искажений:

- абсолютные (симметричные) искажения – характеризуют абсолютную слышимую ошибку;

-     дополнительные (асимметричные) искажения – характеризуют слышимые ошибки, которые значительно громче входного сигнала [6].

Результатом оценки качества передачи речи с помощью алгоритма PESQ являются два параметра искажений, в которых просуммированы значения ошибок каждого типа. На конечном  этапе работы алгоритма данные параметры искажений преобразуются в оценку качества связи, которая является линейной комбинацией средних значений симметричных и асимметричных искажений [6].

Как  уже  отмечалось  выше,  алгоритм  PESQ  оценивает качество  речи по  стандартизированной пятибалльной шкале – от единицы до пяти. Однако оценка PESQ не может превысить 4,5 баллов, поскольку это максимальный показатель, который был получен путём субъективного тестирования по алгоритму MOS.

Ещё одной распространённой оценкой качества передачи и обработки речи является разборчивость речи (наиболее популярно понятие слоговой разборчивости речи). В российских стандартах чётко прописан процесс получения значений слоговой разборчивости речи, называемый артикуляционными испытаниями. Однако многие исследователи стремятся свести результаты своих работ в области оценки качества передачи и обработки речи к значениям слоговой разборчивости,  что в свою очередь, рождает новые различные методики по получению (или переходу к значениям) значений слоговой разборчивости.

Согласно российским стандартам при проведении артикуляционных испытаний диктор зачитывает набор специально подобранных слогов, регламентируемых приложениями ГОСТ Р 50840-95 [2], его речь передаётся  через испытуемый тракт связи, аудитор прослушивает переданные слоги и делает отметки, после проведения испытаний подсчитывается число ошибок и делаются выводы о качестве передачи речи по данному тракту связи.

К аудиторам, проводящим оценку слогово й разборчивости, предъявляются определённые требования, которые как и порядок проведения испытаний подробно описан в ГОСТ Р 50840-95  [2]:

–   артикуляционные испытания проводит бригада аудиторов в составе, трёх аудиторов, прошедшая специальное обучение, путём предварительного прослушивания артикуляционных используемых слоговых таблиц, указанных в приложении Б ГОСТ Р 50840-95 [2];

–      бригада операторов знакомится с речевым материалом, привыкает к восприятию речи, искажённой в соответствующих акустических условиях испытуемым трактом;

– аудитор прослушивает искажённую аудиозапись и записывает принятые слоги в бланк;

–    неправильно воспринятый слог аудитор выделяет в соответствующей пронумерованной строке бланка принятых слогов.

Подобным образом проводятся несколько   испытаний, включающих  в себя приём 20  таблиц при разных уровнях искажений сигнала, при этом последовательность таблиц каждый раз меняется. Для каждого испытания определяется среднее значение разборчивости. После чего определяют сомнительные значения, которые убирают из расчёта, и определяют новое значение разборчивости [2].

При достижении бригадой стабильных результатов измерения разборчивости (2 – 3 дневная стабильность значений средней разборчивости по бригаде) подготовку считают законченной. Аудиторы подлежат замене или исключению из бригады в случае систематического отклонения от средних значений по бригаде. После приёма 5 таблиц делается 5 –  10 минутный перерыв. При работе в шумных помещениях бригада приступает к испытаниям после 5 –10 минут адаптации к шуму [2].

Так же как и для метода субъективной оценки MOS, существуют объективные методы получения значений слоговой разборчивости. Так в работе [1] формулой 2 представлена методика аналитической оценки слоговой разборчивости   для русскоязычной речи:

S = 35 + 65(1- e-0,05ОСШ ).                                        (2)

Эта работа показывает, что разборчивость речи, не только слоговая разборчивость, поскольку давно известны зависимости, связывающие слоговую, фразовую и другие виды разборчивости речи [3], зависит от отношения сигнал/шум на выходе тракта связи. Что, в свою очередь, определяет отношение сигнал/шум (ОСШ) ещё одним критерием в оценке передачи и обработки речи.

Кроме артикуляционных испытаний российскими стандартами регламентируется ещё и другие методики определения качества передачи речи. Представим некоторые из них.

Измерение  качества  речи  методом  оценки  по   селективным  признакам.  Измерения  проводит бригада аудиторов путём прослушивания фраз, прошедших через контрольный и испытуемый тракты, и определяют наличие следующих селективных признаков искажения в звучании речи относительно контрольного тракта:

– картавость;

– плаксивость;

– гнусавость;

– механический  голос;

– дребезжание, хрип;

– помеха в паузах речи.

Оценку степени искажения признаков на голосе каждого диктора осуществляют по трёхбалльной шкале, где 0 – отсутствие признака, 1 – присутствует (редко встречается), 2 – выражен сильно (присутствует постоянно). По данным измерений вычисляют среднее значение степени искажения каждого из шести селективных признаков [2].

Измерение      фразовой      разборчивости     при     ускоренном      темпе      произнесения.      Измерение проводят путём передачи по испытуемому тракту таблиц, состоящих из коротких фраз с фиксацией их правильного приёма. В приёме таблиц участвует пара операторов: а удитор и контролёр. Аудитор произносит вслух принятую фразу, а контролёр фиксирует в  отпечатанной таблице правильность её приёма. При этом измерения осуществляют при нормальном и ускоренном темпе произнесения двух таблиц фраз с участием бригады в составе не менее 3 дикторов и 4-5 пар операторов.

Обработка результатов состоит в вычислении среднего значения разборчивости для ускоренного и нормального темпа произнесения фраз по формуле. Как и в предыдущем случае метод рекомендуется применять при углублённом анализе факторов искажения речи в тракте связи [2].

Кроме  описанных методов  существует  достаточное  количество  других методик  и  алгоритмов оценки качества передачи и обработки речи. Однако, как правило, стараются углубить, улучшить и обновить наиболее распространённые стандартизированные методики, такие как методика субъективной оценки MOS, Е-модель, разборчивость речи и др. Так, например, получили широкое распространение попытки автоматизировать процесс получения оценок MOS, в связи, с чем появились такие алгоритмы оценки качества передачи речи как: PSQM, PSQM+, PESQ, PAMS и др.

 

 

 

Список литературы

 

1.            Горелов Г. В., Казанский Н. А., Лукова О. Н. Методика оценки качества пакетной передачи речи в интегральных цифровых сетях // Электросвязь, 1992. – № 9. – С. 31-33.

2.            ГОСТ Р 50840-95. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. – Москва: Изд-во стандартов, 1995. – 198 с.

3.            Колготин П.В. Оценка параметров каналов и развитие измерительных технологий в сетях связи специального назначения // // Молодой ученый. — 2011. — №10. Т.1. — С. 34-39.

4.            Меркулов А.Г. Оценка качества передачи речи VOIP через цифровые высокочастотные каналы связи // Перспективы науки. – 2014. – №1 (52). – С. 54-59.

5.            Рахмангулов А.Н., Мирсагдиев О.А. Показатели оценки качества связи в пакетной сети на железнодорожном транспорте  // Современные проблемы транспортного комплекса России. – 2015. – Т.5. – № 1 (6). – С. 51-55.

6.            Хромой Б.П., Аджемов А.С.  Оценка  качества  передачи  речи  в  сотовой  связи  //  В сборнике: «Мобильный бизнес:  перспективы развития и реализации систем радиосвязи в России и за рубежом» XXXIV международная конференция РАЕН. – 2013. – С.34-42.

7.            Recommendation ITU-T G.107 – 2011 The E-model: a computational model for use in transmission planning. – 18 p. [Electronic resource]. – Access mode: http://www.itu.int/rec/T-REC-G.107.

8.            Recommendation ITU-T P.800 Methods for subjective determination of transmission quality. – 37 p. [Electronic  resource]. – Access  mode: https://www.itu.int/rec/T-REC-P.800-199608-I/en.