04 июня 2016г.
Традиционно, преобладающее количество ценной и оперативной информации представляется на естественных языках в виде текстовых файлов, так как использование языка является естественным средством человеческого общения, не требующим специального математического или технического образования. Чтобы извлечь эту ценную информацию и формализовать до уровня оценочных критериев и компьютерных показателей, статистических, аналитических, логических и других моделей, аналитику, работающему с объемной текстовой информации, необходимо применение современных компьютерных средств интеллектуального анализа текстовых данных – text-mining [6,7]. С помощью таких средств в автоматическом режиме решаются следующие базовые задачи анализа текстов: распознавание текстов; поиск документов; классификация и рубрикация документов, определение тематики документов и др. Технологии text-mining позволяют извлекать из текста и проводить распознавание по таким слабо-формализуемым категориям как гендерная принадлежность, возраст человека, психического состояния и т.д.
Возрастающая сложностью и ресурсоёмкость технологий обработки text-mining, переводит исследовательские акценты на попытки использования, в отличие от сложных семантических моделей алгоритмов обработки, классических методов частотно-морфологического типа на основе минимального арсенала теоретико-лингвистических изысков и формальных методах статистической обработки упрощенных словоформ [2,3].
Авторами была разработана программная система для решения задач классификации творческих текстов, манипулируя минимальным набором частотных характеристик ограниченным формализованным правилами синтаксиса русского языка и алгоритмов data-mining [1,4].
Обобщённый алгоритм анализа текстов следующий: на вход подсистемы извлечения параметров поступают текстовые файлы, для каждого из которых формируется ряд числовых характеристик. В результате генерируется таблица данных параметров частотной оценки текстов. Далее подключается модуль реализующий алгоритм регрессионных деревьев (data-mining), в рамках которого осуществляется проведение классификации на основе собранной статистической таблицы параметров.
Подсистема извлечения параметров включает в себя три главных модуля:
1. Частотный модуль. Программа собственной разработки – осуществляет первичную обработку, в ходе которой весь текст разделяется на цифры, буквы, знаки препинания, предложения и т.д. и считает их частоту употребления.
2. Модуль морфологического анализа. Морфологический анализ текста осуществляется на основе двух привлечённых библиотек: «АоТ» [7]. Набор инструментов обработки текста на естественном языке и «Solarix Engine – Словарь русского языка» [4] - используется для определения приставки, корня, суффикса, окончания и начальной формы слова.
Модуль «АоТ» определяет часть речи и различные характеристики слова (род, число, падеж, и т.д.). Если модулю «АоТ» не удается определить, какой частью речи является слово, то используется результат определения части речи модулем «Solarix Engine».
3. Модуль формирования показателей. После обработки текста частотным и морфологическим модулями, происходит запись результатов в промежуточную таблицу. По данным обобщённой таблицы производится формирование относительных показателей текста (коэффициентов) и формирование конечной таблицы признаков (частотных, характеристических показателей) текстов.
За основу анализируемых параметров текста приняты характеристики, обладающие свойствами:
– Должны позволять проводить сравнительный анализ не только инвариантных структур различных текстов, но также сравнительный анализ различных структур текстов между собой.
– Представимы численно и желательно в диапазоне [0,1].
Параметры, обладающие вышеперечисленными свойствами, позволят аналитику вводить свои ограничения и манипулировать разнообразными текстами, разной структуры и размера, применять множественный аппарат формальных алгоритмов статистики и интеллектуального анализа. На данном этапе извлекается 64 относительных показателя.
В качестве системы интеллектуального анализа данных были использованы алгоритмы IBM SPSS Statistic [8]. Выбор алгоритма классификации был осуществлён в пользу семейства методов «регрессионных деревьев» или «деревьев решений». Подобные алгоритмы широко используются в интеллектуальном анализе данных [7] и обладают рядом предпочтительных преимуществ, в том числе интерпретируемостью результатов и эффективным инструментом снижения пространства признаков.
В предварительном исследовании методов «деревьев решений» из набора пакета SPSS, наилучшие результаты обработки пространства признаков дал алгоритм «исчерпывающий CHAID». Поэтому он используется как основной.
В рамках апробации данной системы были проведены ряд экспериментов по определению функционального стиля и авторского стиля.
Пример результата одного из экспериментов – определение авторского стиля в прозе представлен ниже.
Эксперимент 1. Классификацию текстов «авторский стиль» представленных в Табл.1. Контрольная выборка – 40%.
Таблица 1
Набор текстов художественной литературы.
Автор
|
Количество произведений (текстовых фрагментов)
|
Ф.М. Достоевский
|
15
|
А.И. Куприн
|
10
|
Л.Н. Толстой
|
20
|
А.П. Чехов
|
15
|
Результаты классификации текстов принадлежащих одному и тому же функциональному стилю представлены ниже:
Таблица 2
Результаты анализа эксперимента.
|
|
Достоевский
|
Куприн
|
|
Предсказанные
Толстой Чехов
|
|
Процент
|
Пример
|
Наблюденные Ф.М.
|
А.И.
|
|
Л.Н.
|
А.П.
|
|
правильных
|
Обучение
|
Достоевский Ф.М.
|
8
|
|
0
|
0
|
|
1
|
88,9%
|
|
Куприн А.И.
|
0
|
11
|
0
|
|
0
|
100,0%
|
|
Толстой Л.Н.
|
0
|
|
0
|
13
|
|
0
|
100,0%
|
|
Чехов А.П.
|
0
|
|
0
|
0
|
11
|
100,0%
|
|
Общая процентная
доля
|
18,2%
|
25,0%
|
29,5%
|
27,3%
|
97,7%
|
Контроль
|
Достоевский Ф.М.
|
5
|
|
0
|
0
|
|
0
|
100,0%
|
|
Куприн А.И.
|
0
|
|
4
|
0
|
|
0
|
100,0%
|
|
Толстой Л.Н.
|
0
|
|
0
|
6
|
|
1
|
85,7%
|
|
Чехов А.П.
|
1
|
|
0
|
0
|
|
3
|
75,0%
|
|
Общая процентная
доля
|
30,0%
|
20,0%
|
30,0%
|
20,0%
|
90,0%
|
Классификация прошла успешно, вероятность ошибки при этом составила 10%. В результате анализа дерево решений значительно сократило пространство параметров - определила всего 6 значимых параметра (из 64 на входе). Правила, по которым были классифицированы данные авторы:
1. Ф.М. Достоевский: («Глаголов на абзац» больше 7,7) и («Отношение числительных» меньше 0,0008) или («Наречий на абзац» больше 6,9) и («Отношение числительных» меньше 0,0008)
2. А.И. Куприн: («Глаголов на абзац» меньше 4,3) и («Отношение числительных равно 0) или («Глаголов на абзац» в интервале от 4,3 до 7,7) и («Средняя длина слова» больше 6,11) или («Наречий на абзац» меньше 2,57) и («Доля прилагательных» больше 0,11)
3. Л.Н. Толстой: («Глаголов на абзац» меньше 4,3) и («Отношение числительных больше 0) или («Наречий на абзац» меньше 2,57) и («Доля прилагательных» меньше 0,10)
4. А.П. Чехов: («Глаголов на абзац» в интервале от 4,3 до 7,7) и («Средняя длина слова» меньше 6,1) или («Глаголов на абзац» больше 7,7) и («Доля частиц» больше 0,167) или («Наречий на абзац» в интервале 2,58 до 6,8)
Результаты проведённых различных экспериментов по классификации набора текстов из разных функциональных стилей позволяют сделать вывод об их высокой достоверности распознавания и о возможности использования предложенной технологии, как одного из эффективных инструментов для классификации текстов по творческим категориям.
Благодаря использованию при анализе текста симбиоза частотного, морфологического и интеллектуального анализа, исследование позволило получить синергетический эффект для ряда задач text- mining – высокую точность распознавания слабо-формализуемой текстовой информации при незначительной ресурсоёмкости реализации алгоритмов «деревьев решений» в виде минимального набора логических правил.
Список литературы
1. Александров И.В., Фомина И.К. Разработка web-инструментария для машинного обучения в области распознавания образов // Актуальные проблемы экономики и управления. 2015. № 4 (8). С. 133-137.
2. Гальперин И.Р. Текст как объект лингвистического исследования. М.: Наука. 1981. 140 с.
3. Грамматический словарь русского языка. URL: http://www.solarix.ru/russian-grammar-dictionary.shtml (дата обращения: 08.03.2016)
4. Лаптев В.В., Флегонтов А.В., Фомин В.В. Организация облачного ресурса интеллектуального анализа данных // Информатизация образования и науки. 2015. № 1 (25). С. 100-115.
5. Проект АОТ (автоматическая обработка текста). URL http://www.aot.ru (дата обращения: 08.03.2016)
6. uClassify. URL: https://www.uclassify.com/ (дата обращения: 08.04.2016)
7. Data-mining, Analytics, Big Data, and Data Science. URL: http://www.kdnuggets.com/ (дата обращения: 08.04.2016)
8. IBM SPSS. URL: http://www.predictivesolutions.ru/software/ (дата обращения: 08.04.2016)