Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

КЛАССИФИКАЦИЯ ТЕКСТА ПО ТВОРЧЕСКИМ КАТЕГОРИЯМ С ПРИМЕНЕНИЕМ ЧАСТОТНО- МОРФОЛОГИЧЕСКОГО АНАЛИЗА И АЛГОРИТМОВ РЕГРЕССИОННЫХ ДЕРЕВЬЕВ

Авторы:
Город:
Санкт-Петербург
ВУЗ:
Дата:
04 июня 2016г.

Традиционно, преобладающее количество ценной и оперативной информации представляется на естественных языках в виде текстовых файлов, так как использование языка является естественным средством человеческого общения, не требующим специального математического или технического образования. Чтобы извлечь эту ценную информацию и формализовать до уровня оценочных критериев и компьютерных показателей, статистических, аналитических, логических и других моделей, аналитику, работающему с объемной текстовой информации, необходимо применение современных компьютерных средств интеллектуального анализа текстовых данных – text-mining [6,7]. С помощью таких средств в автоматическом режиме решаются следующие базовые задачи анализа текстов: распознавание текстов; поиск документов; классификация и рубрикация документов, определение тематики документов и др. Технологии text-mining позволяют извлекать из текста и проводить распознавание по таким слабо-формализуемым категориям как гендерная принадлежность, возраст человека, психического состояния и т.д.

Возрастающая сложностью и ресурсоёмкость технологий обработки text-mining, переводит исследовательские акценты на попытки использования, в отличие от сложных семантических моделей алгоритмов обработки, классических методов частотно-морфологического типа на основе минимального арсенала теоретико-лингвистических изысков и формальных методах статистической обработки упрощенных словоформ [2,3].

Авторами была разработана программная система для решения задач классификации творческих текстов, манипулируя минимальным набором частотных характеристик ограниченным формализованным правилами синтаксиса русского языка и алгоритмов data-mining [1,4].

Обобщённый алгоритм анализа текстов следующий: на вход подсистемы извлечения параметров поступают текстовые файлы, для каждого из которых формируется ряд числовых характеристик. В результате генерируется таблица данных параметров частотной оценки текстов. Далее подключается модуль реализующий алгоритм регрессионных деревьев (data-mining), в рамках которого осуществляется проведение классификации на основе собранной статистической таблицы параметров.

Подсистема извлечения параметров включает в себя три главных модуля:

1.          Частотный модуль. Программа собственной разработки – осуществляет первичную обработку, в ходе которой весь текст разделяется на цифры, буквы, знаки препинания, предложения и т.д. и считает их частоту употребления.

2.          Модуль морфологического анализа. Морфологический анализ текста осуществляется на основе двух привлечённых библиотек: «АоТ» [7]. Набор инструментов обработки текста на естественном языке и «Solarix Engine – Словарь русского языка» [4] - используется для определения приставки, корня, суффикса, окончания и начальной формы слова.

Модуль «АоТ» определяет часть речи и различные характеристики слова (род, число, падеж, и т.д.). Если модулю «АоТ» не удается определить, какой частью речи является слово, то используется результат определения части речи модулем «Solarix Engine».

3.          Модуль формирования показателей. После обработки текста частотным и морфологическим модулями, происходит запись результатов в промежуточную таблицу. По данным обобщённой таблицы производится формирование  относительных показателей текста (коэффициентов) и формирование  конечной таблицы признаков (частотных, характеристических показателей) текстов.

За основу анализируемых параметров текста приняты характеристики, обладающие свойствами:

–           Должны позволять проводить сравнительный анализ не только инвариантных структур различных текстов, но также сравнительный анализ различных структур текстов между собой.

–           Представимы численно и желательно в диапазоне [0,1].

Параметры, обладающие вышеперечисленными свойствами, позволят аналитику вводить свои ограничения и манипулировать разнообразными текстами, разной структуры и размера, применять множественный аппарат формальных алгоритмов статистики и интеллектуального анализа. На данном этапе извлекается 64 относительных показателя.

В качестве системы интеллектуального анализа данных были использованы алгоритмы IBM SPSS Statistic [8]. Выбор алгоритма классификации был осуществлён в пользу семейства методов «регрессионных деревьев» или «деревьев решений». Подобные алгоритмы широко используются в интеллектуальном анализе данных [7] и обладают рядом предпочтительных преимуществ, в том числе интерпретируемостью результатов и эффективным инструментом снижения пространства признаков.

В предварительном исследовании методов «деревьев решений» из набора пакета SPSS, наилучшие результаты обработки пространства признаков дал алгоритм «исчерпывающий CHAID». Поэтому он используется как основной.

В рамках апробации данной системы были проведены ряд экспериментов по определению функционального стиля и авторского стиля.

Пример результата одного из экспериментов – определение авторского стиля в прозе представлен ниже.

Эксперимент 1. Классификацию текстов «авторский стиль» представленных в Табл.1. Контрольная выборка – 40%.


Таблица 1  

Набор текстов художественной литературы.

Автор

Количество произведений (текстовых фрагментов)

Ф.М. Достоевский

15

А.И. Куприн

10

Л.Н. Толстой

20

А.П. Чехов

15

 

Результаты  классификации  текстов  принадлежащих  одному и  тому   же  функциональному стилю представлены ниже:




Таблица 2  

Результаты анализа эксперимента.


 

Достоевский

 

Куприн

Предсказанные

Толстой      Чехов

 

Процент

Пример

Наблюденные                            Ф.М.

А.И.

Л.Н.

А.П.

правильных

Обучение

Достоевский Ф.М.

8

0

0

1

88,9%

Куприн А.И.

0

11

0

0

100,0%

Толстой Л.Н.

0

0

13

0

100,0%

Чехов А.П.

0

0

0

11

100,0%

Общая процентная

доля

 

18,2%

 

25,0%

 

29,5%

 

27,3%

 

97,7%

Контроль

Достоевский Ф.М.

5

0

0

0

100,0%

Куприн А.И.

0

4

0

0

100,0%

Толстой Л.Н.

0

0

6

1

85,7%

Чехов А.П.

1

0

0

3

75,0%

Общая процентная

доля

 

30,0%

 

20,0%

 

30,0%

 

20,0%

 

90,0%

 

Классификация прошла успешно, вероятность ошибки при этом составила 10%. В результате анализа дерево решений значительно сократило пространство параметров - определила всего 6 значимых параметра (из 64 на входе). Правила, по которым были классифицированы данные авторы:

1.          Ф.М. Достоевский: («Глаголов на абзац» больше 7,7) и («Отношение числительных» меньше 0,0008) или («Наречий на абзац» больше 6,9) и («Отношение числительных» меньше 0,0008)

2.          А.И. Куприн: («Глаголов на абзац» меньше 4,3) и («Отношение числительных равно 0) или («Глаголов на абзац» в интервале от 4,3 до 7,7) и («Средняя длина слова» больше 6,11) или («Наречий на абзац» меньше 2,57) и («Доля прилагательных» больше 0,11)

3.          Л.Н. Толстой: («Глаголов на абзац» меньше 4,3) и («Отношение числительных больше 0) или («Наречий на абзац» меньше 2,57) и («Доля прилагательных» меньше 0,10)

4.          А.П. Чехов: («Глаголов на абзац» в интервале от 4,3 до 7,7) и («Средняя длина слова» меньше 6,1) или («Глаголов на абзац» больше 7,7) и («Доля частиц» больше 0,167) или («Наречий на абзац» в интервале 2,58 до 6,8)

Результаты проведённых различных экспериментов по классификации набора текстов из разных функциональных стилей позволяют сделать вывод об их высокой достоверности распознавания и о возможности использования предложенной технологии, как одного из эффективных инструментов для классификации текстов по творческим категориям.

Благодаря использованию при анализе текста симбиоза частотного, морфологического и интеллектуального анализа, исследование  позволило  получить синергетический эффект для ряда задач text- mining – высокую точность распознавания слабо-формализуемой текстовой информации при незначительной ресурсоёмкости реализации алгоритмов «деревьев решений» в виде минимального набора логических правил.

 

Список литературы

1.     Александров И.В.,  Фомина  И.К.  Разработка web-инструментария для машинного  обучения  в области распознавания образов // Актуальные проблемы экономики и управления. 2015. № 4 (8). С. 133-137.

2.     Гальперин И.Р. Текст как объект лингвистического исследования. М.: Наука. 1981. 140 с.

3.     Грамматический словарь русского языка. URL: http://www.solarix.ru/russian-grammar-dictionary.shtml (дата обращения: 08.03.2016)

4.     Лаптев В.В., Флегонтов А.В., Фомин В.В. Организация облачного ресурса интеллектуального анализа данных // Информатизация образования и науки. 2015. № 1 (25). С. 100-115.

5.     Проект АОТ (автоматическая обработка текста). URL http://www.aot.ru (дата обращения: 08.03.2016)

6.     uClassify. URL: https://www.uclassify.com/ (дата обращения: 08.04.2016)

7.     Data-mining, Analytics, Big Data, and Data Science.  URL:  http://www.kdnuggets.com/       (дата обращения: 08.04.2016)

8.     IBM SPSS. URL: http://www.predictivesolutions.ru/software/ (дата обращения: 08.04.2016)