Новости

12.04.2024

Поздравляем с Днём космонавтики!

08.03.2024

Поздравляем с Международным Женским Днем!

Подробнее

23.02.2024

Поздравляем с Днем Защитника Отечества!

Подробнее

Оплата онлайн

При оплате онлайн будет
удержана комиссия 3,5-5,5%

Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

Главная
Актуальные вопросы и..
СЕКЦИЯ №87. ИНФОРМАЦ..

КЛАССИФИКАЦИЯ ТЕКСТА ПО ТВОРЧЕСКИМ КАТЕГОРИЯМ С ПРИМЕНЕНИЕМ ЧАСТОТНО- МОРФОЛОГИЧЕСКОГО АНАЛИЗА И АЛГОРИТМОВ РЕГРЕССИОННЫХ ДЕРЕВЬЕВ

Авторы:

Осочкин А.А.

Фомин В.В.

Город:

Санкт-Петербург

ВУЗ:

Российский государственный педагогический университет им. А.И. Герцена

Дата:

04 июня 2016г.

Традиционно, преобладающее количество ценной и оперативной информации представляется на естественных языках в виде текстовых файлов, так как использование языка является естественным средством человеческого общения, не требующим специального математического или технического образования. Чтобы извлечь эту ценную информацию и формализовать до уровня оценочных критериев и компьютерных показателей, статистических, аналитических, логических и других моделей, аналитику, работающему с объемной текстовой информации, необходимо применение современных компьютерных средств интеллектуального анализа текстовых данных – text-mining [6,7]. С помощью таких средств в автоматическом режиме решаются следующие базовые задачи анализа текстов: распознавание текстов; поиск документов; классификация и рубрикация документов, определение тематики документов и др. Технологии text-mining позволяют извлекать из текста и проводить распознавание по таким слабо-формализуемым категориям как гендерная принадлежность, возраст человека, психического состояния и т.д.

Возрастающая сложностью и ресурсоёмкость технологий обработки text-mining, переводит исследовательские акценты на попытки использования, в отличие от сложных семантических моделей алгоритмов обработки, классических методов частотно-морфологического типа на основе минимального арсенала теоретико-лингвистических изысков и формальных методах статистической обработки упрощенных словоформ [2,3].

Авторами была разработана программная система для решения задач классификации творческих текстов, манипулируя минимальным набором частотных характеристик ограниченным формализованным правилами синтаксиса русского языка и алгоритмов data-mining [1,4].

Обобщённый алгоритм анализа текстов следующий: на вход подсистемы извлечения параметров поступают текстовые файлы, для каждого из которых формируется ряд числовых характеристик. В результате генерируется таблица данных параметров частотной оценки текстов. Далее подключается модуль реализующий алгоритм регрессионных деревьев (data-mining), в рамках которого осуществляется проведение классификации на основе собранной статистической таблицы параметров.

Подсистема извлечения параметров включает в себя три главных модуля:

1. Частотный модуль. Программа собственной разработки – осуществляет первичную обработку, в ходе которой весь текст разделяется на цифры, буквы, знаки препинания, предложения и т.д. и считает их частоту употребления.

2. Модуль морфологического анализа. Морфологический анализ текста осуществляется на основе двух привлечённых библиотек: «АоТ» [7]. Набор инструментов обработки текста на естественном языке и «Solarix Engine – Словарь русского языка» [4] - используется для определения приставки, корня, суффикса, окончания и начальной формы слова.

Модуль «АоТ» определяет часть речи и различные характеристики слова (род, число, падеж, и т.д.). Если модулю «АоТ» не удается определить, какой частью речи является слово, то используется результат определения части речи модулем «Solarix Engine».

3. Модуль формирования показателей. После обработки текста частотным и морфологическим модулями, происходит запись результатов в промежуточную таблицу. По данным обобщённой таблицы производится формирование относительных показателей текста (коэффициентов) и формирование конечной таблицы признаков (частотных, характеристических показателей) текстов.

За основу анализируемых параметров текста приняты характеристики, обладающие свойствами:

– Должны позволять проводить сравнительный анализ не только инвариантных структур различных текстов, но также сравнительный анализ различных структур текстов между собой.

– Представимы численно и желательно в диапазоне [0,1].

Параметры, обладающие вышеперечисленными свойствами, позволят аналитику вводить свои ограничения и манипулировать разнообразными текстами, разной структуры и размера, применять множественный аппарат формальных алгоритмов статистики и интеллектуального анализа. На данном этапе извлекается 64 относительных показателя.

В качестве системы интеллектуального анализа данных были использованы алгоритмы IBM SPSS Statistic [8]. Выбор алгоритма классификации был осуществлён в пользу семейства методов «регрессионных деревьев» или «деревьев решений». Подобные алгоритмы широко используются в интеллектуальном анализе данных [7] и обладают рядом предпочтительных преимуществ, в том числе интерпретируемостью результатов и эффективным инструментом снижения пространства признаков.

В предварительном исследовании методов «деревьев решений» из набора пакета SPSS, наилучшие результаты обработки пространства признаков дал алгоритм «исчерпывающий CHAID». Поэтому он используется как основной.

В рамках апробации данной системы были проведены ряд экспериментов по определению функционального стиля и авторского стиля.

Пример результата одного из экспериментов – определение авторского стиля в прозе представлен ниже.

Эксперимент 1. Классификацию текстов «авторский стиль» представленных в Табл.1. Контрольная выборка – 40%.

Таблица 1

Набор текстов художественной литературы.

Автор	Количество произведений (текстовых фрагментов)
Ф.М. Достоевский	15
А.И. Куприн	10
Л.Н. Толстой	20
А.П. Чехов	15

Результаты классификации текстов принадлежащих одному и тому же функциональному стилю представлены ниже:

Таблица 2

Результаты анализа эксперимента.

		Достоевский	Куприн		Предсказанные Толстой Чехов			Процент
Пример	Наблюденные Ф.М.		А.И.		Л.Н.	А.П.		правильных
Обучение	Достоевский Ф.М.	8		0	0		1	88,9%
	Куприн А.И.	0	11		0		0	100,0%
	Толстой Л.Н.	0		0	13		0	100,0%
	Чехов А.П.	0		0	0	11		100,0%
	Общая процентная доля	18,2%	25,0%		29,5%	27,3%		97,7%
Контроль	Достоевский Ф.М.	5		0	0		0	100,0%
	Куприн А.И.	0		4	0		0	100,0%
	Толстой Л.Н.	0		0	6		1	85,7%
	Чехов А.П.	1		0	0		3	75,0%
	Общая процентная доля	30,0%	20,0%		30,0%	20,0%		90,0%

Классификация прошла успешно, вероятность ошибки при этом составила 10%. В результате анализа дерево решений значительно сократило пространство параметров - определила всего 6 значимых параметра (из 64 на входе). Правила, по которым были классифицированы данные авторы:

1. Ф.М. Достоевский: («Глаголов на абзац» больше 7,7) и («Отношение числительных» меньше 0,0008) или («Наречий на абзац» больше 6,9) и («Отношение числительных» меньше 0,0008)

2. А.И. Куприн: («Глаголов на абзац» меньше 4,3) и («Отношение числительных равно 0) или («Глаголов на абзац» в интервале от 4,3 до 7,7) и («Средняя длина слова» больше 6,11) или («Наречий на абзац» меньше 2,57) и («Доля прилагательных» больше 0,11)

3. Л.Н. Толстой: («Глаголов на абзац» меньше 4,3) и («Отношение числительных больше 0) или («Наречий на абзац» меньше 2,57) и («Доля прилагательных» меньше 0,10)

4. А.П. Чехов: («Глаголов на абзац» в интервале от 4,3 до 7,7) и («Средняя длина слова» меньше 6,1) или («Глаголов на абзац» больше 7,7) и («Доля частиц» больше 0,167) или («Наречий на абзац» в интервале 2,58 до 6,8)

Результаты проведённых различных экспериментов по классификации набора текстов из разных функциональных стилей позволяют сделать вывод об их высокой достоверности распознавания и о возможности использования предложенной технологии, как одного из эффективных инструментов для классификации текстов по творческим категориям.

Благодаря использованию при анализе текста симбиоза частотного, морфологического и интеллектуального анализа, исследование позволило получить синергетический эффект для ряда задач text- mining – высокую точность распознавания слабо-формализуемой текстовой информации при незначительной ресурсоёмкости реализации алгоритмов «деревьев решений» в виде минимального набора логических правил.

Список литературы

1. Александров И.В., Фомина И.К. Разработка web-инструментария для машинного обучения в области распознавания образов // Актуальные проблемы экономики и управления. 2015. № 4 (8). С. 133-137.

2. Гальперин И.Р. Текст как объект лингвистического исследования. М.: Наука. 1981. 140 с.

3. Грамматический словарь русского языка. URL: http://www.solarix.ru/russian-grammar-dictionary.shtml (дата обращения: 08.03.2016)

4. Лаптев В.В., Флегонтов А.В., Фомин В.В. Организация облачного ресурса интеллектуального анализа данных // Информатизация образования и науки. 2015. № 1 (25). С. 100-115.

5. Проект АОТ (автоматическая обработка текста). URL http://www.aot.ru (дата обращения: 08.03.2016)

6. uClassify. URL: https://www.uclassify.com/ (дата обращения: 08.04.2016)

7. Data-mining, Analytics, Big Data, and Data Science. URL: http://www.kdnuggets.com/ (дата обращения: 08.04.2016)

8. IBM SPSS. URL: http://www.predictivesolutions.ru/software/ (дата обращения: 08.04.2016)

Главная Конференции Редколлегия Учреждения Документация Авторы Новости Контакты

Наверх

Цитаты
великих
людей

«Кто раз любил науку, тот любит ее всю жизнь и никогда не расстанется с ней добровольно»

Дмитрий Писарев

ГОРОДА: Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Самара, Челябинск, Омск, Ростов-на-Дону, Уфа, Красноярск, Пермь, Волгоград, Воронеж, Владивосток, Ярославль, Обнинск, Калининград, Орел, Тюмень, Томск, Тамбов, Тверь, Улан-Удэ, Смоленск, Саранск, Сочи, Ставрополь, Сыктывкар, Рязань, Пенза, Оренбург, Набережные Челны, Новгород Великий, Новороссийск, Магадан, Магнитогорск, Липецк, Калуга, Кемерово, Краснодар, Ижевск, Иваново, Иркутск, Забайкальск, Владимир, Вологда, Белгород, Брянск

Разработка и
продвижение: AdHeads