Новости
09.05.2023
с Днём Победы!
07.03.2023
Поздравляем с Международным женским днем!
23.02.2023
Поздравляем с Днем защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ОСНОВНЫЕ ТЕХНОЛОГИИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА

Авторы:
Город:
Саранск
ВУЗ:
Дата:
18 декабря 2016г.

Аннотация. Интеллектуальный анализ текста (ИАТ, англ. text mining) – это многообещающая, сравнительно новая область информатики и вычислительной техники, целью которой является стремление собрать наиболее значимую информацию из текстов на естественном языке. В этой статье охватываются некоторые технологии интеллектуального анализа текста.

Ключевые слова: процесс интеллектуального анализа текста, методы, технологии, text mining, data mining, кластеризация, классификация, визуализация, категоризация теста.

1.        ВВЕДЕНИЕ

 

Принятие правильных решений часто требует анализа больших объемов текстовой информации. Интеллектуальный анализ текста (ИАТ, англ. text mining) – это многообещающая, сравнительно новая область информатики и вычислительной техники, целью которой является стремление собрать наиболее значимую информацию из текстов на естественном языке. Интеллектуальный анализ текста – это процесс применения автоматических методов для анализа и структурирования текстовых данных с целью создания полезного  знания  из  ранее  неструктурированной  информации.  ИАТ  является  по  своей  сути междисциплинарной областью между интеллектуальным анализом данных (data mining) и компьютерной лингвистикой [1].

2.        ТЕХНОЛОГИИ, ИСПОЛЬЗУЕМЫЕ В ИНТЕЛЛЕКТУАЛЬНОМ АНАЛИЗЕ ТЕКСТА

 

Для того чтобы научить компьютеры анализировать, понимать и генерировать текст, производятся технологии обработки естественного языка. В процессе интеллектуального анализа текста используются такие технологии, как извлечение информации, обобщение, категоризация, кластеризация и визуализация информации. В следующих разделах мы обсудим каждую из этих технологий и роль, которую они играют в интеллектуальном анализе текста. Также обсуждаются типы ситуаций, в которых каждая технология может быть полезна пользователям.

Извлечение информации 

Извлечение информации является начальным шагом для компьютера, чтобы начать анализировать неструктурированный текст путем выявления ключевых фраз и отношений внутри текста. Чтобы осуществить эту задачу используется процесс сопоставления шаблонов или образов для поиска заданных последовательностей в тексте. Задача извлечения информации включает лексимизацию (лексический анализ), идентификацию заданных сущностей, сегментацию предложений и присвоение частей речи (part-of- speech assignment). Во-первых, над фразами и предложениями делается грамматический разбор и семантическое интерпретирование, затем требуемые фрагменты информации вводятся в базу данных. Общий процесс извлечения информации показан на рисунке 1.
Наиболее точные системы извлечения информации включают в себя сделанные вручную модули обработки языка, значительный прогресс был достигнут в области применения технологий интеллектуального анализа данных для ряда этих этапов. Эта технология может быть очень полезна при работе с большими объемами текста. Для многих областей применения сложной задачей скорее является электронная информация в форме свободных документов на естественном языке, чем структурированные базы данных в виде реляционных баз данных. Извлечение информации решает проблему преобразования собрания текстовых документов в более структурированную базу данных. Для дальнейшего интеллектуального анализа знаний база данных, построенная с помощью модуля извлечения информации, может быть предоставлена модулю обнаружения знаний в базах данных (KDD (Knowledge Discovery in Databases) module).

Категоризация

 Категоризация автоматически устанавливает одну или более категорий для открытого текстового документа. Категоризация является контролируемым методом обучения, потому что она основывается на входных и выходных примерах для классификации новых документов. Предварительно определенные классы присваиваются текстовым документам на основе их содержания. Типичный процесс категоризации текста состоит из предварительной обработки (preprocessing), индексирования, сокращения или уменьшения размерности и классификации. Целью категоризации является подготовка классификатора на основе известных примеров, а затем неизвестные примеры классифицируются автоматически. Для категоризации текста могут быть использованы такие статистические методы классификации, как наивный байесовский классификатор (Naïve Bayesian classifier), классификатор по типу «ближайшего соседа» (Nearest Neighbour classifier), дерево решений (Decision Tree) и метод опорных векторов (Support Vector Machines).

Кластеризация 

Метод кластеризации может быть использован для того, чтобы находить группы документов с аналогичным содержанием. Результатом кластеризации, как правило, является некий раздел кластеров, называемых P, и каждый кластер состоит из ряда документов d. Если содержания документов в пределах одного кластера являются похожими, а между различными кластерами отличаются, то качество кластеризации считается наивысшим. Технология кластеризации, используемая для группировки похожих документов, отличается от категоризации, потому что при кластеризации документы группируются «на лету» в отличии использования предопределенных тем в методе категоризации. Кластеризация гарантирует, что нужный и полезный документ не будет исключен из результатов поиска в связи с той ситуацией, что документы могут появляться в нескольких подразделах.

В интеллектуальном анализе данных метод K-средних (K-means) является часто используемым алгоритмом кластеризации. В области интеллектуального анализа текста данный метод также привносит хорошие результаты. Основной алгоритм кластеризации создает вектор тем для каждого документа и измеряет весовые коэффициенты того, насколько хорошо документ вписывается в каждый кластер. Организация информационных систем управления использует технологию кластеризации в качестве организационной базы данных, содержащей тысячи документов.

Визуализация

 В интеллектуальном анализе текста методы визуализации могут улучшить и упростить обнаружение релевантной информации. В представлении отдельных документов или групп документов используются текстовые флаги для того, чтобы показать категорию документа. Визуальный интеллектуальный анализ  текста  приводит большие  текстовые  источники к визуальной иерархии. Пользователь может взаимодействовать с документом путем увеличения и масштабирования. Визуализация информации применима для задач правительства в целях идентификации террористических сетей или нахождения информации о преступлениях. Рисунок 2 показывает этапы процесса визуализации.


Задача визуализации информации делится на три этапа:

 (1)                    Этап подготовки информации включает принятие решения, получение исходных данных для визуализации и формирование исходного пространства данных.

(2)                    Процесс анализа и извлечения данных визуализации, необходимых для исходных данных и для формирования пространства данных визуализации, является вторым этапом задачи визуализации.

(3)                    Этап визуального отображения использует определенный алгоритм отображения для отражения пространства данных визуализации на цель визуализации.

Обобщение (Summarization)

 Обобщение текста – это уменьшение длины и детализации документа, с сохранением при этом наиболее важных моментов и общего смысла. Обобщение текста полезно для выяснения ответа на вопрос, удовлетворяет или нет длинный документ потребностям пользователя, и стоит ли его читать для получения дополнительной информации. Таким образом, обобщение является кратким изложением и может заменить набор документов. В то время,  которое пользователь тратит на прочтение первого раздела документа, программное обеспечение обобщения текста производит и обобщает длинный текстовый документ. Трудно научить программу анализировать семантики и интерпретировать смысл текстового документа даже в том случае, если компьютеры способны идентифицировать людей, места и время. Люди сначала читают весь текстовый раздел для того чтобы кратко его изложить, затем они пытаются разработать полное понимание, и наконец пишут краткое изложение, выделяя основные моменты раздела [2].

Процесс обобщения текста включает следующие шаги:

 (1)                  Предварительная обработка полученного структурированного представления исходного текста.

(2)                  Для того чтобы преобразовать текстовую структуру в обобщенную структуру, алгоритм применяется на каждом следующем шаге обработки.

 (3)                  На этапе изобретения конечное краткое изложение текста получается из обобщенной структуры, полученной на втором этапе.





1.        ЗАКЛЮЧЕНИЕ

 

В статье обсуждались различные технологии и применения интеллектуального анализа текста. Извлечение информации используется для получения структурированной информации из неструктурированного текста. В технологии извлечения информации, могут применятся различные методики интеллектуального анализа данных для получения полезных моделей или знаний из документов. Для получения релевантной информации из набора документов, используется технология обобщения. Классификация – это контролируемая технология, поскольку прежде, чем она может быть использована для классификации новых документов, ей нужно задать все входные и выходные шаблоны или образцы, которые она будет применять для обучения модели. Кластеризация – это неконтролируемая из вне технология обучения, так как для нее не требуются никакие входные и выходные шаблоны. Для обеспечения улучшенного восприятия и понимания информации для интеллектуального анализа документов используется графическая визуализация.

 

Список литературы

 

 

1.              Федюшкин Н.А., Федосин С. А. Понятие, проблемы и разновидности интеллектуального анализа текста — Проблемы и достижения в науке и технике. Сборник научных трудов по итогам международной научно-практической конференции — № 3 — г. Омск — 2016 — 206 с.

2.              Sonali Vijiay Gaikwad, Archana Chaugule, Pramod Patil. Text Mining Methods and Techniques — International Journal of Computer Applications — Volume 85 — No 17 — January 2014.