Новости

12.04.2024

Поздравляем с Днём космонавтики!

08.03.2024

Поздравляем с Международным Женским Днем!

Подробнее

23.02.2024

Поздравляем с Днем Защитника Отечества!

Подробнее

Оплата онлайн

При оплате онлайн будет
удержана комиссия 3,5-5,5%

Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

Главная
Проблемы и достижени..
СЕКЦИЯ №2. ИНФОРМАТИ..

КРАТКИЙ ОБЗОР МЕТОДОВ И МОДЕЛЕЙ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА

Авторы:

Федюшкин Н.А.

Федосин С.А.

Город:

Саранск

ВУЗ:

Мордовский государственный университет имени Н.П. Огарева

Дата:

05 июня 2017г.

Аннотация. В последние годы происходит повышение роста цифровых данных, в связи с чем исследование знаний и интеллектуальный анализ данных привлекают большое внимание, и создается необходимость превращения этих данных в полезную информацию и знания. Использование информации и знаний, извлекаемых из большого объема данных, происходит во множестве сфер применения, например, анализ рынка или управление бизнесом. Во многих приложениях базы данных хранят информацию в текстовой форме, из чего следует, что интеллектуальный анализ текста (англ. text mining) – это одна из наиболее значимых областей для проведения исследований. Извлечение пользователем необходимой информации является сложной задачей. Интеллектуальный анализ текста – это важный этап процесса обнаружения знаний. Интеллектуальный анализ текста переводит скрытую информацию из неструктурированных данных в полу-структурированные. Интеллектуальный анализ текста – это получение информации путем автоматического извлечения из различных письменных источников, а также это еще и извлечение новой, ранее неизвестной информации при помощи компьютера. В этой статье охватываются некоторые методы интеллектуального анализа текста.

Ключевые слова: Процесс интеллектуального анализа текста, методы, технологии, text mining, data mining.

1. ВВЕДЕНИЕ

Технология интеллектуального анализа данных (англ. data mining) помогает извлекать полезную информацию из различных баз данных. Хранилища данных хорошо работают с числовой информацией, но они не приносят успеха, когда речь идет о текстовой информации. XXI век предоставил нам неограниченные объемы информации в сети Интернет. Это хорошо, потому что больший объем информации обеспечивает большую осведомленность и лучшее знание. Интеллектуальный анализ тестовых данных относиться к процессу извлечения интересных и нетривиальных образцов или знаний из текстовых документов. Нахождение точных знаний в текстовых документах с целью помочь пользователям найти то, что они хотят, является сложной задачей.

В настоящее время большая часть информации в бизнесе, промышленности, государственных и других учреждениях хранится в текстовой форме в базах данных, и эта текстовая база данных содержит полу-структурированные данные. Документ может содержать некоторые в значительной степени неструктурированные текстовые компоненты, такие как некоторые абстрактные дополнительные структурированные поля: заголовок, имена авторов, дата публикации, категория и так далее. Интеллектуальный анализ текста представляет собой вариацию на область, называемую интеллектуальный анализ данных (data mining), которая служит для нахождения интересных образцов из огромных баз данных. Проведено множество исследований в области моделирования и реализации полу-структурированных данных в базах данных. Для обработки неструктурированных документов на основе этих исследований были разработаны такие технологии поиска информации, как методы индексации текста. При традиционном поиске, пользователь, как правило, ищет уже известные термины, которые были написаны кем-то другим. Проблема заключается в результате поиска, который не является релевантным к нуждам пользователя. Это и является целью интеллектуального анализа текста – найти новую информацию, которая неизвестна и еще не записана.

Процесс интеллектуального анализа текста начинается с коллекции документов из различных ресурсов. Инструмент интеллектуального анализа текста будет получать конкретный документ и предварительно обрабатывать его путем проверки множеств форматов и символов. Затем документ будет проходить через фазу анализа текста. Анализ текста – это семантический анализ для получения высокого качества информации из текста. Также доступны и другие технологии анализа текста; в зависимости от цели организации могут быть использованы и комбинации различных технологий. Иногда методы анализа текста повторяются до тех пор, пока не будет извлечена информация. Полученная информация может быть помещена в систему управления информацией, что даст богатый объем знаний для пользователей данной системы [1].

Процесс интеллектуального анализа текста показан на рисунке 1.

Остальная часть данной статьи посвящена проблемным вопросам, методам и моделям интеллектуального анализа текста.

1. ПРОБЛЕМНЫЕ ВОПРОСЫ

Сложность естественного языка – это основная проблема в интеллектуальном анализе текста. Естественный язык не освобожден от проблемы неоднозначности. Одно слово может иметь несколько значений, и несколько слов могут иметь одинаковое значение. Способность слов быть понятными в двух или более возможных вариантах называется неоднозначностью. Эта неоднозначность приводит к помехам в извлеченной информации. Неоднозначность не может быть полностью исключена из естественного языка, поскольку она дает гибкость и удобство использования. Существуют различные способы интерпретировать одну фразу или предложение, поэтому могут быть получены различные значения. Хотя и был проведен ряд исследований в решении проблемы неоднозначности, но работа все еще «незрелая» и предложенные в исследованиях подходы предназначаются только для определенных областей. Ответ на вопрос, что пользователь хочет, является вызовом, потому что семантические значения многих обнаруженных в результате поиска слов являются неопределенными.

Достоинства интеллектуального анализа текста:

1) Названия различных сущностей и отношения между ними могут быть легко найдены из свода набора документов с помощью использования такой технологии, как извлечение информации.

2) Сложная проблема управления большим объемом неструктурированной информации для извлечения образцов решается путем интеллектуального анализа текста.

Недостатки интеллектуального анализа текста:

1) Информация, которая требуется изначально – нигде не написана.

2) Нельзя сделать программы, которые могут напрямую анализировать неструктурированный текст.

2. МЕТОДЫ И МОДЕЛИ, ИСПОЛЬЗУЕМЫЕ В ИНТЕЛЛЕКТУАЛЬНОМ АНАЛИЗЕ ТЕКСТА

Традиционно существует множество методов, разработанных для решения проблемы интеллектуального анализа текста, но среди них нет ничего, кроме соответствующего поиска информации в соответствии с требованиями пользователя. В соответствии с информационным поиском в основном используют четыре метода:

1) Метод, основанный на терминах (Term Based Method (TBM)).

2) Метод, основанный на фразах (Phrase Based Method (PBM)).

3) Метод, основанный на концепциях или понятиях (Concept Based Method (CBM)).

4) Метод шаблонной систематики (Pattern Taxonomy Method (PTM)).

3.1 Term Based Method

Термин в документе – это слово, имеющее смысловое значение. В методе, основанном на терминах, документ анализируется на основе термина и имеет преимущества эффективной вычислительной производительности, а также уже состоявшиеся теории для установки весовых коэффициентов терминам. Эти методы возникли в течение последних нескольких десятилетий из области информационного поиска в сообществе машинного обучения. Методы, основанные на терминах, страдают от проблем многозначности и синонимии. Многозначность означает, что слово имеет несколько значений, а синонимия представляет собой несколько слов, имеющих одинаковое значение. Смысловое значение многих изученных терминов является неопределенным для ответа на то, что хочет пользователь.

3.2 Phrase Based Method

Фраза несет в себе больше семантики как информация и она менее неоднозначна. В методе, основанном на фразах, документ анализируется на основе фразы, так как фразы наименее неоднозначны и более отчетливы, чем отдельные термины. Выделяют следующие причины высокой эффективности данного метода:

1) Фразы имеют подчиненные статистические свойства терминов,

2) Они имеют низкую частоту появления в тексте, и

3) Среди них присутствует большое количество избыточных и «шумных» фраз.

3.3 Concept Based Method

В методе, основанном на концепциях или понятиях, термины анализируются на основе предложений и уровня документа. Методы интеллектуального анализа текста в основном базируются на статистическом анализе слова или фразы. Статистический анализ частоты появления термина фиксирует важность слова вне документа. Два термина могут иметь одинаковую частоту появления в одном и том же документе, но смысл в том, что один термин целесообразнее способствует пониманию документа, чем другой термин. Так как вводится новый интеллектуальный анализ, основанный на понятиях, то следует уделять большее внимание терминам, которые фиксируют семантику, то есть смысл, текста. Эта модель включает в себя три компонента. Первый компонент анализирует смысловую структуру предложений. Второй компонент создаёт концептуальный онтологический граф (conceptual ontological graph (COG)) для описания семантических структур. Последний компонент извлекает верхние понятия (концепции), основанные на первых двух компонентах, для того, чтобы построить векторы признаков или свойств, используя стандартную модель векторного пространства. Понятийно-ориентированная модель может эффективно делать различия между «неважными» терминами и терминами, имеющими значение, которые описывают смысл предложения. Понятийно-ориентированная модель, как правило, опирается на технологии обработки естественного языка. Выбор свойства применяется к понятиям запросов для того, чтобы оптимизировать представление и устранить помехи или «шум» и неоднозначность.

3.4 Pattern Taxonomy Method

В методе шаблонной систематики документы анализируются на основе шаблона или образца. Образцы могут быть структурированы в систематику при помощи отношения наследования. Интеллектуальный анализ шаблонов широко изучается в сообществах интеллектуального анализа данных в течение многих лет. Шаблоны могут быть открыты с помощью таких технологий интеллектуального анализа данных, как правило ассоциации, «наиболее частый элемент множества», последовательный интеллектуальный анализ шаблонов и закрытый анализ шаблонов. Использование обнаруженных знаний (шаблонов) в области интеллектуального анализа текста – это сложно и неэффективно, потому что некоторые полезные длинные шаблоны с высокой специфичностью не имеют поддержки (то есть это так называемая низкочастотная проблема). Не все часто встречающиеся короткие шаблоны полезны. Существует проблема неправильного истолкования шаблонов, которая приводит к неэффективной производительности анализа текста.

Метод, основанный на шаблонах, использует два процесса: приведение в действие шаблона и его развитие. Этот метод совершенствует обнаруженные шаблоны в текстовых документах. Экспериментальные результаты показывают, что модель, основанная на шаблонах, работает лучше, чем не только другие модели, основанные на интеллектуальном анализе данных, и понятийно-ориентированная модель, но и лучше модели на основе терминов [2].

3. ЗАКЛЮЧЕНИЕ

В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука. Непрерывное накопление текстовых данных привело к необходимости разработки методов интеллектуального анализа текстов для обеспечения эффективной работы с большими корпусами текстов [3].

В ближайшем будущем технология интеллектуального анализа текста станет доминирующей при анализе информации от клиентов в компаниях любого уровня, будь то телефонные центры поддержки, интернет-агентства или аналитические агентства [4].

Список литературы

1. Sonali Vijiay Gaikwad, Archana Chaugule, Pramod Patil. Text Mining Methods and Techniques— International Journal of Computer Applications — Volume 85 — No 17 — January 2014.

2. Федюшкин Н.А., Федосин С. А. Основные технологии интеллектуального анализа текста — Развитие технических наук в современном мире. Сборник научных трудов по итогам международной научно-практической конференции — № 3 — г. Воронеж — 2016 — 128 с.

3. Федюшкин Н.А., Федосин С. А. Понятие, проблемы и разновидности интеллектуального анализа текста — Проблемы и достижения в науке и технике. Сборник научных трудов по итогам международной научно-практической конференции — № 3 — г. Омск — 2016 — 206 с.

4. Барсегян А.А. Анализ данных и процессов: учеб. пособие— Пер. с англ. под ред. В. Г. Трилиса.— СПб.: БХВ-Петербург, 2009 — 512 с.

Главная Конференции Редколлегия Учреждения Документация Авторы Новости Контакты

Наверх

Цитаты
великих
людей

«Наука есть наилучший путь для того, чтобы сделать человеческий дух героическим»

Джордано Бруно

ГОРОДА: Москва, Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Самара, Челябинск, Омск, Ростов-на-Дону, Уфа, Красноярск, Пермь, Волгоград, Воронеж, Владивосток, Ярославль, Обнинск, Калининград, Орел, Тюмень, Томск, Тамбов, Тверь, Улан-Удэ, Смоленск, Саранск, Сочи, Ставрополь, Сыктывкар, Рязань, Пенза, Оренбург, Набережные Челны, Новгород Великий, Новороссийск, Магадан, Магнитогорск, Липецк, Калуга, Кемерово, Краснодар, Ижевск, Иваново, Иркутск, Забайкальск, Владимир, Вологда, Белгород, Брянск

Разработка и
продвижение: AdHeads