Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ПОНЯТИЕ, ПРОБЛЕМЫ И РАЗНОВИДНОСТИ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ТЕКСТА

Авторы:
Город:
Саранск
ВУЗ:
Дата:
28 мая 2016г.
Аннотация. Интеллектуальный анализ текста (ИАТ, англ. text mining) – это многообещающая, сравнительно новая область информатики и вычислительной техники, целью которой является стремление собрать наиболее значимую информацию из текстов на естественном языке.
Ключевые слова: интеллектуальный анализ текста, text mining, кластеризация, классификация, категоризация теста, поиск релевантных объектов, формулирование запросов.
Принятие правильных решений часто требует анализа больших объемов текстовой информации. Интеллектуальный анализ текста (ИАТ, англ. text mining) – это многообещающая, сравнительно новая область информатики и вычислительной техники, целью которой является стремление собрать наиболее значимую информацию из текстов на естественном языке. Интеллектуальный анализ текста – это процесс применения автоматических методов для анализа и структурирования текстовых данных с целью создания полезного знания из ранее неструктурированной информации. ИАТ является по своей сути междисциплинарной областью между интеллектуальным анализом данных (data mining) и компьютерной лингвистикой [1].
Как правило, процессу интеллектуального анализа текста предшествуют два существенных этапа:
1) Этап предварительной обработки, в котором происходит поиск текста, его форматирование и выполняется его подача.
2) Лексическая обработка, включающая в себя идентификацию и лемматизацию слов, то есть процесс приведения слоформы к лемме.
После этих двух этапов, начинается фактический интеллектуальный анализ текста, но он может быть крайне разнообразным, так как анализ строго связан с целями, которые необходимо достигнуть. Возможны следующие цели:
1. Автоматический анализ документов и их классификация или категоризация для последовательного поиска информации;
2. Поиск релевантных объектов (сущностей) для извлечения информации;
3. Формулирование запросов на естественном языке, интерпретируемом процессами обработки естественного языка (англ. Natural Language Processing (NLP)) на основе алгоритмов искусственного интеллекта;
4. Обработка многоязычных текстов для поиска информации независимо от языка оригинала документов.
Автоматическая категоризация или классификация документов
Автоматический анализ документов направлен на получение различных видов результатов: а) классификация документов в пределах заранее определенной сетки категорий; б) кластеризация текстов в соответствии с концептуальной схожестью или словарным запасом; в) извлечение семантической информации из текста; г) реферирование текстов.
а) Возможно, случай классификации документов в заранее определенной «сетке» категорий является наиболее частым. Этот метод используется, например, для управления базами документов, как в случае больших редакторов или информации юридического характера, или для приложений по маркетингу в пределах задач управления отношениями с клиентом (англ. Customer Relationship Management (CRM)), которые предусматривают автоматическую маршрутизацию сообщений.
б) С другой стороны, в случае, в котором «сетка» для классификации документов отсутствует, используются методы кластеризации, которые разделяют или же наоборот объединяют документы в группы по сходству их содержания.
Кластеризация является наиболее частым процессом, используемым в тех случаях, в которых содержание документов, проходящих анализ, подвержено высокой изменчивости и часто недоступно пользователю (как в случае документов, извлеченных из поисковой системы): разделение на группы дает возможность иметь представление о концептуальных доменах (областях), которым принадлежат документы, так как, как правило, есть возможность просматривать список слов, характеризующих каждый кластер (например, при помощи использования индекса TF-IDF).
Кластеризация может быть использована не только для поиска информации, но и для выявления тенденций и тем, путем чтения текстов. Таким образом, кластеризация позволяет добиться организованного обзора тем, содержащихся в документах.

в) Анализ может быть направлен на извлечение соответствующего семантического содержания рассматриваемого текста; как и в случае анализа мнения клиента (англ. Customer Opinion Analysis (COA)), используемого в маркетинговых приложениях, в которых множество сообщений анализируется для того, чтобы получить информацию о мнении клиентов.
г) И, наконец, реферирование текстов позволяет автоматически создавать резюме и (или) тезисы и аннотации документов. Процедуры реферирования текстов проводят лингвистический или статический анализ документа под экспертизой для того, чтобы определить рассматриваемые темы и устранить части, не представляющие значение для целей синтеза.
Поиск релевантных объектов (сущностей)
Приложения, посвященные поиску релевантной информации, не предусматривают классификацию документов, а предполагают формулировку ответа на конкретный запрос. Извлечение информации часто имеет место в приложениях конкурентной разведки (англ. Competitive Intelligence, сокр. CI), в наблюдении за развитием технологий (англ. Technology Watch) и в анализе рынка (англ. Market Analysis), имея при этом общую цель в извлечении стратегически важной информации из огромного количества документов. В большинстве случаев используются статистические методы обработки данных. Добытая информация – это, как правило, списки конкурентов и предлагаемых продуктов, списки потенциальных клиентов, выявление партнерских отношений между компаниями, инвестиции новостей или экспериментирования на новых рынках, информация о новых технологиях или патентах.
Формулировка запросов на естественном языке
Обработка естественного языка (англ. Natural Language Processing (NLP)) является основой большинства процессов интеллектуального анализа текстов. Среди наиболее значимых приложений, использующих этот тип лингвистических технологий, выделяются те, которые позволяют управлять запросами на естественном языке и используются в первую очередь для управления отношениями с клиентом (англ. Customer Relationship Management (CRM)) или для электронного государства (электронного правительства, англ. eGovernment). Они представляют собой приложения, которые облегчают контакт с пользователем и поиск информации в Интернете (или в Интранете) для пользователей, которые не особо знакомы с языком запросов. Результатом этого процесса является извлечение информации с максимальной точностью и минимальными усилиями со стороны пользователя [1].
Обработка многоязычных текстов
Этот раздел находится в непрерывном расширении, и, несомненно, управление и объяснение многоязычных корпусов текста будет представлять собой одну из будущих разработок интеллектуального анализа текстов. Возможность одновременно работать с текстами, разработанными на разных языках (начиная со специальных словарей, в которых были контекстуально испытаны «переводчики») потенциально используется, прежде всего, в области поисковых систем, которые позволяют извлекать документы, представляющие интерес, при помощи использования многоязыковых платформ. Конкретное исследование было проведено компанией Synthema на извлечение информации из многоязычного корпуса текста в контексте проекта NEMIS [1].
В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука. Непрерывное накопление текстовых данных привело к необходимости разработки методов интеллектуального анализа текстов для обеспечения эффективной работы с большими корпусами текстов. Перед применением того или иного метода интеллектуального анализа текстов требуется четко сформулировать достигаемую цель, так как каждая задача имеет свою специфику. Важно принять во внимание язык документа, так как от этого зависит необходимый морфологический и синтаксический анализ. Четкое определение предметной области текстового корпуса помогает определить набор специальных терминов, которые могут присутствовать в тексте, и какие слова можно рассматривать как избыточные.
В ближайшем будущем технология «Text Mining» станет доминирующей при анализе информации от клиентов в компаниях любого уровня, будь то телефонные центры поддержки, интернет-агентства или аналитические агентства [2].

 
Список литературы
1. Sergio Bolasco, Alessio Canzonetti. Understanding Text Mining: a Pragmatic Approach [Электронный ресурс] — 2006 — Режим доступа: https://www.researchgate.net/publication/225309930_Understanding_Text_Mining_A_Pragmatic_Approach — Загл. с экрана.
2. Барсегян А.А. Анализ данных и процессов: учеб. пособие— Пер. с англ. под ред. В. Г. Трилиса. — СПб.: БХВ-Петербург, 2009 — 512 с.