Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

МЕТОДЫ ОБОГАЩЕНИЯ СВЯЗАННЫХ ДАННЫХ

Авторы:
Город:
Саратов
ВУЗ:
Дата:
24 марта 2020г.

В настоящее время в условиях становления информационного общества все большие масштабы и важность приобретает публикация данных различных предприятий и организаций в открытом доступе. Одним из инструментов для этого является технология связанных открытых данных, развивающаяся в рамках концепции семантического веба. Связанные открытые данные (Linked Open Data, LOD) – это опубликованные структурированные данные, каждый элемент которых имеет свой URI, представлен в виде Resource Description Framework (RDF) и имеет связь с другими данными. Технология семантического веба создала основу для создания сети данных, в которой узлы соответствуют интересующим ресурсам в домене, а ребра соответствуют связям между ними. Они связывают ресурсы в домене бинарными отношениями и, в свою очередь могут быть и ресурсами. Описание предметной области, основанное на этом подходе, является машинно-обрабатываемым. Это позволяет приложениям обмениваться данными и знаниями об объектах однозначным образом. Кроме того, поскольку все ресурсы представлены с помощью URI, создается огромная распределенная сеть наборов данных. Приложения могут динамически обнаруживать эти наборы данных, получать доступ к данным, интерпретировать их, используя связанные метаданные, представленные в виде онтологий, и интегрировать их в свои операции. Инициатива «Связанные открытые данные» (LOD), основанная на стандартах семантической паутины, привела к огромному веб-корпусу наборов данных в различных предметных областях (доменах). Большинство этих данных относятся к типу, который связывает между собой конкретные сущности (например, Москва является столицей России), и существует большая необходимость дополнить наборы данных утверждениями, связывающими понятия более высокого уровня (например, заявление о странах и городах, такое как «Каждый человек имеет имя»). Добавление утверждений такого рода является частью задачи по обогащению наборов данных LOD, называемой «обогащение онтологий». Существует ряд недавних исследований, направленных на решение этой задачи. Обогащение онтологий является сложным процессом и требует нескольких методов из обработки естественного языка, машинного обучения, а также методов, которые используют существующие утверждения онтологии для получения новых. Можно выделить три типа онтологий, для которых эффективно автоматическое обогащение данными с помощью методов машинного обучения: онтологии естественного языка; онтологии предметных областей; экземпляры онтологий (связанные данные) [1].

Обогащение онтологий - это обширная область исследований, в которой можно выделить три категории работ, посвященных извлечению семантических знаний из разнородных данных. Это могут быть структурированные данные, как, например данные в базах данных или неструктурированные данные, такие как тексты на естественном языке или также полуструктурированные данные, как в документах HTML [2,3]. Первая категория касается выразительных онтологий и генерации определений понятий. Дело в том, что большинство методов создания онтологий нацелено на создание довольно невыразительных онтологий (таксономий и взаимосвязей), но многие приложения в различных областях требуют гораздо более сложной аксиоматизации. Существует несколько подходов для автоматической генерации таких выразительных онтологий. Некоторые подходы работают с текстами, описывающими понятия. Например, Lexo [4] применяет правила синтаксического преобразования к определениям естественного языка для генерации аксиом в Description Logic (DL). [5] использует подход, основанный на извлечении отношений, и опирается на формальные ограничения для обеспечения качества полученных определений [6]. Другие, полагаются на индуктивное логическое программирование [7], чтобы найти новые логические описания концепций из утверждений онтологии. Вторая категория работ посвящена созданию легких онтологий, таких как таксономии. Они изучают, как извлечь различные онтологические элементы из текстовых ресурсов [8]. Для извлечения понятий ключевым шагом является извлечение соответствующей терминологии предметной области [9]. Затем применяются методы классификации для обнаружения синонимов, и для каждой группы похожих терминов может быть выведен соответствующий онтологический класс. Все эти работы предназначены для распознавания слов, обозначающих понятия (или примеры) в текстах, а затем для их извлечения. Третья категория включает в себя работы, которые используют рассуждения, чтобы частично заменить традиционные методы извлечения знаний. В них понятия делятся на примитивные и составные, причем последние определяются из первых. Примитивные концепции заполняются при помощи стандартных инструментов извлечения знаний. Составные понятия заполняются на основе извлеченных свойств и примеров примитивных понятий. Есть работы, в которых факты извлекаются из текстов благодаря инструментам обработки естественного языка и онтологии. Из этих фактов, базовых знаний и правил вывода, введенных заранее, могут быть получены новые факты, не упомянутые в тексте.

Таким образом, современное состояние показывает, что ни один из подходов, взятых отдельно, не является решением общей проблемы обогащения онтологий. Одним из наиболее интересных и прогрессивных с этой точки зрения, является комбинированный подход для обогащения онтологий из текстовых и открытых данных [10]. Особенность этого подхода заключается в том, что он решает тройную задачу: 1) понятия, используемые для разметки, не имеют прямой терминологии в документах, 2) их формальные определения изначально не известны, 3) информация, полезная для разметки документов, не обязательно упоминается в них. Для решения этих проблем используется существующая онтология предметной области, которая обогащается определениями понятий, используемых для последующей разметки. Для построения этих определений создается и затем используется набор документов с ручной разметкой, используемых в качестве примеров. Онтология заполнена информацией, извлеченной из этих документов, и информацией, поступающей из внешних ресурсов (связанных открытых данных). Определения, которые необходимо получить, могут затем быть сформированы на основе этой заполненной онтологии и набора помеченных документов. Эти определения затем добавляются к онтологии (обогащение онтологии). Следовательно, всякий раз, когда новые документы той же предметной области должны быть размечены, онтология может заполняться одинаково, и применяются определения, позволяющие помечать новые документы. Этот подход, получивший название SAUPODOC, является новым подходом к заполнению и обогащению онтологий, использующим основы семантической сети, методы анализа текста, извлечения связанных открытых данных, машинного обучения и инструментов логического вывода.

 

Список источников и литературы

 

1.        Романов С.В. О возможностях использования коммуникативных грамматик и LSPL-шаблонов для автоматического построения онтологий / С.В. Романов, А.А. Сытник, Т.Э. Шульга // Известия Самарского научного центра Российской академии наук. - 2015. - Т. 17 - №2 (5). - C. 1104-1108.

2.        Сытник А.А., Вагарина Н.И., Мельникова Н.И. и др. Разработка методов дискретного анализа семантики слабоструктурированных систем / Отчёт о научно-исследовательской работе по проекту №01201459267 «Разработка методов дискретного анализа семантики слабоструктурированных систем» в рамках государственного задания вузам на выполнение НИР по мероприятию «Проведение фундаментальных и прикладных научных исследований и экспериментальных разработок» (2014 – 2016 г.г.).

3.        Papshev S., Sytnik A., Melnikova N., Bogomolov A. (2019) Semantic Marking Method for Non-text Documents of Website Based on Their Context in Hypertext Clustering. In: Dolinina O., Brovko A., Pechenkin V., Lvov A., Zhmud V., Kreinovich V. (eds) Recent Research in Control Engineering and Decision Making. ICIT 2019. Studies in Systems, Decision and Control, vol 199. Springer, Cham. DOI   https://doi.org/10.1007/978-3-030-12072-6_26

4.        Volker, J., Hitzler, P., and Cimiano, P. (2007). Acquisition of OWL DL ¨ Axioms from Lexical Resources. In 4th European Semantic Web Conference (ESWC), pages 670–685, Innsbruck, Austria. Springer-Verlag.

5.        Ma, Y. and Distel, F. (2013a). Concept Adjustment for Description Logics. In 7th International Conference on Knowledge Capture, K-CAP ’13, pages 65–72, Banff, Canada. ACM.

6.        Ma, Y. and Distel, F. (2013b). Learning Formal Definitions for Snomed CT from Text. In Proc. of Artificial Intelligence in Medicine (AIME), pages 73–77, Murcia, Spain. Springer-Verlag.

7.        Chitsaz, M. (2013). Enriching Ontologies through Data. In Doctoral Consortium co-located with International Semantic Web Conference (ISWC), Sydney, Australia, pages 1–8.

8.        Cimiano, P. (2006). Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Springer-Verlag New York, Inc., Secaucus, NJ, USA.

9.        Cimiano, P., Volker, J., and Studer, R. (2006). Ontologies on Demand? - A ¨ Description of the State-of- the-Art, Applications, Challenges and Trends for Ontology Learning from Text. Information, Wissenschaft und Praxis, 57(6-7):315–320

10.     Alec C., Reynaud-Delaître C., Safara B. (2018) A Combined Approach for Ontology Enrichment from Textual and Open Data. In: Pinaud B., Guillet F., Cremilleux B., de Runz C. (eds) Advances in Knowledge Discovery and Management. Studies in Computational Intelligence, vol 732. Springer, Cham