Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ПОСТРОЕНИЕ ЛИНГВИСТИЧЕСКОЙ ОНТОЛОГИИ ДЛЯ СИСТЕМЫ АНАЛИЗА НЕСТРУКТУРИРОВАННЫХ ТЕКСТОВ ДЛЯ ВРЕМЕННОГО РАЗБИЕНИЯ

Авторы:
Город:
Владивосток
ВУЗ:
Дата:
09 марта 2016г.

Вопросы автоматического извлечения знаний из неструктурированной текстовой информации являются актуальными в современном мире, что объясняется необходимостью решения практических задач мониторинга больших информационных потоков в сетевом дискурсе с целью их адаптивного агрегирования.

Социальная сетевая паутина может быть использована в политике для получения информации о некотором обществе – его настроении, требованиях, тенденция. В настоящий момент такую работу выполняют лингвисты, психологи, социологи[3], и на волне развития информационного общества это привело к развитию научного направления дискурсивного анализа.

Очевидно, что за приемлемое время специалисты могут провести анализ только сравнительно небольшого количества  текстов,  поэтому  задача  автоматизации  для  данного  направления  стоит  особо  остро.  Но автоматизацию усложняет тот факт, что анализ проводится по произвольным текстам из мировой сети с игнорированием происхождения, что подразумевает анализ неструктурированной информации.

Одной из нерешенных задач анализа текста является сравнение семантического содержимого группы неструктурированных текстов за различные промежутки времени. Для решения таких задач не существует ни формализованных математических и лингвистических алгоритмов, ни каких-либо программных средств. Тем не менее, существует программное обеспечение, предназначенное для семантического анализа отдельных текстов, однако их возможности пока ещѐ достаточно далеки от потребностей конечных пользователей.

Поскольку сравнительный анализ систем не выявил программную систему, теоретически подходящую под выдвигаемые требования к системе анализа текстов[5], было принято решение разработать такую систему.

Одной из важнейших проблем при построении анализатора является форма представления предустановленных данных анализатора, в данном случае – данных о текстовых фрагментах, указывающие на временную принадлежность предложения. В качестве такой формы была выбрана форма лингвистической онтологии с определенной на ней отношениями тезауруса. Использование такой формы позволяет эффективно описать отношения между концептами, что облегчает работу при математическом моделировании алгоритмов программного средства. Также в виду более широкого распространения формализация данной в форме имеет уже описанные ранее подходы для реализации в программном средстве[4].

Наиболее простым и универсальным вариантом описания подмножества естественного языка является стандартизированная форма тезауруса с предопределенными отношениями «выше-ниже», «часть-целое», а также асимметричной ассоциативным отношением.

Специфика области лингвистики явно отражается на задаче анализа предметной области. Получить обобщенный вариант формализации, подходящий одновременно для различных областей (подмножеств языка) не представляется возможным. Для решения этой задачи необходимо применить индуктивный метод [1]. Для этого необходимо рассмотреть две-три различных предметных областей, построить их формализации, выделить общие части и построить единую лингвистической мета-онтологию.

Для построения модели используется метод полной выборки. Для каждой предметной области формируется и размечается корпус текстов, состоящий преимущественно публицистических статей. Отличительной особенностью этих корпусов является обзорная тематика статей. В них в каком-либо виде описывается состояние дел в предметной области на какой-либо момент времени, в том числе и в будущем. Если статья подразумевает описание состояния на текущей момент, то в качестве обозначения времени состояния берѐтся либо дата написания и публикации статьи, либо время занесения статьи в корпус.

Основной задачей анализа предметной области является выявление и формализация признаков, на основе которых возможно построить модель с описанием состояния в предметной области. Применительно к лингвистике необходимо выделить морфологические, синтаксические признаки и признаки сверхфразового единства.

Для решения исходной задачи необходимо проанализировать и формализовать фрагменты тексты, так или иначе указывающие на время происхождения событий. Рассмотрим в качестве примера фрагменты, найденные при анализе текстов на тему «История развития компьютерной техники».

Выражение – «в . . . году» Морфемный анализ:

·   В – служебная часть речи, самостоятельного лексического значения не имеет, на морфемы не распадается

·   Году – состоит из корневой морфемы -год- и постфикса -у Морфологический анализ:

·   В – предлог, управляющий существительным в В.п., П.п., простой, непроизводный, употребляется для определения длительности совершения чего-нибудь, а также для определения времени, в течение которого что- нибудь совершается

·   Году – существительное неодушевленное, нарицательное, отвлеченное, м.р.,2 склонения, употреблено в П.п. в избыточной форме, в ед.ч

Синтаксический анализ: выражение является обстоятельством времени (вместе с пропущенным порядковым числительным, или местоимением, или словом с количественным значением), модель «в + числительное + N6» со значением времени.

Семантический анализ: выражение в составе глагольного или именного словосочетания (в качестве главного слова) обозначает время предполагаемого, совершаемого или совершенного действия, а также события, состояния.

Выражение – «в настоящее время» Морфемный анализ:

· В – служебное слово, на морфемы не распадается

· Настоящее – состоит из корневой морфемы –настоящ- и постфикса -ее

·   Время – состоит из корневой морфемы –врем- и постфикса –а Морфологический анализ:

·   В – предлог, простой, непроизводный, управляет существительным или местоимением В.п., П.п., употребляется для определения длительности совершения чего-нибудь, а также для определения времени, в течение которого что-нибудь совершается

· Настоящее – относительное прилагательное, употреблено в форме ср.р., ед.ч., В.п.

· Время – существительное, неодушевленное, нарицательное, ср.р., разносклоняемое, употреблено в ед.ч., В.п.

Синтаксический анализ: является обстоятельством времени.

Семантический анализ: обозначает действие, совершающееся сейчас, в данное время.

Используя приведенный анализ, можно формализовать указанные выражения в виде тезауруса. Для группы выражений выделяется корневой концепт, все не совпадающие с ним выражения описываются как текстовый вход, после этого происходит выделение отношений между различными концептами.

Для приведенных выражений был построен следующий фрагмент лингвистической онтологии: Концепт «Год» (промежуток времени)

Текстовые входы –«в … году», «… года» Синонимы: год, годик, годичный, годовой, годок

· Выше - единица времени

· Выше - промежуток времени

· Часть - время года

· Часть - календарный месяц

· Часть - квартал года

· Часть - полгода

· Ассоц2 - ежегодный

Концепт «Настоящее» (период времени)

Текстовые входы - "уже сегодня", "в настоящее время", "сейчас", "в наше время"

· Выше - период времени

· Ассоц2 - последнее время

· Ассоц2 - современный, теперешний

Некоторые концепты онтологии взяты из разработанной системы Ру-Тез [2].

Заключение. В работе рассмотрены предпосылки для создания системы анализа неструктурированных текстов на основе временного разбиения, подход к формализации предметной области в области компьютерной лингвистики, а также приведен фрагмент анализа и последующей формализации. Во время исследования были выявлены проблемы, связанные с недостаточной развитостью области компьютерной лингвистики, такие как отсутствие стандарта описания лингвистической модели, отсутствие единой методики построения формализации.

 

Список литературы

1.     Clariana R.B. Acomputer-basedapproachfortranslatingtextintoconceptmap-likerepresentations / R. B. Clariana// First Int. Conferenceon Concept Mapping -Pamplona, Spain, 2004.

2.     Лукашевич Н.В.Тезаурусы в задачах информационного поиска. – М. : Издательство Московского университета, 2011. – 512 с. ISBN 978-5-211-05926-9

3.     Митина О.В. Методы анализа текста: методологические основания и программная реализация / О. В. Митина, А. С. Евдокименко // Вестник ЮУрГУ, Серия ―Психология‖ – 2010. – № 11 – 29–38с.

4.     Нагель О.В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении / О. В. Нагель // Язык и культура – 2008. – № 3 – 53–59с.

5.     Тонконогов Д. В., Артемьева И. Л. Методы автоматизированного дискурсивного анализа неструктурированных текстов в заданном контексте // Information Technologies & Knowledge. 2013. Т. 7, № 3. С. 272–276.