Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ЕСТЕСТВЕННО-ЯЗЫКОВЫЙ КОНТЕКСТ ПРИ АНАЛИЗЕ ГРАФИЧЕСКИХ ОБЪЕКТОВ

Авторы:
Город:
Москва
ВУЗ:
Дата:
16 октября 2017г.

Введение

Проблема распознавания образов является одной из фундаментальных в области искусственного интеллекта. Проблема эта междисциплинарна, наиболее перспективно направление ее решения, связанное с использованием методов искусственного интеллекта. Данная работа ориентирована на частную, но важную задачу анализа графических объектов с использованием естественно-языковых описаний. Традиционными методами (как искусственного интеллекта, так и статистическими) многие задачи были достаточно успешно решены, можно назвать оптическое распознавание символов, штрих-кодов, лиц, распознавание речевой информации и т.д. Однако методы использования контекста, помогающего распознаванию, пока развиты значительно слабее. Контекст, в частности, может помочь при распознавании сильно зашумленного естественно-языкового (ЕЯ) текста. В данной статье контекст предлагается использовать при анализе креолизованного текста, представляющего собой смесь естественно-языковых описаний и графических объектов (например, чертежей).

1. Основная логика

Важность интеграции классических методов распознавания зрительных образов и методов концептуального анализа изображений отмечена в [4]. Там же намечена логика функционирования гетерархической системы разбора и понимания изображений, гибко переключающей режимы классического и концептуального распознавания. Напомним, что, по определению, Гетерархия - это система, образованная пересекающимися, разнообразными и одновременно сосуществующими структурами управления. Понимание изображений – это не просто отнесение объектов на изображении к известным классам, а структурное описание изображения в виде объектов, их свойств и отношений (т.е. на языке представления знаний или в структурах онтологии).

Логика работы в предлагаемом подходе включает следующие этапы:

·         лингвистический  анализ  текста,  описывающего  изображение  (формируется  онтологическое представление текста);

·         графический анализ изображения, управляемый онтологическими структурами, полученными после ЕЯ-обработки;

·         онтологический синтез изображения и его ЕЯ-описания.

Взаимодействие через общее онтологическое представление позволяет первым двум этапам перехватывать инициативу в зависимости от текущей ситуации распознавания. Результат анализа на языке онтологии может, в частности, иметь вид:

·         <треугольник> имеет_имя ,

·         <треугольник> имеет_свойство <равностороннний>,

·         <треугольник> вписан_в <окружность>

Семантика этого описания заметно выше стандартного перечня распознанных объектов, отнесенных к классам: line-1, line-2, line-3, circle-1, letter-1, letter-2, letter-3 (три отрезка, окружность и три буквы). Естественно, проверка на совпадение концов отрезков (определяющее треугольник), отношения "вписан_в" и соответствие букв вершинам треугольника выполняется с помощью онтологии.

2. Инструментальные средства и программная реализация

В данной работе использовалось онтологическое представление, общее для различных источников информации (анализ изображений, синтез изображений, анализ естественного языка) и их комбинаций. В настоящий момент это представление разработано в экспериментальной версии с помощью инструментальных средств СУБД Progress. В качестве вспомогательных системы распознавания использовались MyScript Notes и Fine Reader, а также чисто экспериментальный упрощенный распознаватель растра.

Программная реализация выполнялась на языке ABL 4PL, обеспечивающего как доступ к базе данных (онтология), так средства визуального программирования. Для лингвистической обработки использовались ранее разработанные программы [3], базирующиеся на адаптированной концепции перифразирования, развитой известным лингвистом Апресяном [1].

3. Эксперимент

Для эксперимента использовались фрагменты текстов и чертежей из учебника геометрии [2]. Типичный пример фрагмента приведен на рис. 1.


Текст фрагмента был получен с помощью Fine Reader и передавался на вход лингвистического транслятора, формирующего онтологическую структуру с соответствующими концептами. Далее выполнялся процесс распознавания чертежа, управляемый результатами ЕЯ-обработки.

Традиционное распознавание дает описание на уровне - 4 объекта, каждый из который относится к классу "отрезок" и 5 букв. Структурное распознавание на уровне языка онтологии аналогично данному выше при описании логики работы. Семантика структурного описания легко извлекается из онтологических структур: 4 отрезка примерно равной длины, отрезки a и b пересекаются, отрезки p и q параллельны.

Точка О является точкой пересечения a и  b. В онтологии определяется, что отрезок - часть прямой и однозначно ее задает. Более точно - отрезки прямых a, b, p и q, но в текущей реализации это не отражено.

Распознаватель определяет отрезки (line), с их координатами (и буквы), которые поступают для онтологического  анализа. Онтология соотносит ЕЯ-описание чертежа с результатами предварительного графического анализа и формирует отношения  <пересекаются>, <параллельны>, <примерно равны> и <именует>. Для контроля онтологическая структура также может быть отображена в графике.

Аналогично выполняется структурное распознавание для других объектов: окружностей, квадратов, многоугольников и т.д. При этом описание выдается с учетом ЕЯ-описаний объектов, стандартных для данной прикладной области. Например, вместо стандартного «две окружности и два отрезка» структурное описание выдаёт описание типа «две непересекающиеся окружности, в первой проведена хорда, во второй диаметр».

Точнее, описание на языке онтологии: окр-1 непересекается окр-2, отр-1 является хорда-1, отр-2 является диаметр-1, хорда-1 принадлежит окр-1, диаметр-1 принадлежит окр-2. Программа упрощенного ЕЯ-синтеза выводит текст, описывающий каждый триплет онтологии. Вопрос о полноценном ЕЯ-описании онтологической структуры выходит за рамки данной работы.

Заключение

Эксперимент подтвердил работоспособность макета, воплощающего основную идею работы и жизнеспособность развиваемого подхода, Предполагается дальнейшее исследование ориентировать на расширение областей применения и улучшение технологических характеристик макета. Работа выполнена при финансовой поддержке РФФИ, проект № 15-07-03847, «Интерпретация технически-ориентированных текстов на естественном языке с помощью прикладных онтологий» .

Список литературы

 

1. Апресян Ю. Д. и др.) Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.

2.    Атанасян Л.С. и др., Учебник Геометрия 10-11, Просвещение, 2009, с. 255.

3. Лобзин А. П. и др., Интеграция на базе онтологии естественного языка и изображений в системе Text-To-Picture, Труды VIII Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Физматлит, 2015, 296-305.

4. Хахалин Г.К. и др. Комплекс для гетерархической системы разбора и понимания изображений // Труды ХV национальной конференции по Искусственному Интеллекту с международным участием– КИИ-2016, С. 123-131.