16 октября 2017г.
Введение
Проблема распознавания образов является одной из фундаментальных в области искусственного интеллекта. Проблема эта междисциплинарна, наиболее перспективно направление ее решения, связанное с использованием методов искусственного интеллекта. Данная работа ориентирована на частную, но важную задачу анализа графических объектов с использованием естественно-языковых описаний. Традиционными методами (как искусственного интеллекта, так и статистическими) многие задачи были достаточно успешно решены, можно назвать оптическое распознавание символов, штрих-кодов, лиц, распознавание речевой информации и т.д. Однако методы использования контекста, помогающего распознаванию, пока развиты значительно слабее. Контекст, в частности, может помочь при распознавании сильно зашумленного естественно-языкового (ЕЯ) текста. В данной статье контекст предлагается использовать при анализе креолизованного текста, представляющего собой смесь естественно-языковых описаний и графических объектов (например, чертежей).
1. Основная логика
Важность интеграции классических методов распознавания зрительных образов и методов концептуального анализа изображений отмечена в [4]. Там же намечена логика функционирования гетерархической системы разбора и понимания изображений, гибко переключающей режимы классического и концептуального распознавания. Напомним, что, по определению, Гетерархия - это система, образованная пересекающимися, разнообразными и одновременно сосуществующими структурами управления. Понимание изображений – это не просто отнесение объектов на изображении к известным классам, а структурное описание изображения в виде объектов, их свойств и отношений (т.е. на языке представления знаний или в структурах онтологии).
Логика работы в предлагаемом подходе включает следующие этапы:
· лингвистический анализ текста, описывающего изображение (формируется онтологическое представление текста);
· графический анализ изображения, управляемый онтологическими структурами, полученными после ЕЯ-обработки;
· онтологический синтез изображения и его ЕЯ-описания.
Взаимодействие через общее онтологическое представление позволяет первым двум этапам перехватывать инициативу в зависимости от текущей ситуации распознавания. Результат анализа на языке онтологии может, в частности, иметь вид:
· <треугольник> имеет_имя ,
· <треугольник> имеет_свойство <равностороннний>,
· <треугольник> вписан_в <окружность>
Семантика этого описания заметно выше стандартного перечня распознанных объектов, отнесенных к классам: line-1, line-2, line-3, circle-1, letter-1, letter-2, letter-3 (три отрезка, окружность и три буквы). Естественно, проверка на совпадение концов отрезков (определяющее треугольник), отношения "вписан_в" и соответствие букв вершинам треугольника выполняется с помощью онтологии.
2. Инструментальные средства и программная реализация
В данной работе использовалось онтологическое представление, общее для различных источников информации (анализ изображений, синтез изображений, анализ естественного языка) и их комбинаций. В настоящий момент это представление разработано в экспериментальной версии с помощью инструментальных средств СУБД Progress. В качестве вспомогательных системы распознавания использовались MyScript Notes и Fine Reader, а также чисто экспериментальный упрощенный распознаватель растра.
Программная реализация выполнялась на языке ABL 4PL, обеспечивающего как доступ к базе данных (онтология), так средства визуального программирования. Для лингвистической обработки использовались ранее разработанные программы [3], базирующиеся на адаптированной концепции перифразирования, развитой известным лингвистом Апресяном [1].
3. Эксперимент
Для эксперимента использовались фрагменты текстов и чертежей из учебника геометрии [2]. Типичный пример фрагмента приведен на рис. 1.
Текст фрагмента был получен с помощью Fine Reader и передавался на вход лингвистического
транслятора, формирующего онтологическую структуру с соответствующими концептами. Далее
выполнялся процесс распознавания чертежа, управляемый
результатами ЕЯ-обработки.
Традиционное распознавание дает описание на уровне - 4 объекта, каждый из который относится к
классу "отрезок"
и 5 букв. Структурное распознавание на уровне языка онтологии аналогично данному выше при описании логики работы. Семантика структурного описания легко извлекается из онтологических структур: 4 отрезка примерно равной длины, отрезки a и b пересекаются, отрезки
p и q параллельны.
Точка О является точкой пересечения a и b. В онтологии определяется, что отрезок - часть прямой и однозначно ее задает. Более точно - отрезки прямых a, b, p и q, но в текущей
реализации это не отражено.
Распознаватель определяет отрезки (line), с их координатами (и буквы), которые поступают для онтологического анализа. Онтология
соотносит ЕЯ-описание чертежа с результатами
предварительного графического анализа и формирует отношения <пересекаются>,
<параллельны>,
<примерно равны>
и <именует>. Для контроля онтологическая структура также может быть отображена в графике.
Аналогично выполняется структурное распознавание для других объектов: окружностей,
квадратов, многоугольников и т.д. При этом
описание выдается с
учетом ЕЯ-описаний объектов, стандартных для данной прикладной области. Например, вместо стандартного «две окружности и два
отрезка» структурное описание выдаёт описание типа «две непересекающиеся окружности, в первой проведена хорда, во второй
диаметр».
Точнее, описание на языке онтологии: окр-1 непересекается окр-2, отр-1 является хорда-1, отр-2 является диаметр-1, хорда-1 принадлежит окр-1, диаметр-1 принадлежит окр-2. Программа упрощенного ЕЯ-синтеза выводит текст, описывающий каждый триплет онтологии. Вопрос о полноценном ЕЯ-описании онтологической структуры выходит за рамки данной работы.
Заключение
Эксперимент подтвердил работоспособность макета, воплощающего основную идею работы и жизнеспособность развиваемого подхода, Предполагается дальнейшее исследование ориентировать на расширение областей применения и улучшение технологических характеристик макета. Работа выполнена при финансовой поддержке РФФИ, проект № 15-07-03847, «Интерпретация технически-ориентированных
текстов на естественном языке с помощью прикладных онтологий» .
Список литературы
1. Апресян Ю. Д. и др.) Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.
2.
Атанасян Л.С.
и др., Учебник
Геометрия 10-11, Просвещение, 2009,
с. 255.
3. Лобзин А. П. и др., Интеграция на базе онтологии естественного языка и изображений в системе Text-To-Picture, Труды VIII Международной научно-практической конференции «Интегрированные
модели
и мягкие вычисления в искусственном интеллекте», Физматлит,
2015, 296-305.
4. Хахалин Г.К. и др. Комплекс для гетерархической системы разбора и понимания изображений // Труды ХV национальной конференции по Искусственному Интеллекту с международным участием– КИИ-2016, С. 123-131.