Введение
Проблема распознавания образов является одной из фундаментальных в области искусственного интеллекта. Проблема эта междисциплинарна, наиболее перспективно направление ее решения, связанное с использованием методов искусственного интеллекта. Данная работа ориентирована на частную, но важную задачу анализа графических объектов с использованием естественно-языковых описаний. Традиционными методами (как искусственного интеллекта, так и статистическими) многие задачи были достаточно успешно решены, можно назвать оптическое распознавание символов, штрих-кодов, лиц, распознавание речевой информации и т.д. Однако методы использования контекста, помогающего распознаванию, пока развиты значительно слабее. Контекст, в частности, может помочь при распознавании сильно зашумленного естественно-языкового (ЕЯ) текста. В данной статье контекст предлагается использовать при анализе креолизованного текста, представляющего собой смесь естественно-языковых описаний и графических объектов (например, чертежей).
1. Основная логика
Важность интеграции классических методов распознавания зрительных образов и методов концептуального анализа изображений отмечена в [4]. Там же намечена логика функционирования гетерархической системы разбора и понимания изображений, гибко переключающей режимы классического и концептуального распознавания. Напомним, что, по определению, Гетерархия - это система, образованная пересекающимися, разнообразными и одновременно сосуществующими структурами управления. Понимание изображений – это не просто отнесение объектов на изображении к известным классам, а структурное описание изображения в виде объектов, их свойств и отношений (т.е. на языке представления знаний или в структурах онтологии).
Логика работы в предлагаемом подходе включает следующие этапы:
· лингвистический анализ текста, описывающего изображение (формируется онтологическое представление текста);
· графический анализ изображения, управляемый онтологическими структурами, полученными после ЕЯ-обработки;
· онтологический синтез изображения и его ЕЯ-описания.
Взаимодействие через общее онтологическое представление позволяет первым двум этапам перехватывать инициативу в зависимости от текущей ситуации распознавания. Результат анализа на языке онтологии может, в частности, иметь вид:
· <треугольник> имеет_имя <ABC> ,
· <треугольник> имеет_свойство <равностороннний>,
· <треугольник> вписан_в <окружность>
Семантика этого описания заметно выше стандартного перечня распознанных объектов, отнесенных к классам: line-1, line-2, line-3, circle-1, letter-1, letter-2, letter-3 (три отрезка, окружность и три буквы). Естественно, проверка на совпадение концов отрезков (определяющее треугольник), отношения "вписан_в" и соответствие букв вершинам треугольника выполняется с помощью онтологии.
2. Инструментальные средства и программная реализация
В данной работе использовалось онтологическое представление, общее для различных источников информации (анализ изображений, синтез изображений, анализ естественного языка) и их комбинаций. В настоящий момент это представление разработано в экспериментальной версии с помощью инструментальных средств СУБД Progress. В качестве вспомогательных системы распознавания использовались MyScript Notes и Fine Reader, а также чисто экспериментальный упрощенный распознаватель растра.
Программная реализация выполнялась на языке ABL 4PL, обеспечивающего как доступ к базе данных (онтология), так средства визуального программирования. Для лингвистической обработки использовались ранее разработанные программы [3], базирующиеся на адаптированной концепции перифразирования, развитой известным лингвистом Апресяном [1].
3. Эксперимент
Для эксперимента использовались фрагменты текстов и чертежей из учебника геометрии [2]. Типичный пример фрагмента приведен на рис. 1.
Текст фрагмента был получен с помощью Fine Reader и передавался на вход лингвистического
транслятора, формирующего онтологическую структуру с соответствующими концептами. Далее
выполнялся процесс распознавания чертежа, управляемый
результатами ЕЯ-обработки.
Традиционное распознавание дает описание на уровне - 4 объекта, каждый из который относится к классу "отрезок" и 5 букв. Структурное распознавание на уровне языка онтологии аналогично данному выше при описании логики работы. Семантика структурного описания легко извлекается из онтологических структур: 4 отрезка примерно равной длины, отрезки a и b пересекаются, отрезки p и q параллельны.
Точка О является точкой пересечения a и b. В онтологии определяется, что отрезок - часть прямой и однозначно ее задает. Более точно - отрезки прямых a, b, p и q, но в текущей реализации это не отражено.
Распознаватель определяет отрезки (line), с их координатами (и буквы), которые поступают для онтологического анализа. Онтология соотносит ЕЯ-описание чертежа с результатами предварительного графического анализа и формирует отношения <пересекаются>, <параллельны>, <примерно равны> и <именует>. Для контроля онтологическая структура также может быть отображена в графике.
Аналогично выполняется структурное распознавание для других объектов: окружностей, квадратов, многоугольников и т.д. При этом описание выдается с учетом ЕЯ-описаний объектов, стандартных для данной прикладной области. Например, вместо стандартного «две окружности и два отрезка» структурное описание выдаёт описание типа «две непересекающиеся окружности, в первой проведена хорда, во второй диаметр».
Точнее, описание на языке онтологии: окр-1 непересекается окр-2, отр-1 является хорда-1, отр-2 является диаметр-1, хорда-1 принадлежит окр-1, диаметр-1 принадлежит окр-2. Программа упрощенного ЕЯ-синтеза выводит текст, описывающий каждый триплет онтологии. Вопрос о полноценном ЕЯ-описании онтологической структуры выходит за рамки данной работы.
Заключение
Эксперимент подтвердил работоспособность макета, воплощающего основную идею работы и жизнеспособность развиваемого подхода, Предполагается дальнейшее исследование ориентировать на расширение областей применения и улучшение технологических характеристик макета. Работа выполнена при финансовой поддержке РФФИ, проект № 15-07-03847, «Интерпретация технически-ориентированных текстов на естественном языке с помощью прикладных онтологий» .
Список литературы
1. Апресян Ю. Д. и др.) Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.
2. Атанасян Л.С. и др., Учебник Геометрия 10-11, Просвещение, 2009, с. 255.
3. Лобзин А. П. и др., Интеграция на базе онтологии естественного языка и изображений в системе Text-To-Picture, Труды VIII Международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Физматлит, 2015, 296-305.
4. Хахалин Г.К. и др. Комплекс для гетерархической системы разбора и понимания изображений // Труды ХV национальной конференции по Искусственному Интеллекту с международным участием– КИИ-2016, С. 123-131.