Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ФИЛЬТРАЦИЯ АВТОМАТИЧЕСКИ ПОЛУЧЕННОЙ ОБУЧАЮЩЕЙ ВЫБОРКИ ДЛЯ КЛАССИФИКАЦИИ ИЗОБРАЖЕНИЙ

Авторы:
Город:
Барнаул
ВУЗ:
Дата:
09 марта 2016г.

Задача классификации изображений - один из современных разделов компьютерного зрения, позволяющий анализировать изображения с точки зрения их содержимого. Результатом ее решения является ответ на вопрос, какой из имеющихся классов представлен на изображении. Данной задаче присуща сложность, вытекающая из следующих особенностей:

-    визуальная изменчивость предметов, относящихся к определенной категории;

-   допустимые структурные отличия между предметами относящихся к одной категории;

-    невозможность экстенсивного наращивания обучающей выборки, т.к. комбинаторный взрыв приводит к переобучению;

-   связь между категоризацией объекта и внешним контекстом;

-   непонимание, как работают данные механизмы в сознании человека.

Отдельную сложность представляет  то, что  возможны ситуации, когда ни один из классов, которым обучена система распознавания, не представлен на анализируемом изображении. В этом случае система распознавания должна выдать отсутствие имеющихся классов, что приводит к использованию некоторых пороговых значений для механизма принятия решений, подбор которых несет в себе отдельную сложность.

Большинство существующих на сегодняшний день механизмов классификации опираются на локальные визуальные особенности изображений. Визуальные особенности хорошо зарекомендовали себя в задачах локализации объекта и в задачах поиска экземпляров объектов в 1990х годах [5], в 2000х годах были сделаны попытки использовать этот же механизм для классификации изображений [6].Использование данных о визуальных особенностях отличается в различных методах классификации изображений, но можно выделить некий общий алгоритм [3]:

1)     Составление обучающей выборки изображений, разбитых по классам;

2)     Извлечение визуальных особенностей из обучающей выборки;

3)     Преобразование полученных данных для дальнейшей работы;

4)     Использование обработанных данных для анализа очередного входного изображения и принятие решений о принадлежности его к определенному классу.

Подразумевается, что для каждого из представленных классов имеется в наличии набор «эталонных» изображений, характеризующих этот класс. Система классификации при анализе опирается на различные черты данной обучающей выборки, в данном случае используется еѐ представление в виде локальных визуальных особенностей. Формирование набора изображений, образующего обучающую выборку, обычно производится вручную, что представляет собой трудоемкий и негибкий процесс. Автором было показано, что на сегодняшний день поисковые системы располагают достаточно релевантной выдачей по запросам, чтобы было возможно использовать их для поиска представляющих классы изображений[1,2].Использование поисковых систем для формирования обучающей выборки дает следующие положительные эффекты:

-    Поисковая выдача коррелирует с реальным представлением человечества о визуальном представлении понятий, т.к. она ранжируется с учетом ссылок и цитирования [4];

-    Набор необходимых классов может быть гибко подстроен под каждую конкретную задачу, либо подкорректирован в процессе работы;

-   Отсутствие ручного труда при формировании выборки.

В данной статье рассматривается вопрос предварительной обработки изображений, полученных в результате работы поисковых систем. В таких изображения, с большой долей вероятности будут присутствовать экземпляры несвязанные с основной массой – выбросы [4].Примеры таких изображений приведены на Рисунке 1.


Причин у данного негативного явления может быть несколько:

-    семантическая многозначность поискового запроса, например, вызванная лексической многозначностью;

-    значительная внутриклассовая визуальная изменчивость – в этом случае визуальное представление понятия может принимать характеристически далекие значения;

-    отличия, вызванные изменения отношением объекта класса и фона (контекста, в котором он изображен). Фотографии, на котором объект изображен с удаленным фоном, либо с фоном, несущим минимум информации, будут значительно отличаться в терминах модели Bag-of-Words (BoW).

-    синтетические изображения (первоначально представленные в векторном виде) в определенных случаях могут не быть так определены поисковой системой и попасть в выдачу наряду с фотографиями. Извлечение дескрипторов и последующие операции не рассчитаны на работу с синтетическими изображениями и будут выдавать значительно отличающиеся результаты;

-    ошибки технического рода – случаи, когда серверы по запросу выдают неправильное изображение, либо изображение-заглушку.

Как показала практика данной работы, автоматическим образом, без наличия эталонного набора изображений, можно отфильтровывать только синтетические изображения и изображения, явившиеся следствием какой-либо ошибки. Для фильтрации такого рода выбросов, предлагается использовать представление изображений в модели BoW, вычислять среднеарифметическое значение гистограмм, меру разброса через среднеквадратическое отклонение и отношение расстояния каждого изображения до среднеарифметического к мере разброса. Визуальные слова при этом извлекаются для разных классов независимо, это позволяет добиться более равномерного их распределения внутри класса. Количество визуальных слов для этой задачи было найдено достаточным равным количеству изображений (около ста изображений в рамках ограничений поисковых систем), увеличение этого количества приводит к увеличению значений разбросов, однако отношения между изображениями при этом остаются практически неизменными. Уменьшение же количества визуальных слов приводит к уменьшению разброса и к невозможности выделения выбросов на этом основании.






Таблица 2

Распределение меры v отклонения изображений от среднего в различных классах: ―кошка‖(I), ―собака‖(II), ―автомобиль‖(III),  ―автобус‖(IV)

 

v

0,0-

0,2

0,2–

0,4

0,4–

0,6

0,6–

0,8

0,8–

1,0

1,0–

1,2

1,2–

1,4

1,4–

1,6

1,6-

1,8

1,8-

2,0

2,0-

2,2

2,2-

2,4

2,4-

2,6

2,6-

2,8

2,8-

3,0

I

0

0

9

31

21

19

10

4

2

0

0

0

0

2

0

II

0

0

0

16

37

26

5

7

4

3

0

1

0

0

0

III

0

0

3

32

36

16

4

1

4

1

0

0

0

0

1

IV

0

0

0

12

34

26

19

3

3

2

0

0

0

0

0

Примеры распределений данной меры отклонений для различных классов приведены в Табл.1. Как показал анализ применения данной меры к различным наборам изображений, полученных автоматическим образом с использованием поисковых систем, выбросами можно считать изображения, для которых значение меры v больше 1,8:

Использование данной меры позволяет частично исключить из обучающей выборки элементы, ошибочным образом добавленные туда. За счет этого классификаторы, обученные на отфильтрованном наборе изображений, показывают более высокие результаты, что подтверждается расчетом confusionmatrix в обоих случаях.

 

Список литературы

1.     Казаков М.Г., Крючкова Е.Н. «Адаптивность классификации изображений на основе автоматической генерации обучающей выборки» // материалы XI всероссийской научно-технической конференции студентов, аспирантов и молодых ученых ―Наука и Молодежь‖. – Барнаул, 2014. – С.15-18.

2.     Казаков М.Г., Крючкова Е.Н. ―Классификация сложных изображений на основе семантического графа понятий» // журнал ―Прикладная информатика‖. № 6(54). – 2014. – С.79-89.

3.     Csurka, G., Dance, C., Fan, L., Willamowski, J., Bray, C. ―Visual categorization with bags of keypoints‖ // Workshop on statistical learning in computer vision, 2004.

4.     Fergus R., Fei-Fei L., Perona P., Zisserman, A. ―Learning object categories from Google's image search‖ // Tenth IEEE International Conference on Computer Vision, V.2. - 2005. – p.1816-1823.

5.     Lowe, D. G. ―Object Recognition from Local Scale-Invariant Features‖ // The Proceedings of the Seventh IEEE International Conference on Computer Vision, 1999.

6.     Szeliski, R. ―Computer Vision: Algorithms and Applications‖. - Springer-Verlang New York, 2010.