Новости
09.05.2023
с Днём Победы!
07.03.2023
Поздравляем с Международным женским днем!
23.02.2023
Поздравляем с Днем защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ПРИМЕНЕНИЕ АНАЛИТИЧЕСКОЙ ПЛАТФОРМЫ DEDUCTOR ДЛЯ АНАЛИЗА ДАННЫХ

Авторы:
Город:
Казань
ВУЗ:
Дата:
10 марта 2016г.

Стремительное развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволил многим организациям собирать огромные массивы данных, которые необходимо анализировать. Объемы этих данных настолько велики, что возможностей экспертов уже не хватает, что породило спрос на методы интеллектуального анализа данных (с англ. Data Mining), который с каждым годом постоянно увеличивается. Интеллектуальный анализ данных помогает найти скрытые ранее закономерности и отношения в данных для того, чтобы можно было принять более обоснованные решения [1-3].

В настоящее время существуют большое количество инструментальных средств, позволяющих решать задачи Data Mining. Особое место занимает система Deductor (флагманский продукт компании BaseGroup Labs) [4].

Deductor – аналитическая платформа, предназначенная для создания законченных прикладных решений в области анализа данных. Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти все этапы построения аналитической системы: от консолидации данных до построения моделей и визуализации полученных результатов. Архитектура платформы Deductor представлена на Рисунке 1.

Data Mining – это не один метод, а совокупность большого числа различных методов обнаружения знаний.

Базовыми методами являются:


1.     Классификация – это установление зависимости дискретной выходной переменной от входных переменных.



1.     Регрессия – это установление зависимости непрерывной выходной переменной от входных переменных.

2.     Кластеризация – это группировка объектов (наблюдений, событий) на основе данных, описывающих свойства объектов.

3.     Ассоциация – выявление закономерностей между связанными событиями.

Решение задачи классификации сводится к определению класса объекта по  его  признакам, при этом множество классов, к которым может быть отнесен объект, известно заранее. Существуют различные методы классификации. Удобным средством является классификация на основе «деревьев решений».

Классификация на основе метода «Деревья решений».

В основе данного метода лежит рекурсивное разбиение всего множества объектов на подмножества, ассоциируемые с классами. Мерой оценки разбиения на классы является чистота класса, что означает отсутствие в классе посторонних объектов (примесей). Существуют различные алгоритмы разбиения на классы, которые основываются на том, что разбиение производится по очереди по каждому входному атрибуту {Aj} и проверяется степень увеличения чистоты разбиения.

Пусть задано множество объектов Q (A1, A2,…,An), для которых определены классы {C1, C2,…,Ck}. Выбирается один из входных атрибутов Aj, после чего данное множество разбивается на подмножества {Q1(A1), Q2(A2),…,Qn(An)}. Затем выбирается другой атрибут и проверяется разбивка на классы. Данная процедура будет повторяться до тех пор, пока подмножества не будут содержать объекты только одного класса. Надо иметь в виду, что процедура не является однозначной. В зависимости от последовательности применения атрибутов могут быть получены различные деревья решений. Задачей является получение наиболее идеального компактного дерева. Казалось бы, что надо исследовать все деревья, но оказывается, что даже обычный простой перебор может привести к комбинаторному взрыву. Критерии разбиения дерева решений. Эффективность разбиения можно оценить по чистоте полученных дочерних узлов. Существуют различные критерии разбиения. Наиболее популярными являются: индекс Gini, информационный критерий, ХИ-квадрат, метод Naïve Bayes и др. Оценка качества классификации выполняется с помощью следующих показателей: поддержка (support), достоверность (confidence).

Supp=Nкл/N,      Conf=Nкл/Nус ,

где Nкл – число правильно классифицированных объектов, N – общее число объектов, Nус – число объектов, удовлетворяющих поставленному условию.

Индекс Gini представляет вероятность того, что случайным образом выбранные объекты в одном узле относятся к одному классу и определяется как сумма квадратов долей классов в узле. При информационном подходе необходимо определить значение энтропии в зависимости от долей классов в узле. Если все классы присутствуют в узле с равной вероятностью, то энтропия максимальна. 

Пусть в некотором узле дерева решений S содержится множество Q, которое состоит из N объектов. В результате разбиения S были созданы k потомков Q1, Q2,…,Qk, каждый из которых содержит число записей N1, N2,…,Nk. Для потомков пусть будет рассчитана энтропия - Info(Qj). Тогда общая энтропия S составит:


Для построения деревьев решений одним из проблемных вопросов является порядок выбора атрибутов. Для выбора порядка атрибутов воспользуемся алгоритмом ID3. В соответствии с этим алгоритмом необходимо использовать критерий, называемый приростом информации или уменьшением энтропии. Мера прироста информации задается следующим образом:

Gain(S)=Info(Q) – InfoS(Q), где Info(Q) – энтропия множества Q до разбиения;

InfoS(Q) – энтропия после разбиения S.

Наилучшим является тот атрибут, который дает наибольший прирост информации Gain(S). Допустим имеем подготовленный исходный файл с атрибутами:

Кредитный_риск (Код_клиента, Возраст, Доход, Имущество, Образование, КредРиск ). Введенный файл будет воспроизведен в среде Deductor в виде таблицы (Рисунок 2).



На Рисунке 3. показана зависимость кредитного риска в виде дерева решений




Видно, что наибольшей поддержкой обладают возраст и доход. Образование является малозначимым атрибутом. Пример показал простоту и удобство решения задач классификации в рассмотренной среде. Аналогично могут быть решены и другие задачи Data Mining.

Таким образом, мастер аналитической платформы Deductor может быть использован для самых различных задач анализа данных.

 

Список литературы

1.     Data Mining for Business Application / Edited by L. Cao, Philip S. Yu, C. Zhang, H.Zhang. – Springer Science; Business Media, 2008

2.     Ризаев И.С. Интеллектуальный анализ данных для поддержки принятия решений / И.С.Ризаев, Я.Рахал – Казань: Изд-во МОиН РТ, 2011 – с. 172

3.     Кирпичников А.П. Повышение аналитических возможностей баз данных. / А.П.Кирпичников, А.Л.Осипова, И.С.Ризаев. Журнал Вестник Казанского Технологического ун-та, т.15, №3, 2012. – с.157- 160.

4.     http://www.basegroup.ru/download/deductor.pdf