Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

КОНЦЕПТУАЛЬНАЯ ПЛАТФОРМА ПРОМЫШЛЕННО-ОРИЕНТИРОВАННОГО DATA MINING

Авторы:
Город:
Санкт-Петербург
ВУЗ:
Дата:
01 марта 2016г.

Раскопки знаний в базах данных или Data Mining (DM, data mining, KDD - knowledge discovery in databases) представляет собой уже сложившее направление в области современных информационных технологий (ИТ), включающее в себя последние достижения в областях прикладной компьютерной математики. Основным назначением DM является решение задач в интересах системы поддержки принятия решений (СППР) на основе количественных и качественных исследований сверхбольших массивов разнородных ретроспективных данных [1-3]. В последние годы методы DM все больше интегрируется с новейшим трендом в области ИТ, получившим название Big Data [4-6].

DM возник на базе уже существующих математических методов и средств, однако эффективность их применения в прикладных задачах, и, в частности, в задачах управления технологическими процессами (ТП) промышленного предприятия, долгое время была крайне незначительна. Причинами недостаточного использования математических технологий вплоть до 90-х годов 20 века являлось:

-   недостаточной объем и низкое качество "информационного сырья";

-   ограниченные возможности средств вычислительной техники.

Создание новейших суперкомпьютеров с производительностью в несколько петафлопс и сотнями тысяч гигабайтами оперативной памяти позволили охватить процессом обработки данных весь объем текущего мониторинга на фоне терабайтов ретроспективных данных, хранящихся в БД предприятия и отражающих весь накопленный производственный опыт за годы внедрения АСУ ТП. При этом в обработку включается весь арсенал современной прикладной математики, объединенный на общей концептуальной платформе DM.

Объединяющим началом для возникновения промышленно-ориентирванного DM послужила конкретная, крайне важная для практики цель - создание высокоэффективной автоматизированной СППР, способной учитывать многолетний априорный производственный опыт, отраженный в сверхбольших объемах накопленных данных. Значимость решаемой  задачи ускорило разработку  и  внедрение методов и  средств  DM. При  этом практика настолько опередила теорию, что DM до последнего времени не имел собственной концептуальной платформы, определяющей его как самостоятельную и единую отрасль прикладных знаний. Восполнению этого пробела и посвящена настоящая работа.

Главным отличием DM от  известных транзакционых систем обработки данных (СОД), широко применяемых в современных корпоративных информационных системах, является попытка подойти к задаче формирования решения с позиции историзма, т.е. на основе полномасштабного количественного анализа всего ретроспективного опыта, предшествовавшего текущей ситуации, и позволяющего перенести результаты прецедентов на прогнозируемый сценарий.

Заметим, что DM не является альтернативой к СОД, это, скорее, некоторое ее обобщение. Традиционные СОД входят в DM составной частью, отвечающей за оперативные экспертные решения, не в полной мере подкрепленные историческим опытом, но позволяющие сформировать экспресс-анализ данных  с предельно высокими показателями готовности.

Акцент на количественной методологии позволяет перенести центр тяжести процедуры выработки управляющих решений с эвристических логико-интуитивных методов, характерных для экспертных технологий, на мощную глубоко формализованную платформу прикладной математики. При этом качественный, экспертный анализ также сохраняется, но теперь основным центром его приложения является не всеобъемлющий и трудно охватываемый обзор ретроспективного опыта, а лишь вполне обозримый объем конечного набора уже сформированных вариантов решений на фоне подготовленных прогностических сценариев. Таким образом, речь, по существу, идет о новой форме гибридного интеллекта, в которой машине отводится роль сверхмощного количественного анализатора, оставляя за человеком вопросы терминальных качественных решений.

Рассмотрим основные концептуальные положения или принципы, позволяющие сформировать единую теоретическую базу построения систем DM, как на инструмент управления промышленным предприятием.

1.       Принцип историзма. Основным "сырьем" для  аналитической обработки являются большие и сверхбольшие массивы ретроспективных контрольно-диагностических измерений, охватывающие как технологический цикл промышленного предприятия, так и всей его инфраструктуры. При этом историческая глубина анализа может быть весьма большой - от нескольких месяцев до нескольких лет и даже десятилетий.

Функционирование DM на множестве ретроспективных данных можно разбить на два этапа: поиск прецедентов и анализ их структуры. Результаты структурного анализа прецедентов трансформируются в форма- лизованные выводы, используемые для корректировки результатов оперативной обработки текущих данных. Полученный скорректированный материал, в свою очередь, представляет собой основу для формирования проекта решения (или нескольких проектов решений) по рассматриваемому вопросу.

Таким образом, концепция историзма, по существу, описывается принципом многомерного подобия. Очевидно, что формальный, механистический перенос исторического опыта на текущую ситуацию может привести к сугубо негативным результатам. Отсюда возникает необходимость в применении человеко-машинной технологии реализации DM, рассмотренной ниже.

2.       Принцип системности. В качестве основного объекта DM выступает технологичсекий цикл производства, погруженный в неоднородную и нестационарную эволюционирующую среду предприятия и внешней (по отношению к предприятию) среду взаимодействия, и активно с ними взаимодействующий. При этом предполагается, что объект анализа отвечает всем системным свойствам: целостности, структурированности и целенаправленности.

В сочетании с принципом историзма, идея системности предполагает формирование и хранение массивов ретроспективных данных, отражающих количественно и качественно динамические процессы изменения сос- тояний технологичсеких процессов и  среды погружения в их  историческом (прошедшем и  текущем) взаи- модействии. Указанные массивы представляют собой информационное сырье, исходные данные, на основание которых средствами DM выявляются скрытые системные связи, неявные закономерности, совокупность значимых для развития системы факторов, условия их реализации и т.п.

3.   Принцип гибридного человеко-машинного интеллекта. По своей природе методология DM опирается на сочетание автоматического компьютерного анализа сверхбольших объемов данных с экспертными заключениями, ориентированными на семантические аспекты решаемой задачи. Как правило, естественный интеллект подключается в наиболее критичных узлах процедуры анализа. Обычно это происходит, когда количественный подход не позволяет сформировать метрическую систему предпочтений, либо при отсутствии достаточного объема исходных данных для построения формализованного вывода.

Примерами таких подключений может служить задача априорной оценки рациональной глубины исторического поиска прецедентов. Еще более явным примером может служить задача качественной отбраковки прецедентов, выявленных компьютерной программой на основе предварительного метрического анализа.

Реализация данного принципа в СППР требует от DM решения проблемы рационального распределения функций в человеко-машинных системах и формирования интеллектуально-эргономических интерфейсов, наи- более согласованных с профессиональными представлениями предметных экспертов и лиц, принимающих решение (ЛПР).

4.    Принцип симбиоза математических и информационных технологий. DM представляет собой область знаний, в которой в полной мере гармонично соединились методы прикладной математики, кибернетики и новейшие информационные технологии, позволяющие хранить и в разумные сроки обрабатывать сверхбольшие объемы информации, характерные для контроля энергетических систем.

По существу, технологию DM, как и весь спектр технологий Business Intelligence, на современном этапе ее развития следует рассматривать, как уже отмечалось, в качестве направлений развития Big Data. Поэтому к методам ее решения вполне уместно отнести и и технологии машинного обучения, включая Ensemble learning, и краудсорсинг, и прогнозную аналитику и многое другое. Уже к 2011г. крупнейшие компании IT-индустрии (IBM, Oracle, Microsoft, EMC etc.) в той или иной степени включились в разработку средств, поддерживающих работу с большими данными. В результате были созданы специализированные информационные средства для работы с большими массивами разнородных данных - NoSQL, Hadoop, Netezza, Exadata, MapReduce и др.

Следует заметить, что указанная гибридизация происходит не только между математическими и информационными технологиями, но и между различными математическими методами анализа данных. В частности, анализ результатов применения нейронных сетей в задачах прогнозирования качества выпускаемой продукции, как правило, осуществляется статистическими методами. И, наоборот, для решения традиционной статистической задачи регрессионного анализа может использоваться кибернетическая методология, основанная на эволюционном моделировании.

Как самостоятельная отрасль компьютерной математики, DM находится в стадии активного развития. Интерес к нему легко объясним крайне высокой эффективностью практической реализации в конкретных прикладных сферах. В частности, DM позволяет качественно повысить эффективность оперативного управления технологическим циклом предприятия, обеспечить динамическое распределение энергетических и иных ресурсов, осуществить долговременные прогнозы распределения человечеких и сырьевых ресурсов в условиях сложных нестационарных режимов эксплуатации, предсказывать скачкообразные изменения состояния производственного цикла и т.п.

 

Список литературы

1.      Data Mining: Opportunities and Challenges // Ed. by J. Wang. Idea Group Publishing: 2003. 468p.

2.      Statistical Data Mining and Knowledge discovery // Ed. by H. Bozdogan: 2004. – 595p.

3.      Мусаев А.А. Интеллектуальный анализ данных: Клондайк или Вавилон? // Банковские технологии, 1998, N11-12, с. 79-82.

4.      F. Jack Smith. Data Science as An Academic Discipline // Data Science Journal. 2006. Vol. 5. №19. Pp. 163-164.

5.      Manyika J. et al. Big data: The next frontier for innovation, competition, and productivity // McKinsey Global Institute. 2011. 143p.

6.      Naur P. A Basic Principle of Data Science // In: Concise Survey of Computer Methods. Lund: 1974. 397p.