Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

ПРОБЛЕМЫ ВИЗУАЛИЗАЦИИ БОЛЬШИХ ДАННЫХ

Авторы:
Город:
Баку
ВУЗ:
Дата:
05 марта 2016г.

Аннотация. В этой статье описывается термин Big Data в аспектах представления и визуализации данных. Существуют определенные специфические проблемы визуализации больших данных, мы постарались определить эти проблемы и совокупность подходов, помогающих их избежать. Кроме того, сделан обзор существующих проблем визуализации данных применительно к Большим данным.

Ключевые слова. Большие данные, визуализация, график, диаграмма, представление. Введение

К категории Большие данные (Big Data) относится информация, которую уже невозможно обрабатывать традиционными способами. Обработка больших данных не тривиальная задача и требует специальных методов и подходов. Для работы с ними на смену традиционным монолитным системам должны прийти новые массивно- параллельные решения, которые состоят из нескольких независимых блоков, число которых можно неограниченно увеличивать и отказ, одного из которых не приводит к разрушению всей системы. IBM претендует на приоритет в формулировке трех известных характеристик Больших Данных — volume, variety, velocity (объем, многообразие, скорость). Колоссальные объемы, разнообразие источников и типов, скорость поступления и обработки данных становятся повседневной реальностью для многих отраслей, от финансов и телекоммуникаций до ретейла и медицины.

Графическое мышление очень простой и естественный способ обработки  данных  для человека, изображение является эффективным методом представления данных, который позволяет объективно оценить результаты и помогает в принятии правильного решения задач. Но, в случае с большими данными, множество из классических методов представления данных становятся менее эффективными или даже не применимыми для конкретных задач. Необходимо классифицировать существующие методы визуализации по критерию их применимости к тому или иному классу больших данных.

Для принятия решения и сортировки описанных классов больших данных, необходимо проанализировать следующие характеристики: применимость для большого объема данных, возможность визуализации данных, представленных в разных форматах, скорость и производительность представления данных.

Визуализация информации – не такая новая область. Первым «визуализатором», по мнению автора [4], стал математик и астроном Урбен Леверье, наиболее известный своим «открытием Нептуна на кончике пера».

Визуальная передача информации известна человеку с тех пор, как мы начали рассказывать друг другу истории. Визуализацией является любая техника создания изображений, диаграмм, карт, таблиц или анимаций. Визуальные образы были эффективным способом общения с древнейших времён. Примеры из истории включают наскальные рисунки, египетские иероглифы, греческую геометрию, революционные методы Леонардо да Винчи технического рисования для инженерных и научных целей.

Автор книги “Hand book of Data Visualization” Фрэндли (Michael Friendly) отметил основные опорные точки истории визуализации это: ранние карты и диаграммы, измерения и теории, новые графические формы, начало современной графики, золотой век статистической графики, смутные года, возрождение визуализации информации, интерактивная и динамическая визуализация [4].

ПРОБЛЕМЫ ВИЗУАЛИЗАЦИИ БОЛЬШИХ ДАННЫХ

Учитывая свойства больших данных, в [5] были определены следующие проблемы их визуализации: Visual Noise/ Визуальный шум

Large Image Perception/ Восприятие большого изображения Information Loss/ Потеря информации

High Performance Requirements/ Высокие требования производительности High Rate of Image Change/ Высокая скорость изменения изображения Визуальный шум

Простая презентация целого ряда данных может создать полный беспорядок на экране, и мы увидим только одно большое пятно, состоящее из точек, представляющих каждую строку данных. Эта проблема связана с тем, что большинство объектов в наборе данных, слишком связаны друг с другом, и на экране наблюдатель не может разделить их в виде отдельных объектов. Так, иногда, анализируя сложно получить даже немного полезной информации от всей визуализации данных без какой-либо дополнительной обработки информации. Следует отметить, что в понятие визуальный шум не входит любое повреждение или искажение данных, его следует рассматривать как явление потери видимости.

Восприятие большого изображения

Следующей проблемой визуализации больших данных является ограничение восприятия слишком крупного изображения. Существует определенный уровень восприятия человеческим мозгом различных визуальных данных. Несмотря на то, что этот уровень для графической визуализации данных значительно выше, по сравнению с визуализацией данных таблицы, он имеет свои ограничения. И после перехода этого уровня восприятия, человек просто теряет способность приобретать любую дополнительную информацию из перегруженных визуально данных. Все методы визуализации ограничены разрешением технического устройства, которое отвечает за вывод этих данных. Конечно, мы можем заменить устройства на более современные или на группу устройств для частичной визуализации данных, что позволит нам представить более подробное изображение с большим количеством точек данных, но даже если бы мы могли повторить этот процесс бесконечное число раз, мы встретились бы с ограничением восприятия человека. С ростом объема данных, показанных одномоментно, человек сталкивается с трудностями в понимании и анализе этих данных. Таким образом, можно сказать, что методы визуализации данных ограничены не только соотношением и разрешением устройств, но и физическими пределами восприятия.

Потеря информации

В связи с вышеизложенным применяются подходы, которые в конечном итоге приводят к уменьшению использованных видимых наборов данных. Но, несмотря на решение предыдущего препятствия, эти подходы приводят к появлению другой проблемы, которой является потеря определенного количества информации. Все методы уменьшения визуальной информации производят агрегацию и фильтрацию данных, на основе родства объектов в конкретном наборе данных по одному или нескольким критериям. Использование этих подходов может ввести в заблуждение аналитика, который может не заметить некоторые интересные скрытые объекты, а сложный процесс агрегации может потребовать большее количество времени и ресурсов для того, чтобы получить точную и необходимую информацию.

Высокие требования производительности

Графический анализ не ограничивается только статической визуализацией изображения, а использует и динамическую визуализацию. Здесь может появиться еще одна проблема, не заметная при статической



визуализации. При наличии определенной скорости визуализации появляются требования и к производительности процесса. Процесс анализа определенных данных может занимать много времени при непрерывном увеличение вычислительных ресурсов для фильтрации все большего и большего количества данных.

Высокая скорость изменения изображения

И последняя проблема связанна с высокой скоростью изменения изображения. Она становится наиболее значимой в процессе мониторинга, когда человек, наблюдающий данные просто не может реагировать на скорость изменения данных или их интенсивности на дисплее. Снижение скорости меняющихся данных не может обеспечить желаемую эффективность процесса, но скорость реакции человека накладывает определенные ограничения на этот процесс.

Заключение

В этой статье мы описали основные проблемы визуализации больших данных и проанализировали причины их возникновения. Будущие работы в этой области могут быть проведены в следующих областях: исследование методов визуализации и области их применения, принятия решений и рекомендации по выбору методов визуализации для конкретных классов больших данных, формализация требований и ограничений на методы визуализации, применяющиеся к одному или более классам больших данных.

 

Список литературы

1.     Ahlberg C. and Shneiderman B., Visual information seeking: tight coupling of dynamic query filters with starfield displays, Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (SIGCHI '94), April 1994, pp. 313–317.

2.     Cawthon  N.  and  Moere  A.  V., The  Effect  of  Aesthetic  on  the  Usability  of  Data  Visualization, http://web.arch.usyd.edu.au/~andrew/publications/iv07b.pdf.

3.     Cleveland W. S. and McGill R., Theory, experimentation, and application to the development of graphical methods, Journal of the American Statistical Association, 1984, vol. 79, no. 387.

4.     Friendly M., A Brief History of Data Visualization, March 2006, York University.

5.     Gorodov E. and Gubarev V. Analytical Review of Data Visualization Methods in Application to Big Data, Journal of Electrical and Computer Engineering, 2013, pp.7 http://www.hindawi.com/journals/jece/2013/969458/

6.     Heer J. and Shneiderman B., Interactive dynamics for visual analysis, Communications of the ACM, 2012, vol. 55, no. 4.

7.     Johnson C., Top Scientific Visualization Research Problems, IEEE Computer Graphics and Applications, July 2004, vol.24, http://dl.acm.org/citation.cfm?id=1018051.

8.     Lee T. -Y., Jones C., Chen B. -Y., and Ma K. -L., Visualizing data trend and relation for exploring knowledge, Proceedings of the IEEE Pacific Visualization Poster, 2010.

9.     SAS                     Institute,                    Data                    Visualization                    Techniques,                    http://smartest- it.com/sites/default/files/Data%20Visualization_SAS.pdf.

10. Selassie D., Heller B. and Heer J., Divided edge bundling for directional network data, IEEE Transactions on Visualization and Computer Graphics, 2011, vol. 17, no. 12, pp. 2354–2363.

11. Stasko J. Visualization for Information Exploration and Analysis

12. Tedesco J., Sharma A. and Dudko R., Theius: a streaming visualization suite for hadoop clusters, Proceedings of the IEEE International Conference on Cloud Engineering, 2013.

13. Tennekes M. and de Jonge E., Top-down data analysis with treemaps, Proceedings of the International Conference on Information Visualization Theory and Applicationss (IVAPP '11), March 2011, pp. 236–241.

14. Treemap     Visualizations      for      Analyzing      Multi-Dimensional,      Hierarchical      Data     Sets,      Panopticon Software,http://panopticon.com/images/stories/white_papers/wp_treemap_data_visualizations_for_multi- dimensional_data.pdf.

15. Zikopoulos P., Eaton C., deRoos D., Deutsch T. and Lapis G., Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data, 2012.