Под системой принято понимать совокупность связанных между собой элементов. Сложной системой называется система, которая является гетерогенной, многомерной и многокритериальной.
Гетерогенность – свойство системы, связанное с многообразием физической природы и автономностью ее подсистем и элементов.
Многомерность – число варьируемых параметров и управляющих воздействий в системе.
Многокритериальность – наличие совокупности частных критериев оптимальности, отражающих различные стороны качества и эффективности системы.
Рассмотрим функционирование сложной системы на примере задачи выявления социальных ботов.
В настоящее время в сети Internet продолжается бурное развитие популярных социальных сетей ("Facebook", "Twitter", "Instagram" "ВКонтакте" и др.). Их характерной особенностью является то, что зарегистрированные в них учётные записи не всегда соответствуют реальным людям и могут быть фиктивными. Ввиду отсутствия на большинстве ресурсов серьёзных технических ограничений на создание новых учётных записей, специалисты по продвижению информации в социальных сетях (управление репутацией, реклама, распространение спама и др.) получают возможность заготовить большое количество ложных учётных записей для выполнения скоординированных действий в виртуальном пространстве и, тем самым, исказить естественный информационный фон. В последнее время искажению информационного фона также способствует использование специальных программ, имитирующих действия человека при работе с социальными сетями. Такие программы носят название социальных ботов [2].
Возникает задача выявления социальных ботов для исключения их из рассмотрения при анализе данных из социальных сетей. Эта задача априори является плохо формализованной, то есть задачей, для которой неизвестны расчетные формулы и последовательности действий, приводящие к результату. В подобных ситуациях целесообразно использовать такие методы решений, которые учитывают неполноту и неточность исходных данных, отсутствие точных алгоритмов. Основу одного из способов решения подобных задач составляет аппарат нечеткой логики.
Нечеткая логика как новая область математики была представлена в 60-ых годах прошлого столетия профессором Калифорнийского университета Лофти Заде [1].
В основе нечеткой логики лежит понятие нечеткого множества ¾ множества, определяемого небинарными отношениями вхождения. Это означает, что во внимание принимается не только то, входит элемент в данное множество или нет, но и степень его вхождения, которая может изменяться от нуля до единицы.
Определения основных понятий нечёткой логики доступны в специализированной литературе [4].
Нечеткие высказывания могут комбинироваться с помощью нечетких логических операций или связок, которые рассматриваются ниже. К таким операциям относятся логическое отрицание, логическая конъюнкция, логическая дизъюнкция, нечеткая импликация, нечеткая эквивалентность. Говоря об логических операциях с нечеткими высказываниями, нельзя не сказать о наличии большого числа альтернативных способов их определения.
Таким образом, основными этапами нечеткого вывода являются: а.Задание функций принадлежности для входов и выходов системы. б. Составление базы нечетких правил.
в. Выбор алгоритма и параметров для преобразования значений входных переменных процесса в выходные переменные на основе нечетких правил.
г. Фаззификация входных переменных.
Предположим, что в нашем распоряжении есть доступная открытая информация о совокупности действий пользователей в некоторой социальной сети, сохранённая в реляционной базе данных.
Пусть X(t)=(X1, X2, …, Xi, …, Xj, …, Xn, 𝑡) ¾ множество действий всех пользователей в социальной сети, совершённых в определённые моменты времени. Каждое Xi действие является дискретной величиной.
Зарегистрированные в социальных сетях виртуальные пользователи имеют возможность выполнять
следующие действия (их доступность определяется особенностями конкретной социальной сети):
установить или разорвать дружеские отношения с другим пользователем социальной сети (как односторонние, так и двухсторонние – взаимно подтверждённые со стороны данного пользователя);
комментировать опубликованные текстовые, фото- и аудиоматериалы других пользователей путём написания текстовых сообщений непосредственно под ними и т.д.
Xi(t)={X1, X2, …, Xni , t} ¾ множество действий 𝑛𝐼 для i-го пользователя в социальной сети. Пусть F ¾ множество открытых односторонних дружеских отношений, установленных пользователями в социальной сети и сохранённых в реляционной базе данных.
Fi(t)={Fi1 (t1), …, Fix (tx)} ¾ множество друзей i-го пользователя, где i=1, …, n.
Предположим также, что Fi1 (t1) – это перечень установленных отношений дружбы i-го пользователя с другими пользователями в момент времени 𝑡1. Аналогичным образом, пусть Fj1 (𝑡1) – перечень установленных отношений дружбы j-го пользователя в момент времени 𝑡1. Пусть между i-м и j-м пользователями установлены двусторонние отношения дружбы на момент времени t1. Поскольку дружеские отношения между пользователями
могут быть представлены в виде дуг ориентированного графа, соединяющих соответствующие вершины, то их также можно изобразить в виде матрицы смежности между пользователями социальной сети:
Зададим функции принадлежности для входов и выходов системы нечеткого вывода. Входами системы являются лингвистические переменные «периодичность повторяющихся действий», «добавление в друзья» и «время круглосуточной работы», а выходом ¾ лингвистическая переменная «уровень достоверности».
При задании функций принадлежности учитывается информация по пользовательской статистике в социальных сетях на основании источников [3], [5].
Функции принадлежности для лингвистической переменной «добавление в друзья» приведены на Рисунке 1, где по оси абсцисс представлено количество добавленных пользователем друзей за 1 день.
Возьмём для примера правила для выбора уровня достоверности (нечеткую базу знаний):
1. «Если периодичность повторяющихся действий низкая регулярность и добавление в друзья мало и время круглосуточной работы мало, то уровень достоверности человек».
2. «Если периодичность повторяющихся действий высокая регулярность и добавление в друзья много и время круглосуточной работы много, то уровень достоверности бот»Нечеткий вывод реализован по алгоритму Е. Мамдани. Логические конъюнкция и дизъюнкция в системе определяются основными формулами, нечеткая импликация ¾ формулой Е. Мамдани. Процесс дефаззификации осуществляется методом центра тяжести.В ходе работы построен алгоритм выявления социальных ботов. Исходными данными для алгоритма служат три активности пользователей в социальной сети: количество повторяющихся действий пользователя за временной промежуток 10 минут, количество добавленных пользователем друзей за 1 день, суммарное количество дней пребывания пользователя в сети за 1 месяц. Работа алгоритма базируется на нечетком выводе, в основе которого лежат 27 нечетких правил. В результате обрабатывания алгоритма пользователю социальной сети присваивается соответствующий уровень достоверности. По уровню достоверности принимается решение: является ли пользователь реальным человеком или ботом.
В результате обрабатывания алгоритма пользователю социальной сети присваивается соответствующий уровень достоверности. По уровню достоверности принимается решение: является ли пользователь реальным человеком или ботом.
На основе построенного алгоритма разработана программа по выявлению социальных ботов в социальной сети.
Следует отметить, что количество нечётких правил не имеет значения.
Список литературы
1. Древс, Ю.Г. Информационные системы и процессы/ Ю.Г. Древс. - Москва: МИФИ, 2003. - 228с.
2. Древс Ю.Г. Концепция построения эффективных систем выявления социальных ботов/ Древс Ю.Г., Сводцев А.К. - 14-ая Санкт-Петербургская международная конференция, 2014.
3. Cossa. Социальные сети в 2011 году: исследование comScore [Электронный ресурс]. - Электрон. текстовые дан. – Режим доступа: http://www.cossa.ru/149/11382/, свободный.
4. Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzzyTECH/ А.В. Леоненков. - СПб.: БХВ- Петербург, 2005. - 736с.
5. PewResarchСenterSocial. Networking Fact Sheet [Электронный ресурс]. - Электрон. текстовые дан. – Режим доступа: http://www.pewinternet.org/fact-sheets/social-networking-fact-sheet/, свободный.