10 марта 2016г.
Проводимые автором исследования посвящены анализу данных из социальных сетей. В настоящее время разработан модуль извлечения данных из социальной сети vkontakte, и идет реализация соответствующих модулей для других социальных сетей. Далее разработываются алгоритмы и реализуется программное средство, позволяющее анализировать типологические описания специальных средств выражения иллокутивных функций [1,2]. А именно, речь идет о классификации высказываний по типам: аргументация (объяснение), благодарность, вопрос, извинение, инструкция, мнение, напоминание, обещание, оценка (похвала или осуждение), поздравление, приглашение, приказ, просьба, рекомендация (совет), сообщение (повествование), сочувствие/соболезнование, предложение/побуждение, пожелание и др.
Некоторые типы можно определить по ключевым словам. Например, «благодарность» можно узнать по таким словам, как «спасибо», «благодарю Вас» и т.д., а «поздравление» – по «поздравляю» или «с праздником». Некоторые типы можно узнать проведя морфологический анализ слов, чтобы узнать часть речи, наклонение глагола и т.д.
Ввиду больших объѐмов данных работа программы осуществляется при помощи облачных вычислений Windows Azure. Вычисления происходят на Windows Azure Compute – компонента, реализующая вычисления на платформе Windows Azure, предоставляет среду выполнения на основе ролевой модели. Хранение данных на Windows Azure Storage – компонента хранилища предоставляет масштабируемое хранилище. В нем не имеется возможности использовать реляционную модель и оно является альтернативой (либо дополняющим решением) SQL Databases (SQL Azure) – масштабируемой «облачной» версией SQL Server. Разработка выполнялась в среде Microsoft Visual Studio 12.0 на языке C++.
Краткие сведения о реализации
По функциональности программной реализации, можно выделить следующие операции. 1.Извлечение информации из социальных сетей (vk.com, facebook.com, livejournal.com).
2 .Работа с базой данных, в которой хранится полученная информация (запись новых данных, поиск необходимых записей в базе данных).
3 .Анализ информации на предмет иллокутивных функций. 4.Сохранение результатов.
5.Добавление, удаление, изменение специальных словарей, идентифицирующих иллокутивные функции. Графический интерфейс предоставляет следующие возможности.
1.Добавление, удаление, изменение, просмотр словарей иллокутивных функций. 2.Ввод и поиск слов в базе данных.
3 .Формирование отчѐт.
4 .Вывод некоторых графических данных. 5.Сохранение найденных слов в .txt формате. 6.Обновление базы данных.
Результаты.
Тестирование проводилось на данных, полученных из социальной сети vkontakte. После анализа выяснилось, что наибольший процент информации относится к типу иллокутивной функции «сообщение (повествование)», около 80%, далее идѐт «поздравление» около 7% , «пожелание» около 5% и около 8% приходится на остальные типы. Всего рассматривается 18 типов иллокутивных функций. Была замечена некоторая неточность в результатах, из-за несовершенства метода определения морфологических признаков слов (по окончаниям), т.е. качественные, но довольно медленно работающие, сложные морфоанализаторы не использовались.
Список литературы
1. Падучева Е.В. Семантические исследования. Семантика времени и вида в русском языке. Семантика нарратива. – М.: Языки славянской культуры, 1996. Изд. 2-е, 2010. – 480 с.
2. Падучева Е.В. Высказывание и его соотнесенность с действительностью. – М.: Наука, 1985. Изд. 6-е, 2010.– 292 с.