ВВЕДЕНИЕ 3
1. Обоснование применения МГУА в задачах анализа социальной сети 7
1.1. Специфика данных социальной сети. Методы статистической обработки. 7
1.2. Обзор методов работы с неполными данными 11
1.3. Математические основы метода группового учёта аргументов 21
2. Построение моделей зависимостей данных социальной сети 26
2.1. Сбор информации 26
2.2. Применение МГУА для получения модели зависимости принадлежности
к некоторой конкретной группе от принадлежности к другим группам 28
3. Вероятностная оценка количества правильных ответов, полученных с
помощью построенной модели 33
3.1. Тестирование модели 33
3.2. Вероятностная оценка количества правильных ответов, полученных с
помощью построенной модели 34
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 36
ПРИЛОЖЕНИЕ
Социальные сети очень популярны в современном мире и их модность не прекращает снижаться. Пользователи по всему миру находят социальную сеть очень привлекательной и полной возможностей. Все больше людей стало делиться своими интересами, фотографиями, начали активно высказывать свое мнение и открыто делиться своими жизненными происшествиями. Социальные сети, такие как Facebook, Twitter, YouTube, занимают лидирующие позиции и позволяют общаться, делиться материалами с людьми по всему миру. Благодаря такой социализации стали доступны данные, которые были раннее недоступны или для сбора которых затрачивалось колоссальное количество времени и средств. В связи с этим, анализ данных стал очень популярен, открылись новые возможности для исследовательских задач [1].
Такой ажиотаж вокруг темы анализа данных подтвердила глобальная компания Gartner. Они проводят анализ популярных на данный момент методов исследования, а именно углубленные исследования патентов, лучшие практики в отрасли, анализ тенденций и количественное моделирование. В своей статье за 2017 год «Hype Cycle for Emerging Technologies "[2], Gartner выделил технологии "Social network analysis" и "Big Data", и показала, что сейчас они находятся на "Peak of inflated expectations" (на пике завышенных ожиданий). Также исследованием данных, собранных из социальных сетей, занимаются многие престижные университеты Stanford, Oxford, INRIA, да и крупные корпорации находят это актуальным и полезным. Также владельцы самих социальных сетей инвестируют в развитие алгоритмов обработки огромных массивов данных. Это делается для более точных рекомендаций пользователям, например, интересных им тем, возможного друга, аудио рекомендации и т.д. В частности, хорошо настроенная модель интересов профилей может легко выделить целевую аудиторию для продажи и рекламы определённого контента. Все больше появляется компаний, занимающихся сбором и обработкой информации, представляемым пользователям, а также ее хранением. Также исследователи многих компаний моделируют различные процессы, используя
данные социальной сети. Так, Jennifer Colbeck в выступлении TED Talks в октябре 2013 рассказывала про возможность моделирования психологического портрета пользователя только по данным, полученным из социальной сети Facebook. Подобным образом многие исследователи также используют такую возможность по сбору данных для моделирования различных процессов.
Однако, необходимо учитывать возможность некачественных данных (ложных данных), а также проблем с хранением личной информации. Для работы с данными, полученные путем их сбора с соц. сети, нужно также учитывать их частые обновления. Все это не может обойтись без постоянного усовершенствования алгоритмов [3].
Действительно, обработка таких быстро меняющихся и растущих данных имеют свои нюансы. При анализе нужно учитывать их постоянно растущую и без того не малую размерность. Для такого большого количества данных требуется разработка специальных алгоритмов, позволяющих оставив свойства данных уменьшить их размерность. Однако, на данный момент, большинство алгоритмов не справляются с поставленной задачей за оптимальное время, но все же способны решать требуемые задачи. В связи с этим, возникает потребность в новых оптимальных, точных решениях.
Веб-интерфейсы социальных сетей являются источниками данных реального времени и предназначены для просмотра и взаимодействия со страницами социальной сети в веб-браузере либо для использования данных пользователей специализированными приложениями [4, с. 112]. Поскольку сценарии использования интерфейсов социальных сетей не предполагают автоматического сбора данных множества пользователей с целью построения социального графа, то возникает ряд проблем:
1. приватность данных
2. слабая структурированность данных
3. ограничения доступа и блокировки
Цель данной работы заключается в получении вероятностной модели для исследования неполных данных социальной сети.
Поставлены задачи:
1. провести теоретический анализ метода группового учета аргументов и его существующих способов формирования лучшей модели;
2. запрограммировать метод группового учета аргумента для анализа данных социальной сети;
3. получить модели зависимости данных социальной сети;
4. получить вероятностную оценку качества вероятностной модели.
В этой работе описан возможный механизм анализа пользовательских данных социальных сетей, а именно нахождение зависимостей между объектами сети. Глава 2 посвящена обработке и сбору реальных пользовательских данных, а именно пользователей VKontakte, выбранные определенным критерием, путём обращения к API VKontakte. Выявлена модель взаимодействия исследуемых данных с помощью метода группового учета аргументов (МГУА). В главе 3 проведен анализ полученных результатов.
Новизна данной работы заключается в подходе нахождения модели взаимосвязи объектов социальной сети, а именно, впервые применен метод группового учета аргументов при прогнозировании скрытых данных социальной сети. Также научная новизна исследования состоит в методе формирования модели группового учета аргументов, как и выявленный способа выбора ее лучших комбинаций переменных.
Основные результаты этой работы следующие:
1. произведен разбор теоретической части использованного метода и его способы формирования;
2. обработаны и собраны данные реальных пользователей путём обращения к веб-интерфейсам социальных сервисов;
3. запрограммировать метод группового учета аргументов для анализа данных социальной сети;
4. выявлена модель зависимости данных социальной сети;
5. проведен анализ полученных результатов.
Что касается дальнейших исследований, есть несколько возможных направлений. Первое - это построение методики восполнения недостающих данных социальной сети с учётом специфики обрабатываемых данных. Второе -это выявление зависимости успеваемости студента от его профиля в социальной сети. Третье - это построение системы уравнений, в которой отражена взаимозависимость многих факторов. Так как уравнения в системе будут иметь более сложные формы зависимостей, то для их получения потребуется построение совместного закона многомерного распределения вероятностей значений изучаемых величин.
[1] Leskovec J., Faloutsos C. Sampling from large graphs. Proceedings of the 12th
ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2006. - c. 631-636
[2] Key Trends to Watch in Gartner 2017 Emerging Technologies Hype Cycle. , [электронный ресурс]. URL:
https://www.gartner.com/smarterwithgartner/gartners-top-10-technology-trends- 2017/ - (Дата обращения: 29.05.2019)
[3] Najork M., Wiener J. L. Breadth-first crawling yields high-quality pages. Proceedings of the 10th international conference on World Wide Web. - ACM, 2001. - c. 114-118.
[4] Коршунов А.А. и др. Анализ социальных сетей: методы и приложения // Труды ИСП РАН. 2014. - с.112-118.
[5] Мартышенко С.Н. Методы восстановления пропусков в данных, представленных в различных измерительных шкалах // Территория новых возможностей. 2013. №4 (22).
[6] Panteha Hayati Rezvan, Katherine J Lee, Julie A Simpson -The rise of multiple imputation: a review of the reporting and implementation of the method in medical research. BMC Medical Research Methodology, 15(30), pp 1-14.
[7] Попов А. А. и др. Структурная оптимизация нечетких регрессионных моделей с минимизацией ошибки прогноза на тестовой выборке // Вестник НГИЭИ. 2018. №2 (81).
[8] Понятский В. М., Велешки С. И., Жирнова А. В. Использование метода группового учета аргументов для выбора структуры модели динамического объекта // Известия ТулГУ. Технические науки. 2013. №2, c. 255-267
[9] Horton N.J., Kleinman K.P. Much ado about nothing: A comparison of missing data methods and software to fit incomplete data regression models. Am. Stat. 2007; 61: pp 79-90.
[10] Burton A., Altman D. G. Missing covariate data within cancer prognostic studies: A review of current reporting and proposed guidelines. British Journal of Cancer, 2004, 91(1):4-8.
[11] Karahalios A., Baglietto L., Carlin J.B., English D.R., Simpson J.A. A review of the reporting and handling of missing data in cohort studies with repeated assessment of exposure measures. BMC Med Res Methodology, 2012;12:96.
[12] Panteha Hayati Rezvan, Katherine J Lee, Julie A Simpson -The rise of multiple imputation: a review of the reporting and implementation of the method in medical research. BMC Medical Research Methodology, 15(30), pp 1-14.
[13] Vach, W. and Blettner, M. (1991). Biased estimation of the odds ratio in case- control studies due to the use of ad hoc methods of correcting for missing values for confounding variables. American Journal of Epidemiology, 134(8), pp 895907.
[14] Knol, M. J., Janssen, K. J. M., Donders, A. R. T., Egberts, A. C. G., Heerdink,
E. R., Grobbee, D. E., Moons, K. G. M., and Geerlings, M. I. (2010). Unpredictable bias when using the missing indicator method or complete case analysis for missing confounder values: an empirical example. Journal of Clinical Epidemiology, 63: pp 728-736.
[15] Обработка пропусков в данных , [электронный ресурс]. URL: https://basegroup.ru/community/articles/missing - (Дата обращения: 29.05.2019)
[16] ВКонтакте Разработчикам , [электронный ресурс]. URL: https://vk.com/dev/ sites - (Дата обращения: 29.05.2019)
[17] Van Buuren S. Flexible Imputation of Missing Data. Chapman and Hall/CRC; 1 ed., 2012 - 342 p.
[18] Molenberghs, G. and Kenward, M. G. Missing Data in Clinical Studies. John Wiley & Sons, Chichester, UK. 2007 - pp. 47-50.
[19] Орлов А. А. Увеличение производительности программной платформы для реализации алгоритмов метода группового учета аргументов // Известия
ТПУ. 2013. №5, с. 129-139
[20] Пронин А. С. и др. Формирование учебных групп в университете с помощью анализа социальных сетей // Вопросы образования, № 3, 2014, с. 54-73.