ВЕРОЯТНОСТНЫЙ РАСЧЕТ ЗНАЧЕНИЙ НЕДОСТАЮЩИХ ДАННЫХ ПОЛЬЗОВАТЕЛЯ СОЦИАЛЬНОЙ СЕТИ
|
ВВЕДЕНИЕ 3
1. Обоснование применения МГУА в задачах анализа социальной сети 7
1.1. Специфика данных социальной сети. Методы статистической обработки. 7
1.2. Обзор методов работы с неполными данными 11
1.3. Математические основы метода группового учёта аргументов 21
2. Построение моделей зависимостей данных социальной сети 26
2.1. Сбор информации 26
2.2. Применение МГУА для получения модели зависимости принадлежности
к некоторой конкретной группе от принадлежности к другим группам 28
3. Вероятностная оценка количества правильных ответов, полученных с
помощью построенной модели 33
3.1. Тестирование модели 33
3.2. Вероятностная оценка количества правильных ответов, полученных с
помощью построенной модели 34
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 36
ПРИЛОЖЕНИЕ
1. Обоснование применения МГУА в задачах анализа социальной сети 7
1.1. Специфика данных социальной сети. Методы статистической обработки. 7
1.2. Обзор методов работы с неполными данными 11
1.3. Математические основы метода группового учёта аргументов 21
2. Построение моделей зависимостей данных социальной сети 26
2.1. Сбор информации 26
2.2. Применение МГУА для получения модели зависимости принадлежности
к некоторой конкретной группе от принадлежности к другим группам 28
3. Вероятностная оценка количества правильных ответов, полученных с
помощью построенной модели 33
3.1. Тестирование модели 33
3.2. Вероятностная оценка количества правильных ответов, полученных с
помощью построенной модели 34
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 36
ПРИЛОЖЕНИЕ
Социальные сети очень популярны в современном мире и их модность не прекращает снижаться. Пользователи по всему миру находят социальную сеть очень привлекательной и полной возможностей. Все больше людей стало делиться своими интересами, фотографиями, начали активно высказывать свое мнение и открыто делиться своими жизненными происшествиями. Социальные сети, такие как Facebook, Twitter, YouTube, занимают лидирующие позиции и позволяют общаться, делиться материалами с людьми по всему миру. Благодаря такой социализации стали доступны данные, которые были раннее недоступны или для сбора которых затрачивалось колоссальное количество времени и средств. В связи с этим, анализ данных стал очень популярен, открылись новые возможности для исследовательских задач [1].
Такой ажиотаж вокруг темы анализа данных подтвердила глобальная компания Gartner. Они проводят анализ популярных на данный момент методов исследования, а именно углубленные исследования патентов, лучшие практики в отрасли, анализ тенденций и количественное моделирование. В своей статье за 2017 год «Hype Cycle for Emerging Technologies "[2], Gartner выделил технологии "Social network analysis" и "Big Data", и показала, что сейчас они находятся на "Peak of inflated expectations" (на пике завышенных ожиданий). Также исследованием данных, собранных из социальных сетей, занимаются многие престижные университеты Stanford, Oxford, INRIA, да и крупные корпорации находят это актуальным и полезным. Также владельцы самих социальных сетей инвестируют в развитие алгоритмов обработки огромных массивов данных. Это делается для более точных рекомендаций пользователям, например, интересных им тем, возможного друга, аудио рекомендации и т.д. В частности, хорошо настроенная модель интересов профилей может легко выделить целевую аудиторию для продажи и рекламы определённого контента. Все больше появляется компаний, занимающихся сбором и обработкой информации, представляемым пользователям, а также ее хранением. Также исследователи многих компаний моделируют различные процессы, используя
данные социальной сети. Так, Jennifer Colbeck в выступлении TED Talks в октябре 2013 рассказывала про возможность моделирования психологического портрета пользователя только по данным, полученным из социальной сети Facebook. Подобным образом многие исследователи также используют такую возможность по сбору данных для моделирования различных процессов.
Однако, необходимо учитывать возможность некачественных данных (ложных данных), а также проблем с хранением личной информации. Для работы с данными, полученные путем их сбора с соц. сети, нужно также учитывать их частые обновления. Все это не может обойтись без постоянного усовершенствования алгоритмов [3].
Действительно, обработка таких быстро меняющихся и растущих данных имеют свои нюансы. При анализе нужно учитывать их постоянно растущую и без того не малую размерность. Для такого большого количества данных требуется разработка специальных алгоритмов, позволяющих оставив свойства данных уменьшить их размерность. Однако, на данный момент, большинство алгоритмов не справляются с поставленной задачей за оптимальное время, но все же способны решать требуемые задачи. В связи с этим, возникает потребность в новых оптимальных, точных решениях.
Веб-интерфейсы социальных сетей являются источниками данных реального времени и предназначены для просмотра и взаимодействия со страницами социальной сети в веб-браузере либо для использования данных пользователей специализированными приложениями [4, с. 112]. Поскольку сценарии использования интерфейсов социальных сетей не предполагают автоматического сбора данных множества пользователей с целью построения социального графа, то возникает ряд проблем:
1. приватность данных
2. слабая структурированность данных
3. ограничения доступа и блокировки
Цель данной работы заключается в получении вероятностной модели для исследования неполных данных социальной сети.
Поставлены задачи:
1. провести теоретический анализ метода группового учета аргументов и его существующих способов формирования лучшей модели;
2. запрограммировать метод группового учета аргумента для анализа данных социальной сети;
3. получить модели зависимости данных социальной сети;
4. получить вероятностную оценку качества вероятностной модели.
В этой работе описан возможный механизм анализа пользовательских данных социальных сетей, а именно нахождение зависимостей между объектами сети. Глава 2 посвящена обработке и сбору реальных пользовательских данных, а именно пользователей VKontakte, выбранные определенным критерием, путём обращения к API VKontakte. Выявлена модель взаимодействия исследуемых данных с помощью метода группового учета аргументов (МГУА). В главе 3 проведен анализ полученных результатов.
Новизна данной работы заключается в подходе нахождения модели взаимосвязи объектов социальной сети, а именно, впервые применен метод группового учета аргументов при прогнозировании скрытых данных социальной сети. Также научная новизна исследования состоит в методе формирования модели группового учета аргументов, как и выявленный способа выбора ее лучших комбинаций переменных.
Такой ажиотаж вокруг темы анализа данных подтвердила глобальная компания Gartner. Они проводят анализ популярных на данный момент методов исследования, а именно углубленные исследования патентов, лучшие практики в отрасли, анализ тенденций и количественное моделирование. В своей статье за 2017 год «Hype Cycle for Emerging Technologies "[2], Gartner выделил технологии "Social network analysis" и "Big Data", и показала, что сейчас они находятся на "Peak of inflated expectations" (на пике завышенных ожиданий). Также исследованием данных, собранных из социальных сетей, занимаются многие престижные университеты Stanford, Oxford, INRIA, да и крупные корпорации находят это актуальным и полезным. Также владельцы самих социальных сетей инвестируют в развитие алгоритмов обработки огромных массивов данных. Это делается для более точных рекомендаций пользователям, например, интересных им тем, возможного друга, аудио рекомендации и т.д. В частности, хорошо настроенная модель интересов профилей может легко выделить целевую аудиторию для продажи и рекламы определённого контента. Все больше появляется компаний, занимающихся сбором и обработкой информации, представляемым пользователям, а также ее хранением. Также исследователи многих компаний моделируют различные процессы, используя
данные социальной сети. Так, Jennifer Colbeck в выступлении TED Talks в октябре 2013 рассказывала про возможность моделирования психологического портрета пользователя только по данным, полученным из социальной сети Facebook. Подобным образом многие исследователи также используют такую возможность по сбору данных для моделирования различных процессов.
Однако, необходимо учитывать возможность некачественных данных (ложных данных), а также проблем с хранением личной информации. Для работы с данными, полученные путем их сбора с соц. сети, нужно также учитывать их частые обновления. Все это не может обойтись без постоянного усовершенствования алгоритмов [3].
Действительно, обработка таких быстро меняющихся и растущих данных имеют свои нюансы. При анализе нужно учитывать их постоянно растущую и без того не малую размерность. Для такого большого количества данных требуется разработка специальных алгоритмов, позволяющих оставив свойства данных уменьшить их размерность. Однако, на данный момент, большинство алгоритмов не справляются с поставленной задачей за оптимальное время, но все же способны решать требуемые задачи. В связи с этим, возникает потребность в новых оптимальных, точных решениях.
Веб-интерфейсы социальных сетей являются источниками данных реального времени и предназначены для просмотра и взаимодействия со страницами социальной сети в веб-браузере либо для использования данных пользователей специализированными приложениями [4, с. 112]. Поскольку сценарии использования интерфейсов социальных сетей не предполагают автоматического сбора данных множества пользователей с целью построения социального графа, то возникает ряд проблем:
1. приватность данных
2. слабая структурированность данных
3. ограничения доступа и блокировки
Цель данной работы заключается в получении вероятностной модели для исследования неполных данных социальной сети.
Поставлены задачи:
1. провести теоретический анализ метода группового учета аргументов и его существующих способов формирования лучшей модели;
2. запрограммировать метод группового учета аргумента для анализа данных социальной сети;
3. получить модели зависимости данных социальной сети;
4. получить вероятностную оценку качества вероятностной модели.
В этой работе описан возможный механизм анализа пользовательских данных социальных сетей, а именно нахождение зависимостей между объектами сети. Глава 2 посвящена обработке и сбору реальных пользовательских данных, а именно пользователей VKontakte, выбранные определенным критерием, путём обращения к API VKontakte. Выявлена модель взаимодействия исследуемых данных с помощью метода группового учета аргументов (МГУА). В главе 3 проведен анализ полученных результатов.
Новизна данной работы заключается в подходе нахождения модели взаимосвязи объектов социальной сети, а именно, впервые применен метод группового учета аргументов при прогнозировании скрытых данных социальной сети. Также научная новизна исследования состоит в методе формирования модели группового учета аргументов, как и выявленный способа выбора ее лучших комбинаций переменных.
Основные результаты этой работы следующие:
1. произведен разбор теоретической части использованного метода и его способы формирования;
2. обработаны и собраны данные реальных пользователей путём обращения к веб-интерфейсам социальных сервисов;
3. запрограммировать метод группового учета аргументов для анализа данных социальной сети;
4. выявлена модель зависимости данных социальной сети;
5. проведен анализ полученных результатов.
Что касается дальнейших исследований, есть несколько возможных направлений. Первое - это построение методики восполнения недостающих данных социальной сети с учётом специфики обрабатываемых данных. Второе -это выявление зависимости успеваемости студента от его профиля в социальной сети. Третье - это построение системы уравнений, в которой отражена взаимозависимость многих факторов. Так как уравнения в системе будут иметь более сложные формы зависимостей, то для их получения потребуется построение совместного закона многомерного распределения вероятностей значений изучаемых величин.
1. произведен разбор теоретической части использованного метода и его способы формирования;
2. обработаны и собраны данные реальных пользователей путём обращения к веб-интерфейсам социальных сервисов;
3. запрограммировать метод группового учета аргументов для анализа данных социальной сети;
4. выявлена модель зависимости данных социальной сети;
5. проведен анализ полученных результатов.
Что касается дальнейших исследований, есть несколько возможных направлений. Первое - это построение методики восполнения недостающих данных социальной сети с учётом специфики обрабатываемых данных. Второе -это выявление зависимости успеваемости студента от его профиля в социальной сети. Третье - это построение системы уравнений, в которой отражена взаимозависимость многих факторов. Так как уравнения в системе будут иметь более сложные формы зависимостей, то для их получения потребуется построение совместного закона многомерного распределения вероятностей значений изучаемых величин.



