Разработка приложения для анализа истории распространения информации в сети Интернет
|
АННОТАЦИЯ 2
Введение 6
1 Информационные вбросы и слухи 8
1.1 Слухи 8
1.2 Анализ слухов при помощи параметров их распространения 9
1.3 Модель SpikeM 11
1.4 Observatory on Social Media 12
1.5 Emergent 14
1.6 Информационные вбросы 15
1.7 Вычисление источников распространения 17
Выводы по разделу 18
2 Проектирование системы 19
2.1 Выбор инструментов для разработки 19
2.2 Представление результатов выдачи поисковых запросов 19
2.3 Построение сети распространения 21
2.4 Структура представления данных в социальной сети Facebook 21
2.5 Структура представления данных в социальной сети ВКонтакте 22
2.6 Определение даты публикации новости 23
2.7 Интерфейс пользователя 24
2.8 Описание архитектуры системы. Диаграмма классов 25
Выводы по разделу 30
2 Алгоритмы 31
3.1 Алгоритм определения даты создания веб-страницы 31
3.2 Алгоритм построения сети распространения 31
3.3 Преобразование дерева сети распространения для вывода на экран .. 34
Выводы по разделу 35
4 Результаты 36
Заключение 38
Библиографический список 39
Приложения 41
ПРИЛОЖЕНИЕ 1. Текст программы 41
Введение 6
1 Информационные вбросы и слухи 8
1.1 Слухи 8
1.2 Анализ слухов при помощи параметров их распространения 9
1.3 Модель SpikeM 11
1.4 Observatory on Social Media 12
1.5 Emergent 14
1.6 Информационные вбросы 15
1.7 Вычисление источников распространения 17
Выводы по разделу 18
2 Проектирование системы 19
2.1 Выбор инструментов для разработки 19
2.2 Представление результатов выдачи поисковых запросов 19
2.3 Построение сети распространения 21
2.4 Структура представления данных в социальной сети Facebook 21
2.5 Структура представления данных в социальной сети ВКонтакте 22
2.6 Определение даты публикации новости 23
2.7 Интерфейс пользователя 24
2.8 Описание архитектуры системы. Диаграмма классов 25
Выводы по разделу 30
2 Алгоритмы 31
3.1 Алгоритм определения даты создания веб-страницы 31
3.2 Алгоритм построения сети распространения 31
3.3 Преобразование дерева сети распространения для вывода на экран .. 34
Выводы по разделу 35
4 Результаты 36
Заключение 38
Библиографический список 39
Приложения 41
ПРИЛОЖЕНИЕ 1. Текст программы 41
Интернет является огромной коммуникационной площадкой, которая часто используется для манипулирования общественным мнением. Сеть позволяет не только сформулировать определенные взгляды общества на некоторое событие или явление, но и изменить их - что показало себя как интересное направление для исследований.
Сегодня внимание многих исследователей привлечено к изучению особенностей распространения информации в сети Интернет. Широкие возможности современных компьютеров, повсеместное распространение и возрастающая доступность Интернета создают благодатную почву для распространения информации. Любое информационное сообщение, любая новость передается быстрее и шире, чем в реальном мире. А с увеличением количества людей, получивших доступ к Всемирной паутине, увеличивается и объем информации в Сети.
Среди всего объема информации, который циркулирует по сети Интернет, особый интерес для изучения вызывают различные информационные вбросы и слухи. Учитывая то, что Интернет обладает большим доверием пользователей, очень важно выявлять, какая, например, новость, является естественной, а какая выброшенной намеренно. Связано это с тем, что различные блоги, социальные сети, новостные каналы и другие Интернет-ресурсы все больше увеличивают свое влияние на другие виды средств массовой информации, даже в реальной жизни.
Приведем пример того, как может работать информационных вброс и как он может повлиять на СМИ в реальности. Некоторый человек опубликовал некоторую новость в своем блоге. Другие люди заинтересовались этой новостью и начали о ней писать. Так информация получает распространение. Далее, какая - нибудь газета (телевизионная передача и т. д.) публикует статью об этом событии, говоря о нем «так пишут в Интернете». Эти СМИ порождают новую волну распространения информации в Интернете, ведь теперь об этом говорят не только в блогах, но и в газетах. Подобная тенденция усиливается с каждым годом.
Из вышесказанного следует, что важно понимать, что из информации в Интернете является слухом, что естественной новостью, а что вбросом, так как последние являются средством сильного воздействия на сознание людей. Так же распространение слухов и вообще любой ложной информации может привести к значительным экономическим и политическим последствиям. Нередко они используются как орудие Информационной войны.
Большую часть информации люди получают из различных социальных сетей и блогов. Подобные сайты являются огромным неконтролируемым источником распространения сообщений, которые могут искажать реальные факты.
Пользователи, с настороженностью относящиеся к информации в социальных сетях, а также люди, которые услышали о чем-то «на улице», стремятся проверить информацию, которую они получили, и узнать, что об этом говорят в мире. Для этого обычно применяются поисковые системы, например, такие как Google, Яндекс и тому подобные. В зависимости от того, какие результаты будут получены, волна распространения информации может как усилиться, так и ослабнуть. Поэтому важно рассматривать в качестве средства распространения информации не только блоги и социальные сети, но и поисковые системы. Более того, можно искусственно повысить позицию сайта при выдаче результатов поискового запроса и простимулировать дальнейшее распространение какого- либо сообщения.
В связи в этим была предпринята попытка разработать систему, которая смогла бы проводить автоматический сбор информации о распространении некоторой новости (сообщения, факта, то есть порции информации) по результатам поискового запроса в некоторой поисковой системе и предоставить полученные данные в виде, который сможет облегчить анализ истории распространение информации в сети Интернет.
Цель работы: разработать систему, которая могла бы по результатам некоторого поискового запроса (в запросе задана информация, которая нас интересует) предоставить данные для анализа истории распространения некоторой информации в сети Интернет. Представить полученные результаты в виде, удобном для анализа. Построить граф сети распространения новости по различным сайтам, а также собрать информацию о дате публикации полученных источников распространения.
Задачи: для того, чтобы построить систему, необходимо:
1) Изучить существующие методы выявления информационных вбросов и слухов в сети Интернет.
2) Изучить форматы оформления сообщений в социальных сетях и форматы выдачи результатов поисковых запросов.
3) Разработать алгоритм, обрабатывающий полученный набор ссылок и устанавливающий связи между ними
4) Разработать алгоритм, устанавливающий дату создания страницы по заданной ссылке
5) Представить полученные данные в виде графа, в котором также будет видна интенсивность распространения (количество упоминаний) по дням
Объектом исследования является явление распространения различных информационных вбросов и слухов в сети Интернет.
Предметом разработки является программа, которая собирает результаты выдачи поискового запроса и строит граф распространения информации.
Полученные результаты в дальнейшем можно применить для построения анализатора, который по представленным данным может определить, является ли данная тема информационным вбросом(некоторые слухи также могут являться вбросом) или слухом, который появился самостоятельно, без воздействия извне, или естественным событием, которое без какого-либо внешнего воздействия распространялась по Всемирной паутине.
Сегодня внимание многих исследователей привлечено к изучению особенностей распространения информации в сети Интернет. Широкие возможности современных компьютеров, повсеместное распространение и возрастающая доступность Интернета создают благодатную почву для распространения информации. Любое информационное сообщение, любая новость передается быстрее и шире, чем в реальном мире. А с увеличением количества людей, получивших доступ к Всемирной паутине, увеличивается и объем информации в Сети.
Среди всего объема информации, который циркулирует по сети Интернет, особый интерес для изучения вызывают различные информационные вбросы и слухи. Учитывая то, что Интернет обладает большим доверием пользователей, очень важно выявлять, какая, например, новость, является естественной, а какая выброшенной намеренно. Связано это с тем, что различные блоги, социальные сети, новостные каналы и другие Интернет-ресурсы все больше увеличивают свое влияние на другие виды средств массовой информации, даже в реальной жизни.
Приведем пример того, как может работать информационных вброс и как он может повлиять на СМИ в реальности. Некоторый человек опубликовал некоторую новость в своем блоге. Другие люди заинтересовались этой новостью и начали о ней писать. Так информация получает распространение. Далее, какая - нибудь газета (телевизионная передача и т. д.) публикует статью об этом событии, говоря о нем «так пишут в Интернете». Эти СМИ порождают новую волну распространения информации в Интернете, ведь теперь об этом говорят не только в блогах, но и в газетах. Подобная тенденция усиливается с каждым годом.
Из вышесказанного следует, что важно понимать, что из информации в Интернете является слухом, что естественной новостью, а что вбросом, так как последние являются средством сильного воздействия на сознание людей. Так же распространение слухов и вообще любой ложной информации может привести к значительным экономическим и политическим последствиям. Нередко они используются как орудие Информационной войны.
Большую часть информации люди получают из различных социальных сетей и блогов. Подобные сайты являются огромным неконтролируемым источником распространения сообщений, которые могут искажать реальные факты.
Пользователи, с настороженностью относящиеся к информации в социальных сетях, а также люди, которые услышали о чем-то «на улице», стремятся проверить информацию, которую они получили, и узнать, что об этом говорят в мире. Для этого обычно применяются поисковые системы, например, такие как Google, Яндекс и тому подобные. В зависимости от того, какие результаты будут получены, волна распространения информации может как усилиться, так и ослабнуть. Поэтому важно рассматривать в качестве средства распространения информации не только блоги и социальные сети, но и поисковые системы. Более того, можно искусственно повысить позицию сайта при выдаче результатов поискового запроса и простимулировать дальнейшее распространение какого- либо сообщения.
В связи в этим была предпринята попытка разработать систему, которая смогла бы проводить автоматический сбор информации о распространении некоторой новости (сообщения, факта, то есть порции информации) по результатам поискового запроса в некоторой поисковой системе и предоставить полученные данные в виде, который сможет облегчить анализ истории распространение информации в сети Интернет.
Цель работы: разработать систему, которая могла бы по результатам некоторого поискового запроса (в запросе задана информация, которая нас интересует) предоставить данные для анализа истории распространения некоторой информации в сети Интернет. Представить полученные результаты в виде, удобном для анализа. Построить граф сети распространения новости по различным сайтам, а также собрать информацию о дате публикации полученных источников распространения.
Задачи: для того, чтобы построить систему, необходимо:
1) Изучить существующие методы выявления информационных вбросов и слухов в сети Интернет.
2) Изучить форматы оформления сообщений в социальных сетях и форматы выдачи результатов поисковых запросов.
3) Разработать алгоритм, обрабатывающий полученный набор ссылок и устанавливающий связи между ними
4) Разработать алгоритм, устанавливающий дату создания страницы по заданной ссылке
5) Представить полученные данные в виде графа, в котором также будет видна интенсивность распространения (количество упоминаний) по дням
Объектом исследования является явление распространения различных информационных вбросов и слухов в сети Интернет.
Предметом разработки является программа, которая собирает результаты выдачи поискового запроса и строит граф распространения информации.
Полученные результаты в дальнейшем можно применить для построения анализатора, который по представленным данным может определить, является ли данная тема информационным вбросом(некоторые слухи также могут являться вбросом) или слухом, который появился самостоятельно, без воздействия извне, или естественным событием, которое без какого-либо внешнего воздействия распространялась по Всемирной паутине.
С распространением Интернета определение того, является ли новость информационном слухом, вбросом, или естественной новостью, особенно важна. Существует множество работ, в которых анализируют динамику распространения информации, но они привязаны к конкретным платформам и социальным сетям, и ни одна из низ не проводит анализ выдачи поисковых систем. Данная работа предоставит простой инструмент для визуализации структуры графа распространения новости, что может помочь определить класс новости.
В разделе 2 приведены результаты анализа структуры представления результатов выдачи поисковых запросов поисковых систем Google и Yandex, также рассмотрены структуры представления новостей в социальных сетях Facebook и ВКонтакте. Полученная информация будет использована для извлечения результатов-ссылок, на основе которых в дальнейшем будет построен граф сети распространения информации. Информация о структуре представления новостей в социальных сетях позволяет точно определить дату публикации новости, что позволит определить дату публикации новости для смежных вершин(сайтов) с данной, дата создания которых неизвестна.
В ходе работы был разработан интерфейс пользователя программы. Также была разработана архитектура системы с применением объектно¬ориентированного подхода.
В результате работы программы была получена схема распространения информации. Наличие большого числа одиночных вершин и отсутствие длинных цепочек распространения объясняется малым размером исследуемой выборки и тем, что авторы крупных порталов, которые обычно находятся в первых строчках результатов выдачи поисковых запросов, редко ссылаются на другие источники и сами генерируют контент.
В разделе 2 приведены результаты анализа структуры представления результатов выдачи поисковых запросов поисковых систем Google и Yandex, также рассмотрены структуры представления новостей в социальных сетях Facebook и ВКонтакте. Полученная информация будет использована для извлечения результатов-ссылок, на основе которых в дальнейшем будет построен граф сети распространения информации. Информация о структуре представления новостей в социальных сетях позволяет точно определить дату публикации новости, что позволит определить дату публикации новости для смежных вершин(сайтов) с данной, дата создания которых неизвестна.
В ходе работы был разработан интерфейс пользователя программы. Также была разработана архитектура системы с применением объектно¬ориентированного подхода.
В результате работы программы была получена схема распространения информации. Наличие большого числа одиночных вершин и отсутствие длинных цепочек распространения объясняется малым размером исследуемой выборки и тем, что авторы крупных порталов, которые обычно находятся в первых строчках результатов выдачи поисковых запросов, редко ссылаются на другие источники и сами генерируют контент.





