Отслеживание взаимосвязей событий в новостном потоке

Содержание

Введение 3
Постановка задачи 5
Обзор литературы 7
Глава 1. Существующие решения 9
1.1. Общие концепции 9
1.2. Тематическое моделирование 9
1.2.1 Вероятностный латентный семантический анализ 11
1.2.2 Латентное размещение Дирихле 11
1.3. Дистрибутивная семантика 12
1.3.1 Латентно-семантический анализ (ЛСА) 13
Глава 2. Построение математической модели 15
2.1. Основные понятия 15
2.2. Критерии наличия взаимосвязей 15
2.3. Векторные модели 17
2.4. Функции сходства 18
2.5. Временная зависимость 19
2.6. Удаление слабых зависимостей 21
2.7. Удаление сквозных зависимостей 22
Глава 3. Практическая реализация 23
3.1. Описание датасета 23
3.2. Программные компоненты 23
3.3. Ход программной реализации 26
3.4. Полученные результаты 28
Выводы 31
Заключение 32
Список литературы 33

Введение

Несомненно, отличительной особенностью современного мира является постоянно увеличивающийся поток информации, непрерывно поступающей из разных источников. Одной из важных частей этого являются новости, которые приходит из разных источников, включая как традиционные СМИ, например, газеты, радио и телевидение, так и современные источники, такие как различные новостные сайты и социальные медиа. Отличительной особенностью является то, что в случае с социальными сетями авторами новостной повестки дня служат сами пользователи. Однако, парадоксальность ситуации заключается в том, что рост количества информации ведет к затруднению ее использования и снижению общего уровня информированности. Ведь увеличение темпов производства информации ведет, к так называемому, информационному шуму. В подобной ситуации возникает необходимость структурирования информации. Обобщение больших информационных потоков, которые непрерывно генерируются в средствах масс-медиа, требует новых подходов к их обработке. Кроме этого, есть еще несколько причин для развития данной области:
• получение новых знаний по определенному новостному событию;
• необходимость систематизации и упорядочивания знаний;
• акцентирование внимания на некоторых аспектах про какое-либо происшествие;
• представление информации в более наглядном и понятном виде.
Методы структурирования информации разнообразны. Причиной этого является множество способов ее представления и организации. В зависимости от целей, применяются различные технологии и методы структурирования.[13] Целью структурирования данных является выделение ключевых элементов из массива информации, а также логики взаимосвязанности этих элементов. Результатом такого упрощения является удобство получения и обработки информации конечным пользователем. Сложно отрицать, что современные технологии все больше замещают традиционные средства массовой информации. На видеохостингах люди могут в любой момент посмотреть практически любые интересующие их сюжеты, репортажи и фильмы на абсолютно любые темы. Интернет издания агрегируют самые свежие новости текущего дня. К тому же, пользователи теперь не только потребляют информацию, но и сами становятся авторами. Людям почти каждый день необходимо обрабатывать множество новостных заметок в интернет СМИ и постов в социальных сетях.[14] Для облегчения обработки и улучшения усваивания информации существует необходимость в улучшении её структуры, чему и способствуют, в том числе, решения задач по анализу данных.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В рамках проделанной работы была реализована модель для анализа наличия взаимосвязей между выделенными новостными трендами внутри социальной сети ’Одноклассники’. Предложенная система имеет большой потенциал для усовершенствований, в том числе для возможности работы в интерактивном режиме. За счет программной реализации существует возможность интегрирования предложенной модели в существующие сервисы. Немаловажным аспектом является наличие возможности для адаптации существующего решения к задачам по анализу данных в смежных областях.

Литература

[1] Ao Feng, James Allan. «Incident Threading for News Passages. ». CIKM’09, November 2-6, 2009, Hong Kong, China.
[2] Ao Feng and James Allan. «Finding and Linking Incidents in News. ». CIKM’07, November 6-8, 2007, Lisboa, Portugal.
[3] Bermudez Soto Jose Gregorio. «METHOD FOR MEASURING THE SEMANTIC-SIMILARITY OF TEXTUAL DOCUMENTS. «Izvestiya SFedU. Engineering Sciences, 2017.
[4] Congcong YangXiaodong ShiChih-Ping Wei. «Discovering Event Evolution Graphs From News Corpora «August 2009IEEE Transactions on Systems Man and Cybernetics - Part A Systems and Humans 39(4):850 - 863
[5] Erich Schubert, Michael Weiler, Hans-Peter Kriegel. «SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds. »KDD’14, August 24-27, 2014, New York, NY, USA.
[6] James AllanRon PapkaVictor Lavrenko. «On-Line New Event Detection and Tracking.«August 2017ACM SIGIR Forum 51(2):185-193.
[7] Ramesh Nallapati, Ao Feng, Fuchun Peng, James Allan. «Event Threading within News Topics. ». CIKM’04, November 8-13, 2004, Washington,DC,USA.
[8] Magnus Sahlgren. «The distributional hypothesis. Rivista di Linguistica 20.1 (2008), pp. 33-53.
[9] Malyutin E. A., Bugaichenko D. Y., Mishenin A. N. «Textual trends detection at OK.»Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, 2017, vol. 13, iss. 3, pp. 313-325. DOI: 10.21638/11701/spbu10.2017.308
[10] N. Neelova. «Investigating the lexical method of strings similarity computation based on preliminary processing.». 2009
[11] Kutuzov A., Kuzmenko E. «WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models». Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham.
[12] Kriukova A. V. «COMPUTING SEMANTIC SIMILARITY OF RUSSIAN TEXTS BY MEANS OF DKPRO SIMILARITY TOOL. ». Компьютерная лингвистика и вычислительные онтологии, 2017.
[13] С. Х. Г. Бермудес, С. У. Керимова. «О методе определения текстовой близости основанном на семантических классах. ». Электронный научный журнал «Инженерный вестник Дона», 2016.
[14] Воронкин Алексей Сергеевич. «Социальные сети: эволюция, структура, анализ.«Образовательные технологии и общество, 2014.

Скриншоты

Содержание с началом введения

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

ПРОБЛЕМЫ НАЦИОНАЛЬНОГО БРЕНДИНГА СОВРЕМЕННОЙ ИСПАНИИ
Магистерская диссертация, международные отношения. Язык работы: Русский. Цена: 4820 р. Год сдачи: 2017
Эволюция культурных связей Российской Федерации и Королевства Испания
Магистерская диссертация, международные отношения. Язык работы: Русский. Цена: 5550 р. Год сдачи: 2020
ОБРАЗОВАТЕЛЬНЫЕ ОБМЕНЫ КАК ИНСТРУМЕНТ ПУБЛИЧНОЙ ДИПЛОМАТИИ КИТАЯ
Магистерская диссертация, международные отношения. Язык работы: Русский. Цена: 4940 р. Год сдачи: 2017

Отслеживание взаимосвязей событий в новостном потоке

Тип работы

Бакалаврская работа

Предмет

программирование

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

38

Подобные работы

Логин
Пароль


Тип работы:	Предмет:	Язык работы: