Тип работы:
Предмет:
Язык работы:


Отслеживание взаимосвязей событий в новостном потоке

Работа №125966

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы34
Год сдачи2019
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
33
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 7
Глава 1. Существующие решения 9
1.1. Общие концепции 9
1.2. Тематическое моделирование 9
1.2.1 Вероятностный латентный семантический анализ 11
1.2.2 Латентное размещение Дирихле 11
1.3. Дистрибутивная семантика 12
1.3.1 Латентно-семантический анализ (ЛСА) 13
Глава 2. Построение математической модели 15
2.1. Основные понятия 15
2.2. Критерии наличия взаимосвязей 15
2.3. Векторные модели 17
2.4. Функции сходства 18
2.5. Временная зависимость 19
2.6. Удаление слабых зависимостей 21
2.7. Удаление сквозных зависимостей 22
Глава 3. Практическая реализация 23
3.1. Описание датасета 23
3.2. Программные компоненты 23
3.3. Ход программной реализации 26
3.4. Полученные результаты 28
Выводы 31
Заключение 32
Список литературы 33

Несомненно, отличительной особенностью современного мира явля­ется постоянно увеличивающийся поток информации, непрерывно посту­пающей из разных источников. Одной из важных частей этого являются новости, которые приходит из разных источников, включая как традици­онные СМИ, например, газеты, радио и телевидение, так и современные источники, такие как различные новостные сайты и социальные медиа. Отличительной особенностью является то, что в случае с социальными се­тями авторами новостной повестки дня служат сами пользователи. Одна­ко, парадоксальность ситуации заключается в том, что рост количества информации ведет к затруднению ее использования и снижению общего уровня информированности. Ведь увеличение темпов производства инфор­мации ведет, к так называемому, информационному шуму. В подобной си­туации возникает необходимость структурирования информации. Обобще­ние больших информационных потоков, которые непрерывно генерируют­ся в средствах масс-медиа, требует новых подходов к их обработке. Кроме этого, есть еще несколько причин для развития данной области:
• получение новых знаний по определенному новостному событию;
• необходимость систематизации и упорядочивания знаний;
• акцентирование внимания на некоторых аспектах про какое-либо про­исшествие;
• представление информации в более наглядном и понятном виде.
Методы структурирования информации разнообразны. Причиной этого яв­ляется множество способов ее представления и организации. В зависимости от целей, применяются различные технологии и методы структурирования.[13] Целью структурирования данных является выделение ключевых элемен­тов из массива информации, а также логики взаимосвязанности этих эле­ментов. Результатом такого упрощения является удобство получения и об­работки информации конечным пользователем. Сложно отрицать, что со­временные технологии все больше замещают традиционные средства мас­совой информации. На видеохостингах люди могут в любой момент посмот­реть практически любые интересующие их сюжеты, репортажи и фильмы на абсолютно любые темы. Интернет издания агрегируют самые свежие новости текущего дня. К тому же, пользователи теперь не только потреб­ляют информацию, но и сами становятся авторами. Людям почти каждый день необходимо обрабатывать множество новостных заметок в интернет СМИ и постов в социальных сетях.[14] Для облегчения обработки и улуч­шения усваивания информации существует необходимость в улучшении её структуры, чему и способствуют, в том числе, решения задач по анализу данных.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках проделанной работы была реализована модель для анализа наличия взаимосвязей между выделенными новостными трендами внутри социальной сети ’Одноклассники’. Предложенная система имеет большой потенциал для усовершенствований, в том числе для возможности рабо­ты в интерактивном режиме. За счет программной реализации существует возможность интегрирования предложенной модели в существующие сер­висы. Немаловажным аспектом является наличие возможности для адап­тации существующего решения к задачам по анализу данных в смежных областях.


[1] Ao Feng, James Allan. «Incident Threading for News Passages. ». CIKM’09, November 2-6, 2009, Hong Kong, China.
[2] Ao Feng and James Allan. «Finding and Linking Incidents in News. ». CIKM’07, November 6-8, 2007, Lisboa, Portugal.
[3] Bermudez Soto Jose Gregorio. «METHOD FOR MEASURING THE SEMANTIC-SIMILARITY OF TEXTUAL DOCUMENTS. «Izvestiya SFedU. Engineering Sciences, 2017.
[4] Congcong YangXiaodong ShiChih-Ping Wei. «Discovering Event Evolution Graphs From News Corpora «August 2009IEEE Transactions on Systems Man and Cybernetics - Part A Systems and Humans 39(4):850 - 863
[5] Erich Schubert, Michael Weiler, Hans-Peter Kriegel. «SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds. »KDD’14, August 24-27, 2014, New York, NY, USA.
[6] James AllanRon PapkaVictor Lavrenko. «On-Line New Event Detection and Tracking.«August 2017ACM SIGIR Forum 51(2):185-193.
[7] Ramesh Nallapati, Ao Feng, Fuchun Peng, James Allan. «Event Threading within News Topics. ». CIKM’04, November 8-13, 2004, Washington,DC,USA.
[8] Magnus Sahlgren. «The distributional hypothesis. Rivista di Linguistica 20.1 (2008), pp. 33-53.
[9] Malyutin E. A., Bugaichenko D. Y., Mishenin A. N. «Textual trends detection at OK.»Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, 2017, vol. 13, iss. 3, pp. 313-325. DOI: 10.21638/11701/spbu10.2017.308
[10] N. Neelova. «Investigating the lexical method of strings similarity computation based on preliminary processing.». 2009
[11] Kutuzov A., Kuzmenko E. «WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models». Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham.
[12] Kriukova A. V. «COMPUTING SEMANTIC SIMILARITY OF RUSSIAN TEXTS BY MEANS OF DKPRO SIMILARITY TOOL. ». Компьютерная лингвистика и вычислительные онтологии, 2017.
[13] С. Х. Г. Бермудес, С. У. Керимова. «О методе определения тексто­вой близости основанном на семантических классах. ». Электронный научный журнал «Инженерный вестник Дона», 2016.
[14] Воронкин Алексей Сергеевич. «Социальные сети: эволюция, структу­ра, анализ.«Образовательные технологии и общество, 2014.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ