Несомненно, отличительной особенностью современного мира является постоянно увеличивающийся поток информации, непрерывно поступающей из разных источников. Одной из важных частей этого являются новости, которые приходит из разных источников, включая как традиционные СМИ, например, газеты, радио и телевидение, так и современные источники, такие как различные новостные сайты и социальные медиа. Отличительной особенностью является то, что в случае с социальными сетями авторами новостной повестки дня служат сами пользователи. Однако, парадоксальность ситуации заключается в том, что рост количества информации ведет к затруднению ее использования и снижению общего уровня информированности. Ведь увеличение темпов производства информации ведет, к так называемому, информационному шуму. В подобной ситуации возникает необходимость структурирования информации. Обобщение больших информационных потоков, которые непрерывно генерируются в средствах масс-медиа, требует новых подходов к их обработке. Кроме этого, есть еще несколько причин для развития данной области:
• получение новых знаний по определенному новостному событию;
• необходимость систематизации и упорядочивания знаний;
• акцентирование внимания на некоторых аспектах про какое-либо происшествие;
• представление информации в более наглядном и понятном виде.
Методы структурирования информации разнообразны. Причиной этого является множество способов ее представления и организации. В зависимости от целей, применяются различные технологии и методы структурирования.[13] Целью структурирования данных является выделение ключевых элементов из массива информации, а также логики взаимосвязанности этих элементов. Результатом такого упрощения является удобство получения и обработки информации конечным пользователем. Сложно отрицать, что современные технологии все больше замещают традиционные средства массовой информации. На видеохостингах люди могут в любой момент посмотреть практически любые интересующие их сюжеты, репортажи и фильмы на абсолютно любые темы. Интернет издания агрегируют самые свежие новости текущего дня. К тому же, пользователи теперь не только потребляют информацию, но и сами становятся авторами. Людям почти каждый день необходимо обрабатывать множество новостных заметок в интернет СМИ и постов в социальных сетях.[14] Для облегчения обработки и улучшения усваивания информации существует необходимость в улучшении её структуры, чему и способствуют, в том числе, решения задач по анализу данных.
В рамках проделанной работы была реализована модель для анализа наличия взаимосвязей между выделенными новостными трендами внутри социальной сети ’Одноклассники’. Предложенная система имеет большой потенциал для усовершенствований, в том числе для возможности работы в интерактивном режиме. За счет программной реализации существует возможность интегрирования предложенной модели в существующие сервисы. Немаловажным аспектом является наличие возможности для адаптации существующего решения к задачам по анализу данных в смежных областях.
[1] Ao Feng, James Allan. «Incident Threading for News Passages. ». CIKM’09, November 2-6, 2009, Hong Kong, China.
[2] Ao Feng and James Allan. «Finding and Linking Incidents in News. ». CIKM’07, November 6-8, 2007, Lisboa, Portugal.
[3] Bermudez Soto Jose Gregorio. «METHOD FOR MEASURING THE SEMANTIC-SIMILARITY OF TEXTUAL DOCUMENTS. «Izvestiya SFedU. Engineering Sciences, 2017.
[4] Congcong YangXiaodong ShiChih-Ping Wei. «Discovering Event Evolution Graphs From News Corpora «August 2009IEEE Transactions on Systems Man and Cybernetics - Part A Systems and Humans 39(4):850 - 863
[5] Erich Schubert, Michael Weiler, Hans-Peter Kriegel. «SigniTrend: Scalable Detection of Emerging Topics in Textual Streams by Hashed Significance Thresholds. »KDD’14, August 24-27, 2014, New York, NY, USA.
[6] James AllanRon PapkaVictor Lavrenko. «On-Line New Event Detection and Tracking.«August 2017ACM SIGIR Forum 51(2):185-193.
[7] Ramesh Nallapati, Ao Feng, Fuchun Peng, James Allan. «Event Threading within News Topics. ». CIKM’04, November 8-13, 2004, Washington,DC,USA.
[8] Magnus Sahlgren. «The distributional hypothesis. Rivista di Linguistica 20.1 (2008), pp. 33-53.
[9] Malyutin E. A., Bugaichenko D. Y., Mishenin A. N. «Textual trends detection at OK.»Vestnik of Saint Petersburg University. Applied Mathematics. Computer Science. Control Processes, 2017, vol. 13, iss. 3, pp. 313-325. DOI: 10.21638/11701/spbu10.2017.308
[10] N. Neelova. «Investigating the lexical method of strings similarity computation based on preliminary processing.». 2009
[11] Kutuzov A., Kuzmenko E. «WebVectors: A Toolkit for Building Web Interfaces for Vector Semantic Models». Ignatov D. et al. (eds) Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, Cham.
[12] Kriukova A. V. «COMPUTING SEMANTIC SIMILARITY OF RUSSIAN TEXTS BY MEANS OF DKPRO SIMILARITY TOOL. ». Компьютерная лингвистика и вычислительные онтологии, 2017.
[13] С. Х. Г. Бермудес, С. У. Керимова. «О методе определения текстовой близости основанном на семантических классах. ». Электронный научный журнал «Инженерный вестник Дона», 2016.
[14] Воронкин Алексей Сергеевич. «Социальные сети: эволюция, структура, анализ.«Образовательные технологии и общество, 2014.