Появление новых информационных технологий привело к появлению множества новых способов потребления, таких как онлайн-покупки, мультимедийные развлечения, игры, реклама или обучение. В последние годы произошел отток пользователей из более традиционных средств массовой информации, таких как газеты, радио и телевидение, в новые форматы: социальные сети, YouTube, подкасты, онлайн-журналы, новостные приложения и т. д.. Основной причиной распада информационных средств является растущая благодаря Интернету возможность мгновенного и бесплатного доступа к широкому спектру источников информации, не говоря уже о многочисленных услугах, позволяющих делиться новостями с миллионами людей по всему миру. В результате СМИ начали реагировать на изменения. Некоторые, например, начали расставлять приоритеты своего присутствия в Интернете или решили начать использовать новые каналы распространения, такие как видео или подкасты. Большинство этих средств массовой информации решили начать монетизацию своего контента с помощью рекламы, встроенной в их статьи, видео и т. д. Одним из наиболее частых методов является публикация статей с яркими заголовками и фотографиями, предназначенными для использования в социальных сетях (так называемые кликбейты), чтобы пользователи переходили на их сайты, таким образом максимизируя доходы таких СМИ. Однако такой подход может привести к опасным ситуациям. Большой объем информации, к которой люди получают доступ, обычно не проверяется и обычно считается достоверным. Именно в этот момент возникает термин поддельные новости.
В наши дни методы детектирования искусственных новостей развиваются быстро, но это все еще очень сложная проблема, требующая дальнейшего изучения.
В ходе выполнения данной работы были решены следующие задачи:
• Проведен обзор существующих решений
• Реализованы методы основанные на классических алгоритмах машинного обучения ( SVM, Random Forest)
• Реализованы методы основанные на глубоком обучении (LSTM, BERT, XLNet)
• Проанализировать полученные результаты
Наилучшая точность, которой удалось добиться - 97.7%. Лучше всего себя показала модель XLNet.
[1] Eugenio Tacchini, Gabriele Ballarin, Marco L. Della Vedova, Stefano Moret, and Luca de Alfaro. «Some like it hoax: Automated fake news detection in social networks.». 2017
[2] Nguyen Vo and Kyumin Lee. «The rise of guardians: Fact-checking url recommendation to combat fake news.». 2018
[3] Abhijnan Chakraborty, Bhargavi Paranjape, Sourya Kakarla, Niloy Ganguly. «Stop clickbait: Detecting and preventing clickbaits in online news media.». 2016
[4] Kai Shu, H. Russell Bernard, Huan Liu. «Studying fake news via network analysis: Detection and mitigation.». 2018
[5] Kyle Shaffer, Svitlana Volkova. «Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter.». 2018
[6] Rashki Hannah, Choi Eunsol «Truth of varying shades: Analyzing language in fake news and political fact-checking.». 2017
[7] Federico Monti, Fabrizio Frasca, Davide Eynard, Damon Mannion, Michael M. Bronstein. «Fake news detection on social media using geometric deep learning.». 2019
[8] Junaed Younus Khan, Md. Tawkat Islam Khondaker, Anindya Iqbal, Sadia Afroz. «A benchmark study on machine learning methods for fake news detection.». 2019
[9] Yang Yang, Lei Zheng, Jiawei Zhang, Qingcai Cui, Zhoujun Li, Philip S. Yu. «Ti-cnn: Convolutional neural networks for fake news detection.». 2018
[10] https://www.kaggle.eom/c/fake-news
[11] N. Shazeer et al A. Vaswani «Attention is all you need.». 2017