Тип работы:
Предмет:
Язык работы:


Методы детектирования искусственных новостей

Работа №125599

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы31
Год сдачи2020
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
15
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 4
Глава 1. Обзор существующих решений 5
Глава 2. Реализация методов 6
2.1. Датасет[10] 6
2.2. Предварительная обработка данных 6
2.2.1 Удаление стоп-слов 6
2.2.2 Удаление чисел 7
2.2.3 Удаление иноязычных слов 7
2.2.4 Удаление знаков препинания и специальных символов 7
2.3. Распределение данных 8
2.3.1 Графики полярности настроения 8
2.3.2 Графики речевого распределения 9
2.3.3 Униграмма и биграмма 10
2.4. Pre-training models 11
2.4.1 Word2Vec 11
2.4.2 TF-IDF Vectoraizer 13
2.5. Classic machine learning based methods 14
2.5.1 SVM 14
2.5.2 Random Forest 16
2.6. Deep learning based methods 18
2.6.1 LSTMs (Long Short Term Memory networks) 18
2.6.2 Трансформеры 20
2.6.3 BERT 22
2.6.4 XLNet 24
Глава 3. Анализ результатов 26
Вывод 30
Список литературы 31

Появление новых информационных технологий привело к появлению множества новых способов потребления, таких как онлайн-покупки, муль­тимедийные развлечения, игры, реклама или обучение. В последние годы произошел отток пользователей из более традиционных средств массовой информации, таких как газеты, радио и телевидение, в новые форматы: соци­альные сети, YouTube, подкасты, онлайн-журналы, новостные приложения и т. д.. Основной причиной распада информационных средств является расту­щая благодаря Интернету возможность мгновенного и бесплатного доступа к широкому спектру источников информации, не говоря уже о многочис­ленных услугах, позволяющих делиться новостями с миллионами людей по всему миру. В результате СМИ начали реагировать на изменения. Некоторые, например, начали расставлять приоритеты своего присутствия в Интернете или решили начать использовать новые каналы распространения, такие как видео или подкасты. Большинство этих средств массовой информации реши­ли начать монетизацию своего контента с помощью рекламы, встроенной в их статьи, видео и т. д. Одним из наиболее частых методов является публи­кация статей с яркими заголовками и фотографиями, предназначенными для использования в социальных сетях (так называемые кликбейты), чтобы поль­зователи переходили на их сайты, таким образом максимизируя доходы таких СМИ. Однако такой подход может привести к опасным ситуациям. Большой объем информации, к которой люди получают доступ, обычно не проверяется и обычно считается достоверным. Именно в этот момент возникает термин поддельные новости.
В наши дни методы детектирования искусственных новостей развива­ются быстро, но это все еще очень сложная проблема, требующая дальней­шего изучения.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе выполнения данной работы были решены следующие задачи:
• Проведен обзор существующих решений
• Реализованы методы основанные на классических алгоритмах машин­ного обучения ( SVM, Random Forest)
• Реализованы методы основанные на глубоком обучении (LSTM, BERT, XLNet)
• Проанализировать полученные результаты
Наилучшая точность, которой удалось добиться - 97.7%. Лучше всего себя показала модель XLNet.


[1] Eugenio Tacchini, Gabriele Ballarin, Marco L. Della Vedova, Stefano Moret, and Luca de Alfaro. «Some like it hoax: Automated fake news detection in social networks.». 2017
[2] Nguyen Vo and Kyumin Lee. «The rise of guardians: Fact-checking url recommendation to combat fake news.». 2018
[3] Abhijnan Chakraborty, Bhargavi Paranjape, Sourya Kakarla, Niloy Ganguly. «Stop clickbait: Detecting and preventing clickbaits in online news media.». 2016
[4] Kai Shu, H. Russell Bernard, Huan Liu. «Studying fake news via network analysis: Detection and mitigation.». 2018
[5] Kyle Shaffer, Svitlana Volkova. «Separating facts from fiction: Linguistic models to classify suspicious and trusted news posts on twitter.». 2018
[6] Rashki Hannah, Choi Eunsol «Truth of varying shades: Analyzing language in fake news and political fact-checking.». 2017
[7] Federico Monti, Fabrizio Frasca, Davide Eynard, Damon Mannion, Michael M. Bronstein. «Fake news detection on social media using geometric deep learning.». 2019
[8] Junaed Younus Khan, Md. Tawkat Islam Khondaker, Anindya Iqbal, Sadia Afroz. «A benchmark study on machine learning methods for fake news detection.». 2019
[9] Yang Yang, Lei Zheng, Jiawei Zhang, Qingcai Cui, Zhoujun Li, Philip S. Yu. «Ti-cnn: Convolutional neural networks for fake news detection.». 2018
[10] https://www.kaggle.eom/c/fake-news
[11] N. Shazeer et al A. Vaswani «Attention is all you need.». 2017


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ