Тип работы:
Предмет:
Язык работы:


СИСТЕМА ПРОГНОЗИРОВАНИЯ ПОПУЛЯРНОСТИ ПУБЛИКАЦИЙ В МЕДИАПРОСТРАНСТВЕ НА ОСНОВЕ ТЕХНОЛОГИИ ГЛУБОКОГО ОБУЧЕНИЯ

Работа №35160

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы80
Год сдачи2018
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
313
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
ВВЕДЕНИЕ 4
1 ПОСТАНОВКА ЗАДАЧИ 6
2 МЕТОДЫ ГЛУБОКОГО ПРИЛОЖЕНИЯ 7
2.1 Word2Vec 7
2.2 Рекуррентные нейронные сети 10
2.3 Управляемые рекуррентные нейроны 12
2.4 ELMo 13
3 ОБУЧАЮЩАЯ ВЫБОРКА 16
4 ЭКСПЕРИМЕНТАЛЬНЫЙ АНАЛИЗ 21
5 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СЕРВЕРА МАШИННОГО ОБУЧЕНИЯ 23
6 КЛИЕНТСКОЕ ПРИЛОЖЕНИЕ 26
6.1 WEB-интерфейс 26
6.2 Backend-сервер 31
6.2.1 Инструменты разработки 31
6.3 Структура приложения 37
6.4 Размещение приложения на удаленном сервере 39
ЗАКЛЮЧЕНИЕ 42
СПИСОК ЛИТЕРАТУРЫ 43
ПРИЛОЖЕНИЕ


В настоящее время активно развивается область машинного обучения. В частности - искусственные нейронные сети, применение которых позволило достичь высоких результатов при решении задач анализа изображений [1], обработки звуковой информации [2] и машинного перевода [3]. Высокий интерес представляет применение нейронных сетей в обработке естественно-языковых текстов. С использованием нейронных сетей были решены такие задачи, как извлечение именованных сущностей, анализ тональности, разрешение семантической многозначности, построение диалоговых систем [4-7].
Особый интерес представляет задача прогнозирования успеха каких-либо публикаций. Данная проблема в контексте анализа публикационной деятельности ученых, а также конкретные варианты ее решения были описаны в статьях [8-10]. Тем не менее, отсутствуют существенные результаты прогнозирования популярности какой-либо публикации в медиасфере, в то время как все большую известность приобретает направление социальной журналистики и такие платформы, как medium.com . Тысячи пользователей имеют возможность публиковать статьи и получить отклик на каждую из них. Несмотря на большое количество качественных статей в данном сервисе, большая доля публикуемого материала приходится на малоинформативный контент.
Целью настоящей работы является обеспечение возможности пользователям подобных сервисов получить определенную оценку вероятного успеха публикуемого ими материала. Данная оценка может быть получена с помощью моделей машинного обучения, учитывающих особенности успеха уже имеющихся статей. Для достижения данной цели были использованы современные модели нейронных сетей, показавших лучшие результаты в задачах обработки естественно-языковых текстов.
Результатом выполненной работы стал сервис me-prediction.ru , позволяющий определить вероятный успех статьи как непосредственно с сайта me- dium.com, так и для только что написанной и неопубликованной статьи.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В рамках данной работы был создан сервис прогнозирования популярности статьи в медиасфере на основе методов глубокого обучения. Сервис доступен по адресу me-prediction.ru, где каждый пользователь имеет возможность отправить статью на анализ.
Были протестированы методы обучения, основанные на моделях word2vec, рекуррентных нейронных сетей, моделях ELMo.
В дальнейшем предполагается улучшение работы сервиса путем обеспечения возможности гибкой смены алгоритмов обучения, а также интегрирования модуля работы с русским языком.



1. Wan J. et al. Deep learning for content-based image retrieval: A comprehensive study //Proceedings of the 22nd ACM international conference on Multimedia. - ACM, 2014. - С. 157-166.
2. Piczak K. J. Environmental sound classification with convolutional neural networks //Machine Learning for Signal Processing (MLSP), 2015 IEEE 25th International Workshop on. - IEEE, 2015. - С. 1-6.
3. Wu Y. et al. Google's neural machine translation system: Bridging the gap between human and machine translation //arXiv preprint arXiv:1609.08144. - 2016.
4. Huang Z., Xu W., Yu K. Bidirectional LSTM-CRF models for sequence tagging //arXiv preprint arXiv:1508.01991. - 2015.
5. Rosenthal S., Farra N., Nakov P. SemEval-2017 task 4: Sentiment analysis in Twitter //Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017). - 2017. - С. 502-518.
6. Raganato A., Bovi C. D., Navigli R. Neural sequence learning models for word sense disambiguation //Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. - 2017. - С. 1156-1167.
7. Zhang R. et al. Neural Coreference Resolution with Deep Biaffine Attention by Joint Mention Detection and Mention Clustering //arXiv preprint arXiv:1805.04893. - 2018.
8. van Dijk D., Manor O., Carey L. B. Publication metrics and success on the academic job market //Current Biology. - 2014. - Т. 24. - №. 11. - С. R516-R517.
9. Acuna D. E., Allesina S., Kording K. P. Future impact: Predicting scientific success //Nature. - 2012. - Т. 489. - №. 7415. - С. 201.
10. Laurance W. F. et al. Predicting publication success for biologists //BioSci- ence. - 2013. - Т. 63. - №. 10. - С. 817-823
11. Harris Z. S. Distributional structure //Word. - 1954. - Т. 10. - №. 2-3. - С. 146-162.
12. Mikolov T. et al. Distributed representations of words and phrases and their compositionality //Advances in neural information processing systems. - 2013. - С. 3111-3119.
13. Rong X. word2vec parameter learning explained //arXiv preprint arXiv:1411.2738. - 2014.
14. Rehurek Radim, Sojka Petr. Software framework for topic modelling with large corpora // In Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks / Citeseer. — 2010.
15. Elman J. L. Finding structure in time //Cognitive science. - 1990. - Т. 14. - №. 2. - С. 179-211.
16. Cho K. et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation //arXiv preprint arXiv:1406.1078. - 2014.
17. Hochreiter Sepp, Schmidhuber J'urgen. Long short-term memory // Neural computation. — 1997. — T. 9, №8. — С. 1735-1780
18. Peters M. E. et al. Deep contextualized word representations //arXiv preprint arXiv:1802.05365. - 2018.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ