Тип работы:
Предмет:
Язык работы:


Разработка и исследование методов анализа тональности текстов в социальных и новостных медиаресурсах

Работа №84620

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы40
Год сдачи2016
Стоимость4360 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
115
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Обзор известных методов анализа тональности 6
1.1 Общий анализ мнений 6
1.2 Сложность анализа тональности текста 7
1.3 Классификация и подходы 7
1.3.1 Подход основанный на словарях 8
1.3.2 Языковые модели 8
1.3.3 Дискурс структуры и семантики 9
1.4 Методы классификации 9
1.4.1 Наивный байесовский классификатор 11
1.4.2 Метод опорных векторов 11
1.4.3 Ансамбль алгоритмов классификации 12
1.4.4 Искусственные нейронные сети 13
Глава 2. Глубокие нейронные сети для двуязычного анализа тональности текста 15
2.1 Обзор литературы и перспектив 15
2.1.1 Основы нейронных сетей: метод обратного
распространения ошибки 15
2.1.2 Глубокое обучение и подготовка сетей без учителя 18
2.1.3 Сверточные нейронные сети 19
2.1.4 Реккурентные нейронные сети 20
2.1.5 Другие архитектуры реккурентных нейронных сетей ...21
2.2 Основные идеи предлагаемого подхода 22
2.3 Двуязычные векторные представления слов 23
2.3.1 Существующие методы создания двуязычных векторных
представлений слов 23
2.3.2 Новый метод создания двуязычных векторных
представлений слов 25
2.4 LSTM модель для анализа тональности текста 26
2.4.1 Архитектура 26
2.4.2 Регуляризация 26
Глава 3. Экспериментальная оценка 28
3.1 Подготовка к экспериментам 28
3.1.1 Метрики оценивания 28
3.1.2 Сбор и предварительная обработка данных 29
3.1.3 Настройка модели 30
3.2 Построение двуязычных векторов 31
3.2.1 Линейные трансформации 31
3.2.2 Предлагаемый метод 32
3.3 Результаты 32
3.3.1 Английский - Русский 32
3.3.2 Русский - Казахский 33
Заключение 35
Список литературы

В диссертационной работе исследуются проблема анализа тональности текста в различных медиаресурсах, такие как новости и социальные сети. Анализ тональности (sentiment analysis англ.) - это процесс автоматического определения тональности текста написанного на естественном языке. Этот термин достаточно широкого охвата и зависит, как правило, от контекста его использования. В данной работе нас интересует определенное подмножество настроения - мнения. Таким образом проблемой исследования является определение общего мнения, выраженные в текстах, написанных на естественном языке.
Анализ тональности становится все более актуальной темой. Потребители используют Интернет в качестве консультативного органа, влияющего на их мнение по интересующим их вопросам. Информация, полученная из определенных высказываний в интернете, позволяет реагировать на негативные настроения и отслеживать позитивные. Обработка этих данных вручную является очень сложной, если не невозможной задачей. С ростом интернета и особенно социальных медиа, все больше и больше внимания уделяется автоматическому анализу тональности во всех видах источников.
С тех пор как социальные медиа начали охватывать практически весь мир, люди постоянно высказывают мнения в интернете на сотнях языков. Социальные медиа производят значительную часть информации присутствующей в интернете. Так, например, Твиттер производит 500 миллионов сообщений в день, в среднем 350 000 твитов в минуту. Легкость, с которой такой твит может разместить любой, стимулирует людей распространять свои мнения. Этот впечатляющий поток информации требует оперативно реагировать на изменения в настроениях или растущие тренды.
Хотя тема анализ тональности текста была уже достаточно хорошо исследована, довольно мало было проведено исследований в области двуязычного/много- язычного анализа. А также, эта тема практически никак не представлена для казахского языка. Таким образом, в данной работе перед нами стоит задача исследования автоматической обработки мнений для разных языков в едином потоке неструктурированной информации.
Целью данной работы является исследование существующих методов анализа тональности текста, разработка новых методов для анализа тональности, в частности, для казахского языка, и проверка выдвинутых гипотез на предмет обощаемости.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Исследовать существующие методы анализа тональности текста.
2. Исследовать существующие методы многоязычной обработки текста.
3. Разработать метод многоязычного анализа тональности текста.
4. Проверить выдвинутые гипотезы экспериментально.
Научная новизна:
1. Был предложен метод двуязычного анализа тональности текста, который не требует предварительной сложной обработки текста.
2. Впервые была построена модель анализа тональности текста для казахского языка.
Объем и структура работы. Диссертация состоит из введения, трех глав и заключения. Полный объём диссертации составляет 40 страниц, включая 12 рисунков и 4 таблицы. Список литературы содержит 60 наименований.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Основные результаты работы заключаются в следующем.
1. Был проведен обзор существующих методов анализа тональности текста.
2. Был построен baseline в анализе тональности текста для казахского языка.
3. Был предложен и экспериментально исследован новый метод генерации двуязычных векторных представлений слов.
4. Был предложен и экспериментально исследован новый метод двуязычного анализа тональности текста.
Предложенный метод может быть использован для анализа настроений в другом языке, который не имеет достаточного количества размеченных корпусов. Для этого исследования достаточно иметь только словари для перевода слов. Также предложенная модель может быть использована для создания или расширения размеченных по тональности корпусов, например, в казахском языке. В качестве будущей работы, автору хотелось бы реализовать предложенный метод на основе другой архитектуры нейронной сети, например, сверточные сети, описанные дос Сантосом в работе [14]. Кроме того, проверить возможность применения нашей модели совместно с методами активного обучения.
В заключение автор выражает благодарность и большую признательность научному руководителю Иванову В.В. за поддержку, помощь, обсуждение результатов и научное руководство.



1. Pang B., Lee L. Opinion mining and sentiment analysis // Foundations and trends in information retrieval. — 2008. — Т. 2, 1-2. — С. 1—135.
2. Pang B., Lee L., Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques // Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. — Association for Computational Linguistics. 2002. — С. 79—86.
3. Dave K., Lawrence S., Pennock D. M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews // Proceedings of the 12th international conference on World Wide Web. — ACM. 2003. — С. 519— 528.
4. Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews / J.-C. Na [и др.] // Advances in Knowledge Organization. — 2004. — Т. 9. — С. 49—54.
5. Bautin M., Vijayarenu L., Skiena S. International Sentiment Analysis for News and Blogs. // ICWSM. — 2008.
6. Godbole N., Srinivasaiah M., Skiena S. Large-Scale Sentiment Analysis for News and Blogs. // ICWSM. — 2007. — Т. 7, № 21. — С. 219—222.
7. Turney P. D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews // Proceedings of the 40th annual meeting on association for computational linguistics. — Association for Computational Linguistics. 2002. — С. 417—424.
8. Mohammad S. M., Kiritchenko S., Zhu X. NRC-Canada: Building the state-of- the-art in sentiment analysis of tweets // arXiv preprint arXiv:1308.6242. —
2013.
9. Das S. R., Chen M. Y. Yahoo! for Amazon: Sentiment extraction from small talk on the web // Management Science. — 2007. — Т. 53, № 9. — С. 1375— 1388.
10. Bonev B., Ramirez-Sanchez G., Rojas S. O. Opinum: statistical sentiment analysis for opinion classification // Proceedings of the 3rd Workshop in Computational Approaches to Subjectivity and Sentiment Analysis. — Association for Computational Linguistics. 2012. — С. 29—37.
11. Automatically assessing review helpfulness / S.-M. Kim [и др.] // Proceedings of the 2006 Conference on empirical methods in natural language processing. — Association for Computational Linguistics. 2006. — С. 423—430.
12. Mining sentiments from tweets / A. Bakliwal [и др.] // Proceedings of the WASSA. — 2012. — Т. 12.
13. Mitchell T. M. Machine learning // Boston et al. — 1997.
14. Santos C. N. dos, Gatti M. Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts. // COLING. — 2014. — С. 69—78.
15. McCulloch W. S., Pitts W. A logical calculus of the ideas immanent in nervous activity // The bulletin of mathematical biophysics. — 1943. — Т. 5, № 4. — С. 115—133.
16. Rosenblatt F. The perceptron: a probabilistic model for information storage and organization in the brain. // Psychological review. — 1958. — Т. 65, № 6. — С. 386.
17. Rosenblatt F. Principles of neurodynamics.
18. Graves A. Supervised sequence labelling. — Springer, 2012.
19. Bishop C. M. Pattern Recognition // Machine Learning. — 2006.
20. Schmidhuber J. Deep learning in neural networks: An overview // Neural Networks. — 2015. — Т. 61. — С. 85—117.
21. Werbos P. J. Applications of advances in nonlinear sensitivity analysis // System modeling and optimization. — Springer, 1982. — С. 762—770.
22. Speelpenning B. Compiling fast partial derivatives of functions given by algorithms: тех. отч. / Illinois Univ., Urbana (USA). Dept. of Computer Science. — 1980.
23. Linnainmaa S. The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors // Master’s Thesis (in Finnish), Univ. Helsinki. — 1970. — С. 6—7.
24. Parker D. B. Learning logic.
25. LeCun Y. Une procedure d’apprentissage pour reseau a seuil asymmetrique (a Learning Scheme for Asymmetric Threshold Networks).
26. A theoretical framework for back-propagation / Y. Le Cun [и др.] // The Connectionist Models Summer School. Т. 1. — 1988. — С. 21—28.
27. Hochreiter S. Untersuchungen zu dynamischen neuronalen Netzen // Master’s thesis, Institut fur Informatik, Technische Universitat, Munchen. — 1991.
28. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies / S. Hochreiter [и др.]. — 2001.
29. Ballard D. H. Modular Learning in Neural Networks. // AAAI. — 1987. — С. 279—284.
30. Hinton G. E. Connectionist learning procedures // Artificial intelligence. — 1989. — Т. 40, № 1. — С. 185—234.
31. Kim Y. Convolutional neural networks for sentence classification // arXiv preprint arXiv:1408.5882. — 2014.
32. Elman J. L. Finding structure in time // Cognitive science. — 1990. — Т. 14, № 2. — С. 179—211.
33. Jordan M. I. Attractor dynamics and parallellism in a connectionist sequential machine.
34. LSTM: A search space odyssey / K. Greff [и др.] // arXiv preprint arXiv:1503.04069. — 2015.
35. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. — 1997. — Т. 9, № 8. — С. 1735—1780.
36. Gers F. A., Schmidhuber J. Recurrent nets that time and count // Neural Networks, 2000. IJCNN 2000, Proceedings of the IEEE-INNS-ENNS International Joint Conference on. Т. 3. — IEEE. 2000. — С. 189—194.
37. Gers F. A., Schmidhuber J., Cummins F. Learning to forget: Continual prediction with LSTM // Neural computation. — 2000. — Т. 12, № 10. — С. 2451—2471.
38. Olah C. Understanding LSTM Networks. — Авг. 2015. — URL:http://colah.github.io/posts/2015-08-Understanding-LSTMs.
39. Learning phrase representations using RNN encoder-decoder for statistical machine translation / K. Cho [и др.] // arXiv preprint arXiv:1406.1078. —
2014.
40. Empirical evaluation of gated recurrent neural networks on sequence modeling / J. Chung [и др.] // arXiv preprint arXiv:1412.3555. — 2014.
41. Boiy E., Moens M.-F. A machine learning approach to sentiment analysis in multilingual Web texts // Information retrieval. — 2009. — Т. 12, № 5. — С. 526—558.
42. Tromp E. Multilingual sentiment analysis on social media // Master’s Theisis. Department of Mathematics and Computer Science, Eindhoven University of Technology. — 2011.
43. Neural probabilistic language models / Y. Bengio [и др.] // Innovations in Machine Learning. — Springer, 2006. — С. 137—186.
44. Collobert R., Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning // Proceedings of the 25th international conference on Machine learning. — ACM. 2008. — С. 160—167.
45. Efficient estimation of word representations in vector space / T. Mikolov [и др.] // arXiv preprint arXiv:1301.3781. — 2013.
46. Pennington J., Socher R., Manning C. D. Glove: Global Vectors for Word Representation. // EMNLP. Т. 14. — 2014. — С. 1532—1543.
47. Deeplearningfj Word2Vec. — Июнь 20201615. — URL:http://deeplearning4j.org/word2vec.
48. Bilingual Word Embeddings for Phrase-Based Machine Translation. / W. Y. Zou [и др.] // EMNLP. — 2013. — С. 1393—1398.
49. Introduction to information retrieval. Т. 1 / C. D. Manning, P. Raghavan, H. Schutze [и др.]. — Cambridge university press Cambridge, 2008.
50. Vulic I., Moens M.-F. Bilingual word embeddings from non-parallel document- aligned data applied to bilingual lexicon induction // Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (ACL 2015). — ACL. 2015.
51. Deep multilingual correlation for improved word embeddings / A. Lu [и др.] // Proceedings of NAACL. — 2015.
52. Tieleman T., Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude // COURSERA: Neural Networks for Machine Learning. — 2012. — Т. 4. — С. 2.
53. RMSProp and equilibrated adaptive learning rates for non-convex optimization / Y. N. Dauphin [и др.] // arXiv preprint arXiv:1502.04390. —
2015.
54. Dropout: A simple way to prevent neural networks from overfitting / N. Srivastava [и др.] // The Journal of Machine Learning Research. — 2014. — Т. 15, № 1. — С. 1929—1958.
55. Zaremba W., Sutskever I., Vinyals O. Recurrent neural network regularization // arXiv preprint arXiv:1409.2329. — 2014.
56. Go A., Bhayani R., Huang L. Twitter sentiment classification using distant supervision // CS224N Project Report, Stanford. — 2009. — Т. 1. — С. 12.
57. Rubtsova Y. V., Zagorulko Y. A. An approach to construction and analysis of a corpus of short Russian texts intended to train a sentiment classifier // The Bulletin of NCC. — 2014. — Т. 37. — С. 107—116.
58. Assembling the Kazakh Language Corpus. / O. Makhambetov [и др.] // EMNLP. — 2013. — С. 1022—1031.
59. Chollet F. Keras: Theano-based deep learning library // Code: https://github. com/fchollet. Documentation: http://keras. io. — 2015.
60. Theano: a CPU and GPU math expression compiler / J. Bergstra [и др.] // Proceedings of the Python for scientific computing conference (SciPy). Т. 4. — Austin, TX. 2010. — С. 3.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ