Введение 5
1 Финансовый рынок 6
1.1 Определение 6
1.2 Структура 7
1.3 Участники 8
2 Интеллектуальный анализ текста 9
2.1 Процесс интеллектуального анализа текста 10
2.1.1 Предварительная обработка текста 11
2.1.2 Преобразование текста 12
2.1.3 Поиск признаков 12
2.1.4 Методы анализа текста 12
2.1.5 Интерпретация и оценка 12
2.2 Области применения интеллектуального анализа текста 13
2.2.1 Извлечение информации 13
2.2.2 Информационный поиск 13
2.2.3 Обработка естественного языка 13
2.2.4 Интеллектуальный анализ данных 14
3 Обзор существующих инструментов 15
3.1 Natural Language Toolkit 15
3.2 Pymorphy2 15
3.3 Томита-парсер 16
3.4 Яндекс.Спеллер 16
3.5 OntosMiner 16
4 Программная часть 17
4.1 Постановка задачи 17
4.2 Описание 17
4.3 Используемые инструменты 18
4.4 Структура программы 19
4.5 Работа программы 19
4.5.1 Предварительная обработка 20
4.5.2 Построение модели 23
4.5.3 Обучение, тестирование, предсказание 24
4.6 Запуск программы 25
5 Результаты 26
5.1 Подбор параметров 26
5.2 Примеры оцененных новостей 27
5.3 Рекомендации по увеличению эффективности 28
Заключение 30
Список литературы 31
Приложение A Исходный код метода downloadNews 32
Приложение B Исходный код метода downloadStocks 33
Приложение C Исходный код метода stem 34
Приложение D Исходный код метода connect 35
Приложение E Исходный код метода fit 36
Приложение F Словарь «стоп-слов» 37
Приложение G Пример обработки текста новости 38
Приложение H Пример просто анализируемых текстов новостей 39
Приложение I Пример трудно анализируемых текстов новостей 40
Не смотря на то, что с каждым годом происходит увеличение доли цифровой информации по отношению к бумажной, остается проблема работы с этими данными. Дело в том, что большинство такой информации является неструктурированной, а следовательно на ее обработку требуется достаточно много времени и человеческих ресурсов. Целью данной работы является повышение активности работы трейдеров за счет автоматического семантического анализа текста в рамках ограниченных временных ресурсов.
В работе будут рассмотрены основные определения, связанные с финансовым рынком (Раздел 1); базовая теория, касающаяся интеллектуального анализа текста (Раздел 2); существующие решения (Раздел 3) и представлен результат работы в виде программы, осуществляющей анализ новостных публикаций с возможностью последующего предсказания изменения стоимости акций (Раздел 4).
В данной работе представлена программа, позволяющая автоматически анализировать новостные публикации компаний в соответствии с ценами их акций в соответствующие временные промежутки. Кроме того, программа имеет хорошую точность в предсказании изменения стоимости акций после публикации определенной группы новостей. Полученный результат может быть расширен (за счет модульной архитектуры) на любое число компаний и новостных источников. Также результат данной работы может быть использован в качестве основы для разработки более крупных систем финансового анализа.
[1] Chollet Francois et al. Keras.— https://github.com/fchollet/ keras. — 2015.
[2] Loper E. Bird S. NLTK: The Natural Language Toolkit // Proceedings of the ACL-02 Workshop on Effective Tools and Methodologies for Teaching Natural Language Processing and Computational Linguistics • Volume 1.— ETMTNLP ’02.— Stroudsburg, PA, USA : Association for Computational Linguistics, 2002. — P. 63-70.
[3] M. Korobov. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. — Springer International Publishing, 2015. — Vol. 542 of Communications in Computer and Information Science. — P. 320-332.
[4] S. Hochreiter, J. Schmidhuber. Long short-term memory // Neural computation. — 1997.— Vol. 9, no. 8. —P. 1735-1780.
[5] Srivastava N. Hinton G. Krizhevsky A., I. Sutskever. Dropout: a simple way to prevent neural networks from overfitting. // Journal of Machine Learning Research. — 2014. — Vol. 15, no. 1. — P. 1929-1958.
[6] Sumathy K. L. Chidambaram M. Text Mining: Concepts, Applications, Tools and Issues — An Overview // International Journal of Computer Applications. — 2013. — October. — Vol. 80, no. 4. — P. 29-32.
[7] V.P. Romanov. Information technology modeling of financial markets - (Applied Information Technology) / Informatsionnye tekhnologii modelirovaniya finansovykh rynkov - (”Prikladnye informatsionnye tekhnologii”). — Finansy i statistika, 2010. — ISBN: 5279034444.