ВВЕДЕНИЕ 3
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ МОДЕЛИРОВАНИЯ ПРОЦЕССОВ С РАСПРЕДЕЛЕНИЕМ ПУАССОНА 5
1.1 Распределение Пуассона и проблемы его моделирования 5
1.2 Проблема выделения пуассоновских трендов в задачах геомагнитной физики 8
1.3 Модели пуассоновский регрессии 14
1.4 Выводы к главе 1 16
ГЛАВА 2. АНАЛИЗ СИСТЕМАТИЧЕСКИХ ТРЕНДОВ С ИСПОЛЬЗОВАНИЕМ ИНС .. 17
2.1 Модели искусственных нейронных сетей для задач авторегрессии 17
2.2 Проблема оценки качества прогноза нелинейных пуассоновских моделей и способы ее
решения 22
2.3 Моделирование пуассоновского ряда и прогнозирование его динамики 25
2.4 Мера оценки качества прогноза на примере результата анализа модельных данных.. 28
2.5 Прогнозирование динамики тренда в пуассоновском поле 29
2.6 Выводы к главе 2 34
ГЛАВА 3. АНАЛИЗ СИСТЕМАТИЧЕСКИХ ТРЕНДОВ НА ПРИМЕРЕ РЯДА
ГЕОМАГНИТНОЙ АКТИВНОСТИ С ПРИМЕНЕНИЕМ МОДЕЛЕЙ ПУАССОНОВСКОЙ РЕГРЕССИИ 35
3.1 Предобработка ряда индекса Dst и формирование ряда количества геомагнитных бурь 35
3.2 Анализ тренда в временном ряду количества геомагнитных бурь с помощью моделей
пуассоновской регрессии 39
3.3 Мера оценки качества на примере анализа прогноза ряда количества геомагнитных бурь 40
3.4 Вывод к главе 3 43
ГЛАВА 4. АНАЛИЗ СИСТЕМАТИЧЕСКИХ ТРЕНДОВ В ЗАДАЧАХ КОМПЬЮТЕРНОЙ
ЛИНГВИСТИКИ 44
4.1 Проблема анализа объема лексикона 44
4.2 Корпус текстов Google Books Ngram и предварительная подготовка частотных словарей
русского и английского языка 45
4.3 Выделение систематических трендов в рядах частот употребления словоформ 50
4.4 Вероятностный метод оценки даты появления словоформы в лексиконе 55
4.5 Вероятностная модель для оценки динамики развития английского языка 58
4.6 Вывод к главе 4 61
ЗАКЛЮЧЕНИЕ 62
БЛАГОДАРНОСТИ 63
СПИСОК СОКРАЩЕНИЙ 64
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 65
Пуассоновские временные ряды и поля встречаются во многих научных и практических задачах. Однако в настоящее время для их анализа часто используют стандартные подходы. Поэтому задача развития методов анализа систематических трендов в пуассоновских рядах, учитывающих их статистические особенности, является актуальной.
Обзор большого числа публикаций показал, что подобные задачи часто встречаются в области солнечно-земной физики, а также компьютерной лингвистики. Изучение геомагнитной активности является важной частью солнечно-земной физики. Основными проявлениями геомагнитной активности являются сильные возмущения - магнитные бури. Основная проблема прогнозирования данных геомагнитной активности состоит в малом количестве события, отвечающих буре, и большом количестве магнитоспокойных дней. Также в приложении к задачам компьютерной лингвистике выявлено, что уточнение динамики развития лексикона требует применения подхода моделирования с учетом статистических особенностей ряда.
Целью работы является развитие методов анализа систематических трендов в пуассоновских временных рядах и случайных полях с использованием искусственных нейронных сетей. Для достижения поставленной цели были решены следующие задачи:
• провести обзор существующих подходов к анализу пуассоновских трендов в временных рядах и полях;
• разработать методику анализа данных с использованием искусственных нейронных сетей и с учетом статистических особенностей ряда, протестировать подход на модельных данных, подобрать оптимальную меру оценки качества методики;
• проанализировать эффективность предложенного подхода к задачам солнечно-земной физики (прогнозирование количества геомагнитных бурь);
В данной работе предложен подход построения моделей пуассоновской авторегрессии с использованием искусственных нейронных сетей с учетом закона распределения флуктуаций ряда. Для более точного анализа результатов была разработана новая мера оценки качества модели. Впервые построена нейросетевая модель прогноза количества геомагнитных бурь на несколько недель вперед. Предложена вероятностная модель для уточнения скорости словообразования. Показано, что скорость появления новых слов в английском языке завышена как минимум в 2 раза по сравнению с ранее опубликованными работами.
В результате работы было проведено развитие методов анализа систематических трендов в пуассоновских временных рядах и случайных полях с использованием искусственных нейронных сетей. В ходе работы были сделаны следующие выводы:
• проведен обзор существующих подходов к анализу пуассоновских трендов в временных рядах и полях, были выявлены достоинства и недостатки;
• разработана методика анализа данных с использованием искусственных нейронных сетей и с учетом статистических особенностей ряда. Для оценки качества получаемого прогноза подобрана оптимальная меру, основанная на анализе отношения СКО оцененных значений ряда. Данный подход протестирован на модельном пуассоновском временном ряду, выигрыш по сравнению со стандартным подходом составил 2.3%. Также подход был применен для анализа пуассоновского поля на примере поля количества звезд на участке неба;
• эффективность предложенного подхода была проанализирована на примере задач солнечно-земной физики для анализа временного ряда количества геомагнитных бурь из данных индекса Dst за период с 1964 г. по 2018 г. Выигрыш по сравнению со стандартным подходом прогнозирования, рассчитанный с помощью предложенной меры, составляет около 24%.
• эффективность предложенного подхода была проанализирована применительно к задаче компьютерной лингвистики: задаче оценки объема лексикона в языке в различные годы. С помощью пуассоновской линейной регрессии были уточнены частоты употребления словоформ в ранние годы. С помощью вероятностного подхода определено, что около 37% русских словоформ и около 34% английских словоформ, появившихся в корпусе в 1800 г., в лексиконе могли появиться ранее этого года. Также показано, что количество английских словоформ, появившихся в лексиконе в ранние года, превышает реальное число появившихся слов в лексиконе почти в 2 раза.
1. Пуассон С. Д. Исследования о вероятности приговоров в уголовных и гражданских делах. Перевод О. Б. Шейнина // Berlin. - 2013. - 330 c.
2. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. Справочное изд. - М.: Финансы и статистика, 1983. - 471 с.
3. Математическая энциклопедия / Под ред. Виноградова И. М. - Т. 4. - М.: Советская энциклопедия, 1979. - 1104 с.
4. Авакян С. В., Воронин Н. А., Дубаренко К. А. Влияние магнитных бурь на аварийность систем электроэнергетики, автоматики и связи // Научно-технические ведомости СПбГПУ. - 2012. - №3. - С. 154.
5. Khabarova O.V. Current Problems of Magnetic Storm Prediction and Possible Ways of Their Solving // Sun and Geosphere. - 2007. - V. 2. - P. 32-37.
6. Деминов М. Г. Ионосфера Земли // Пламенная гелиогеофизика. - Т. 2. - М.: ФИЗМАТЛИТ, 2008. - 560 с.
7. McKenna-Lawlor S.M.P. et al. Predicting interplanetary shock arrivals at Earth, Mars, and Venus: A real-time modeling experiment following the solar flares of 5-14 December 2006 // JOURNAL OF GEOPHYSICAL RESEARCH. - 2008. - V. 113. - 13 p.
8. Liu Y., Luhmann J. G., Muller-Mellin R., Schroeder P. C., Wang L., Lin R. P., Bale S. D., Li Y., Acuna M. H., Sauvaud J.-A. A Comprehensive View of the 2006 December 13 CME: From the Sun to Interplanetary Space. arXiv preprint arXiv:0802.2423. 2008.
9. Temerin M., Li X. Dst model for 1995-2002. // J. Geophys. Res. - 2006. - V. 111.
10. Siscoe G., McPherron R. L., Liemohn M. W., Ridley A. J., Lu G. Reconciling prediction algorithms for Dst // J. Geophys. Res. - 2005. - V.110.
11. Cid, C. et al. Connecting Sun and Heliosphere // Solar Wind 11 - SOHO 16 Workshop.
- 2005. - P. 116-119.
12. Eselevich V.G., Fainshtein V. G., Rudenko G. V., Eselevich M. V., Kashapova L. K. Forecasting the velocity of quasi-stationary solar wind and the intensity of geomagnetic disturbances produced by it // Cosmic Research. - 2009. - V. 47, P. 95-96.
13. Wing S. et al. Dawn-dust asymmetries, ion spectra, and sources in the northward interplanetary magnetic field plasma sheet //J. Geophys. Res. - 2005. - V. 110.
14. Pallocchia, G. et al. ANN prediction of the Dst index. // Mem. S.A.It. Suppl. - 2006.
- V. 9. - P. 120-122.
15. Johnson J.R., Wing S. Kp forecast models // J. Geophys. Res. - 2005. - V. 110.
16. Parnowski A.S. Regression modeling method of space weather prediction // Astrophysics and Space Science. - 2009. - V. 323. - P. 169-180.
17. Sugiura M. Hourly values of equatorial Dst for the IGY // Ann. Int. Geophys. Year. - 1964. - V. 35, P. 9-45.
18. Detman T. R., Vassiliadis D. Review of techniques for magnetic storm forecasting // Geophys. Monogr. Ser.. - 1997. - V. 98. - P. 253-266.
19. Winkelmann R. Count data models: econometric theory and an application to labor mobility // Springer-Verlag Berlin Heidelberg. - 1994. - V. 340.
20. Eselevich V.G., Fainshtein V.G. An Investigation of the Relationship between the Magnetic Storm Dst-index and Different Types of Solar Wind Streams // Annales Geophysicae. - 1993. - V. 8. - P. 678-684.
21. Gonzales W.D. et al. What is Geomagnetic Storm? // Geophys. Res. - 1994. - V. 4. - P. 5771-5792.
22. Podladchikova T. V., Petrukovich A. A. Extended geomagnetic storm forecast ahead of available solar wind measurements // SPACE WEATHER. - 2012. - V. 10.
23. Podladchikova T., Petrukovich A., Yermolaev Y. Geomagnetic storm forecasting service StormFocus: 5 years online // Journal of Space Weather and Space Climate. - 2018. - V.8. - 14 p.
24. Yongjoo Park, Jingyi Qing, Xiaoyang Shen, Barzan Mozafari. BlinkML: Efficient Maximum Likelihood Estimation with Probabilistic Guarantees // SIGMOD ’19. - 2019.
25. Pekina A, Maslennikova Y, Bochkarev V. Probability analysis of the vocabulary size dynamics using google books ngram corpus // CEUR Workshop Proceedings. - 2018. - V. 2268. - P. 202-207.
26. Rodrigo H., Tsokos C. Bayesian Modeling of Nonlinear Poisson Regression with Artificial Neural Networks. arXiv preprint arXiv:1810.10138. 2018.
27. Valdivia J. A., Sharma A. S. Papadopoulos Prediction of magnetic storms by nonlinear models // Geophysical Research Letters. - 1996. - V. 23. - P. 2899-2902.
28. Fallah N., Nourijelyani K., Eshraghian M. R., Gu H., Seyyedsalehi S. A Nonlinear Poisson regression using neural networks: a simulation study // Neural Comput & Applic. - 2009. - V. 18. - P.939-943.
29. Maslennikova Y., Bochkarev V., Voloskov D. Modelling of word usage frequency dynamics using artificial neural network // Journal of Physics: Conference Series. - 2014. - V. 490. - 5 p.
30. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural Networks. - 1989. - V. 2. - P. 359-366.
31. Zeiler M. D., Krishnan D., Taylor G. W., Fergus R. Deconvolutional Networks // 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR 2010. - 2010. - P. 2528-2535.
32. Потемкин В.Г., Медведев В.С. Нейронные сети. MATLAB 6. - Диалог-МИФИ, 2002. - 496 с.
33. Акулич И. Л. Математическое программирование в примерах и задачах. - М.: Высшая школа, 1986. - С. 298-310.
34. Leon Bottou. Online Learning and Stochastic Approximations // AT&T Labs— Research Red Bank. - 2018.
35. Николенко С.И., Кадурин А. А., Архангельская Е. О. Глубокое обучение. Погружение в мир нейронных сетей. - Питер, 2018. - 480 с.
36. Matthew D. Z. Adadelta: an adaptive learning rate method. arXiv preprint arXiv:1212.5701, 2012.
37. Kingma, D. P., Ba, J. L. Adam: a Method for Stochastic Optimization // International Conference on Learning Representations. - 2015. - С. 1-13.
38. Duchi, J., Hazan, E., Singer, Y. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization // Journal of Machine Learning Research. - 2011. - №12. - С. 21212159.
39. Интернет-ресурс: OMNI2 database, National Space Science Data Center, Space Physics Data Facility. URL: https://omniweb.gsfc.nasa.gov/form/dx1.html (дата обращения: 13.06.2019).
40. Интернет-ресурс: OED Online Homepage. URL: http://www.oed.com/ (дата обращения: 09.06.2019).
41. Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, Erez Lieberman Aiden. Quantitative Analysis of Culture Using Millions of Digitized Books. Science (Published online ahead of print: 12/16/2010).
42. Lin Y., Michel J.-B., Aiden E. L., Orwant J., Brockman W., Petrov S. Syntactic Annotations for the Google Books Ngram Corpus // Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. - 2012. - V. 2. - P. 169-174.
43. Michel J., Shen Y., Aiden A., Veres A., Gray M., The Google Books Team, Pickett J., Hoiberg D., Clancy D., Norvig P., Orwang J., Pinker S., Nowak M., Aiden E. Quantitative Analysis of Culture Using Millions of Digitized Books // Science. - 2011. - V. 331. - P. 176-182.
44. Масленникова Ю.С., Бочкарев В.В., Соловьев В.Д. Вероятностная модель для оценки объема лексикона по данным корпуса Google Books Ngram. // Труды международной конференции «Корпусная лингвистика - 2017». - 2017. - 8 с.
45. Интернет-ресурс: The ngram database , URL:
http://storage.googleapis.com/books/ngrams/books/datasetsv2.html (дата обращения: 13.06.19)
46. Pechenick E. Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution // PLoS ONE. - 2015. - V. 10. - 24 p.
47. Интернет-ресурс: Open Corpora Homepage. URL: http://opencorpora.org/. (дата обращения: 13.06.2019).
48. Интернет-ресурс: Multitran Homepage. URL: https://www.multitran.ru/ (дата обращения: 13.06.2019).
49. Jackson L. Digital Filters and Signal Processing // Boston: Kluwer Academic Publishers. - 1989. - P. 255-257.
50. Bochkarev, V.; Lerner, E.; Shevlyakova, A. Deviations in the Zipf and Heaps laws in natural languages // Journal of Physics: Conference Series. - 2014. - V. 490.