РЕФЕРАТ ..................................................................................................... 10
Введение ....................................................................................................... 14
Описание используемых методов ............................................................. 16
1.1. Метод главных компонент .............................................................. 16
1.1.1. Подготовка данных ...................................................................
16
1.1.2. Алгоритм метода главных компонент .................................... 17
1.1.3. Задача выбора количества главных компонент ..................... 19
1.1.4. Оценка результатов метода главных компонент ................... 20
1.1.5. Применение алгоритма .............................................................
21
1.2. Ядерный метод главных компонент .............................................. 22
1.3. Самоорганизующиеся карты........................................................... 24
1.3.1. Общее описание ........................................................................ 24
1.3.2. Процесс конкуренции ...............................................................
26
1.3.3. Процесс кооперации ................................................................. 26
1.3.4. Процесс адаптации ....................................................................
28
1.3.5. Краткое описание алгоритма SOM ......................................... 30
1.3.6. Алгоритм KBATCH .................................................................. 31
1.3.7. Сходимость и упорядочивание карты самоорганизации ...... 31
1.3.8. Оценка качества карты ............................................................. 321.3.9. Визуализация карты ..................................................................
34
1.4. ViSOM ............................................................................................... 37
1.4.1. Общие сведения ........................................................................ 37
1.4.2. Алгоритм ViSOM ......................................................................
38
1.4.3. Некоторые разъяснения ............................................................
39
1.4.4. Проекция точек на сетку .......................................................... 40
1.5. gViSOM ............................................................................................. 43
1.5.1. Алгоритм ViSOM ......................................................................
43
1.5.2. Рост сетки................................................................................... 45
Реализация программной системы ............................................................
45
2.1. Техническое задание ........................................................................ 45
2.1.1. Работа с данными ...................................................................... 46
2.1.2. Метод главных компонент ....................................................... 46
2.1.3. Самоорганизующиеся карты ................................................... 48
2.1.4. ViSOM ........................................................................................
49
2.1.5. gViSOM ......................................................................................
50
2.2. Программная реализация ................................................................ 51
2.2.1. Класс Vector ...............................................................................
51
2.2.2. Класс Neuron ..............................................................................
522.2.3. Класс Net ....................................................................................
53
2.2.4. Класс LineNet............................................................................. 53
2.2.5. Класс TwoDimensionalNet ........................................................ 54
2.2.6. Класс SOM .................................................................................
55
2.2.7. Класс ViSOM .............................................................................
57
2.2.8. Класс gViSOM ...........................................................................
57
2.2.9. Класс Variable ............................................................................
58
2.2.10. Класс Data ................................................................................ 58
2.2.11. Класс PCA ................................................................................
58
2.2.12. Класс PythonConnector ............................................................
59
2.2.13. Класс PlotSelection .................................................................. 59
2.2.14. Класс RowPlotSelection ...........................................................
60
2.2.15. Класс KernelPCAPlotSelection ............................................... 60
2.2.16. Класс SomPlotSelection ...........................................................
60
2.2.17. Класс FileLoader ...................................................................... 60
2.2.18. Класс ColorCreator .................................................................. 60
2.2.19. Класс ColoredPlot .................................................................... 61
2.2.20. Класс MapView ........................................................................
61
2.2.21. Класс NamesForm ....................................................................
612.2.22. Класс MainWindow ................................................................. 61
Тестирование ПО и анализ технических данных .................................... 62
3.1. Кластерная структура данных ........................................................ 62
3.2. Вложенные и сильно нелинейные данные .................................... 71
3.3. Анализ реальных данных ................................................................ 76
Заключение ..................................................................................................
82
Список сокращений ....................................................................................
83
Используемые обозначения .......................................................................
84
Список использованных источников ........................................................ 86
Приложение
Визуализация данных — это представление данных в виде, который
обеспечивает наиболее эффективную работу человека по их изучению.
Визуализация данных находит широкое применение в научных и
статистических исследованиях, в педагогическом дизайне для обучения и
тестирования, в новостных сводках, аналитических обзорах и анализе
технологического процесса. Визуализация данных связана с визуализацией
информации, разведочным анализом данных и статистической графикой.
Часто аналитики пытаются визуализировать данные, которые они будут
пытаться визуализировать. Для этого используются различные методы
уменьшения размерности данных. Многие из них основаны на многообразиях.
Один из самых популярных методов уменьшения размерности – метод
главных компонент. Но метод главных компонент строит только линейные
многообразия, что часто не подходит для решения реальный задач. Поэтому
были созданы различные методы обхода этого ограничения.Один из них – самоорганизующиеся карты. Самоорганизующиеся карты
являются одним из видов искусственных нейронных сетей Кохонена. Можно
найти множество способов применения различных искусственных нейронных
сетей. Их используют в задаче классификации, регрессии, аппроксимации,
визуализации [1], прогнозирования [2]. Самоорганизующиеся карты
нелинейным обобщением метода главных компонент. Но
самоорганизующиеся карты имеют один большой недостаток – они не
сохраняют локальное расстояние между точек. Решением этой задачи является
алгоритм ViSOM. В этом алгоритме другое правило обучения, которое
«распрямляет» сеть, и делает ее более гладкой.
Задача анализа технологического процесса производства алюминия
очень важна, так как алюминиевая промышленность является приоритетным
направлением экономики нашего региона [3]. Так же важно отметить,
подобного программного обеспечения, которое давало бы такой же большой и
удобный функционал для визуализации многомерных данных с
используемыми здесь алгоритмами нет.
В результате выполнения выпускной квалификационной работы была
реализована программная система для анализа технологического с помощью
метода главных компонент. В данной пояснительной записке был описан
процесс разработки программного продукта.
Задача анализа технологического процесса производства алюминия
очень важна, так как алюминиевая промышленность является приоритетным
направлением экономики нашего региона.
В ходе выполнения работы были выполнены следующие задачи:
• изучение теоретических сведений методов визуализации
многомерных данных;
• разработка программной системы, реализующие основные методы
визуализации многомерных данных;
• применение для визуализации многомерных данных, полученных
в технологическом процессе получения алюминия.
В результате была получен программный продукт, который позволяет
аналитику визуализировать многомерные данные различными методами.
Хайкин, С. Нейронные сети. Полный курс : справочник / С. Хайкин. –
Москва : Вильямс, 2006. – 1104 с.
2. Пересунько, П.В., Должанская, С.Ф. Реализация и исследования
результатов взвешенного прогноза / Пересунько, П.В., Должанская, С.Ф. //
Современные информационные технологии. – 2016. - №23. С. 52-54.
3. История российской алюминиевой отрасли [Электронный ресурс] :
официальный сайт Русала. Режим доступа :
http://www.rusal.ru/aluminium/history
4. Engineering statistics [Электронный ресурс] : Handbook of Statistical
Methods. Режим доступа : http://www.itl.nist.gov/div898/handbook/
5. Дж.-О. Ким. Факторный анализ: статистические методы и практические
вопросы : книга / Дж.-О. Ким, Ч.У. Мьюллер. – Москва : Финансы и
статистика, 1989. – 215 с.
6. Метод Главных Компонент (PCA) [Электронный ресурс] /
А.
Померанцев // Российское хемометрическое общество. Режим доступа :
http://www.rusal.ru/aluminium/history
7. Cliff, N. The Eiggenvalue-Greater-Than-One Rule and thr reliability of
Components / N., Cliff // Psychological Bulletin. – 1988. - №2. С. 276-279.
8. Baczkawski, A.J. The broken-stick model for species abundances: An initial
investigation / A.J., Baczkawski // Psychological Bulletin. – 2000, Internal
Report STAT 00/10.
9. Hofmann, T. Kernel method in machine learning / T. Hofmann, B. Scholkopf,
A. J.Smola // The Annals of Statistics. – 2008. - №3. С. 1171–1220.
10. Quan Wang, Kernel Principal Component Analysis and its Applications in
Face Recognition and Active Shape Models/ T Quan Wang // Rensselaer
Polytechnic Institute. – 2012.11. Лекции по искусственным нейронным сетям [Электронный ресурс] / К. В.
Воронцов// Вычислительный центр им. А.А. Дородницына Российской
академии наук. Режим доступа :
http://www.ccas.ru/voron/download/NeuralNets.pdf
12. Rosenblatt F. The Perceptron: А probabilistic model for information storage and
organization in the brain / F. Rosenblatt // Psychological Review. – 1958. -
№ 65. C. 386-408.
13. Kohonen Т. The self-organizing map / T. Kohonen // Proceedings of the Institute
of Electrical and E1ectronics Engineers. – 1990. – №78. C. 1464-1480.
14. E.I. Кnudsеn Computational maps in the brain. / E.I. Кnudsеn, S.D. Esterly //
Annual Review of Neuroscience. – 1987. № 10, С. 41-65.
15. Kohonen Т. Improved versions of learning vector quantization, IEЕЕ
International Joint Conference on Neural Networks. – 1990. – №1, C. 545 – 550.
16. Akinduko A.A. SOM: Stochastic initialization versus principal components. / A.
A. Akinduko, E. M. Mirkes, A. N. Gorban // Information Sciences. – 2015. –
№364. С. 213-221.
17. Lo Z.P., М. Fujita and В. Bavarian. Analysis of neighborhood interaction in
Kohonen neural networks, 6th International Parallel Processing Symposium
Proceedings, 1991. C. 247-249.
18. Obermayer K. Development and spatial structure of cortical feature maps: А
model study / K. Obermayer, Н. Ritter, К. Schulten // Advances in Neural
Information Processing Systems. – 1991. – № 3, C. 11-17.
19. Kohonen Т. Self-organized formation of topo1ogically correct feature maps/ T.
Kohonen // Bio1ogical Cybemetics. – 1982, №43. С. 59-69.
20. Fort, J. Advantages and drawbacks of the Batch Kohonen algorithm. Режим
доступа : https://samos.univ-paris1.fr/archives/ftp/preprints/samos158.pdf.
21. Yin, H. Learning Nonlinear Principal Manifolds by Self-Organising Maps / H.
Yin // Lecture Notes in Computational Science and Enginee. – 2008. – №58, С.
68-95.22. Yin, H. On the Distribution and Convergence of Feature Space in SelfOrganizing
Maps / H. Yin // Neural Computation. – 2008. – №7, С. 1178-1187.
23. E. Arsuaga Uriarte. Topology Preservation in SOM / E. Arsuaga Uriarte, F.
Díaz Martín // International Journal of Applied Mathematics and Computer
Sciences. – 2005.
24. K. Kiviluoto. Topology preservation in self-organizing maps / K. Kiviluoto //
Neural Networks. – 1996. – №1, 294-299.
25. Bauer, H. U. Quantifying the neighborhood preservation of self-organizing
feature maps / H. U. Bauer// IEEE Transactions on Neural Networks. - №3, С.
570-579.
26. Pölzlbauer, G. Survey and Comparison of Quality Measures for SelfOrganizing
Maps / G. Pölzlbauer// Proceedings of the Fifth Workshop on Data Analysis. -
№4. С67-82.
27. A. N. Gorban. Principal Graphs and Manifolds / A. N. Gorban, A. Y. Zinovyev
// Handbook of Research on Machine Learning Applications and Trends:
Algorithms, Methods and Techniques. – 2009. - №2, 28-59.
28. Самоорганизующиеся карты Кохонена — математический аппарат
[Электронный ресурс] : BASEGROUP LABS. Технологии анализа данных.
Режим доступа : http://www.rusal.ru/aluminium/history
29. Yin, H. Data visualization and manifold mapping using the ViSOM/ H. Yin //
Neural Networks. – 2002. – №7, С. 1005-1016.
30. Yin, H. ViSOM - a novel method for multivariate data projection and structure
visualization / H. Yin // IEEE Transactions on Neural Networks. – 2002. –
№13, С. 237 - 243.
31. Yin, H. Resolution Enhancement for the ViSOM/ H. Yin // IEEE Transactions
on Neural Networks. – 2002. – №11, С. 147 - 152.
32. Yin, H. On multidimensional scaling and the embedding of self-organizing maps/
H. Yin // Neural Networks. – 2008. – №21, С. 160–169.33. Паттерн Singleton (одиночка,синглет) [Электронный ресурс] : cppreference.
Режим доступа : http://cpp-reference.ru/patterns/creationalpatterns/singleton.
34. C# Self Organising Map (SOM) [Электронный ресурс] : Robosoup. Nourishing
technology. Режим доступа : http://www.robosoup.com/2008/11/cselforganising-map-som.html.
35. Multiblock monitoring of aluminium reduction cells performance / J. Tessier, C.
Duchesne, G. P. Tarcy // Light Metals. 2011. P. 407–412.
36. Пискажова Т. В. Использование методов многомерной обработки данных
для анализа расхода электроэнергии алюминиевых электролизеров / Т. В.
Пискажова, П. В. Поляков, Н. А. Шарыпов // Вестник Сибирского
государственного аэрокосмического университета имени академика М. Ф.
Решетнева. – 2012. – №45. C.89-95.
37. Fisher, R.A. The use of multiple measurements in taxonomic problems. Annals
of Eugenics. – 1936. – №7. C.179-188.