Тип работы:
Предмет:
Язык работы:


Разработка информационно-аналитической системы для построения регрессионных моделей по эмпирическим данным

Работа №20080

Тип работы

Магистерская диссертация

Предмет

информационные системы

Объем работы86
Год сдачи2018
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
772
Не подходит работа?

Узнай цену на написание


Введение 5
1 Проблемный анализ темы исследования 9
1.1 Анализ публикаций по теме исследования 9
1.2 Регрессионные модели в условиях неопределенности 13
1.2.1 Неопределенные данные 14
1.2.2 Классическая регрессия и элитарная неопределенность 15
1.2.3 Интервальная регрессия и эпистемическая неопределенность 19
1.2.4 Квантильная регрессия 20
1.2.5 Символьная регрессия 23
2 ЧВА и регрессионное моделирование 32
2.1 Применение ЧВА к моделированию данных 32
2.2 Кусочно-полиномиальные модели представления данных 33
2.2.1 Кусочно-постоянные модели 33
2.2.2 Кусочно-линейные модели 37
2.2.3 Кусочно-полиномиальные модели 38
2.3 Регрессионные модели над кусочно-полиноминальными данными 40
2.3.1 Гистограммная регрессия 40
2.3.2 Численные операции в пространстве гистограмм 42
2.3.3 Метрики в пространстве гистограмм 43
2.3.4 Арифметические операции над плотностями вероятности 44
3 Разработка информационно-аналитической системы 49
3.1 Описание организации процесса численного моделирования 49
3.2 Общая характеристика библиотеки программных модулей 54
3.3 Тестовые примеры 63
Заключение 70
Список использованных источников 72
Приложение А Плакаты презентации 77


Магистерская диссертация посвящена актуальным вопросам повышения качества методов численного моделирования в задачах восстановления зависимостей по эмпирическим данным на основе информационно-аналитического подхода. Актуальность выбранной темы обусловлена тем, что для решения многих практических задач активно разрабатываются и применяются методы численного моделирования. Среди таких задач можно выделить задачи в области геомониторинга земли, обработки данных дистанционного зондирования земли, бизнес аналитики, оценки гидрологических, инвестиционных рисков и в других областях.
Эмпирическая информация, которая составляет основу подобных исследований, характеризуется большим объемом, различной структурой данных и видами неопределенности. Для анализа информации такого рода используется последовательности методов, включающие методы предобработки, обработки и постобработки данных. Многообразие применяемых на каждом этапе методов, актуализирует проблему оценки точности полученных результатов.
Многие исследователи отмечают важность и необходимость анализа эмпирической информации уже на этапе предобработки данных. Обоснованно подобранные модели представления данных на этапе предобработки позволяют определить вид входных переменных и осуществить выбор соответствующих процедур и арифметик для последующего моделирования в соответствии с видом неопределенности и объемом имеющейся информации.
Проблема выявления функциональных зависимостей по эмпирическим данным исследуется многими учеными. Одним из наиболее известных способов является регрессионный анализ. Новым направлением является квантильная регрессия. В рамках работы с данными в условиях неопределенности достаточно много работ и исследований в области интервального анализа, где строится интервальная регрессия. Еще одним направлением является символьный анализ. В некоторых областях исследования встречаются объекты, описание которых не укладывается в рамки традиционного представления в виде набора количественных и качественных характеристик объекта. Объект в этом случае состоит из некоторого случайного достаточно большого числа подобъектов, каждый из которых описывается набором характеристик. В статье [1] рассматривается понятие о гистограмно- значных переменных. При моделировании таких объектов, названных сложно¬структурированными, необходимо учитывать как свойства объекта в целом, так и его подобъектов для построения регрессионной модели.
Анализ публикаций показал, что современные методы и подходы для задач восстановления зависимости по эмпирическим данным, недостаточно учитывают внутреннюю структуру данных, их свойства, такие как неопределенность, объем данных, а также, недостаточно внимания уделяется адекватности применяемых моделей, не анализируется, насколько исходные допущения, лежащие в их основе, соответствуют реально имеющимся эмпирическим данным.
Отметим, что во многих практических задачах исследование эмпирических данных связано с построением функции распределения, которая для многих задач интерпретируется как частотное распределение переменной. С этой целью обычно применяют гистограмму. Кроме гистограмм в качестве моделей данных полезно рассмотреть полиграммы, частотные полигоны и сплайны. Применение кусочно-полиномиальных моделей делает возможным их использования на основе понятия функции плотности вероятности (ФПВ).
В магистерской диссертации предложена идея преобразования эмпирических данных на основе применения математических моделей на этапе предобработки данных и последующего их использования в виде входных и выходных факторов для моделирования. Построение регрессионных моделей с преобразованными входными данными требует использования соответствующих числовых процедур и арифметик. Теоретической основой исследования является новое направление в вычислительной математике Численный вероятностный анализ, который направлен на решение практических задач с различными типами неопределенности. Отличительной особенностью ЧВА является наличие развитых арифметических операций над функциями плотности вероятности, для которых вводится понятие ФПВ-значные переменные. В рамках ЧВА имеется возможность вычисления функций от случайных аргументов с использованием процедур построения вероятностных расширений. В рамках ЧВА решаются различные задачи численного анализа, в том числе задачи интерполяции, аппроксимации и оптимизации [2, 3, 4]. ЧВА прекрасно зарекомендовал себя как альтернатива методу Монте-Карло [4, 5]. На ряде примеров было показано, что ЧВА эффективней Монте-Карло до тысячи раз и имеет более высокую скорость сходимости и точность [6].
Поэтому, в связи с разнообразием данных, проблема выявления зависимостей и разработка новых методов регрессионного анализа, учитывающих структурированность объектов, становится все более актуальной.
В работе применялись методы регрессионного моделирования и анализа, гистограммный подход к агрегированию данных, методы ЧВА.
Цель исследования повышение качества выявления функциональных зависимостей по эмпирическим данным на основе методов численного моделирования.
Для достижения поставленной цели необходимо решить следующие задачи:
- провести анализ предметной области;
- разработать методику организации вычислительного процесса обработки данных для задачи восстановления зависимостей;
- разработать библиотеку программных модулей для процедур и методов численного вероятностного анализа;
- организация и проведение тестирований информационно¬аналитической системы на модельных примерах.
Во введении обоснована актуальность выполненных в научно-исследовательской работе исследований. Сформулирована проблема, цель исследования, дана общая характеристика работы, перечислены поставленные задачи, для достижения цели.
Первая глава посвящена анализу предметной области исследования. В ней произведен анализ публикаций по теме исследования, рассмотрены типы неопределенности и современные методы и подходы для задач восстановления зависимости по эмпирическим данным.
Во второй главе рассмотрены модели представления данных и вопросы применения численного вероятностного анализа к построению регрессионных моделей в условиях неопределенности.
В третьей главе разработана методика организации вычислительного процесса обработки данных для задачи восстановления зависимостей, разработана библиотеку программных модулей для процедур и методов численного вероятностного анализа, организовано и проведено тестирование информационно-аналитической системы на модельных примерах.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Рассмотренные в работы методы и подходы обработки численного моделирования и анализа эмпирической информации позволили разработать методику решения задачи восстановления зависимостей по эмпирическим данным на основе регрессионного подхода. Методика представлена в виде последовательности взаимосвязанных этапов: предобработка, моделирование, постобработка.
Для описания случайной неопределенности во входных и выходных переменных на этапе предобработки данных предлагается использовать ФПВ-значные переменные, которые представляют собой математические модели функций плотности вероятности соответствующих переменных, построенные по эмпирическим данным в классе кусочно-полиномиальных моделей. Такие процедуры преобразования помогают сократить объем вычислений при обработке данных и являются важной основой для извлечения полезных знаний из больших объемов данных.
На этапе моделирования применяется численный вероятностный анализ, который является новым направлением в вычислительной математике. Он позволяет построить регрессионные модели с учетом имеющихся неопределенностей в данных.
На этапе постобработки результаты моделирования представляются в графическом виде, показывающем гарантированные области с внутренним вероятностным распределением.
В результате работы разработана библиотека программных модулей для процедур и методов численного вероятностного анализа и проведено тестирование информационно-аналитической системы на модельных примерах. Их численная реализация показала хорошую точность применяемых методов на всех этапах предложенной методики. Использование регрессионного моделирования на основе кусочно-полиномиальных моделей открывает новые возможности в прогнозировании состояний сложных систем, дистанционного зондирования Земли, оценок надежности ответственного оборудования, оценки гидрологических, инвестиционных рисков [5].
По результатам исследований были опубликованы две статьи:
Жмурова А.А., О подходах к организации численного моделирования по эмпирическим данным на основе численного вероятностного анализа // IX Всероссийская научно-техническая конференция с международным участием «Робототехника и искусственный интеллект». 2017.
О.А. Попова, Б.С. Добронец, А.А. Жмурова, Построение регрессионных моделей над эмпирическими распределениями // Новые информационные технологии в исследовании сложных структур: материалы 12-й международной конференции, Томск: Издательский Дом Томского государственного университета, 2018. С. 120.



1. Linear Regression Model with Histogram-Valued Variables. Statistical Analysis and Data Mining: The ASA Data Science Journal 8 (2), 75 — 113. Irpino, A. and Verde, R. (2006)
2. Соболь И. М. Численные методы Монте-Карло. — М.: Наука, 1973. — 312 с
3. Dobronets B.S., Popova O.A. Improving the accuracy of the probability density function estimation (2017) Journal of Siberian Federal University — Mathematics and Physics, 10 (1), pp. 16-21.
4. Dobronets B., Popova O. Numerical probabilistic approach for data nonparametric analysis // Applied methods of statistical analysis. Nonparametric approach. Proceedings of the international workshop. 2015. C. 376-384.
5. Dobronets B.S., Popova O.A. The numerical probabilistic approach to the processing and presentation of remote monitoring data // Журнал Сибирского федерального университета. Серия: Техника и технологии. 2016. Т. 9. № 7. С. 960-971.
6. Численный вероятностный анализ неопределённых данных [Текст]: монография / Б. С. Добронец, О. А. Попова ; М-во образования и науки Российской Федерации, Сибирский федеральный ун-т, [Ин-т космических и информ. технологий]. — Красноярск: СФУ, 2014. — 166 с.
7. Герасимов В. А., Добронец Б. С., Шустров М. Ю. Численные операции гистограммной арифметики и их применения // Автоматика и телемеханика,
1991. № 2, СС. 83-88.
8. Попова О.А. Численный вероятностный анализ для агрегации, регрессионного моделирования и анализа данных //Информатизация и связь. — 2015. — №.1. — C. 15-21.
9. Г. И. Рудой, «О возможности применения методов Монте-Карло в анализе нелинейных регрессионных моделей», Сиб. журн. вычисл. матем., 18:4 (2015), С. 425-434.
10. А. Д. Каширкин, Ю. М. Айвазова, «Нелинейное регрессионное моделирование по методу Монте-Карло», Матем. моделирование, 20:4 (2008), 78-86.
11. Всероссийская научно-методическая конференция "Математическое образование на Алтае» [Электронный ресурс]: // Режим доступа:
http://journal.asu.ru/index.php/psgmm/article/view/2058
12. IX международная конференция «Интеллектуализация обработки информации» [Электронный ресурс]: // Режим доступа: http://mmro.ru/
13. IV международная научная конференция «Региональные проблемы дистанционного зондирования Земли» [Электронный ресурс]: // Режим доступа: http://rprs.sfu-kras.ru/sites/default/files/rp_dzz_2017.pdf
14. Крымова, Е. А. Сплайны в задачах интерполяции и регрессионного анализа гауссовских процессов и гладких функций: дис.канд. техн. наук: 05.13.17 / Крымова Екатерина Александровна. — Москва, 2013. — 97 с.
15. Сапкина, Н. В. Восстановление закономерностей на основе нечетких регрессионных моделей: дис.канд. техн. наук: 01.02.04 / Сапкина Наталья Владимировна. — Воронеж, 2014. — 151 с.
16. Добронец Б. С., Попова О.А. Гистограммный подход к представлению
и обработке данных космического и наземного мониторинга // Известия Южного федерального университета. Технические науки. — 2014. — № 6 (155). — С. 14-22.
17. Добронец Б.С., Попова О.А. Численный вероятностный анализ для исследования систем в условиях неопределенности // Вестник Томского государственного университета. Управление, вычислительная техника и информатика, — 2012 — Т. 21, № 4. С. 39-46.
18. Неопределенность [Электронный ресурс] : // Режим доступа : https: //ru.wikipedia. org/wiki/Неопределенность
19. Ермаков С. М. Метод Монте-Карло в вычислительной математике / С. М. Ермаков. — СПб: 2009. — 192 с.
20. Добронец Б. С. Интервальная математика: Учеб. пособие / Б. С. Добронец. — Красноярск: Краснояр. гос. ун-т, 2004. — 216с. УДК 519
21. Регрессионный анализ [Электронный ресурс] : // Режим доступа: https://ru.wikipedia.org/wiki/PerpeccHOHHbifi__анализ
22. Попова О. А. О подходах к построению дополнительных оснований в принятии экономических решений // VII Московская международная конференция по исследованию операций (ORM 2013): Москва, 15-19 октября 2013 г. Труды Том 2 / Отв. ред. П.С. Краснощеков, А.А. Васин, А.Ф. Измаилов. — М., МАКС Пресс, 2013. C. 15-17.
23. Шарый С. П. Интервальные алгебраические задачи и их численное решение // Дис. .. докт. физ.-матем. наук.— Новосибирск: ИВТ СО РАН, 2000.
24. Алефельд Г., Херцбергер Ю. Введение в интервальные вычисления: Пер. с англ.— М.: Мир, 1987.
25. Колмыков С.А., Шокин Ю.И., Юлдашев З.Х. Методы интервального анализа. — Новосибирск: Наука, 1986.
26. Moore R.E. Methods and Applications of Interval Analysis. — SIAM, Philadelphia, 1979.
27. Вощинин А.П., Сотиров Г.Р. Оптимизация в условиях неопределенности. — Москва-София: Издательство МЭИ-Техника, 1989.
28. Шокин Ю. И. Интервальный анализ. — Новосибирск: Наука,1981.
29. Информационный портал [Электронный ресурс]: Цель. // «Онлайн документация». — Режим доступа: http://help.prognoz.com/ru/mergedProjects/ Lib/01_regression_models/quantileregression.htm
30. Koenker R., Bassett G. Jr. Regression Quantiles // Econometrica. 1978. V. 46, N 1. P. 33-50.
31. Добронец Б.С., Попова О.А. Элементы численного вероятностного анализа / Б. С. Добронец., О. А. Попова — Красноярск: Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. — 2012. — № 2 (42). — С. 19-23.
32. Billard, L., Diday, E. Symbolic Data Analysis: Conceptual Statistics and Data Mining. Wiley. 2006. — 325 с.
33. Dobronets B.S., Krantsevich A.M., Krantsevich N.M., Software implementation of numerical operations on random variables // Журн. СФУ. Сер. Матем. и физ., — 2013 — Т. 6, № 2, С. 168-173.
34. Васильев Ф. П. Численные методы решения экстремальных задач.— 2-е изд., перераб. и доп.— М.: Наука. 1988.— 552 с.
35. Попова О.А. Гистограммный информационно-аналитический подход к представлению и прогнозированию временных рядов // Информатизация и связь. — 2014. — № 2. — С. 43-47.
36. Uglev V.A., Popova O.A., Dobronets B.S. The accuracy calculation control of reliability indices for equipment responsible appointment // International Siberian Conference on Control and Communications (SIBCON). — Omsk: OmGTU, 2015. Print ISBN: 978-1-4799-7102-2 DOI: 10.1109/SIBCON.2015.7147248.
37. Попова О. А. Гистограммы второго порядка для численного моделирования в задачах с информационной неопределенностью / О. А. Попова // Известия Южн. фед. ун-та, Технические науки. — С. 6-14.
38. Блок-схема построения кубического сплайна [Электронный ресурс]: // Режим доступа: http://studopedia.su/3_13686_lektsiya-.html.
39. Dobronets B.S., Popova O.A. Numerical probabilistic analysis under aleatory and epistemic uncertainty // Reliable Computing. 2014. T. 19. № 3. C. 274-289.
40. Венцель E. С. Теория вероятностей. M.: Найка, 1969. — 576 с.
41. Гнеденко Б. В. Курс теории вероятностей. М.: Наука, 1988. — 448 с.
42. Заварыкин В.М. и др. Основы информатики и вычислительной техники: Учеб. пособие для студентов пед . ин-тов по физ.-мат. спец. — М.: Просвещение, 1989. — 207 с.
43. Popova O.A. Optimization problems with random data // Журнал Сибирского федерального университета. Серия: Математика и физика. 2013. Т. 6. № 4. С. 506-515.
44. Першина Е.Л., Попова О.А., Чуканов С.Н. Интеллектуальные системы поддержки принятия решений: комплексы программ, модели, методы, приложения. Федеральное агентство по образованию, ГОУ ВПО «Сибирская гос. автомобильно-дорожная акад. (СибАДИ)». Омск, 2010. — 204 с.
45. Добронец, Б.С. Надежность информационных систем: учеб. пособ. / Б.С. Добронец. — Красноярск: СФУ, 2012. — 159 c
46. Линейная регрессия [Электронный ресурс] : // Режим доступа : https://ru.wikipedia.org/wiki/Линейная_регрессия
47. Нелинейная регрессия [Электронный ресурс] : // Режим доступа : https://ru.wikipedia.org/wiki/HeHHHefiHaa_perpeccHa
48. Dias, S., Brito, P. Linear Regression Model with Histogram-Valued Var-iables // Statistical Analysis and Data Mining. — 2013. — 8 (2) . — pp. 75-113.
49. Корчикова Д. И. Арифметики и численный вероятностный анализ неопределенных данных / Д. И. Корчикова. — Новосибирск: Новосиб. гос. ун-т, 2015.
50. Попова О.А. Информационный подход к апостериорным оценкам погрешности численного моделирования // Информатизация и связь. — 2016. — № 2. — С. 40-43.
51. Визуализация медицинских данных на базе пакета Novospark / К. А.. Шаропин, О. Г. Берестнева, В. А. Воловоденко, О. В. Марухина, Москва: Известия ЮФУ, 2010, С. 242-248.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ