Разработка информационно-аналитической системы для построения регрессионных моделей по эмпирическим данным
|
Введение 5
1 Проблемный анализ темы исследования 9
1.1 Анализ публикаций по теме исследования 9
1.2 Регрессионные модели в условиях неопределенности 13
1.2.1 Неопределенные данные 14
1.2.2 Классическая регрессия и элитарная неопределенность 15
1.2.3 Интервальная регрессия и эпистемическая неопределенность 19
1.2.4 Квантильная регрессия 20
1.2.5 Символьная регрессия 23
2 ЧВА и регрессионное моделирование 32
2.1 Применение ЧВА к моделированию данных 32
2.2 Кусочно-полиномиальные модели представления данных 33
2.2.1 Кусочно-постоянные модели 33
2.2.2 Кусочно-линейные модели 37
2.2.3 Кусочно-полиномиальные модели 38
2.3 Регрессионные модели над кусочно-полиноминальными данными 40
2.3.1 Гистограммная регрессия 40
2.3.2 Численные операции в пространстве гистограмм 42
2.3.3 Метрики в пространстве гистограмм 43
2.3.4 Арифметические операции над плотностями вероятности 44
3 Разработка информационно-аналитической системы 49
3.1 Описание организации процесса численного моделирования 49
3.2 Общая характеристика библиотеки программных модулей 54
3.3 Тестовые примеры 63
Заключение 70
Список использованных источников 72
Приложение А Плакаты презентации 77
1 Проблемный анализ темы исследования 9
1.1 Анализ публикаций по теме исследования 9
1.2 Регрессионные модели в условиях неопределенности 13
1.2.1 Неопределенные данные 14
1.2.2 Классическая регрессия и элитарная неопределенность 15
1.2.3 Интервальная регрессия и эпистемическая неопределенность 19
1.2.4 Квантильная регрессия 20
1.2.5 Символьная регрессия 23
2 ЧВА и регрессионное моделирование 32
2.1 Применение ЧВА к моделированию данных 32
2.2 Кусочно-полиномиальные модели представления данных 33
2.2.1 Кусочно-постоянные модели 33
2.2.2 Кусочно-линейные модели 37
2.2.3 Кусочно-полиномиальные модели 38
2.3 Регрессионные модели над кусочно-полиноминальными данными 40
2.3.1 Гистограммная регрессия 40
2.3.2 Численные операции в пространстве гистограмм 42
2.3.3 Метрики в пространстве гистограмм 43
2.3.4 Арифметические операции над плотностями вероятности 44
3 Разработка информационно-аналитической системы 49
3.1 Описание организации процесса численного моделирования 49
3.2 Общая характеристика библиотеки программных модулей 54
3.3 Тестовые примеры 63
Заключение 70
Список использованных источников 72
Приложение А Плакаты презентации 77
Магистерская диссертация посвящена актуальным вопросам повышения качества методов численного моделирования в задачах восстановления зависимостей по эмпирическим данным на основе информационно-аналитического подхода. Актуальность выбранной темы обусловлена тем, что для решения многих практических задач активно разрабатываются и применяются методы численного моделирования. Среди таких задач можно выделить задачи в области геомониторинга земли, обработки данных дистанционного зондирования земли, бизнес аналитики, оценки гидрологических, инвестиционных рисков и в других областях.
Эмпирическая информация, которая составляет основу подобных исследований, характеризуется большим объемом, различной структурой данных и видами неопределенности. Для анализа информации такого рода используется последовательности методов, включающие методы предобработки, обработки и постобработки данных. Многообразие применяемых на каждом этапе методов, актуализирует проблему оценки точности полученных результатов.
Многие исследователи отмечают важность и необходимость анализа эмпирической информации уже на этапе предобработки данных. Обоснованно подобранные модели представления данных на этапе предобработки позволяют определить вид входных переменных и осуществить выбор соответствующих процедур и арифметик для последующего моделирования в соответствии с видом неопределенности и объемом имеющейся информации.
Проблема выявления функциональных зависимостей по эмпирическим данным исследуется многими учеными. Одним из наиболее известных способов является регрессионный анализ. Новым направлением является квантильная регрессия. В рамках работы с данными в условиях неопределенности достаточно много работ и исследований в области интервального анализа, где строится интервальная регрессия. Еще одним направлением является символьный анализ. В некоторых областях исследования встречаются объекты, описание которых не укладывается в рамки традиционного представления в виде набора количественных и качественных характеристик объекта. Объект в этом случае состоит из некоторого случайного достаточно большого числа подобъектов, каждый из которых описывается набором характеристик. В статье [1] рассматривается понятие о гистограмно- значных переменных. При моделировании таких объектов, названных сложно¬структурированными, необходимо учитывать как свойства объекта в целом, так и его подобъектов для построения регрессионной модели.
Анализ публикаций показал, что современные методы и подходы для задач восстановления зависимости по эмпирическим данным, недостаточно учитывают внутреннюю структуру данных, их свойства, такие как неопределенность, объем данных, а также, недостаточно внимания уделяется адекватности применяемых моделей, не анализируется, насколько исходные допущения, лежащие в их основе, соответствуют реально имеющимся эмпирическим данным.
Отметим, что во многих практических задачах исследование эмпирических данных связано с построением функции распределения, которая для многих задач интерпретируется как частотное распределение переменной. С этой целью обычно применяют гистограмму. Кроме гистограмм в качестве моделей данных полезно рассмотреть полиграммы, частотные полигоны и сплайны. Применение кусочно-полиномиальных моделей делает возможным их использования на основе понятия функции плотности вероятности (ФПВ).
В магистерской диссертации предложена идея преобразования эмпирических данных на основе применения математических моделей на этапе предобработки данных и последующего их использования в виде входных и выходных факторов для моделирования. Построение регрессионных моделей с преобразованными входными данными требует использования соответствующих числовых процедур и арифметик. Теоретической основой исследования является новое направление в вычислительной математике Численный вероятностный анализ, который направлен на решение практических задач с различными типами неопределенности. Отличительной особенностью ЧВА является наличие развитых арифметических операций над функциями плотности вероятности, для которых вводится понятие ФПВ-значные переменные. В рамках ЧВА имеется возможность вычисления функций от случайных аргументов с использованием процедур построения вероятностных расширений. В рамках ЧВА решаются различные задачи численного анализа, в том числе задачи интерполяции, аппроксимации и оптимизации [2, 3, 4]. ЧВА прекрасно зарекомендовал себя как альтернатива методу Монте-Карло [4, 5]. На ряде примеров было показано, что ЧВА эффективней Монте-Карло до тысячи раз и имеет более высокую скорость сходимости и точность [6].
Поэтому, в связи с разнообразием данных, проблема выявления зависимостей и разработка новых методов регрессионного анализа, учитывающих структурированность объектов, становится все более актуальной.
В работе применялись методы регрессионного моделирования и анализа, гистограммный подход к агрегированию данных, методы ЧВА.
Цель исследования повышение качества выявления функциональных зависимостей по эмпирическим данным на основе методов численного моделирования.
Для достижения поставленной цели необходимо решить следующие задачи:
- провести анализ предметной области;
- разработать методику организации вычислительного процесса обработки данных для задачи восстановления зависимостей;
- разработать библиотеку программных модулей для процедур и методов численного вероятностного анализа;
- организация и проведение тестирований информационно¬аналитической системы на модельных примерах.
Во введении обоснована актуальность выполненных в научно-исследовательской работе исследований. Сформулирована проблема, цель исследования, дана общая характеристика работы, перечислены поставленные задачи, для достижения цели.
Первая глава посвящена анализу предметной области исследования. В ней произведен анализ публикаций по теме исследования, рассмотрены типы неопределенности и современные методы и подходы для задач восстановления зависимости по эмпирическим данным.
Во второй главе рассмотрены модели представления данных и вопросы применения численного вероятностного анализа к построению регрессионных моделей в условиях неопределенности.
В третьей главе разработана методика организации вычислительного процесса обработки данных для задачи восстановления зависимостей, разработана библиотеку программных модулей для процедур и методов численного вероятностного анализа, организовано и проведено тестирование информационно-аналитической системы на модельных примерах.
Эмпирическая информация, которая составляет основу подобных исследований, характеризуется большим объемом, различной структурой данных и видами неопределенности. Для анализа информации такого рода используется последовательности методов, включающие методы предобработки, обработки и постобработки данных. Многообразие применяемых на каждом этапе методов, актуализирует проблему оценки точности полученных результатов.
Многие исследователи отмечают важность и необходимость анализа эмпирической информации уже на этапе предобработки данных. Обоснованно подобранные модели представления данных на этапе предобработки позволяют определить вид входных переменных и осуществить выбор соответствующих процедур и арифметик для последующего моделирования в соответствии с видом неопределенности и объемом имеющейся информации.
Проблема выявления функциональных зависимостей по эмпирическим данным исследуется многими учеными. Одним из наиболее известных способов является регрессионный анализ. Новым направлением является квантильная регрессия. В рамках работы с данными в условиях неопределенности достаточно много работ и исследований в области интервального анализа, где строится интервальная регрессия. Еще одним направлением является символьный анализ. В некоторых областях исследования встречаются объекты, описание которых не укладывается в рамки традиционного представления в виде набора количественных и качественных характеристик объекта. Объект в этом случае состоит из некоторого случайного достаточно большого числа подобъектов, каждый из которых описывается набором характеристик. В статье [1] рассматривается понятие о гистограмно- значных переменных. При моделировании таких объектов, названных сложно¬структурированными, необходимо учитывать как свойства объекта в целом, так и его подобъектов для построения регрессионной модели.
Анализ публикаций показал, что современные методы и подходы для задач восстановления зависимости по эмпирическим данным, недостаточно учитывают внутреннюю структуру данных, их свойства, такие как неопределенность, объем данных, а также, недостаточно внимания уделяется адекватности применяемых моделей, не анализируется, насколько исходные допущения, лежащие в их основе, соответствуют реально имеющимся эмпирическим данным.
Отметим, что во многих практических задачах исследование эмпирических данных связано с построением функции распределения, которая для многих задач интерпретируется как частотное распределение переменной. С этой целью обычно применяют гистограмму. Кроме гистограмм в качестве моделей данных полезно рассмотреть полиграммы, частотные полигоны и сплайны. Применение кусочно-полиномиальных моделей делает возможным их использования на основе понятия функции плотности вероятности (ФПВ).
В магистерской диссертации предложена идея преобразования эмпирических данных на основе применения математических моделей на этапе предобработки данных и последующего их использования в виде входных и выходных факторов для моделирования. Построение регрессионных моделей с преобразованными входными данными требует использования соответствующих числовых процедур и арифметик. Теоретической основой исследования является новое направление в вычислительной математике Численный вероятностный анализ, который направлен на решение практических задач с различными типами неопределенности. Отличительной особенностью ЧВА является наличие развитых арифметических операций над функциями плотности вероятности, для которых вводится понятие ФПВ-значные переменные. В рамках ЧВА имеется возможность вычисления функций от случайных аргументов с использованием процедур построения вероятностных расширений. В рамках ЧВА решаются различные задачи численного анализа, в том числе задачи интерполяции, аппроксимации и оптимизации [2, 3, 4]. ЧВА прекрасно зарекомендовал себя как альтернатива методу Монте-Карло [4, 5]. На ряде примеров было показано, что ЧВА эффективней Монте-Карло до тысячи раз и имеет более высокую скорость сходимости и точность [6].
Поэтому, в связи с разнообразием данных, проблема выявления зависимостей и разработка новых методов регрессионного анализа, учитывающих структурированность объектов, становится все более актуальной.
В работе применялись методы регрессионного моделирования и анализа, гистограммный подход к агрегированию данных, методы ЧВА.
Цель исследования повышение качества выявления функциональных зависимостей по эмпирическим данным на основе методов численного моделирования.
Для достижения поставленной цели необходимо решить следующие задачи:
- провести анализ предметной области;
- разработать методику организации вычислительного процесса обработки данных для задачи восстановления зависимостей;
- разработать библиотеку программных модулей для процедур и методов численного вероятностного анализа;
- организация и проведение тестирований информационно¬аналитической системы на модельных примерах.
Во введении обоснована актуальность выполненных в научно-исследовательской работе исследований. Сформулирована проблема, цель исследования, дана общая характеристика работы, перечислены поставленные задачи, для достижения цели.
Первая глава посвящена анализу предметной области исследования. В ней произведен анализ публикаций по теме исследования, рассмотрены типы неопределенности и современные методы и подходы для задач восстановления зависимости по эмпирическим данным.
Во второй главе рассмотрены модели представления данных и вопросы применения численного вероятностного анализа к построению регрессионных моделей в условиях неопределенности.
В третьей главе разработана методика организации вычислительного процесса обработки данных для задачи восстановления зависимостей, разработана библиотеку программных модулей для процедур и методов численного вероятностного анализа, организовано и проведено тестирование информационно-аналитической системы на модельных примерах.
Рассмотренные в работы методы и подходы обработки численного моделирования и анализа эмпирической информации позволили разработать методику решения задачи восстановления зависимостей по эмпирическим данным на основе регрессионного подхода. Методика представлена в виде последовательности взаимосвязанных этапов: предобработка, моделирование, постобработка.
Для описания случайной неопределенности во входных и выходных переменных на этапе предобработки данных предлагается использовать ФПВ-значные переменные, которые представляют собой математические модели функций плотности вероятности соответствующих переменных, построенные по эмпирическим данным в классе кусочно-полиномиальных моделей. Такие процедуры преобразования помогают сократить объем вычислений при обработке данных и являются важной основой для извлечения полезных знаний из больших объемов данных.
На этапе моделирования применяется численный вероятностный анализ, который является новым направлением в вычислительной математике. Он позволяет построить регрессионные модели с учетом имеющихся неопределенностей в данных.
На этапе постобработки результаты моделирования представляются в графическом виде, показывающем гарантированные области с внутренним вероятностным распределением.
В результате работы разработана библиотека программных модулей для процедур и методов численного вероятностного анализа и проведено тестирование информационно-аналитической системы на модельных примерах. Их численная реализация показала хорошую точность применяемых методов на всех этапах предложенной методики. Использование регрессионного моделирования на основе кусочно-полиномиальных моделей открывает новые возможности в прогнозировании состояний сложных систем, дистанционного зондирования Земли, оценок надежности ответственного оборудования, оценки гидрологических, инвестиционных рисков [5].
По результатам исследований были опубликованы две статьи:
Жмурова А.А., О подходах к организации численного моделирования по эмпирическим данным на основе численного вероятностного анализа // IX Всероссийская научно-техническая конференция с международным участием «Робототехника и искусственный интеллект». 2017.
О.А. Попова, Б.С. Добронец, А.А. Жмурова, Построение регрессионных моделей над эмпирическими распределениями // Новые информационные технологии в исследовании сложных структур: материалы 12-й международной конференции, Томск: Издательский Дом Томского государственного университета, 2018. С. 120.
Для описания случайной неопределенности во входных и выходных переменных на этапе предобработки данных предлагается использовать ФПВ-значные переменные, которые представляют собой математические модели функций плотности вероятности соответствующих переменных, построенные по эмпирическим данным в классе кусочно-полиномиальных моделей. Такие процедуры преобразования помогают сократить объем вычислений при обработке данных и являются важной основой для извлечения полезных знаний из больших объемов данных.
На этапе моделирования применяется численный вероятностный анализ, который является новым направлением в вычислительной математике. Он позволяет построить регрессионные модели с учетом имеющихся неопределенностей в данных.
На этапе постобработки результаты моделирования представляются в графическом виде, показывающем гарантированные области с внутренним вероятностным распределением.
В результате работы разработана библиотека программных модулей для процедур и методов численного вероятностного анализа и проведено тестирование информационно-аналитической системы на модельных примерах. Их численная реализация показала хорошую точность применяемых методов на всех этапах предложенной методики. Использование регрессионного моделирования на основе кусочно-полиномиальных моделей открывает новые возможности в прогнозировании состояний сложных систем, дистанционного зондирования Земли, оценок надежности ответственного оборудования, оценки гидрологических, инвестиционных рисков [5].
По результатам исследований были опубликованы две статьи:
Жмурова А.А., О подходах к организации численного моделирования по эмпирическим данным на основе численного вероятностного анализа // IX Всероссийская научно-техническая конференция с международным участием «Робототехника и искусственный интеллект». 2017.
О.А. Попова, Б.С. Добронец, А.А. Жмурова, Построение регрессионных моделей над эмпирическими распределениями // Новые информационные технологии в исследовании сложных структур: материалы 12-й международной конференции, Томск: Издательский Дом Томского государственного университета, 2018. С. 120.
Подобные работы
- Визуальное представление многомерных эмпирических данных
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2017 - Критерии банкротства и системы прогнозирования банкротства банков (российская и зарубежная практика)
Магистерская диссертация, экономика. Язык работы: Русский. Цена: 4825 р. Год сдачи: 2017 - ИСПОЛЬЗОВАНИЕ АГРЕГИРОВАНИЯ В МЕТОДАХ НЕЛИНЕЙНОЙ ДИНАМИКИ ДЛЯ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ КОТИРОВКИ АКЦИЙ
Диссертация , экономика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005 - КРЕДИТНЫЕ ДЕРИВАТИВЫ КАК ИНСТРУМЕНТ УПРАВЛЕНИЯ КРЕДИТНЫМ РИСКОМ
Дипломные работы, ВКР, экономика. Язык работы: Русский. Цена: 6300 р. Год сдачи: 2018 - Учетно - аналитические аспекты управления налоговой нагрузкой в системе финансового менеджмента
Магистерская диссертация, экономика. Язык работы: Русский. Цена: 4940 р. Год сдачи: 2016 - МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ОРГАНИЗАЦИИ ВНУТРЕННЕГО КОНТРОЛЯ ЭФФЕКТИВНОСТИ ИСПОЛЬЗОВАНИЯ ОСНОВНЫХ СРЕДСТВ СЕЛЬСКОХОЗЯЙСТВЕННОГО ПРОФИЛЯ
Магистерская диссертация, экономика. Язык работы: Русский. Цена: 4850 р. Год сдачи: 2018 - УЧЕТ, РАСПРЕДЕЛЕНИЕ И АНАЛИЗ РАСХОДОВ ПО ОБСЛУЖИВАНИЮ ПРОИЗВОДСТВА И УПРАВЛЕНИЮ ОРГАНИЗАЦИЕЙ
Дипломные работы, ВКР, экономика. Язык работы: Русский. Цена: 4250 р. Год сдачи: 2017 - Математическое моделирование развития рынка по ключевым параметрам
Магистерская диссертация, менеджмент. Язык работы: Русский. Цена: 5500 р. Год сдачи: 2018 - ПЕРЕПОЗИЦИОНИРОВАНИЕ РЕГИОНАЛЬНОГО МЕТАЛЛУРГИЧЕСКОГО КОМПЛЕКСА В УСЛОВИЯХ РАЗВИТИЯ ИНДУСТРИИ 4.0
Диссертации (РГБ), экономика. Язык работы: Русский. Цена: 4365 р. Год сдачи: 2018



