Введение 3
1 Элементы теории конечных случайных множеств 7
1.1 Определение случайного множества событий и его характеристики 7
1.2 Средние характеристики случайного множества событий .... 10
1.3 Совместное распределение случайных множеств событий . . . 13
2 Сет-регрессионный анализ 16
2.1 Задача сет-регрессии 16
2.2 Суперпозиция сет-регрессий 24
2.3 Сет-регрессионная модель распределения потребительских предпочтений между фирмами 26
3 Предобработка данных для задачи сет-регрессии 32
3.1 Рекуррентный метод построения распределений случайных множеств событий с помощью аппарата ассоциативных функций . 33
3.2 Пример сет-регрессионного анализа медицинских данных ... 41
Заключение 45
Список использованных источников 46
Актуальность работы. В настоящее время практически любое исследование подразумевает при обработке результатов наблюдений, экспериментов и измерений использование технологий анализа данных. Их применение позволяет получить новое знание об объекте исследования, выявить скрытые закономерности. Данные нечисловой природы часто встречаются в мониторинге, прогнозировании и управлении в экологических, финансовых, медицинских исследованиях. И для их обработки следует привлекать корректные методы, основанные на соответствующих вероятностных моделях, что зачастую в реальных исследованиях, как в России, так и за рубежом игнорируется. Нередко при обработке данных возникает ситуация, когда исходная информация об объекте исследования представлена неколичественными признаками. В этом случае, адекватной математической моделью данных являются случайные множества, относящиеся к одному из объектов статистики нечисловой природы. Для выборочных данных, описываемых неколичественными признаками, приходится решать те же самые задачи, что и в классических разделах математической статистики: классификация объектов без указания учителя, распознавание образов объектов, оценивание регрессионной зависимости и другие.
Обзор литературы. Случайное множество событий — это случайный элемент со значениями из множества всех подмножеств конечного множества избранных событий X. Основная идея современной теории случайных множеств состоит в том, что структура статистических взаимозависимостей подмножества конечного множества полностью определяется распределением случайного множества, заданного на множестве всех его подмножеств. Распределение случайного множества — это удобный математический аппарат для описания всех способов взаимодействия элементов между собой. А зависимость среднего значения от какой-либо величины, от некоторой другой величины или от нескольких величин дает нам регрессия. Регрессия [2, 3] — это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Для исследования функциональной зависимости между случайными множествами событий в [2, 3, 18] было предложено искать решение задачи построения регрессионного отображения (функции сет-регрессии) в виде условных сет-средних случайных множеств событий. В [7, 8, 9, 14, 15] сет-регрессия использовалась для моделирования потребительских предпочтений и сегментации рынка. Входными данными для задачи является совместное распределение случайных множеств событий, которое было получено из имеющейся статистики. Однако, чтобы статистически оценить распределение случайного множества N событий на основе наблюдений, приходится сталкиваться с проблемой хронической недостаточности имеющегося количества наблюдений для надлежащей оценки всех 2N вероятностей p(X), образующее данное вероятностное распределение. Оптимизация данных, как элемент предобработки (препроцессинга), включает снижение размерности входных данных [22]. В [16, 13] предложен рекуррентный метод построения вероятностных распределений случайных множеств событий с помощью аппарата ассоциативных функций. Основная идея рекуррентного метода [16, 13] — выразить вероятности пересечений множества событий функционально через вероятности самих событий, что приводит к уменьшению числа параметров, необходимых для построения вероятностных распределений случайных множеств событий.
Объект и предмет исследования. Объектом исследования в представленной диссертации является моделирование сложных статистических систем. Предмет исследования — построение сет-регрессионных отображений конечных множеств событий.
Цели и задачи. Основной целью работы является разработка и исследование сет-регрессионных моделей для анализа зависимостей случайных событий в сложных статистических системах.
Данная цель достигается путем решения следующих задач:
1. разработать алгоритм для решения задачи сет-регрессии одного случайного множества на другое в классической постановке;
2. разработать алгоритм построения суперпозиции сет-регрессий;
3. разработать метод предобработки данных для задачи сет-регрессии;
4. построить примеры использования сет-регрессионных моделей для анализа данных в экономических и медицинских системах.
Методы исследования основаны на теории вероятностей, математической статистике, методах анализа данных и теории случайных множеств.
Теоретическая значимость работы заключается в том, что получен аналитический вид функции сет-регрессии для вероятностных распределений случайных множеств, рекуррентным методом.
Практическая ценность. Результаты, полученные в работе могут быть применены для модели разделения рынка на потребительские предпочтения, медицинского анализа данных.
Личное участие автора в получении результатов, изложенных в диссертации. Постановка изложенных в диссертации задач была сделана научным руководителем магистранта, к.ф.-м.н., доцентом Семеновой Д.В.. Доказательство и обоснование полученных в диссертации результатов, математические выкладки, численные расчеты выполнены лично автором.
Общая характеристика работы. Во введении раскрывается актуальность исследования по выбранному направлению, ставится проблема, цель и задачи исследования, определяются объект, предмет научных поисков, указывается методологическая база исследования, его теоретическая, практическая значимости. В первой главе изложены элементы теории конечных случайных множеств, даны определения, которые используются в дальнейшем исследовании. Разобраны числовые примеры, иллюстрирующие используемые инструменты теории случайных конечных множеств. Во второй главе рассмотрен алгоритм решения задачи сет-регрессии в классической постановке. Поставлена и решена задача суперпозиции регрессионных отображений. Построена сет-регрессионная модель распределения потребительских предпочтений между фирмами. В третьей главе для предобработки данных для задачи сетрегрессии предлагается использовать рекуррентный метод построения вероятностных распределений случайных множеств событий с помощью аппарата ассоциативных функций. Доказаны две теоремы о виде условного распределения случайного множества, полученного рекуррентным методом с помощью аппарата ассоциативных функций. Разработан алгоритм рекуррентного построения вероятностных распределений для случайных множеств событий. Рассмотрен пример сет-регрессионного анализа медицинских данных. Заключение посвящено основным выводам, приведены сведения об апробации работы.
Структура диссертации. Объём диссертационной работы 51 страниц, на которых размещены 13 рисунков и 20 таблиц. При написании диплома использовалось 25 источников.
Основные результаты. В результате проделанной работы были получены следующие результаты.
1. Разработан алгоритм решения задачи сет-регрессии случайных множеств в классической постановке.
2. Поставлена и решена задача построения суперпозиции сет-регрессий.
3. Для предобработки входных данных предложено использовать рекуррентный метод построения распределений случайных множеств событий ассоциативными функциями. Доказана теорема о виде условного распределения случайного множества событий с использованием ассоциативных функций. Исследовано решение задачи сет-регрессии с использованием ассоциативной функции Франка.
4. Приведены примеры использования сет-регрессионных моделей для анализа зависимостей в экономических и медицинских исследованиях.
Апробация работы. Основные результаты и отдельные положения диссертационных исследований докладывались и обсуждались на научных и научно-практических конференциях международного и всероссийского уровней.
Публикации. По результатам научных исследований имеются следующие публикации в трудах конференций
1. Белов, К. А. Методы и алгоритмы случайно-множественного анализа медицинских данных: диссертация кандидата технических наук : 05.13.01 / Константин Андреевич Белов. — Воронеж, 2005. — 121 с.
2. Воробьёв, О.Ю. Сет-регрессионный анализ зависимостей событий в статистических системах: учеб. пособие / О.Ю. Воробьев, А.Ю. Фомин — Красноярск: ИВМ СО РАНб КрасГУ, 2004. — 116 с.
3. Воробьёв, О.Ю. Эвентология:учеб. пособие / О. Ю. Воробьев — Красноярск: Сиб. фед. ун-т., 2007. — 435 с.
4. Прохоров, Ю.В. Вероятность и математическая статистика: Энциклопедия / Гл. ред. Ю.В.Прохоров. — Москва: Большая Российская энциклопедия, 1999. — 914 с.
5. Иванова, А. И. Препроцессинг данных для задачи сет-регрессии /А. И. Иванова / Проспект Свободный-2016: материалы науч. Конф., [Электронный ресурс] — Красноярск: Сиб. Федер. Ун-т, том «Математика, информатика: теория вероятностей, математическая статистика и финансово-актуарная математика», 2016. — С. 21-23.
6. Иванова, А. И. Суперпозиция сет-регрессий / А. И. Иванова / Проспект Свободный-2015: материалы науч. Конф., посвященной 70-летию Великой Победы [Электронный ресурс] — Красноярск: Сиб. Федер. Ун-т, том «Математика, информатика: теория вероятностей, математическая статистика и финансово-актуарная математика», 2015. — С. 21-23.
7. Иванова, А.И. О задаче сет-регрессии / А.И. Иванова, М.А. Атабеков / Труды XIV конференции по финансово-актуарной математике и эвентологии многомерной статистики. — Красноярск, 2015 — С. 285-292.
8. Иванова, А.И. Эвентологическая регрессия случайных множеств событий в виде сет-средних / А.И. Иванова / ’’Молодежь и наука”: сборник материалов Х Юбилейной Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых с международным участием, посвященной 80-летию образования Красноярского края, [Электронный ресурс], № заказа 1644/отв. ред. О. А. Краев — Красноярск: Сиб. федер. ун-т., 2014
9. Иванова, А.И. Эвентологические регрессии случайных множеств событий в виде условного сет-квантиля / А.И. Иванова / Перспективы развития фундаментальных наук [Электронный ресурс]: труды XII Международной конференции студентов и молодых учёных. Россия, Томск, 21-24 апреля 2015 г. / под ред. Е.А. Вайтулевич. — Национальный Исследовательский Томский политехнический университет, 2015. — С. 597-599.
10. Кендалл, М. Дж. Теория распределений./ М. Дж. Кендалл, А.Стьюарт. — Москва: Наука, Физматлит, 1966. — 588 с.
11. Кобзарь, А.И. Прикладная математическая статистика. Для инженерных и научных специальносте./ А.И. Кобзарь. — Москва: Физматлит, 2006.—816 с.
12. Лукьянова, Н.А. Визуализация средневероятного события через матричное представление террасных событий /Лукьянова Н.А., Я.В.Нартов, Д.В.Семенова. / Труды XVI международной конференции по эвентологиче- ской математики и смежным вопросам— Красноярск: СФУ (под ред. Олега Воробьева), 2012. — С. 145-158.
13. Лукьянова, Н. А. Ассоциативные функции Франка в построении семейств дискретных вероятностных распределений случайных множеств событий / Н.А. Лукьянова, Д. В. Семенова / Прикладная дискретная математика, №2(32), 2016.— С. 5-19.
14. Семенова, Д.В. Сравнение нечеткого и событийного подхода в задаче сегментации рынка /Д.В. Семенова, А.И. Иванова // Новые информационные технологии в исследовании сложных структур: Материалы Десятой российской конференции с международным участием. — Томск: Издательский Дом Томского государственного университета, 2014. — С. 128.
15. Семенова, Д.В. Нечеткая и сет-регрессионная модели распределения потребительских предпочтений между фирмами / Д.В. Семенова / Труды XIII ФАМЭМС’2014 конференции (под ред. О.Ю. Воробьёва). — Красноярск: СФУ, 2014. — С. 222-227.
16. Семенова, Д.В., Рекуррентное построение дискретных вероятностных распределений случайных множеств событий / Д. В. Семенова, Н.А. Лукьянова /Прикладная дискретная математика. №4(26), 2014. — С. 47-58.
17. Орлов, А.И. Нечисловая статистика/ А.И. Орлов — Москва:М3-Пресс, 2014. — 513 с.
18. Тарасова, О. Ю. Сеточные и регрессионные алгоритмы аппроксимации сложных систем событий: автореф. дис. на соиск. учен. степ. канд. физ.- мат. н. по специальности 05.13.01 / Ольга Юрьевна Тарасова — Красноярск, 2007. — 24 с.
19. Ширяев, А.Н. Вероятность: в 2-ч кн.— 4-е изд. / А.Н. Ширяев. — М.: МЦ- НМО, 2004. — 968 с.
20. Alsina, S. Associative functions: Triangular Norms and Copulas. / S. Alsina , M. Frank , B. Scueizer — Singapore: World Scientific Pubishing Co.Pte. Ltd., 2006. — 237 p.
21. Lukyanova, N.A. Eventological subdistributions: matrix representation of the events-terraces for a set of events / N.A. Lukyanova / Труды XV Международной ЭМ’2011 конференция. 10-11 декабря 2011 — Красноярск: КГТЭИ, СФУ, 2011.-С. 20-26.
22. Han, J. Data Mining: Concepts and Techniques / J. Han, M. Kamber. — Elsevier Inc., 2006. —
23. Molchanov, I. The Theory of Random Sets Springer / I. Molchanov. — New York, 2011.— 488 p.
24. Nguyen, H. T. An Introduction to Random/ H. T. Nguyen. — Sets Taylor Francis Group, LLC, 2006. — 240 p.
25. Frank, M.J. On the simultaneous associative of F (x, y) и x + y — F (x, y)/ M.J. Frank — Aequatines Math.№19, 1979 — 194-226 p.