Тип работы:
Предмет:
Язык работы:


ВОССТАНОВЛЕНИЕ ДАННЫХ НА ОСНОВЕ MULTIPLE IMPUTATION С ИСПОЛЬЗОВАНИЕМ JACK KNIFE

Работа №18988

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы62
Год сдачи2017
Стоимость5750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
575
Не подходит работа?

Узнай цену на написание


Введение 3
1 Теория некомплектных данных 5
2 Обзор наиболее популярных методов восстановления данных... 7
2.1 Подстановка среднего по выборке 7
2.2 Метод заполнение медианой 10
2.3 Метод Hot Deck 11
2.4 ЕМ-алгоритм 12
2.5 Парная регрессия и метод наименьших квадратов 15
2.6 Стохастическая регрессионная вставка 17
2.7 Метод multiple imputation 19
2.8 Метод Jeck Knife 23
3 Реализация многократного включения 24
3.1 Реализация в пакете SPSS 24
3.2 Реализация в разработанном программном обеспечении в
среде программирования Delphi 27
4 Вычислительный эксперимент 29
Заключение 33
Список использованных источников 34
Приложение А (Обязательное) Исходный код программы 36


При проведении научных исследований и технических разработок во многих случаях возникают ситуации, когда исходные данные являются неполными или некомплектными. Под «неполностью» или «некомплектностью» подразумевается то, что некоторые данные по тем или иным причинам пропущены или отсутствуют в исходном массиве данных.
Традиционными причинами, приводящими к появлению пропусков, являются:
- невозможность их получения или обработки;
- искажение или сокрытие информации;
- всевозможные поломки технического оборудования;
- природные явления;
- экономические причины и т.д.
в результате на вход программ анализа собранных данных поступают неполные сведения.
С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных технических, социологических, экономических, астрономических, биологических, статистических и др. исследований. Западные исследователи такие данные с пропущенными значениями называют “missing data” или “incomplete data”.
Обычно классическая математика не предусматривает работу с пропущенными данными, следовательно, нужно заниматься методами, которые либо «восстанавливают» данные в пропусках, либо работают непосредственно с неполными данными. Во всем мире особый интерес проявляется именно к восстановлению пропущенных данных, на основании каких-либо моделей о представлении работы с данными, это связанно с тем, что в дальнейшем мы сможем использовать не только классические методы работы с такими данными, но и делать определённые выводы, считая данные “полнокомплектными”.
На практике многие исследователи при работе с некомплектными данными большей частью идут по пути усечения выборки, отбрасывая неполные данные, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии.
В связи с этим к настоящему времени разработано достаточно большое количество подходов к восстановлению пропущенных данных, тем не менее, исследователи продолжают поиск новых методов восстановления, которые направлены на более качественное обработку и восстановление таких данных.
Предыдущими работами исследователей показано, что применение тех или иных методов восстановления пропущенных данных тесно связано с моделью появления пропусков.
В настоящей дипломной работе представлены модели появления пропусков, проведен обзор методов восстановления пропущенных данных, а также предложен подход восстановления данных на основе многократного включения (multiple imputation) c последующей корректировкой методом jack knife. Для предложенного подхода разработано программное обеспечение и на основе медицинских данных, рассмотрен конкретный пример восстановления данных. Для осуществления однократных включений (single imputation), применяемых в multiple imputation, использованы как стандартные процедуры пакета SPSS (основной пакет программ для статистической обработки данных, предназначенной для проведения прикладных исследований в социальных науках), так и вновь разработанные процедуры.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной дипломной работе проведены исследования на тему восстановления пропусков в некомплектных данных. Были рассмотрены механизмы порождения пропусков и дан обзор некоторых популярных методов работы с некомплектностью данных, выполняющих задачу. На основании этого было принято решение о создании собственного программного продукта. В процессе создания программного продукта была рассмотрена реализация функционала пакета SPSS, работающую с пропусками в данных. Был реализован программный продукт, применяющий методы восстановления пропущенных данных.
а) Программный продукт использует популярные методы восстановления данных для заполнения пропусков в некомплектных данных.
б) Взаимодействие с пользователем программного продукта производится через графический интерфейс (UI).
А также, был проведен вычислительный эксперимент, в результате которого сделан сравнительный анализ эффективности применения многократной вставки по правилу Рубина и однократных методов заполнения пропусков. После оценки эффективности подходов можно сделать вывод, что Multiple imputation действительно дает хорошие результаты восстановления. По реальным численным значениям они могут отличаться, но тем не менее они будут входить в 95% доверительный интервал, а метод Jack Knife на шаге анализа в какой-то мере способен улучшить результат, но его имеет смысл использовать при некомплектности от 20% и выше, поскольку при меньших потерях его работа не видна.



1. Литтл Р.Дж.А., Статистический анализ данных с пропусками. Финансы и статистика / Литтл Р.Дж.А., Рубин Д.Б - Москва, 1991,336 стр.
2. Гаврилов П.А. Обзор методов предобработки, используемых для решения задач классификации в условиях неполноты: Вестник Рязанского государственного радиотехнического университета. № 55, 2016, стр. 141-145.
3. Орлов А.И., Прикладная статистика М.: Издательство «Экзамен», 2004, 656 стр.
4. Подход к агрегированию результатов множественного заполнения пропусков - правила Рубина или усреднения подставленных значений
- для некоторых исследовательских ситуаций [Электронный ресурс]. - Режим доступа: http://statref.ru/refjgemaotrpol.html
5. Попова В.Б. Особенности регрессионного анализа с применением метода Джекнайф. Мичуринский государственный аграрный университет - Мичуринск, 2009, стр. 32-36.
6. Оценка статистики и импутация пропущенных значений [Электронный ресурс], сайт компании «IBM». - Режим доступа: https://www.ibm.com/support/knowledgecenter/ru/SSLVMB_23.0.0/spss/ mva/spssmva_estimating.html
7. Модуль Missing Values [Электронный ресурс], сайт компании «IBM».
- Режим доступа:
https://www.ibm.com/support/knowledgecenter/ru/SSLVMB_22.0.0/kc_ge n/com.ibm.spss.statistics.help_statistics_mainhelp-gen11 .html
8. Регрессия (математика) [Электронный ресурс], Wikipedia. - Режим доступа: https://ru.wikipedia.org/wiki/Регрессия_(математика)
9. Rubin D.B. Statistical Analysis with Missing Data. New York: John Wiley & Sons, 1987, 408 p.
10. Craig K. Enders, APPLIED MISSING DATA ANALYSIS. The Guilford Press. 72 Spring Street - New York, 2010, 401 p.
11. Chen, The comparative efficacy of imputation methods for missing data in structural equation modeling / Chen, & Harlow, European Journal of Operational Research, 2003,pp 53-79.
12. Schafer, J.L., Missing data: Our view of the state of the art. Psychological Methods / Schafer, J.L., & Graham, J.W., 2002, pp 147-177.
13. W.Yung, Jackknife Linearization Variance Estimators Under Stratified Multi-Stage Sampling. Survey Methodology / W.Yung, J.N.K. Rao, 1996, pp 23-31.
14. Tukey, J.W., The future of processes of data analysis. In The Collected Works of John W. Tukey (Volume IV) - New York: Wadsworth, 1986, pp 517-549.
15. Diaconis, P., Computer-intensive methods in statistics / Diaconis. P, Efron B., Stanford University. Division of Biostatistics, 1983, 19 p.
16. Miller, R.G., The jackknife: a review, Biometrika, vol. 61, 1974, pp 1-15.
17. Tukey, J.W., Bias and confidence in not quite large samples (abstract). Annals of Mathematical Statistics, № 29, 1958, 614 p.
18. Brand J.P.L., Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets: Thesis Erasmus University Rotterdam, 1999, 224 p.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ