📄Работа №18988

Тема: ВОССТАНОВЛЕНИЕ ДАННЫХ НА ОСНОВЕ MULTIPLE IMPUTATION С ИСПОЛЬЗОВАНИЕМ JACK KNIFE

Характеристики работы

Тип работы Бакалаврская работа
Математика
Предмет Математика
📄
Объем: 62 листов
📅
Год: 2017
👁️
Просмотров: 635
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Введение 3
1 Теория некомплектных данных 5
2 Обзор наиболее популярных методов восстановления данных... 7
2.1 Подстановка среднего по выборке 7
2.2 Метод заполнение медианой 10
2.3 Метод Hot Deck 11
2.4 ЕМ-алгоритм 12
2.5 Парная регрессия и метод наименьших квадратов 15
2.6 Стохастическая регрессионная вставка 17
2.7 Метод multiple imputation 19
2.8 Метод Jeck Knife 23
3 Реализация многократного включения 24
3.1 Реализация в пакете SPSS 24
3.2 Реализация в разработанном программном обеспечении в
среде программирования Delphi 27
4 Вычислительный эксперимент 29
Заключение 33
Список использованных источников 34
Приложение А (Обязательное) Исходный код программы 36

📖 Введение

При проведении научных исследований и технических разработок во многих случаях возникают ситуации, когда исходные данные являются неполными или некомплектными. Под «неполностью» или «некомплектностью» подразумевается то, что некоторые данные по тем или иным причинам пропущены или отсутствуют в исходном массиве данных.
Традиционными причинами, приводящими к появлению пропусков, являются:
- невозможность их получения или обработки;
- искажение или сокрытие информации;
- всевозможные поломки технического оборудования;
- природные явления;
- экономические причины и т.д.
в результате на вход программ анализа собранных данных поступают неполные сведения.
С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных технических, социологических, экономических, астрономических, биологических, статистических и др. исследований. Западные исследователи такие данные с пропущенными значениями называют “missing data” или “incomplete data”.
Обычно классическая математика не предусматривает работу с пропущенными данными, следовательно, нужно заниматься методами, которые либо «восстанавливают» данные в пропусках, либо работают непосредственно с неполными данными. Во всем мире особый интерес проявляется именно к восстановлению пропущенных данных, на основании каких-либо моделей о представлении работы с данными, это связанно с тем, что в дальнейшем мы сможем использовать не только классические методы работы с такими данными, но и делать определённые выводы, считая данные “полнокомплектными”.
На практике многие исследователи при работе с некомплектными данными большей частью идут по пути усечения выборки, отбрасывая неполные данные, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии.
В связи с этим к настоящему времени разработано достаточно большое количество подходов к восстановлению пропущенных данных, тем не менее, исследователи продолжают поиск новых методов восстановления, которые направлены на более качественное обработку и восстановление таких данных.
Предыдущими работами исследователей показано, что применение тех или иных методов восстановления пропущенных данных тесно связано с моделью появления пропусков.
В настоящей дипломной работе представлены модели появления пропусков, проведен обзор методов восстановления пропущенных данных, а также предложен подход восстановления данных на основе многократного включения (multiple imputation) c последующей корректировкой методом jack knife. Для предложенного подхода разработано программное обеспечение и на основе медицинских данных, рассмотрен конкретный пример восстановления данных. Для осуществления однократных включений (single imputation), применяемых в multiple imputation, использованы как стандартные процедуры пакета SPSS (основной пакет программ для статистической обработки данных, предназначенной для проведения прикладных исследований в социальных науках), так и вновь разработанные процедуры.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В данной дипломной работе проведены исследования на тему восстановления пропусков в некомплектных данных. Были рассмотрены механизмы порождения пропусков и дан обзор некоторых популярных методов работы с некомплектностью данных, выполняющих задачу. На основании этого было принято решение о создании собственного программного продукта. В процессе создания программного продукта была рассмотрена реализация функционала пакета SPSS, работающую с пропусками в данных. Был реализован программный продукт, применяющий методы восстановления пропущенных данных.
а) Программный продукт использует популярные методы восстановления данных для заполнения пропусков в некомплектных данных.
б) Взаимодействие с пользователем программного продукта производится через графический интерфейс (UI).
А также, был проведен вычислительный эксперимент, в результате которого сделан сравнительный анализ эффективности применения многократной вставки по правилу Рубина и однократных методов заполнения пропусков. После оценки эффективности подходов можно сделать вывод, что Multiple imputation действительно дает хорошие результаты восстановления. По реальным численным значениям они могут отличаться, но тем не менее они будут входить в 95% доверительный интервал, а метод Jack Knife на шаге анализа в какой-то мере способен улучшить результат, но его имеет смысл использовать при некомплектности от 20% и выше, поскольку при меньших потерях его работа не видна.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Литтл Р.Дж.А., Статистический анализ данных с пропусками. Финансы и статистика / Литтл Р.Дж.А., Рубин Д.Б - Москва, 1991,336 стр.
2. Гаврилов П.А. Обзор методов предобработки, используемых для решения задач классификации в условиях неполноты: Вестник Рязанского государственного радиотехнического университета. № 55, 2016, стр. 141-145.
3. Орлов А.И., Прикладная статистика М.: Издательство «Экзамен», 2004, 656 стр.
4. Подход к агрегированию результатов множественного заполнения пропусков - правила Рубина или усреднения подставленных значений
- для некоторых исследовательских ситуаций [Электронный ресурс]. - Режим доступа: http://statref.ru/refjgemaotrpol.html
5. Попова В.Б. Особенности регрессионного анализа с применением метода Джекнайф. Мичуринский государственный аграрный университет - Мичуринск, 2009, стр. 32-36.
6. Оценка статистики и импутация пропущенных значений [Электронный ресурс], сайт компании «IBM». - Режим доступа: https://www.ibm.com/support/knowledgecenter/ru/SSLVMB_23.0.0/spss/ mva/spssmva_estimating.html
7. Модуль Missing Values [Электронный ресурс], сайт компании «IBM».
- Режим доступа:
https://www.ibm.com/support/knowledgecenter/ru/SSLVMB_22.0.0/kc_ge n/com.ibm.spss.statistics.help_statistics_mainhelp-gen11 .html
8. Регрессия (математика) [Электронный ресурс], Wikipedia. - Режим доступа: https://ru.wikipedia.org/wiki/Регрессия_(математика)
9. Rubin D.B. Statistical Analysis with Missing Data. New York: John Wiley & Sons, 1987, 408 p.
10. Craig K. Enders, APPLIED MISSING DATA ANALYSIS. The Guilford Press. 72 Spring Street - New York, 2010, 401 p.
11. Chen, The comparative efficacy of imputation methods for missing data in structural equation modeling / Chen, & Harlow, European Journal of Operational Research, 2003,pp 53-79.
12. Schafer, J.L., Missing data: Our view of the state of the art. Psychological Methods / Schafer, J.L., & Graham, J.W., 2002, pp 147-177.
13. W.Yung, Jackknife Linearization Variance Estimators Under Stratified Multi-Stage Sampling. Survey Methodology / W.Yung, J.N.K. Rao, 1996, pp 23-31.
14. Tukey, J.W., The future of processes of data analysis. In The Collected Works of John W. Tukey (Volume IV) - New York: Wadsworth, 1986, pp 517-549.
15. Diaconis, P., Computer-intensive methods in statistics / Diaconis. P, Efron B., Stanford University. Division of Biostatistics, 1983, 19 p.
16. Miller, R.G., The jackknife: a review, Biometrika, vol. 61, 1974, pp 1-15.
17. Tukey, J.W., Bias and confidence in not quite large samples (abstract). Annals of Mathematical Statistics, № 29, 1958, 614 p.
18. Brand J.P.L., Development, Implementation and Evaluation of Multiple Imputation Strategies for the Statistical Analysis of Incomplete Data Sets: Thesis Erasmus University Rotterdam, 1999, 224 p.

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ