Введение 3
1 Теория некомплектных данных 5
2 Обзор наиболее популярных методов восстановления данных... 7
2.1 Подстановка среднего по выборке 7
2.2 Метод заполнение медианой 10
2.3 Метод Hot Deck 11
2.4 ЕМ-алгоритм 12
2.5 Парная регрессия и метод наименьших квадратов 15
2.6 Стохастическая регрессионная вставка 17
2.7 Метод multiple imputation 19
2.8 Метод Jeck Knife 23
3 Реализация многократного включения 24
3.1 Реализация в пакете SPSS 24
3.2 Реализация в разработанном программном обеспечении в
среде программирования Delphi 27
4 Вычислительный эксперимент 29
Заключение 33
Список использованных источников 34
Приложение А (Обязательное) Исходный код программы 36
При проведении научных исследований и технических разработок во многих случаях возникают ситуации, когда исходные данные являются неполными или некомплектными. Под «неполностью» или «некомплектностью» подразумевается то, что некоторые данные по тем или иным причинам пропущены или отсутствуют в исходном массиве данных.
Традиционными причинами, приводящими к появлению пропусков, являются:
- невозможность их получения или обработки;
- искажение или сокрытие информации;
- всевозможные поломки технического оборудования;
- природные явления;
- экономические причины и т.д.
в результате на вход программ анализа собранных данных поступают неполные сведения.
С проблемой обработки пропусков в массивах данных приходится сталкиваться при проведении разнообразных технических, социологических, экономических, астрономических, биологических, статистических и др. исследований. Западные исследователи такие данные с пропущенными значениями называют “missing data” или “incomplete data”.
Обычно классическая математика не предусматривает работу с пропущенными данными, следовательно, нужно заниматься методами, которые либо «восстанавливают» данные в пропусках, либо работают непосредственно с неполными данными. Во всем мире особый интерес проявляется именно к восстановлению пропущенных данных, на основании каких-либо моделей о представлении работы с данными, это связанно с тем, что в дальнейшем мы сможем использовать не только классические методы работы с такими данными, но и делать определённые выводы, считая данные “полнокомплектными”.
На практике многие исследователи при работе с некомплектными данными большей частью идут по пути усечения выборки, отбрасывая неполные данные, мало задумываясь над тем, что такой подход может приводить к сильному различию статистических выводов, сделанных при наличии в данных пропусков и при их отсутствии.
В связи с этим к настоящему времени разработано достаточно большое количество подходов к восстановлению пропущенных данных, тем не менее, исследователи продолжают поиск новых методов восстановления, которые направлены на более качественное обработку и восстановление таких данных.
Предыдущими работами исследователей показано, что применение тех или иных методов восстановления пропущенных данных тесно связано с моделью появления пропусков.
В настоящей дипломной работе представлены модели появления пропусков, проведен обзор методов восстановления пропущенных данных, а также предложен подход восстановления данных на основе многократного включения (multiple imputation) c последующей корректировкой методом jack knife. Для предложенного подхода разработано программное обеспечение и на основе медицинских данных, рассмотрен конкретный пример восстановления данных. Для осуществления однократных включений (single imputation), применяемых в multiple imputation, использованы как стандартные процедуры пакета SPSS (основной пакет программ для статистической обработки данных, предназначенной для проведения прикладных исследований в социальных науках), так и вновь разработанные процедуры.
В данной дипломной работе проведены исследования на тему восстановления пропусков в некомплектных данных. Были рассмотрены механизмы порождения пропусков и дан обзор некоторых популярных методов работы с некомплектностью данных, выполняющих задачу. На основании этого было принято решение о создании собственного программного продукта. В процессе создания программного продукта была рассмотрена реализация функционала пакета SPSS, работающую с пропусками в данных. Был реализован программный продукт, применяющий методы восстановления пропущенных данных.
а) Программный продукт использует популярные методы восстановления данных для заполнения пропусков в некомплектных данных.
б) Взаимодействие с пользователем программного продукта производится через графический интерфейс (UI).
А также, был проведен вычислительный эксперимент, в результате которого сделан сравнительный анализ эффективности применения многократной вставки по правилу Рубина и однократных методов заполнения пропусков. После оценки эффективности подходов можно сделать вывод, что Multiple imputation действительно дает хорошие результаты восстановления. По реальным численным значениям они могут отличаться, но тем не менее они будут входить в 95% доверительный интервал, а метод Jack Knife на шаге анализа в какой-то мере способен улучшить результат, но его имеет смысл использовать при некомплектности от 20% и выше, поскольку при меньших потерях его работа не видна.