Сравнение эффективности методов многомерной визуализации
|
Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Статистический анализ данных ESS 7
1.1. Выбор исследуемого параметра 7
1.2. Выявление зависимости между параметрами 8
1.3. Построение регрессионных моделей 10
1.4. Снижение размерности данных 11
1.5. Выводы по первой главе 14
Глава 2. Визуализация многомерных данных в SPSS 15
2.1. Методы для данных произвольной размерности 15
2.1.1. Матрица диаграмм рассеяния 15
2.1.2. Перекрывающие диаграммы рассеяния 16
2.1.3. Метод параллельных координат 17
2.2. Методы для трехмерных данных 17
2.3. Выводы из второй главы 18
Заключение 19
Список литературы 20
Постановка задачи 5
Обзор литературы 6
Глава 1. Статистический анализ данных ESS 7
1.1. Выбор исследуемого параметра 7
1.2. Выявление зависимости между параметрами 8
1.3. Построение регрессионных моделей 10
1.4. Снижение размерности данных 11
1.5. Выводы по первой главе 14
Глава 2. Визуализация многомерных данных в SPSS 15
2.1. Методы для данных произвольной размерности 15
2.1.1. Матрица диаграмм рассеяния 15
2.1.2. Перекрывающие диаграммы рассеяния 16
2.1.3. Метод параллельных координат 17
2.2. Методы для трехмерных данных 17
2.3. Выводы из второй главы 18
Заключение 19
Список литературы 20
Совершенствование методов, используемых в области социологических, политических, экономических исследований непрерывно ведет к усложнению и увеличению количества полученных данных. В связи с этим возникает ряд проблем при анализе таких данных. Например, возникают трудности с однозначным определением распределения многомерных данных, которые могут быть распределены не нормально, а, допустим, фрактально. Данная работа посвящена решению одной из существующих проблем, а именно задаче сечения исходных данных большой размерности.
С точки зрения математической статистики, такие данные характеризуются большим количеством параметров. Вследствие чего, анализ требует большого количества вычислений и, следовательно, использования современных информационных технологий и специализированного программного обеспечения. Показательным примером «сложных инструментов» анализа являются многомерные методы. Многомерные методы - наиболее трудоемкие и ресурсозатратные (с точки зрения расчетов) методы в математической статистике. Однако, не редки случаи, когда исследователь не располагает необходимой материальной базой. Ввиду отсутствия значительных средств и доступа к большим вычислительным мощностям, ученый вынужден анализировать двухмерные сечения исходных данных как наиболее простые объекты исследования, т. е. попытаться установить зависимость конкретной переменной от одного из возможных параметров.
Целью работы является разработка некоторого алгоритма для исследования взаимосвязи интересующего нас явления с множеством всех параметров.
Кроме того, в работе рассматривается вопрос визуализации полученных результатов для возможности дальнейшей интерпретации.
Для решения этой задачи ресурсным центром «Вычислительный центр СПбГУ» была предоставлена исследовательская платформа в виде виртуального вычислительного сервера на одном из вычислительных кластеров центра, а также статистический пакет программ IBM SPSS Statistics версии 21 в качестве основного средства анализа [1].
В качестве исходных данных были взяты данные, предоставленные Европейским Социальным Исследованием (the ESS) [2]. Европейское социологическое исследование - это двухлетняя работа, цель которой слежение за изменениями в институтах, предпочтениях, уверениях и поведенческих моделях людей в Европе. Начатое в 2002 году исследование проводилось каждые два года во многих европейских странах. Были взяты результаты для Российской Федерации в 2012 году, полученные в ходе шестой волны исследования [2]. База данных ESS хорошо подходит для исследования в рамках поставленной задачи, так как содержит большое количество переменных. В изначальном варианте в ней насчитывается 626 переменных. После исключения пустых полей, отвечающих за граждан других стран, а также полей, содержащих незначительное количество информации, база содержит 241 переменных. Именно этот вариант был принят в качестве исходных данных.
С точки зрения математической статистики, такие данные характеризуются большим количеством параметров. Вследствие чего, анализ требует большого количества вычислений и, следовательно, использования современных информационных технологий и специализированного программного обеспечения. Показательным примером «сложных инструментов» анализа являются многомерные методы. Многомерные методы - наиболее трудоемкие и ресурсозатратные (с точки зрения расчетов) методы в математической статистике. Однако, не редки случаи, когда исследователь не располагает необходимой материальной базой. Ввиду отсутствия значительных средств и доступа к большим вычислительным мощностям, ученый вынужден анализировать двухмерные сечения исходных данных как наиболее простые объекты исследования, т. е. попытаться установить зависимость конкретной переменной от одного из возможных параметров.
Целью работы является разработка некоторого алгоритма для исследования взаимосвязи интересующего нас явления с множеством всех параметров.
Кроме того, в работе рассматривается вопрос визуализации полученных результатов для возможности дальнейшей интерпретации.
Для решения этой задачи ресурсным центром «Вычислительный центр СПбГУ» была предоставлена исследовательская платформа в виде виртуального вычислительного сервера на одном из вычислительных кластеров центра, а также статистический пакет программ IBM SPSS Statistics версии 21 в качестве основного средства анализа [1].
В качестве исходных данных были взяты данные, предоставленные Европейским Социальным Исследованием (the ESS) [2]. Европейское социологическое исследование - это двухлетняя работа, цель которой слежение за изменениями в институтах, предпочтениях, уверениях и поведенческих моделях людей в Европе. Начатое в 2002 году исследование проводилось каждые два года во многих европейских странах. Были взяты результаты для Российской Федерации в 2012 году, полученные в ходе шестой волны исследования [2]. База данных ESS хорошо подходит для исследования в рамках поставленной задачи, так как содержит большое количество переменных. В изначальном варианте в ней насчитывается 626 переменных. После исключения пустых полей, отвечающих за граждан других стран, а также полей, содержащих незначительное количество информации, база содержит 241 переменных. Именно этот вариант был принят в качестве исходных данных.
В ходе работы был выработан следующий алгоритм редукции многомерных данных.
1. Выделение параметров при помощи исследования корреляционных зависимостей переменных;
2. Построение многомерной регрессионной модели для прогнозирования значения исследуемого параметра;
3. Снижение размерности исходных данных при помощи метода главных компонент.
В работе рассмотрен пример применения алгоритма к базе данных Европейского Социального Исследования. В результате, был исследован вопрос об удовлетворенности граждан страны жизнью, построена регрессионная модель для предсказания значения «удовлетворенности», а также получены новые переменные, которые могут быть однозначно интерпретированы и использоваться вместо большего числа исходных параметров.
В заключении, можно сделать вывод о том, что использование сложных инструментов статистического анализа и дорогостоящего программного обеспечения оправдано лишь в том случае, когда важна высокая точность результата, оправдывающая все вычислительные затраты, или есть основания полагать, что существует некоторая сложная взаимосвязь между переменными. В противном же случае, разумно использовать более простые методы, предоставляющие достаточную степень точности.
1. Выделение параметров при помощи исследования корреляционных зависимостей переменных;
2. Построение многомерной регрессионной модели для прогнозирования значения исследуемого параметра;
3. Снижение размерности исходных данных при помощи метода главных компонент.
В работе рассмотрен пример применения алгоритма к базе данных Европейского Социального Исследования. В результате, был исследован вопрос об удовлетворенности граждан страны жизнью, построена регрессионная модель для предсказания значения «удовлетворенности», а также получены новые переменные, которые могут быть однозначно интерпретированы и использоваться вместо большего числа исходных параметров.
В заключении, можно сделать вывод о том, что использование сложных инструментов статистического анализа и дорогостоящего программного обеспечения оправдано лишь в том случае, когда важна высокая точность результата, оправдывающая все вычислительные затраты, или есть основания полагать, что существует некоторая сложная взаимосвязь между переменными. В противном же случае, разумно использовать более простые методы, предоставляющие достаточную степень точности.
Подобные работы
- Сравнение эффективности методов многомерной визуализации
Бакалаврская работа, математика. Язык работы: Русский. Цена: 4500 р. Год сдачи: 2016 - Разработка программного обеспечения для сравнения эффективности применения различных алгоритмов машинного обучения на данных из открытого репозитория
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4350 р. Год сдачи: 2021 - Разработка приложения для сравнения эффективности алгоритмов классификации данных
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4365 р. Год сдачи: 2022 - ИССЛЕДОВАНИЕ И РАЗРАБОТКА ПРОГРАММНЫХ СРЕДСТВ ДЛЯ ИССЛЕДОВАНИЯ МНОГОМЕРНЫХ ДАННЫХ С ПОМОЩЬЮ НЕЛИНЕЙНЫХ МЕТОДОВ ГЛАВНЫХ КОМПОНЕНТ
Магистерская диссертация, математика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2017 - РАЗРАБОТКА МЕТОДА, АЛГОРИТМОВ И ПРОГРАММНЫХ КОМПОНЕНТОВ ДЛЯ ПРОГРАММЫ МНОГОМЕРНОГО АНАЛИЗА
ВОЕННОЙ МОЩИ ВЕДУЩИХ СТРАН МИРА
Дипломные работы, ВКР, информационная безопасность. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2017 - СРАВНИТЕЛЬНЫЙ АНАЛИЗ УРОВНЕЙ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО
РАЗВИТИЯ РЕГИОНОВ РЕСПУБЛИКИ УЗБЕКИСТАН
Бакалаврская работа, экономика. Язык работы: Русский. Цена: 4630 р. Год сдачи: 2025 - Генерация учебных заданий на основе текста с использованием порождающих грамматик над многомерными данными
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 5700 р. Год сдачи: 2016 - Визуализация данных геомониторинга для решения прогностических
Бакалаврская работа, математика. Язык работы: Русский. Цена: 5900 р. Год сдачи: 2018 - Моделирование системы анализа данных на основе технологии OLAP
с помощью программного обеспечения с открытым исходным кодом
Магистерская диссертация, бизнес планирование. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2024





