Тема: РАЗРАБОТКА ПАКЕТА ПРОГРАММ ИНДИКАТОРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА ДЛЯ СРЕДЫ ВЫЧИСЛЕНИЙ R
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ОГЛАВЛЕНИЕ 4
СПИСОК СОКРАЩЕНИЙ 5
ВВЕДЕНИЕ 6
1 Публикация расширений к системе R 9
1.1 Назначение пакетов R 9
1.2 Требования к пакету 11
1.3 Разработка пакетов R 13
1.3.1 Структура пакетов 13
1.3.2 Цикл работы над пакетом R 15
1.3.3 Взаимодействие между R и библиотекой DLL 24
1.3.4 Процедура публикации 27
2 Индикаторные процедуры 28
2.1 Линейные модели квантильной и многоквантильной регрессии 28
2.2 Проверка гипотез 30
2.2.1 Критерий максимальной средней кривизны функции мощности 33
2.2.2 Принцип максимума взвешенного отношения правдоподобия 34
2.2.3 Структура критериальной статистики для простых разбиений 35
2.3 Точечное и доверительное оценивание параметров 36
2.3.1 Точечные оценки 37
2.3.2 Доверительные области 37
2.4 Алгоритмы вычисления индикаторных оценок 38
2.4.1 Алгоритм полного перебора пространства индикаторных признаков 39
2.4.2 Сокращенный перебор пространства индикаторных признаков 39
2.4.3 Сокращенный перебор вершин апостериорного разбиения 40
2.4.4 Методы, использующие пробные точки 40
3 Состав разработанного пакета sbrq (Sign-Based Regression Quantiles) 42
3.1 Библиотека классов и функций 42
3.1.1 Интерфейсные функции библиотеки 43
3.1.2 Классы объектов библиотеки 51
3.2 Оберточные функции 56
3.3 Демонстрационные примеры 57
ЗАКЛЮЧЕНИЕ 63
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 64
📖 Введение
На данный момент насчитываются десятки качественных статистических пакетов прикладных программ, среди которых явными лидерами являются SPSS, SAS и MatLab. Однако, в 2013 году, несмотря на высокую конкуренцию, R стал самым используемым программным продуктом для статистического анализа в научных публикациях и распространения разработанных методов обработки данных среди научной общественности. Кроме того, в последнее десятилетие R становится все более востребованным и в бизнес- секторе: такие компании-гиганты, как Google, Facebook, Ford и New York Times активно используют его для сбора, анализа и визуализации данных
Основой проекта R является интерпретируемый язык программирования R, который ориентирован на обработку массивов статистических данных и предоставляет возможности вызова большого количества функций, реализующих различные математические методы обработки данных (линейное и нелинейное программирование, классические статистические тесты, анализ временных рядов, классификация, кластерный анализ, и т.д.), а также позволяет использовать графические процедуры для изображения данных. Одной из сильных сторон R является возможность создания коротких программ для решения разовых задач обработки и анализа данных путем комбинирования вызываемых функций и использования качественного графического представления.
Важной особенностью программного комплекса R является его расширяемость за счет установки дополнительных пакетов. При этом существует процедура опубликования пакетов, которая постепенно стала широко распространенной, в результате чего научные группы всего мира получили возможность не только использовать стандартное программное обеспечение, но и возможность распространять свои разработки среди специалистов.
Программный комплекс R и дополнительные пакеты к нему распространяются через CRAN (акроним Comprehensive R Archive Network). CRAN - это сеть ftp и веб-серверов по всему миру, в которых хранятся идентичные, обновленные версии кода и документации для R.
На кафедре системного анализа и математического моделирования разрабатывается подход к построению статистических процедур, получивший название «индикаторный статистический анализ» [2, 10, 15]. В качестве анализируемых признаков индикаторные методы используют не величины невязок при подгонке модели данных, а лишь факты их принадлежности множествам из некоторого разбиения (известного с точностью до параметров).
Индикаторные методы являются обобщением знаковых статистических процедур [1], которые в свою очередь применяются к моделям квантильной регрессии [10, 15], в свое время обобщенные на модель двухквантильной регрессии [17, 18].
По сравнению с методом наименьших взвешенных модулей, традиционно используемым в квантильной регрессии, индикаторные процедуры являются более трудоемкими, но обладают большей устойчивостью к грубым ошибкам при той же асимптотической эффективности, а также расширяют круг задач, позволяя описывать неизвестный масштаб распределения погрешностей с помощью интерквантильного размаха или одновременно оценивать несколько функций квантильной регрессии. При этом они не требуют одинаковой распределенности погрешностей, а при проверке простой гипотезы можно указать точное распределение индикаторных статистик даже для конечных объемов выборки.
Среди многообразных применений индикаторного анализа можно назвать задачи квантильной регрессии на основе знаков невязок, а также возможность описывать неизвестный масштаб распределения погрешностей измерений не с помощью дисперсии, а с помощью интерквантильного размаха.
Целью данной работы является подготовка к публикации в CRAN пакета, содержащего библиотеку программ, реализующих разработанные индикаторные статистические процедуры.
Для достижения этой цели необходимо решить следующие задачи:
1. Изучение требований к составу, структуре пакетов R и процедуры их опубликования.
2. Изучение методов вызова функций подключаемой библиотеки.
3. Изучение основных индикаторных статистических процедур и алгоритмов их реализации.
4. Изучение текущего состояния разрабатываемой библиотеки.
5. Приведение исходных кодов библиотеки к кроссплатформенному виду.
6. Тестирование и отладка функций библиотеки.
7. Изучение процесса разработки пакетов для среды R.
8. Подготовка основных компонент пакета R (библиотека, скрипты вызова, описание, примеры использования и др.).
9. Сборка пакета для платформ Windows и Unix.
В данном отчете представлены результаты выполнения этих задач. Кроме этого, сведения, представленные в данном отчете, могут использоваться как пошаговое руководство для студентов и сотрудников, которые будут представлять свои разработки в виде расширений для пакета R.
✅ Заключение
1. Изучение требований к составу, структуре пакетов R и процедуры их опубликования.
2. Изучение методов вызова функций подключаемой библиотеки.
3. Изучение основных индикаторных статистических процедур и алгоритмов их реализации.
4. Изучение текущего состояния разрабатываемой библиотеки.
5. Приведение исходных кодов библиотеки к кроссплатформенному виду.
6. Тестирование и отладка функций библиотеки.
7. Изучение процесса разработки пакетов для среды R.
8. Подготовка основных компонент пакета R (библиотека, скрипты вызова, описание, демонстрационные примеры использования, и др.).
9. Сборка пакета для платформ Windows и Unix.
В результате работы подготовлен к опубликованию пакет расширения для среды R, реализующий индикаторные статистические процедуры (раздел 2).
Кроме того, результатом работы стало описание этапов разработки пакетов расширения среды R (раздел 1), которое может использоваться заинтересованными лицами в качестве руководства для ускоренного освоения процесса разработки пакетов. Исходные коды пакета могут использоваться в качестве образцов.





