Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА ПАКЕТА ПРОГРАММ ИНДИКАТОРНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА ДЛЯ СРЕДЫ ВЫЧИСЛЕНИЙ R

Работа №189287

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы64
Год сдачи2019
Стоимость4640 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
18
Не подходит работа?

Узнай цену на написание


РЕФЕРАТ 3
ОГЛАВЛЕНИЕ 4
СПИСОК СОКРАЩЕНИЙ 5
ВВЕДЕНИЕ 6
1 Публикация расширений к системе R 9
1.1 Назначение пакетов R 9
1.2 Требования к пакету 11
1.3 Разработка пакетов R 13
1.3.1 Структура пакетов 13
1.3.2 Цикл работы над пакетом R 15
1.3.3 Взаимодействие между R и библиотекой DLL 24
1.3.4 Процедура публикации 27
2 Индикаторные процедуры 28
2.1 Линейные модели квантильной и многоквантильной регрессии 28
2.2 Проверка гипотез 30
2.2.1 Критерий максимальной средней кривизны функции мощности 33
2.2.2 Принцип максимума взвешенного отношения правдоподобия 34
2.2.3 Структура критериальной статистики для простых разбиений 35
2.3 Точечное и доверительное оценивание параметров 36
2.3.1 Точечные оценки 37
2.3.2 Доверительные области 37
2.4 Алгоритмы вычисления индикаторных оценок 38
2.4.1 Алгоритм полного перебора пространства индикаторных признаков 39
2.4.2 Сокращенный перебор пространства индикаторных признаков 39
2.4.3 Сокращенный перебор вершин апостериорного разбиения 40
2.4.4 Методы, использующие пробные точки 40
3 Состав разработанного пакета sbrq (Sign-Based Regression Quantiles) 42
3.1 Библиотека классов и функций 42
3.1.1 Интерфейсные функции библиотеки 43
3.1.2 Классы объектов библиотеки 51
3.2 Оберточные функции 56
3.3 Демонстрационные примеры 57
ЗАКЛЮЧЕНИЕ 63
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 64


В настоящее время широкое распространение в мире получил статистический пакет прикладных программ с коротким названием R. Этот пакет поддерживается и развивается как свободно распространяемое программное обеспечение в рамках проекта R Project [20]. В проекте участвует не только группа непосредственных разработчиков (R Development Core Team) [19], которые поддерживают интерпретатор языка R, стандартную среду разработки RGui и инструментальные средства, но и различные организации, а также сторонние группы разработчиков, которые развивают альтернативные среды разработки и расширения (RStudio, Revolution, Power BI Desktop, Eclipse, VisualStudio и др.). Кроме того, существует фонд под названием R Foundation [19], задачей которого является управление правами на разработанные программы и поддержка новых разработок.
На данный момент насчитываются десятки качественных статистических пакетов прикладных программ, среди которых явными лидерами являются SPSS, SAS и MatLab. Однако, в 2013 году, несмотря на высокую конкуренцию, R стал самым используемым программным продуктом для статистического анализа в научных публикациях и распространения разработанных методов обработки данных среди научной общественности. Кроме того, в последнее десятилетие R становится все более востребованным и в бизнес- секторе: такие компании-гиганты, как Google, Facebook, Ford и New York Times активно используют его для сбора, анализа и визуализации данных
Основой проекта R является интерпретируемый язык программирования R, который ориентирован на обработку массивов статистических данных и предоставляет возможности вызова большого количества функций, реализующих различные математические методы обработки данных (линейное и нелинейное программирование, классические статистические тесты, анализ временных рядов, классификация, кластерный анализ, и т.д.), а также позволяет использовать графические процедуры для изображения данных. Одной из сильных сторон R является возможность создания коротких программ для решения разовых задач обработки и анализа данных путем комбинирования вызываемых функций и использования качественного графического представления.
Важной особенностью программного комплекса R является его расширяемость за счет установки дополнительных пакетов. При этом существует процедура опубликования пакетов, которая постепенно стала широко распространенной, в результате чего научные группы всего мира получили возможность не только использовать стандартное программное обеспечение, но и возможность распространять свои разработки среди специалистов.
Программный комплекс R и дополнительные пакеты к нему распространяются через CRAN (акроним Comprehensive R Archive Network). CRAN - это сеть ftp и веб-серверов по всему миру, в которых хранятся идентичные, обновленные версии кода и документации для R.
На кафедре системного анализа и математического моделирования разрабатывается подход к построению статистических процедур, получивший название «индикаторный статистический анализ» [2, 10, 15]. В качестве анализируемых признаков индикаторные методы используют не величины невязок при подгонке модели данных, а лишь факты их принадлежности множествам из некоторого разбиения (известного с точностью до параметров).
Индикаторные методы являются обобщением знаковых статистических процедур [1], которые в свою очередь применяются к моделям квантильной регрессии [10, 15], в свое время обобщенные на модель двухквантильной регрессии [17, 18].
По сравнению с методом наименьших взвешенных модулей, традиционно используемым в квантильной регрессии, индикаторные процедуры являются более трудоемкими, но обладают большей устойчивостью к грубым ошибкам при той же асимптотической эффективности, а также расширяют круг задач, позволяя описывать неизвестный масштаб распределения погрешностей с помощью интерквантильного размаха или одновременно оценивать несколько функций квантильной регрессии. При этом они не требуют одинаковой распределенности погрешностей, а при проверке простой гипотезы можно указать точное распределение индикаторных статистик даже для конечных объемов выборки.
Среди многообразных применений индикаторного анализа можно назвать задачи квантильной регрессии на основе знаков невязок, а также возможность описывать неизвестный масштаб распределения погрешностей измерений не с помощью дисперсии, а с помощью интерквантильного размаха.
Целью данной работы является подготовка к публикации в CRAN пакета, содержащего библиотеку программ, реализующих разработанные индикаторные статистические процедуры.
Для достижения этой цели необходимо решить следующие задачи:
1. Изучение требований к составу, структуре пакетов R и процедуры их опубликования.
2. Изучение методов вызова функций подключаемой библиотеки.
3. Изучение основных индикаторных статистических процедур и алгоритмов их реализации.
4. Изучение текущего состояния разрабатываемой библиотеки.
5. Приведение исходных кодов библиотеки к кроссплатформенному виду.
6. Тестирование и отладка функций библиотеки.
7. Изучение процесса разработки пакетов для среды R.
8. Подготовка основных компонент пакета R (библиотека, скрипты вызова, описание, примеры использования и др.).
9. Сборка пакета для платформ Windows и Unix.
В данном отчете представлены результаты выполнения этих задач. Кроме этого, сведения, представленные в данном отчете, могут использоваться как пошаговое руководство для студентов и сотрудников, которые будут представлять свои разработки в виде расширений для пакета R.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе проделана работа по формированию пакета R, который планируется опубликовать в репозитории CRAN. Этот пакет содержит библиотеку программ, реализующих разработанные индикаторные статистические процедуры. При выполнении работы решены следующие задачи:
1. Изучение требований к составу, структуре пакетов R и процедуры их опубликования.
2. Изучение методов вызова функций подключаемой библиотеки.
3. Изучение основных индикаторных статистических процедур и алгоритмов их реализации.
4. Изучение текущего состояния разрабатываемой библиотеки.
5. Приведение исходных кодов библиотеки к кроссплатформенному виду.
6. Тестирование и отладка функций библиотеки.
7. Изучение процесса разработки пакетов для среды R.
8. Подготовка основных компонент пакета R (библиотека, скрипты вызова, описание, демонстрационные примеры использования, и др.).
9. Сборка пакета для платформ Windows и Unix.
В результате работы подготовлен к опубликованию пакет расширения для среды R, реализующий индикаторные статистические процедуры (раздел 2).
Кроме того, результатом работы стало описание этапов разработки пакетов расширения среды R (раздел 1), которое может использоваться заинтересованными лицами в качестве руководства для ускоренного освоения процесса разработки пакетов. Исходные коды пакета могут использоваться в качестве образцов.



1. Тюрин Ю.Н. Знаковый статистический анализ линейных моделей / Ю.Н. Тюрин, М.В. Болдин, Г.И. Симонова. - М.: Наука. Физматлит, 1997. - 288 с.
2. Тарасенко П.Ф. Индикаторный статистический анализ / П.Ф. Тарасенко. - Томск : Изд-во Том. ун-та, 2005. - 350 с.
3. Davison A.C. Bootstrap Methods and Their Applications / A.C.Davison, D.V.Hinkley. - Cambridge University Press, 1997. - 322 p.
4. Contributors [Электронный ресурс]: Группа разработчиков проекта R Project. - URL: https://www.r-project.org/contributors .html (дата обращения: 15.02.2019).
5. CRAN Repository Policy [Электронный ресурс]: Политика репозитория CRAN - URL: https://cran.r-prqject.org/web/packages/policies.html (дата обращения: 15.02.2019).
6. FAQ [Электронный ресурс]: Часто задаваемые вопросы. - URL: https://cloud.r- project.org/doc/FAQ/R-FAQ.html (дата обращения: 15.02.2019).
7. Coudin E. Finite-sample distribution-free inference in linear median regressions under heteroscedasticity and non-linear dependence of unknown form/ E. Coudin, J. Dufour. // Econometrics Journal. - 2009. - V.12, - P. 19-49.
8. Wand M.P. Kernel Smoothing / M.P.Wand, M.C.Jones. - Chapman and Hall/CRC, 1995. - 222 p.
9. Venables W. Modern Applied Statistics with S / W. Venables, B. Ripley - Springer, 2002. - 504 p.
10. Tarassenko P.F On sign-based regression quantiles / P.F. Tarassenko, S.S. Tarima, A.V. Zhuravlev, S. Singh // J. of Statist. Comput. and Simul.. - 2015. - V.85, No.7. - P. 14201441.
11. Package ‘devtools’ [Электронный ресурс]: Официальное пользовательское руководство пакета devtools. - URL: https://cran.r-prqject.org/web/packages/devtools/devtools.pdf (дата обращения: 07.05.2019).
12. Package ‘rmarkdown’ [Электронный ресурс]: Официальное пользовательское
руководство пакета rmarkdown. - URL: https://cran.r-
project.org/web/packages/rmarkdown/rmarkdown.pdf (дата обращения: 09.05.2019).
13. Package ‘roxygen2’ [Электронный ресурс]: Официальное пользовательское
руководство пакета roxygen2. - URL: https://cran.r-
prqject.org/web/packages/roxygen2/roxygen2.pdf (дата обращения: 07.09.2019).
14. Package ‘testthat’ [Электронный ресурс]: Официальное пользовательское руководство пакета testthat. - URL: https://cran.r-project.org/web/packages/testthat/testthat.pdf (дата обращения: 07.05.2019).15. Koenker R. Regression quantiles / R. Koenker, G. Bassett // Econometrica. - 1978. - V. 46, No.1. - P. 33-50...22



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ