Введение 3
Постановка задачи 4
1. Описание предметной области 6
1.1 Что представляет собой среда R и каковы её характерные особенности? 6
1.2 Среда R и базы данных 6
1.3 Различия подключения к локальным и удалённым БД 7
1.4 Использование БД с R 7
1.4.1 Пакет RMySQL 7
1.4.2 Соединение R с MySQL 8
1.4.3 Вывод записей из таблицы 8
1.4.4 Фильтрация данных с оператором WHERE в MySQL 9
1.4.5 Обновление строк в таблице 9
1.4.6 Вставка данных в таблицу 9
1.4.7 Создание таблицы 9
1.4.8 Удаление таблицы 10
1.5 Пакет Shiny 10
1.5.1 Разработка пользовательского интерфейса с помощью пакета Shiny 11
1.5.2 Пользовательский интерфейс (файл ui.R) 13
2. Разработка пользовательского интерфейса 15
2.1 Язык интерфейса 15
2.2 База данных для работы приложения 15
2.3 Запуск приложения 16
3. Руководство пользователя 17
3.1 Подсистема «Соединение с БД MySQL» 18
3.2 Подсистема «Преобразование данных» 20
3.3 Подсистема «Линейная регрессия» 30
3.4 Подсистема «Классификация» 35
Заключение 41
Список литературы 42
Приложение: 44
Интеллектуальный анализ данных (Data Mining) [1] является достаточно актуальной темой в современном мире. В настоящее время применение методов интеллектуального анализа данных и машинного обучения (Machine Learning) [1] позволяет выявлять скрытые закономерности в больших объемах различных данных, что позволяет прогнозировать значения исследуемых признаков. Подобные задачи могут встречаться в самых разных областях науки и практической деятельности, как в сфере естественных, так и гуманитарных знаний.
Объем данных, с которыми приходится работать исследователю, увеличивается с каждым днем. Вследствие этого возникает необходимость в хранении и обработке больших объемов данных, в развитии новых подходов к решению задач большой размерности.
Существует немало различных инструментов, позволяющих решать задачи анализа данных. Одним из них является R [11] - язык программирования и среда разработки, который отлично подходит для выше названной задачи. Его можно использовать для анализа данных из множества различных источников данных, хранящихся в простых файлах или файлах формата MS EXCEL. Большая часть сегодняшних данных хранится в реляционных базах данных, и R необходимо обеспечить доступ к ним.
Поставленная передо мной задача состояла в разработке пользовательского веб-интерфейса к базе данных (БД) [13], который позволил бы в интерактивном режиме решать в среде R задачи определенного класса с применением методов интеллектуального анализа данных. Веб-интерфейс, естественно, должен обеспечивать возможность подключения к базам данных, импортирования данных для обработки в R и решения ряда смежных задач - см. подробное описание задач в разделе «Постановка задачи».
На основе полученных результатов, можно сказать, что поставленная цель была достигнута.
В процессе выполнения выпускной квалификационной работы был разработан программный комплекс для решения задачи подключения к удаленной или локальной базе данных MySQL с целью получения и преобразования данных для дальнейшего применения методов машинного обучения, таких как регрессионный анализ и решение задачи классификация. Данный программный комплекс обеспечивает вывод названий и содержимого таблиц из базы данных, возможность преобразовывать эти данные, имеет удобный и интуитивно понятный пользовательский интерфейс, наглядно демонстрирующий всю информацию об изменении в окне приложения.
Данная работа была написана в среде R c использованием интерфейса RStudio в операционной системе Windows. RStudio - это ведь всего лишь интерфейс к R.
В ходе разработки приложения были изучены все аспекты, необходимые для качественного выполнения выпускной квалификационной работы.
Удобный и интуитивно понятный пользовательский интерфейс является важным фактором для визуализации решения поставленных задач. Данное приложение может помочь существенно сократить время и облегчить процесс работы с базами данных в среде R при решении задачи регрессионного анализа и задачи классификации.
1. [Электронный ресурс] // edu.kpfu.ru - Анализ данных в среде R // URL: https://edu.kpfu.ru/course/view.php?id=833
2. [Электронный ресурс] // shiny.rstudio.com - Shiny - Database basics - dplyr and DBI // URL: http:// shiny.rstudio. com/articles/overview.html
3. [Электронный ресурс] // dkhramov.dp.ua - Урок 1. Добро пожаловать в
Shiny // URL: http ://dkhramov. dp.ua/ Comp. ShinyLesson01#.
XQYQmSsudQK
4. [Электронный ресурс] // r-bloggers.com - Accessing MySQL through R | R-bloggers // URL: http ://shiny.rstudio. com/articles/overview.html
5. [Электронный ресурс] // showmeshiny.com - SQL Connection - Show Me Shiny // URL: https://www.showmeshiny.com/sql-connection/
6. [Электронный ресурс] // github.com - shiny-examples/ui.R at master -
rstudio/shiny-examples // URL: https://github.com/rstudio/shiny-
examples/blob/master/050-kmeans-example/ui.R
7. [Электронный ресурс] // r-analytics.blogspot.com - R: Анализ и визуализация данных: Shiny, пакет для создания интерактивных вебприложений на основе R // URL: https://r-
analytics.blogspot.com/2012/11/shiny-r.html#.XQYUeSsudQL
8. «Анализ данных с R (II)». - А. Б. Шипунов, А. И. Коробейников, Е. М.
Балдин // URL: http://www.inp.nsk.su/~baldin/DataAnalysis/R/R-05-
2var.pdf
9. [Электронный ресурс] // archive.ics.uci.edu - Репозиторий (базы данных): // URL: http://archive.ics.uci.edu
10. Зарядов, И.С. Введение в статистический пакет R: типы переменных, структуры данных, чтение и запись информации, графика. Учебно - методическое пособие / И.С. Зарядов- М.: РУДН, 2010. - 207 с.
11. R в действии. Анализ и визуализация данных в программе R. - Роберт И. Кабаков. // ДМК Пресс, 2014. - 588 с.
12. [Электронный ресурс] // db.rstudio.com - Connect to a Database // URL: https://db.rstudio.com/getting-started/connect-to-database
13. [Электронный ресурс] // www.tutorialspoint.com - R Databases // URL: https://www.tutorialspoint.com/pZr_database.htm
14. [Электронный ресурс] // samoedd.com - Обработка данных и редактирование таблиц в R // URL: https://samoedd.com/soft/r-data- manipulation
15. [Электронный ресурс] // shiny.rstudio.com - Shiny - Articles // URL: https://shiny.rstudio.com/articles/#user-interface