Введение 3
Цель создания системы 4
Подзадачи 4
Задача разработки интегратора включает следующие подзадачи: 4
Основные преимущества открытого каталога 4
Результаты работы 5
Краткое содержание основных глав 5
Глава 1: Базовое описание системы 7
Выбор сервиса 7
Базовое теоретическое описание открытого каталог данных 7
Роли пользователей открытого каталога данных (системы) 7
Возможности открытого каталога данных 7
Базовое описание Базы Данных 16
ER-модель 24
Глава 2: Детальное описание реализованного открытого каталога данных 25
Способ реализации сайта 25
Изменения, произведенные для адаптации БД для реализации открытого каталога данных в WordPress 25
Дополнительные средства, использованные для реализации открытого каталога данных 25
Карта сайта 26
Тестовые и отладочные работы 45
Перенос открытого каталога данных из MSAzure на другой хостинг 47
Глава 3: Возможности дальнейшего расширения системы 47
Использование данных в коммерческих целях 47
Виды использования данных 48
Организационно-экономическая схема функционирования системы 48
Возможные способы реализации 48
Источники 50
Приложение!
Для исследовательских и учебных работ ученые и студенты нуждаются в данных для проведения экспериментов и обоснования некоторых гипотез. Несмотря на то, что сегодня существует множество открытых репозиториев данных, таких как UCIMachineLearning , Statisticstheartandscienceoflearningfromdata, Keel-datasetrepository, Awesome Public Datasets, Kaggle,MiscellaneousDatasets [1 - 6] и другие. Проблема поиска данных, подходящих для исследования, до сих пор актуальна. Для подбора необходимых данных пользователям приходится перебирать множество различных источников, а после нахождения нужных данных скачать их на компьютер, изменить или подогнать под нужный формат, при необходимости откорректировать. Кроме того, большинство репозиториев не дают возможности просматривать данные онлайн, а также не предоставляют информации о качестве этих данных, и нередко бывает, что неудовлетворительное качество данных обнаруживается только после скачивания. Созданная нами информационно-поисковая система представляет собой интегратор, обеспечивающий поиск данных из разрозненных источников данных по заданным критериям.
Приведём пример, поясняющий актуальность задачи создания интегратора. Так, в течение 10 лет (с 2008 г.) наблюдался рост числа платформ массовых открытых онлайн курсов (МООК) - к их числу относятся, в частности, такие сверхпопулярные поставщики МООК как Coursera, edX, Udacity, Лекторум....(перечень наиболее популярных источников МООК можно найти, например, вразделе сайта отдела электронных технологий в образовании КНИТУ-КАИ [7]). На сегодняшний день платформ МООК стало так много, что пользователю приходится долго искать интересующий его курс. Запущенный в прошлом году проект Министерства образования и науки РФ "Современная цифровая образовательная среда Российской Федерации" предусматривает создание интегратора для многочисленных площадок МООК, позволяющего пользователю искать курсы по совокупности ряда критериев. В опытном режиме он уже действует [8].
Разработанный интегратор (открытый источник данных) преследует аналогичную цель, только не в отношении МООК, а в отношении репозиториев данных для машинного обучения.
Основные недостатки существующих репозиториев:
• неудобный или отсутствующий поисковой интерфейс;
• отсутствие метаданных (т.е. информации о самих данных), например количество строк, типы переменных, информация о качестве данных (например наличие пропусков, «выбросов»);
• невозможность обратиться к информации онлайн (по URL);
• наличие данных только в одном формате;
• отсутствие мультиязычных репозиториев;
Цель создания системы
Цель работы - создание «оболочки» для развёртывания открытого каталога данных, наполняемого самими пользователями (по принципу крауд-сорсинга ). Основная миссия каталога - это существенное упрощение процедуры поиска данных для проведения научных и исследовательских работ, а также в учебных целях.
Подзадачи
Задача разработки интегратора включает следующие подзадачи:
• Разработка концепции открытого каталога данных;
• Выбор платформы для реализации открытого каталога данных (далее - Каталог);
• Проектирование базы данных Каталога;
• Реализация базы данных Каталога с использованием сервиса MS Azure;
• Наполнение базы данных Каталога тестовой информацией;
• Описание функционала и внешнего вида интерфейса Каталога;
• Создание веб-сайта Каталога;
• Доработка и тестирование Каталога;
Основные преимущества открытого каталога
Удобная поисковая система, возможность фильтрации по следующим критериям:
- по размерности (1, 2, 3 - 10, более 10, «не имеет значения»);
- по типу задачи (визуализация данных, регрессионный анализ, классификация, кластеризация и д.);
- по типу переменных (только непрерывные, только целые, только категориальные (нечисловые), «не имеет значения»);
- по источнику («только из открытых источников», «только загруженные файлы», «не имеет значения»);
- по Донатору (пользователю, внёсшему данные в Каталог);
- по дате включения в ресурс (сортировка по «новизне»)
- по предметной области(ключевым словам)
- по наличию пропусков
- по оценке от пользователей (это субъективный фильтр, но он должен помочь новичкам более менее ориентироваться в данных)
Результаты работы
Все описанные выше подзадачи были выполнены.Была создана базовая структура системы, которая в последующем может быть легко адаптирована для реализации с использованием любых технических средств. В качестве примера данный открытый каталог данных был реализован с использованием WordPress и MSAzure. На данный момент открытый каталог данных можно посмотреть по следующему адресу: http://opendat.ru Размещение сайта имеет временный характер, поэтому на данном этапе не было необходимости наполнять Каталог большим количеством данных. Наполнение каталога будет происходить уже в процессе эксплуатации.Предполагается, что заполнение Каталога реальными данными и использование последних будет, в частности, осуществляться студентами Института вычислительной математики и информационных технологий КФУ при изучении дисциплин «Анализ данных», «Машинное обучение в среде R», а также при выполнении курсовых и выпускных квалификационных работ по направлению «Бизнес-информатика», подготовке магистерских диссертаций в рамках программы «Анализ данных и его приложения» [9] С этой целью ссылка на Каталог будет размещена в электронном курсе «Анализ данных в среде R» [10] Данные, которые присутствуют в каталоге на сегодняшний день, служат лишь для реализации тестовых работ.
Краткое содержание основных глав
В Главе 1 описывается базовая структура системы, которая в последующем может быть легко адаптирована для реализации на любом сервисе и с использованием любых технических средств. Также Глава 1 предоставляет информацию об организации базы данных, необходимой для реализации системы.
Глава 2 раскрывает способ реализации открытого каталога данных и описывает некоторые изменения, которые пришлось для этого осуществить.
Глава 3 предоставляет информацию о дальнейших возможных расширениях системы для получения коммерческой выгоды.