Тип работы:
Предмет:
Язык работы:


Система поиска решений на базе открытых данных

Работа №20083

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы85
Год сдачи2018
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
563
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1 Аналитическая часть 5
1.1 Общие сведения 5
1.2 Задача интеллектуального анализа данных 8
1.3 Задачи классификации и кластеризации 10
1.4 Обзор решаемых задач 11
1.5 Выбор программных средств разработки 19
1.6 Выводы 20
2 Исследование и построение решения 21
2.1 Постановка задачи 21
2.2 Требования к системе 21
2.3 Структурная схема программной системы 22
2.4 Анализ существующих систем 24
2.5 Обзор методов классификации и кластеризации 27
2.6 Выводы 44
3 Разработка и тестирование программного комплекса 45
3.1 Модель базы данных 45
3.2 Схема работы программы 46
3.3 Визуализация многомерных данных 48
3.4 API для поддержки 49
3.5 Численные исследования 50
3.6 Выводы 59
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 61
ПРИЛОЖЕНИЕ А Исходный код программы 62


В последние годы развитие концепции «открытых данных» идёт семимильными шагами: из сугубо специализированной темы она превратилась в предмет, имеющий актуальность и оказывающий влияние во всех странах мира. Открытые данные приобретают всё большее значение в качестве элемента разработки социально-экономической политики, причём как в развитых, так и в развивающихся странах.
В основе концепции открытых данных лежит идея о том, что определённые данные должны находиться в свободном доступе для неоднократного использования любыми заинтересованными сторонами. Данные, которые действительно «открыты», как правило, имеют следующие характеристики: они доступны в Интернете, представлены в цифровом и машиночитаемом формате, обеспечивающем операционную совместимость с другими данными; кроме того, отсутствуют какие-либо ограничения на их использование или повторную публикацию.
Цели движения открытых данных похожи на другие «открытые» движения, такие как открытое программное обеспечение (open source), открытый контент (open content) и открытый доступ (open access). Рост популярности идеи об открытых данных во второй половине 2000-х годов связан, прежде всего, с запуском правительственных инициатив, таких как Data.gov.
Открытые данные часто ассоциируются с нетекстовыми материалами, такими как карты, геномы, химические компоненты, математические и научные формулы, медицинские данные, данные о биологическом разнообразии. Проблемы чаще всего возникают по той причине, что эти данные могут быть коммерчески ценными или могут быть собраны в некие ценные продукты.
Доступ к данным, как и последующее их использование, контролируется организациями - государственными и частными. Контроль может быть через ограничения, лицензии, копирайт, патенты и требования оплаты для доступа или повторного использования. Сторонники идеи «открытых данных» считают, что подобные ограничения идут против общественного блага и данные должны быть доступны без ограничений или оплаты. Также важно что данные должны быть доступны без последующих запросов на разрешение, хотя и способы повторного использования, такие как создание продуктов на базе данных, могут контролироваться лицензией. Государственные данные представляют один из ключевых интересов для общества, и многочисленные некоммерческие организации и отдельные активисты добиваются открытости государственной информации в машиночитаемой форме. Многие национальные правительства в рамках стратегий «открытого государства» создали веб-сайты для распространения части данных, обрабатываемых в секторе государственного управления.
Существует немало областей, где «открытые данные» весьма полезны, а также много примеров того, как они используются и обеспечивают значительный эффект. Так, благодаря наличию «Открытого правительства», граждане могут принимать более информированные решения и совершать более обоснованный выбор относительно получения доступа к ресурсам общества и их использования, может поощряться более активная гражданская позиция населения.
Главной целью магистерской диссертации является разработка, обоснование и реализация прототипа программного комплекса для работы с открытыми научными данными. Соответственно, необходимым функционалом системы является поиск, обработка открытых данных и визуализация полученных на их основе результатов.
Для достижения поставленной цели необходимо выполнить следующие задачи:
• провести анализ предметной области концепции открытых данных в научных исследованиях, требований, предъявляемых к форматам их представления и выполнить обзор уже разработанных программных комплексов, выявить их достоинства и недостатки;
• выбрать подходящую платформы и язык программирования для реализации программного комплекса;
• реализовать и исследовать алгоритмы поиска и алгоритмы кластеризации: FOREL, k-средних, кластеризатор на основе самоорганизующейся сети Кохонена;
• проанализировать особенности работы алгоритмов на модельных и реальных данных, сравнить полученные результаты;
• программно реализовать прототип программной системы поиска решений на базе открытых данных;
• оценить скорость и качество работы созданного программного обеспечения в сравнении с уже имеющимися программными продуктами.
Актуальность данной работы связана с тем, что сегодня концепция открытых данных является одним из наиболее развивающихся направлений современной науки во всем мире. Эта область науки определена приоритетной как в США, так и во всех других развитых странах.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Целью данной работы было моделирование системы поиска решений на базе открытых данных, а также выявление всех возможных трудностей при её создании и эксплуатации. В результате проделанной работы было сделано следующее:
• проведен анализ предметной области концепции открытых данных в научных исследованиях, требований, предъявляемых к форматам их представления и выполнен обзор уже разработанных программных комплексов, выявлены их достоинства и недостатки;
• выбрана подходящая платформы и язык программирования для реализации программного комплекса;
• реализованы и исследованы алгоритмы поиска и алгоритмы кластеризации: FOREL, k-средних, кластеризатор на основе самоорганизующейся сети Кохонена;
• проанализированы особенности работы алгоритмов на модельных и реальных данных, сравнить полученные результаты;
• программно реализован прототип программной системы поиска решений на базе открытых данных.
Оценить качество работы на многомерных данных сложно, так как размерность исследуемой выборки высока, а просмотреть срезы данных по всем наборам признаков является физически невозможным. Однако полученные результаты позволяют сделать определенные выводы о данных.



1. СТО 4.2-07-2014 Система менеджмента качества. Общие требования к построению, изложению и оформлению документов учебной деятельности. - Введ. 09.01.2014. - Красноярск: СФУ, 2014. - 60 с.
2. Лафоре, Р. Объектно-ориентированное программирование в C++. Классика Computer Science. 4-е изд. / Р. Лафоре - СПб.: Питер, 2014. - 928 с.
3. Муравьев, А. С. Модифицированный алгоритм растущего нейронного газа применительно к задаче классификации / А. С. Муравьев, А. А. Белоусов // Вестник науки Сибири. - 2014. - №4(14). - С. 105-111.
4. Муртазаев, А. К. Фазовые переходы в антиферромагнитной модели Изинга на квадратной решетке с взаимодействиями вторых ближайших соседей / А. К. Муртазаев // Журнал экспериментальной и теоретической физики. - 2013. - Т. 144, вып. 6. - С. 1236-1245.
5. Павловская, Т. А. C/C++. Программирование на языке высокого уровня / Т. А. Павловская. - СПб.: Питер, 2012. - 461 с.
6. Попова, О. А. Модели и методы интеллектуального анализа данных: учебно-методическое пособие [Электронный курс] / О. А. Попова. - Красноярск: Сиб. федер. ун-т, 2012.
7. Сараев, В. Отдайтесь большой цифре / В. Сараев // Эксперт. - 2015. - №9.-С. 51-55.
8. Удалова, Ю. В. Математические и алгоритмические основы объектно-ориентированного программирования: [Электронный курс]: учеб.- метод. пособие /Ю.В. Удалова. - Красноярск: Сиб. федер. ун-т, 2013.
9. Фазылов, Ш. X. Модель распознающих операторов, основанных на принципе ближайшего соседа, в условиях взаимосвязанности признаков / Ш. X. Фазылов, Чье Ен Ун // Информатика и системы управления. - 2012. - №4(34). - С. 34-42.
10. Царев, Р. Ю. Алгоритмы и структуры данных: учеб. пособие / Р. Ю. Царев. - Красноярск: Сиб. федер. ун-т, 2013. - 160 с.
11. Шаграев, А. Г. Трансдуктивное обучение логистической регрессии в задаче классификации текстов / А. Г. Шаграев, И. А. Бочаров, В. Н. Фальк // Программные продукты и системы. - 2014. - №2. - С. 114-118.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ