Тип работы:
Предмет:
Язык работы:


Система автоматизированного получения и анализа открытых данных культурного наследия

Работа №164481

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы39
Год сдачи2023
Стоимость4265 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
24
Не подходит работа?

Узнай цену на написание


Введение 3
1 Проблема работы с большими объемами культурных данных 6
1.1 Цифровые музеи и цифровые коллекции 6
1.2 Использование API для взаимодействия с большими объемами
культурных данных 8
1.3 Агрегатор культурного наследия России 9
1.4 Портал открытых данных Минкультуры России 10
2 Разработка программного решения для работы с культурными данными
Госкаталога 13
2.1 Идея создания программы 13
2.2 Модуль сбора данных программы SGAT 13
2.3 Модуль предобработки данных программы SGAT 18
2.4 Модуль визуализация данных программы SGAT 23
3 Примеры практического применения программы SGAT 30
3.1 Создание набора данных для обучения нейронной сети 30
3.2. Анализ пропусков в метаданных объектов Госкаталога 32
Заключение 36
Список использованных источников 37

В настоящее время культурные объекты становятся все более доступными. Агрегаторы цифрового культурного наследия по всему миру предоставляют новые возможности для исследователей и обычных пользователей. Яркими представителями агрегаторов культурного наследия являются такие сайты как Europeana и Метрополитен-музей. Эти ресурсы предоставляют обычным пользователям возможности для поиска и изучения культур разных народов, а ученым и исследователям технологии API (Application Programming Interface), позволяющие работать с большими объемами культурных данных и создавать собственные наборы данных для исследований.
В нашей стране существует Государственный каталог Музейного фонда РФ, который является крупнейшим агрегатором культурного наследия России. На данный момент он включается в себя коллекцию, состоящую из 37 миллионов объектов. На сайте Госкаталога имеются возможности просмотра и поиска объектов культурного наследия по различным параметрам. Однако, существует ли доступный и автоматизированный способ получения набора данных объектов культурного наследия России для исследователей? В данной работе мы утверждаем, что использование данных из Госкаталога для проведения исследований сейчас не представляется возможным без создания программного кода, что существенно снижает процент исследований о культурном наследии России. Поэтому данная работа посвящена созданию программы для автоматизации процесса получения метаданных культурных объектов Госкаталога, а также их обработки и визуализации.
Актуальность работы обусловлена труднодоступностью и сложностью работы с метаданными культурных объектов Госкаталога для исследователей.
Объект исследования - цифровая коллекция объектов культурного наследия Государственного каталога музейного фонда Российской Федерации.
Предметом исследования являются технологии сбора, обработки и визуализации метаданных объектов культурного наследия Государственного каталога музейного фонда России
Цель настоящей работы - создать программу для автоматизированного сбора, обработки и визуализации культурных данных, а также показать примеры ее использования для исследований.
Задачи исследования:
- Изучить существующие подходы к организации данных в цифровых коллекциях;
- Провести анализ и оценку существующих методов получения данных из коллекции Государственного каталога Музейного фонда РФ;
- Разработать программное решение для автоматизированного получения, обработки и визуализации метаданных культурных объектов;
- Продемонстрировать на реальных примерах пользу созданного нами программного продукта.
Выпускная квалификационная работа состоит из введения, трёх глав, заключения, списка использованной литературы и приложения.
В первой главе, состоящей из четырех параграфов, были рассмотрены цифровые музеи и цифровые коллекции на примере двух крупных агрегаторов культурного наследия: Европеаны и Метрополитен музея. Была поднята проблема работы с большими объемами данных, а также были описаны преимущества решения этой проблемы с помощью применения технологии API. Далее были рассмотрены все возможные способы взаимодействия с культурными данными коллекции Государственного каталога Музейного фонда РФ. Изучив все недостатки этих способов взаимодействия с данными, было принято решение о создании собственного программного решения.
Во второй главе, состоящей из четырех параграфов, был определен необходимый набор функций в создаваемой программе. Далее были описаны все разработанные модули программы SGAT: модуль сбора данных, модуль предобработки данных, модуль визуализации данных. Кроме того, каждый модуль был протестирован на наборе данных Красноярского краевого краеведческого музея по запросу «Красноярск».
В третьей главе, состоящей из двух параграфов, были продемонстрированы два примера реального применения программы SGAT в разных областях. В первом примере рассматривается задача создания набора данных для обучения нейросети. Во втором примере рассматривается изучение пропусков и распределения культурных данных коллекции Госкаталога.
Заключение кратко излагает результаты исследования. В список литературы включены библиографические данные об источниках, использованных в работе.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе была создана программа для сбора, обработки и визуализации метаданных культурных объектов SGAT. Программа основана на технологиях обработки естественного языка, веб-скрэйпинга, API, библиотеке языка программирования Python Matplotlib и других инструментах. С помощью программы исследователи в области цифровых гуманитарных наук смогут без труда использовать коллекцию Государственного каталога Музейного фонда РФ, проверять гипотезы, применяя встроенные модули обработки и визуализации данных, что, несомненно, важно, ведь это 37 миллионов данных о культурном наследии России. При этом работа демонстрирует, как можно использовать SGAT для исследований в области цифровых гуманитарных наук: создание обучающей выборки для нейронной сети определения материала объекта; изучение пропусков и распределения культурных данных коллекции Госкаталога. Не менее важно и то, что сейчас нельзя работать со всеми данными коллекции Госкаталога, не создав программный код. Программа, в свою очередь, дает не только возможность изучать культурные данные Госкаталога, но и сразу сделать визуализацию своих результатов. Так, например, в программу внедрена уникальная технология визуализации дат, которые представлены промежутком, что решает проблему скоса в результатах анализа дат, где есть и промежутки, и даты обычного формата.
Далее планируется улучшать алгоритмы обработки и визуализации, добавлять новые компоненты. Также программа SGAT является хорошим инструментом-фундаментом, с помощью которого мы планируем решить проблему стандартизации данных, пропусков данных, а также получать новые знания в сфере цифровых гуманитарных наук.
Программа опубликована и находится в открытом доступе на github, поэтому каждый исследователь, желающий работать с культурными данными Госкаталога, может беспрепятственно ей воспользоваться.



1. Europeana [Электронный ресурс] - Режим доступа: https://www.europeana.eu/en - Дата доступа: 2023.
2. The Metropolitan Museum of Art [Электронный ресурс] - Режим доступа:https://www.metmuseum.org/ - Дата доступа: 2023.
3. Freire N., Isaac A. Wikidata's linked data for cultural heritage digital resources: An evaluation based on the Europeana Data Model //International Conference on Dublin Core and Metadata Applications. - 2019. - С. 59-68.
4. Kouretsis A. et al. Mapping Art to a Knowledge Graph: Using Data for Exploring the Relations among Visual Objects in Renaissance Art //Future Internet. - 2022. - Т. 14. - №. 7. - С. 206.
5. Raemy J. A. Enabling better aggregation and discovery of cultural heritage content for Europeana and its partner institutions : дис. - Haute ecole de gestion de Geneve, 2020.
6. Kaldeli E. et al. Europeana Translate: Providing multilingual access to digital cultural heritage //Proceedings of the 23rd Annual Conference of the European Association for Machine Translation. - 2022. - С. 299-300.
7. Villaespesa E., Crider S. Computer Vision Tagging the Metropolitan Museum of Art's Collection: A Comparison of Three Systems //Journal on Computing and Cultural Heritage (JOCCH). - 2021. - Т. 14. - №. 3. - С. 1-17.
8. Zhitomirsky-Geffet M., Kizhner I., Minster S. What do they make us see: a comparative study of cultural bias in online databases of two large museums //Journal of Documentation. - 2023. - Т. 79. - №. 2. - С. 320-340.
9. Villaespesa E., Crider S. A critical comparison analysis between human and machine-generated tags for the Metropolitan Museum of Art's collection //Journal of Documentation. - 2021.
10. Государственный каталог музейного фонда [Электронный
ресурс] - Режим доступа:https://goskatalog.ru/portal/ - Дата доступа: 2023.
11. Академия Google [Электронный ресурс] - Режим доступа: https://scholar.google.ru/ - Дата доступа: 2023.
12. Kizhner I. et al. The Culture of the Very Rich and Very Poor: Do Digital Museum Collections Tell us Anything about Jewish Culture? //Studies in Digital History and Hermeneutics. - 2022. - Т. 43.
13. Портал открытых данных Минкультуры России [Электронный ресурс] - Режим доступа:https://opendata.mkrf.ru/ - Дата доступа: 2023.
14. Глазунов Е. В. и др. УНИФИКАЦИЯ ДАННЫХ МУЗЕЙНОГО ГОСКАТАЛОГА РФ //Сибирский антропологический журнал. - 2020. - Т. 4.
- №. 3. - С. 154-168.
15. Кожин К.Д. Программа для скрэйпинга и анализа открытых данных культурного наследия (SGAT). Свидетельство №2022680022 о гос. регистрации в Реестре программ для ЭВМ от 03.11.2022.
16. Репозиторий программы SGAT [Электронный ресурс] - Режим доступа:https://github.com/konstantinkozhin/SGAT - Дата доступа: 2023.
17. Requests [Электронный ресурс] - Режим доступа:
https://requests.readthedocs.io/en/latest/ - Дата доступа: 2023.
18. Selenium [Электронный ресурс] - Режим доступа:
http://selenium.dev - Дата доступа: 2023.
19. Pullenti [Электронный ресурс] - Режим доступа:https://pullenti.ru/
- Дата доступа: 2023.
20. Natural Language Toolkit [Электронный ресурс] - Режим доступа: https://www.nltk.org/- Дата доступа: 2023.
21. Pymorphy2 [Электронный ресурс] - Режим доступа: https://pymorphy2.readthedocs.io/en/stable/- Дата доступа: 2023.
22. Matplotlib [Электронный ресурс] - Режим доступа: https://matplotlib.org/ - Дата доступа: 2023.
23. Vane, O. Timeline design for visualising cultural heritage data. PhD dissertation. Royal College of Art, UK, 2019. https://www.oliviavane.co.uk/phd


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ