ВВЕДЕНИЕ 3
1. ДАННЫЕ И НАУКА О ДАННЫХ 6
1.1. Что такое данные? 6
1.2. Наука о данных 22
1.3. Особенности работы с гуманитарными данными 25
2. БОЛЬШИЕ ДАННЫЕ 29
2.1. Определение и основные характеристики больших данных 29
2.2. Большие данные в гуманитарных науках и способы их обработки 41
2.3. Примеры применения больших данных в гуманитарных науках ... 56
ЗАКЛЮЧЕНИЕ 64
СПИСОК ЛИТЕРАТУРЫ
Проблема данных всегда была актуальна во всех отраслях и направлениях науки. Особую значимость она имеет сегодня, в том числе во многом из-за бурного развития технологий, связанных с обработкой больших данных. Однако многие моменты в этом отношении остаются невыясненными, в том числе и те, которые относятся к месту и роли больших данных в гуманитарных науках.
Актуальность использования технологии Big Data достаточно велика, так как в данный момент она является одним из ключевых драйверов развития информационных технологий. Это направление, относительно новое для Российской Федерации, получило широкое распространение в западных странах. Связано это с тем, что в эпоху информационных технологий, по каждому направлению гуманитарных наук стало накапливаться значительное количество информации, что в конечном счете дало развитие направлению Big Data.
Исследования, связанные с большими данными, являются актуальной областью разработок на сегодняшний день. Они изучают большие данные, а также способы выделения знаний из них. Они ведутся в рамках различных дисциплин и областей, таких как информационные науки, моделирование неопределённости, машинное обучение, статистическое обучение, распознавание образов, методы хранения данных, обработка сигналов и т. д. Исследования больших данных также имеют собственные проблемы и задачи.
Проблема хранения возникает в силу увеличения скорости создания новых данных в последние годы. Благодаря мобильным устройствам, интернету вещей, увеличению доступности интернета и прочим факторам, объём производимой информации растёт в геометрической прогрессии. В силу недостатка места для их хранения они либо удаляются, либо не записываются вовсе.
В связи с этим, возрастает роль носителей информации и скорости её записи и чтения для доступности больших данных с целью их анализа. Несмотря на достижения в этой области, такие как, например, распространение твердотельных накопителей, необходимая производительность накопителей для обработки больших данных до сих пор не достигнута. Все вышеперечисленное обуславливают большую актуальность выбранной темы.
Цель выпускной квалификационной работы: определить роль и место больших данных в гуманитарных науках, показать наиболее яркие примеры использований больших данных в гуманитарных науках.
В соответствии с целью работы сформированы ее задачи и соответствующая им структура, которая включает в себя следующие части работы:
- Введение;
- Основная часть, в состав которой входят следующие главы:
- Что такое данные;
- Наука о данных;
- Особенности работы с гуманитарными данными;
- Определение и основные характеристики больших данных;
- Большие данные в гуманитарных науках и способы их обработки;
- Примеры применения больших данных в гуманитарных науках;
Объект исследования: большие данные, которые можно использовать в гуманитарных науках.
В качестве предмета исследования выбраны место и роль науки о данных, место больших данных в гуманитарных науках и способы их обработки.
Исследованию больших данных, их роли и месту в современной науке посвящены многочисленные работы, ряд которых упоминается в дальнейшем изложении. В последнее время появляются и исследования, посвященные использованию больших данных в гуманитарных науках .
В качестве заключения могут выступить следующие выводы, сделанные в ходе работы. В информатике различают два понятия «данные» и «информация». Данные представляют собой информацию, находящуюся в формализованном виде и предназначенную для обработки техническими системами. Данные — диалектическая составная часть информации. Самым распространенным носителем данных, хотя и не самым экономичным, по - видимому, является бумага. Наука о данных — это область исследований, которая включает в себя извлечение информации из огромного количества данных с использованием различных научных методов, алгоритмов и процессов. Это поможет вам обнаружить скрытые шаблоны из необработанных данных. Термин Data Science возник благодаря эволюции математической статистики, анализа данных и больших данных. Структуры данных служат материалами, из которых строятся программы. Как правило, данные имеют форму чисел, букв, текстов, символов и более сложных структур типа последовательностей, списков и деревьев.
Для точного описания абстрактных структур данных и алгоритмов программ используются такие системы формальных обозначений, называемые языками программирования, в которых смысл всякого предложения определится точно и однозначно. Среди средств, представляемых почти всеми языками программирования, имеется возможность ссылаться на элемент данных, пользуясь присвоенным ему именем. Выбор правильного представления данных служит ключом к удачному программированию и может в большей степени сказываться на производительности программы, чем детали используемого алгоритма. Вряд ли когда-нибудь появится общая теория выбора структур данных.
Если рассматривать термин «большие данные» (Big Data) непосредственно, то именно характеристика большого объема данных не является основополагающей, поскольку именно иные аспекты больших данных определяют суть ново технологии. Благодаря стремительному развитию информационных технологий гуманитарные науки получили новые возможности анализа данных и получения статистики по самым разным направлениям. За считанные секунды специалисты получают необходимые данные и статистики, на которые раньше могли уйти годы. Процесс Data Science применительно к большим данным может быть представлен в последовательности шести этапов: определение цели исследования, этап сбора данных, этап подготовки данных, этап исследования данных, этап моделирования данных, этап отображения и автоматизации.
1. Апанасенко, А.Г. Информационные ресурсы // Образование. Карьера. Общество. - 2013. - № 4-1 (40). - С. 39-41. URL: https:ZZcyberleninka.ru/articleZn/informatsionnye-resursy-i-razvitie- sovremennoybiblioteki(дата обращения: 11.01.2022). - Текст : электронный.
2. Балдин, К.В. Информационные технологии / К.В. Балдин. - М.: Academia, 2018. - 203 c.
3. Бенгфорт, Б. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки есте / Б. Бенгфорт. - СПб.: Питер, 2019. - 368 c.
4. Блюмин А. М. Мировые информационные ресурсы / А. М. Блюмин, Н. А. Феоктистов. — М.: Издательско-торговая корпорация «Дашков и К°», 2010 — 296 с.
5. Богдановская, И. М Информационные технологии / ИМ Богдановская. - СПб.: Питер, 2018. - 405 c.
6. Бородкин Л.И. — Историк и мир (больших) данных: вызовы
цифрового поворота // Историческая информатика. - 2019. - № 3. - С. 14 - 30. DOI: 10.7256Z2585-7797.2019.3.31383 URL: https://
nbpublish.com/library_read_article.php?id=31383
7. Бородкин Л.И., Владимиров В.Н. — Историческая информатика в
контексте науки о данных (по материалам круглого стола) // Историческая информатика. - 2020. - № 2. - С. 234 - 246. DOI: 10.7256/2585-7797.2020.2.33549 URL: https://
nbpublish.com/library_read_article.php?id=33549
8. Бородкин Л.И., Владимиров В.Н., Гарскова И.М. — Международная научная конференция "Исторические исследования в контексте науки о данных: информационные ресурсы, аналитические методы и цифровые технологии" // Историческая информатика. - 2020. - № 4. - С.
250 - 264. DOI: 10.7256/2585-7797.2020.4.34747 URL: https://
nbpublish.com/library_read_article.php?id=34747
9. Боровиков, В.П. Популярное введение в современный анализ данных в системе STATISTICA / В.П. Боровиков. - М.: ГЛТ, 2016. - 288 c.
10. Вдовин, В.М. Информационные технологии / В.М. Вдовин, Л.Е. Суркова. - М.: Дашков и К, 2016. - 304 c.
11. Венделева, М.А. Информационные технологии в управлении / М.А. Венделева, Ю.В. Вертакова. - Люберцы: Юрайт, 2016. - 462 c.
12. Ветитнев, А.М. Информационные технологии в социально-культурном сервисе и туризме / А.М. Ветитнев, В.В. Коваленко, В.В. Коваленко. - М.: Форум, 2018. - 128 c.
13. Гавриленкова, И.В. Информационные технологии в естественнонаучном образовании и обучении. Монографии / И.В. Гавриленкова. - М.: КноРус, 2018. - 284 c.
14. Гаврилов, М.В. Информатика и информационные технологии: / М.В. Гаврилов, В.А. Климов. - Люберцы: Юрайт, 2018. - 383 c.
15. Гасумова, С.Е. Информационные технологии в социальной сфере / С.Е. Гасумова. - М.: Дашков и К, 2018. - 312 c.
16. Горяинова, Е.Р. Прикладные методы анализа статистических данных: / Е.Р. Горяинова, А.Р. Панков, Е.Н. Платонов. - М.: ИД ГУ ВШЭ, 2017. - 310 c.
17. Гохберг, Г.С. Информационные технологии / Г.С. Гохберг. - М.: Academia, 2018. - 474 c.
18. Данелян, Т.Я. Информационные технологии / Т.Я. Данелян. - М.: Ленанд, 2017. - 232 c.
19. Дайитбегов, Д.М. Компьютерные технологии анализа данных в эконометрике / Д.М. Дайитбегов. - М.: Вузовский учебник, НИЦ Инфра-М, 2013. - 587 c.
20. Дымченко, Д. Основы социологии и политологии / Д. Дымченко. - СПб.: СпецЛит, 2016. - 256 c.
21. Емельянов, С.В. Информационные технологии и вычислительные системы / С.В. Емельянов. - М.: Ленанд, 2017. - 96 с.
22. 36. Жук, Ю.А. Информационные технологии: мультимедиа / Ю.А. Жук. - СПб.: Лань, 2018. - 210 с.
23. Захарова, И.Г. Информационные технологии в образовании / И.Г. Захарова. - М.: Academia, 2016. - 543 с.
24. Зубов, А.В. Информационные технологии / А.В. Зубов. - М.: Академия, 2019. - 400 с.
25. Илышев, А.М. Общая теория статистики / А.М. Илышев, О.М. Шубат. - М.: КноРус, 2017. - 415 с.
26. Кабаков, Р. R в действии. Анализ и визуализация данных в программе R / Р. Кабаков. - М.: ДМК, 2016. - 588 с.
27. Казанцев, С.Я. Информационные технологии / С.Я. Казанцев. - М.: Академия, 2018. - 176 с.
28. Калинина, В.Н. Анализ данных. компьютерный практикум (для бакалавров) / В.Н. Калинина, В.И. Соловьев. - М.: КноРус, 2017. - 240 с.
29. Кареев, Н.И. Общие основы социологии / Н.И. Кареев. - М.: КД Либроком, 2015. - 248 с.
30. Кернаценский, М.В. Основы социологии и политологии / М.В. Кернаценский, Н.В. Шатина. - М.: Форум, 2017. - 304 с.
31. Козлов, А.Ю. Статистический анализ данных / А.Ю. Козлов, В.С. Мхитарян, В.Ф. Шишов. - М.: Инфра-М, 2018. - 80 с.
32. Коломейченко, А.С. Информационные технологии / А.С. Коломейченко, Н.В. Польшакова, О.В. Чеха. - СПб.: Лань, 2018. - 228 с.
33. Коробов, Н.А. Информационные технологии / Н.А. Коробов. - М.: Academia, 2017. - 608 с.
34. Кравченко, А.И. Методология и методы социологических исследований / А.И. Кравченко. - Люберцы: Юрайт, 2016. - 828 с.
35. Крылова, М.А. Методология и методы социологического исследования: основы теории и практики / М.А. Крылова. - М.: Риор, 2019. - 287 с.
36. Кравченко, А.И. Основы социологии и политологии / А.И. Кравченко. - М.: Проспект, 2015. - 352 с.
37. Кулаичев, А.П. Методы и средства комплексного статистического анализа данных / А.П. Кулаичев. - М.: Инфра-М, 2016. - 347 с.
38. Латышева, В.В. Основы социологии / В.В. Латышева. - М.: Дрофа, 2018. - 240 с.
39. Летин, А.С. Информационные технологии / А.С. Летин. - М.: Академия, 2018. - 272 с.
40. Логинов, В.Н. Информационные технологии / В.Н. Логинов. - М.: КноРус, 2018. - 416 с.
41. Макшанов, А.В. Технологии интеллектуального анализа данных / А.В. Макшанов, А.Е. Журавлев. - СПб.: Лань, 2018. - 212 с.
42. Малкова Е.В. Применение информационных технологий в классических художественных музеях / Е.В. Малкова, Сизова И.А. - Томск: Изд-во Том. ун-та, 2017. - 108 с.
43. Марманис, Х. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных / Х. Марманис, Д. Бабенко. - М.: Символ, 2021. - 480 с.
44. Мастицкий, С.Э. Статистический анализ и визуализация данных с помощью R / С.Э. Мастицкий. - М.: ДМК, 2015. - 496 с.
45. Миркин, Б.Г. Введение в анализ данных: Учебник и практикум / Б.Г. Миркин. - Люберцы: Юрайт, 2016. - 174 с.
46. Михеева, Е.В. Информационные технологии / Е.В. Михеева. - М.: Асайешха, 2018. - 128 с.
47. Ниворожкина, Л.И. Статистические методы анализа данных /
Л.И. Ниворожкина, С.В. Арженовский, А.А. Рудяга. - М.: Риор, 2018. - 320 с.69
48. Носова, С.С. Основы социологии и политологии (СПО)Учебник для ССУЗов / С.С. Носова. - М.: КноРус, 2017. - 272 с.
49. Панкратова, Е.В. Анализ данных в программе SPSS для начинающих социологов / Е.В. Панкратова, И.Н. Смирнова, Н.Н. Мартынова. - М.: Ленанд, 2018. - 200 с.
50. Петрунин, Ю.Ю. Информационные технологии анализа данных: / Ю.Ю. Петрунин. - М.: КДУ , 2021. - 292 с.
51. Резник, Г.А. Методы многомерного анализа статистических данных / Г.А. Резник. - М.: Финансы и статистика, 2008. - 400 с.
52. Романко, В.К. Статистический анализ данных в психологии / В.К. Романко. - М.: БИНОМ. ЛЗ, 2013. - 312 с.
53. Симчера, В.М. Методы многомерного анализа статистических данных / В.М. Симчера. - М.: Финансы и статистика, 2018. - 400 с.
54. Тихонова, Е.В. Методология и методы социологического исследования / Е.В. Тихонова. - М.: Academia, 2018. - 288 с.
55. Шурер К., Пенькова Т. Методы стандартизации и классификации записей о месте рождения и профессиональной деятельности в данных переписи Великобритании 1851-1911 гг. // Историческая информатика. - 2016. - № 3-4. - С.41-56.
56. Шутов, В. Основы современной социологии. 15 фундаментальных законов / В. Шутов. - М.: Этерна, 2015. - 224 с.
Электронные ресурсы
57. CLARIAH // https://www.clariah.nl/en/about/about-c1ariah(дата обращения 01.05.2022).
58. DARIAH-EU // https://www.dariah.eu/about/dariah-in-nutshe11/(дата обращения 01.05.2022).