ВВЕДЕНИЕ 3
1. ДАННЫЕ И НАУКА О ДАННЫХ 6
1.1. Что такое данные? 6
1.2. Наука о данных 22
1.3. Особенности работы с гуманитарными данными 25
2. БОЛЬШИЕ ДАННЫЕ 29
2.1. Определение и основные характеристики больших данных 29
2.2. Большие данные в гуманитарных науках и способы их обработки 41
2.3. Примеры применения больших данных в гуманитарных науках ... 56
ЗАКЛЮЧЕНИЕ 64
СПИСОК ЛИТЕРАТУРЫ
Проблема данных всегда была актуальна во всех отраслях и направлениях науки. Особую значимость она имеет сегодня, в том числе во многом из-за бурного развития технологий, связанных с обработкой больших данных. Однако многие моменты в этом отношении остаются невыясненными, в том числе и те, которые относятся к месту и роли больших данных в гуманитарных науках.
Актуальность использования технологии Big Data достаточно велика, так как в данный момент она является одним из ключевых драйверов развития информационных технологий. Это направление, относительно новое для Российской Федерации, получило широкое распространение в западных странах. Связано это с тем, что в эпоху информационных технологий, по каждому направлению гуманитарных наук стало накапливаться значительное количество информации, что в конечном счете дало развитие направлению Big Data.
Исследования, связанные с большими данными, являются актуальной областью разработок на сегодняшний день. Они изучают большие данные, а также способы выделения знаний из них. Они ведутся в рамках различных дисциплин и областей, таких как информационные науки, моделирование неопределённости, машинное обучение, статистическое обучение, распознавание образов, методы хранения данных, обработка сигналов и т. д. Исследования больших данных также имеют собственные проблемы и задачи.
Проблема хранения возникает в силу увеличения скорости создания новых данных в последние годы. Благодаря мобильным устройствам, интернету вещей, увеличению доступности интернета и прочим факторам, объём производимой информации растёт в геометрической прогрессии. В силу недостатка места для их хранения они либо удаляются, либо не записываются вовсе.
В связи с этим, возрастает роль носителей информации и скорости её записи и чтения для доступности больших данных с целью их анализа. Несмотря на достижения в этой области, такие как, например, распространение твердотельных накопителей, необходимая производительность накопителей для обработки больших данных до сих пор не достигнута. Все вышеперечисленное обуславливают большую актуальность выбранной темы.
Цель выпускной квалификационной работы: определить роль и место больших данных в гуманитарных науках, показать наиболее яркие примеры использований больших данных в гуманитарных науках.
В соответствии с целью работы сформированы ее задачи и соответствующая им структура, которая включает в себя следующие части работы:
- Введение;
- Основная часть, в состав которой входят следующие главы:
- Что такое данные;
- Наука о данных;
- Особенности работы с гуманитарными данными;
- Определение и основные характеристики больших данных;
- Большие данные в гуманитарных науках и способы их обработки;
- Примеры применения больших данных в гуманитарных науках;
Объект исследования: большие данные, которые можно использовать в гуманитарных науках.
В качестве предмета исследования выбраны место и роль науки о данных, место больших данных в гуманитарных науках и способы их обработки.
Исследованию больших данных, их роли и месту в современной науке посвящены многочисленные работы, ряд которых упоминается в дальнейшем изложении. В последнее время появляются и исследования, посвященные использованию больших данных в гуманитарных науках .
В качестве заключения могут выступить следующие выводы, сделанные в ходе работы. В информатике различают два понятия «данные» и «информация». Данные представляют собой информацию, находящуюся в формализованном виде и предназначенную для обработки техническими системами. Данные — диалектическая составная часть информации. Самым распространенным носителем данных, хотя и не самым экономичным, по - видимому, является бумага. Наука о данных — это область исследований, которая включает в себя извлечение информации из огромного количества данных с использованием различных научных методов, алгоритмов и процессов. Это поможет вам обнаружить скрытые шаблоны из необработанных данных. Термин Data Science возник благодаря эволюции математической статистики, анализа данных и больших данных. Структуры данных служат материалами, из которых строятся программы. Как правило, данные имеют форму чисел, букв, текстов, символов и более сложных структур типа последовательностей, списков и деревьев.
Для точного описания абстрактных структур данных и алгоритмов программ используются такие системы формальных обозначений, называемые языками программирования, в которых смысл всякого предложения определится точно и однозначно. Среди средств, представляемых почти всеми языками программирования, имеется возможность ссылаться на элемент данных, пользуясь присвоенным ему именем. Выбор правильного представления данных служит ключом к удачному программированию и может в большей степени сказываться на производительности программы, чем детали используемого алгоритма. Вряд ли когда-нибудь появится общая теория выбора структур данных.
Если рассматривать термин «большие данные» (Big Data) непосредственно, то именно характеристика большого объема данных не является основополагающей, поскольку именно иные аспекты больших данных определяют суть ново технологии. Благодаря стремительному развитию информационных технологий гуманитарные науки получили новые возможности анализа данных и получения статистики по самым разным направлениям. За считанные секунды специалисты получают необходимые данные и статистики, на которые раньше могли уйти годы. Процесс Data Science применительно к большим данным может быть представлен в последовательности шести этапов: определение цели исследования, этап сбора данных, этап подготовки данных, этап исследования данных, этап моделирования данных, этап отображения и автоматизации.