Введение 2
Анализ существующих систем 3
Постановка задачи 5
Инструменты разработки 6
SQL Server 7
ASP.NET CORE 8
Entity Framework Core 10
OData 11
REST 12
React.JS 15
Webpack + Babel 16
Реализация 19
База данных 21
DAL 23
Business Layer 30
ExcelService 30
LuceneMatcher 33
User Interface 38
Заключение 51
Список использованных источников 53
В настоящее время правильный анализ данных во многом зависит от того, как данные буду обрабатываться во время поступления их в хранилище. Многие крупные компании уже имеют или внедряют системы по автоматической консолидации и дедупликации данных для дальнейшего создания семантической модели бизнес-аналитики, например, табличной (табулярной) модели данных или устоявшейся многомерной OLAP модели данных, построенных с помощью стандартных решений SQL Serve Analysis Services.
Основная проблема перед тем как создать такую семантическую модель заключается в том, что изначально данные поступают в виде Excel файлов и разные источники могут составлять файлы по-разному. Также источники могут присылать данные не только в виде Excel файлов, но и в виде DBF файлов. Так как данные приходят не структурированно, то после загрузки данные надо обработать, удалить дубликаты, связать «грязные» данные с эталонными данными, провести ряд действий по очистке данных.
В результате в рамках данной дипломной работы было разработано вебприложение для загрузки данных татарского корпуса и их дальнейшей консолидации и дедупликации.
Система имеет 5 основных возможностей:
1. Загрузка метаданных, первоначальная обработка и распределение данных по нескольким ключевым таблицам
2. Изучение загруженных метаданных, а также авторов и книг, редактирование, обновление информации
3. Поиск документов по неполному именованию автора или именованию книги
4. Автоматическое выявление неполных метаданных и поиск похожих записей с дальнейшей выдачей на разбор
5. Выгрузка обработанных данных в Excel
Реализация осуществлена с использованием технологии ASP.NET Core, на языке C#. Также использовались язык разметки HTML, язык описания документа CSS, библиотека ReactJS, стандарт OData для построения REST Api и база данных Microsoft SQL Server.
В дипломной работе раскрыты все возможности, приведен краткий сравнительный анализ с существующими ресурсами.
В ходе выполнения работы нами:
1. Рассмотрены возможности современных систем
2. Подробно описано функционирование всех используемых технологий
3. Создано веб-приложение для хранения и управления данными татарского корпуса
Направления дальнейшей работы:
1. Улучшение интерфейса и внешнего вида сайта, использование средств современного веб-дизайна
2. Разработка дополнительных возможностей взаимодействия и расширение возможностей аналитического поиска
3. Добавление возможности аутентификации и авторизации