Тип работы:
Предмет:
Язык работы:


Оценка качества слабоструктурированных данных при сопоставлении независимых источников

Работа №126568

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы28
Год сдачи2018
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
41
Не подходит работа?

Узнай цену на написание


Введение 4
1. Качество данных 6
1.1. Жизненный цикл 6
1.2. Критерии и метрики 7
1.3. Сопоставление источников 9
2. Метод 11
2.1. Стратегия идентификации объекта 11
2.2. Определение критериев и метрик 12
2.3. Оценка качества данных 13
2.4. Демонстрация результатов 15
3. Эксперименты 17
3.1. Книжные публикации 17
3.2. Футболисты 22
Заключение 25
Список литературы 26

В наши дни объемы данных увеличиваются более чем в два раза каждые два года [9]. Количество ошибок и несоответствий с реаль­ным миром растет вместе с объемами данных. Качество данных яв­ляется обширной и все более актуальной темой в современном мире. Разные авторы определяют термин качество данных по-разному. Одни из них утверждают, что это степень пригодности данных для конкрет­ного использования [1][11] . Другие делают упор на том, что это понятие многомерное и складывается из точности, полноты и других критери­ев [21][20][23]. Оценка качества данных - первый и очень важный шаг в трудоемком процессе, который называется Улучшение качества дан­ных.
В течение нескольких последних десятилетий были разработаны раз­личные методы оценки качества данных [22][18]. Большинство из них относятся к реляционной модели данных и основываются на анализе отдельных значений без использования других таблиц. Исключением является метод кросс-доменного анализа, который позволяет обраба­тывать избыточность и несогласованность данных в нескольких табли­цах [6]. В этой работе предлагается метод оценки качества, основанный на сопоставлении нескольких источников. Этот подход позволяет опре­делить качество экземпляра данных в контексте различных критериев и с применением нескольких метрик для оценки.
Цель работы заключается в разработке нового подхода к оценке ка­чества данных. Многообразие форматов и моделей представления дан­ных существенно усложняет эту задачу. Изучение способов обработки неструктурированных и слабоструктурированных данных продолжает­ся, хотя еще не так давно основное внимание исследователей привле­кали данные, представленные в реляционной модели и имеющие чет­кую структуру. Подход, который описывается в этой работе, учитыва­ет текущие тенденции и предоставляет возможность оценивать каче­ство слабоструктурированных данных. Под этим термином мы пони­маем возможное отсутствие схемы данных с фиксированными типами данных, иерархическую структуру атрибутов и возможный пропуск ат­рибутов. В экспериментах при оценке использовались наборы данных, представленные в слабоструктурированной форме. Они имеют различ­ную структуру, модель и формат представления.
В разделе Качество данных излагаются основные теоретические сведения, необходимые для описания работы метода. Сначала мы рас­ширим понятие жизненного цикла качества данных на случай исполь­зования нескольких источников данных. Оно показывает, какое место в процессе улучшения качества данных занимает оценка. После этого мы определим критерии и метрики, с помощью которых можно оценивать качество данных.
Далее описан процесс сопоставления источников, заимствованный из процессов интеграции данных. Сопоставление источников является ключевой особенностью предлагаемого метода оценки качества данных. Интеграция данных может быть одним из возможных способов улуч­шения качества данных [8]. Она представляет собой комплекс задач, возникающих и в научных исследованиях (использование данных из разных биоинформационных репозиториев), и в коммерческой сфере (при объединении баз данных схожих фирм). Суть интеграции данных в слиянии записей, соответствующих одному и тому же объекту реаль­ного мира, из различных источников.
В разделе Метод описывается подход к оценке качества данных. В разделе Эксперименты описаны результаты применения метода для оценки качества коллекции о книжных публикациях и трех коллекций с информацией о футболистах. Цель экспериментов состоит в оценке ста­бильности результатов применения метода. В Заключении подводится итог работы и озвучиваются задачи для будущих работ.
Отметим, что эта работа была представлена на конференции SEIM’18 [12], прошла этап пост-рецензирования и будет опубликована в RSCI.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были изучены различные критерии и метрики оцен­ки качества данных. Также были рассмотрены существующие способы решения задачи оценки качества данных. В результате был разработан новый метод, основанный на сопоставлении независимых источников данных. Этот подход достаточно гибок и может использоваться в раз­личных предметных областях и задачах.
В качестве примера применения метода было проведено два экспе­римента. В первом из них использовались две коллекции с информа­цией о книжных публикациях, для одной из которых была проведена оценка качества. Во втором эксперименте качество данных было оцене­но для трех наборов данных о футболистах. Описанный метод показал стабильные результаты на этих наборах данных.
Целью будущих работ является использование разработанного ме­тода для оценки качества других данных. Под этим понимается, как использование других атрибутов с новыми типами данных, так и оцен­ка других коллекций.


[1] Batini C., Scannapieca M. Data quality. // Springer-Verlag, Berlin, Germany. — 2006. — P. 19-31.
[2] Bizer Christian, Cyganiak Richard. Quality-driven information filtering using the WIQA policy framework // Web Semantics: Science, Services and Agents on the World Wide Web. — 2009. — Vol. 7, no. 1. — P. 1-10.
[3] Bleiholder Jens, Naumann Felix. Data fusion // ACM Computing Surveys (CSUR). — 2009. — Vol. 41, no. 1.
[4] Book-Crossing Dataset.-- URL : http://www2.informatik.uni- freiburg.de/ cziegler/BX/.
[5] Debattista Jeremy, Auer SOren, Lange Christoph. Luzzu—A Methodology and Framework for Linked Data Quality Assessment // Journal of Data and Information Quality (JDIQ).— 2016.— Vol. 8, no. 1. -- P. 4.
[6] Discover dependencies from data—a review / Jixue Liu, Jiuyong Li, Chengfei Liu, Yongfeng Chen // IEEE transactions on knowledge and data engineering. — 2012. — Vol. 24, no. 2. — P. 251-264.
[7] Dong Xin Luna, Srivastava Divesh. Big data integration // Data Engineering (ICDE), 2013 IEEE 29th International Conference on / IEEE. - 2013. - P. 1245-1248.
[8] Endler Gregor. Data quality and integration in collaborative environments // Proceedings of the on SIGMOD/PODS 2012 PhD Symposium / ACM. -- 2012. -- P. 21-26.
[9] Gantz John, Reinsel David. Extracting value from chaos // IDC iview. - 2011. - Vol. 1142, no. 2011. - P. 1-12.
[10] Hernandez Mauricio A, Stolfo Salvatore J. Real-world data is dirty: Data cleansing and the merge/purge problem // Data mining and knowledge discovery. — 1998. — Vol. 2, no. 1. — P. 9-37.
[11] Herzog Thomas N., Scheuren Fritz J., Winkler William E. What is Data Quality and Why Should We Care? // Data Quality and Record Linkage Techniques. - New York, NY : Springer New York, 2007. - P. 7-15.— ISBN: 978-0-387-69505-1.— URL: https://doi.org/10. 1007/0-387-69505-2_2.
[12] Kalina A., Novikov B. Quality assessment of semi-structured data by independent sources matching.— Accepted at SEIM, 2018.— URL: http://seim-conf.org/en/about/accepted-papers/.
[13] Koudas Nick, Sarawagi Sunita, Srivastava Divesh. Record linkage: similarity measures and algorithms // Proceedings of the 2006 ACM SIGMOD international conference on Management of data / ACM. — 2006. - P. 802-803.
[14] Lei Yuangui, Uren Victoria, Motta Enrico. A framework for evaluating semantic metadata // Proceedings of the 4th international conference on Knowledge capture / ACM. — 2007. — P. 135-142.
[15] Nelson R Ryan, Todd Peter A, Wixom Barbara H. Antecedents of information and system quality: an empirical examination within the context of data warehousing // Journal of management information systems. — 2005. — Vol. 21, no. 4. — P. 199-235.
...


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ