Введение 4
1. Качество данных 6
1.1. Жизненный цикл 6
1.2. Критерии и метрики 7
1.3. Сопоставление источников 9
2. Метод 11
2.1. Стратегия идентификации объекта 11
2.2. Определение критериев и метрик 12
2.3. Оценка качества данных 13
2.4. Демонстрация результатов 15
3. Эксперименты 17
3.1. Книжные публикации 17
3.2. Футболисты 22
Заключение 25
Список литературы 26
В наши дни объемы данных увеличиваются более чем в два раза каждые два года [9]. Количество ошибок и несоответствий с реальным миром растет вместе с объемами данных. Качество данных является обширной и все более актуальной темой в современном мире. Разные авторы определяют термин качество данных по-разному. Одни из них утверждают, что это степень пригодности данных для конкретного использования [1][11] . Другие делают упор на том, что это понятие многомерное и складывается из точности, полноты и других критериев [21][20][23]. Оценка качества данных - первый и очень важный шаг в трудоемком процессе, который называется Улучшение качества данных.
В течение нескольких последних десятилетий были разработаны различные методы оценки качества данных [22][18]. Большинство из них относятся к реляционной модели данных и основываются на анализе отдельных значений без использования других таблиц. Исключением является метод кросс-доменного анализа, который позволяет обрабатывать избыточность и несогласованность данных в нескольких таблицах [6]. В этой работе предлагается метод оценки качества, основанный на сопоставлении нескольких источников. Этот подход позволяет определить качество экземпляра данных в контексте различных критериев и с применением нескольких метрик для оценки.
Цель работы заключается в разработке нового подхода к оценке качества данных. Многообразие форматов и моделей представления данных существенно усложняет эту задачу. Изучение способов обработки неструктурированных и слабоструктурированных данных продолжается, хотя еще не так давно основное внимание исследователей привлекали данные, представленные в реляционной модели и имеющие четкую структуру. Подход, который описывается в этой работе, учитывает текущие тенденции и предоставляет возможность оценивать качество слабоструктурированных данных. Под этим термином мы понимаем возможное отсутствие схемы данных с фиксированными типами данных, иерархическую структуру атрибутов и возможный пропуск атрибутов. В экспериментах при оценке использовались наборы данных, представленные в слабоструктурированной форме. Они имеют различную структуру, модель и формат представления.
В разделе Качество данных излагаются основные теоретические сведения, необходимые для описания работы метода. Сначала мы расширим понятие жизненного цикла качества данных на случай использования нескольких источников данных. Оно показывает, какое место в процессе улучшения качества данных занимает оценка. После этого мы определим критерии и метрики, с помощью которых можно оценивать качество данных.
Далее описан процесс сопоставления источников, заимствованный из процессов интеграции данных. Сопоставление источников является ключевой особенностью предлагаемого метода оценки качества данных. Интеграция данных может быть одним из возможных способов улучшения качества данных [8]. Она представляет собой комплекс задач, возникающих и в научных исследованиях (использование данных из разных биоинформационных репозиториев), и в коммерческой сфере (при объединении баз данных схожих фирм). Суть интеграции данных в слиянии записей, соответствующих одному и тому же объекту реального мира, из различных источников.
В разделе Метод описывается подход к оценке качества данных. В разделе Эксперименты описаны результаты применения метода для оценки качества коллекции о книжных публикациях и трех коллекций с информацией о футболистах. Цель экспериментов состоит в оценке стабильности результатов применения метода. В Заключении подводится итог работы и озвучиваются задачи для будущих работ.
Отметим, что эта работа была представлена на конференции SEIM’18 [12], прошла этап пост-рецензирования и будет опубликована в RSCI.
В ходе работы были изучены различные критерии и метрики оценки качества данных. Также были рассмотрены существующие способы решения задачи оценки качества данных. В результате был разработан новый метод, основанный на сопоставлении независимых источников данных. Этот подход достаточно гибок и может использоваться в различных предметных областях и задачах.
В качестве примера применения метода было проведено два эксперимента. В первом из них использовались две коллекции с информацией о книжных публикациях, для одной из которых была проведена оценка качества. Во втором эксперименте качество данных было оценено для трех наборов данных о футболистах. Описанный метод показал стабильные результаты на этих наборах данных.
Целью будущих работ является использование разработанного метода для оценки качества других данных. Под этим понимается, как использование других атрибутов с новыми типами данных, так и оценка других коллекций.
[1] Batini C., Scannapieca M. Data quality. // Springer-Verlag, Berlin, Germany. — 2006. — P. 19-31.
[2] Bizer Christian, Cyganiak Richard. Quality-driven information filtering using the WIQA policy framework // Web Semantics: Science, Services and Agents on the World Wide Web. — 2009. — Vol. 7, no. 1. — P. 1-10.
[3] Bleiholder Jens, Naumann Felix. Data fusion // ACM Computing Surveys (CSUR). — 2009. — Vol. 41, no. 1.
[4] Book-Crossing Dataset.-- URL : http://www2.informatik.uni- freiburg.de/ cziegler/BX/.
[5] Debattista Jeremy, Auer SOren, Lange Christoph. Luzzu—A Methodology and Framework for Linked Data Quality Assessment // Journal of Data and Information Quality (JDIQ).— 2016.— Vol. 8, no. 1. -- P. 4.
[6] Discover dependencies from data—a review / Jixue Liu, Jiuyong Li, Chengfei Liu, Yongfeng Chen // IEEE transactions on knowledge and data engineering. — 2012. — Vol. 24, no. 2. — P. 251-264.
[7] Dong Xin Luna, Srivastava Divesh. Big data integration // Data Engineering (ICDE), 2013 IEEE 29th International Conference on / IEEE. - 2013. - P. 1245-1248.
[8] Endler Gregor. Data quality and integration in collaborative environments // Proceedings of the on SIGMOD/PODS 2012 PhD Symposium / ACM. -- 2012. -- P. 21-26.
[9] Gantz John, Reinsel David. Extracting value from chaos // IDC iview. - 2011. - Vol. 1142, no. 2011. - P. 1-12.
[10] Hernandez Mauricio A, Stolfo Salvatore J. Real-world data is dirty: Data cleansing and the merge/purge problem // Data mining and knowledge discovery. — 1998. — Vol. 2, no. 1. — P. 9-37.
[11] Herzog Thomas N., Scheuren Fritz J., Winkler William E. What is Data Quality and Why Should We Care? // Data Quality and Record Linkage Techniques. - New York, NY : Springer New York, 2007. - P. 7-15.— ISBN: 978-0-387-69505-1.— URL: https://doi.org/10. 1007/0-387-69505-2_2.
[12] Kalina A., Novikov B. Quality assessment of semi-structured data by independent sources matching.— Accepted at SEIM, 2018.— URL: http://seim-conf.org/en/about/accepted-papers/.
[13] Koudas Nick, Sarawagi Sunita, Srivastava Divesh. Record linkage: similarity measures and algorithms // Proceedings of the 2006 ACM SIGMOD international conference on Management of data / ACM. — 2006. - P. 802-803.
[14] Lei Yuangui, Uren Victoria, Motta Enrico. A framework for evaluating semantic metadata // Proceedings of the 4th international conference on Knowledge capture / ACM. — 2007. — P. 135-142.
[15] Nelson R Ryan, Todd Peter A, Wixom Barbara H. Antecedents of information and system quality: an empirical examination within the context of data warehousing // Journal of management information systems. — 2005. — Vol. 21, no. 4. — P. 199-235.
...