Тип работы:
Предмет:
Язык работы:


Определение семантического типа колонки в табличных данных с помощью методов машинного обучения

Работа №143566

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы24
Год сдачи2023
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
16
Не подходит работа?

Узнай цену на написание


Введение 4
1. Постановка задачи 5
2. Обзор 6
2.1. Существующие решения 6
2.2. Индустриальные продукты 8
3. Разработка архитектуры 11
3.1. Архитектура модели Doduo 11
3.2. Выбор языковой модели 13
4. Набор данных 14
4.1. Процесс обработки данных 14
4.2. Фильтрация данных 16
4.3. Выбор меток для сущностей 16
5. Обучение модели 18
5.1. Получение токенов из табличных данных для модели . . 18
5.2. Расширение вокабуляра токенайзера 19
5.3. Аугментация данных 20
5.4. Процесс обучения 20
5.5. Результаты обучения 21
Заключение 23
Список литературы 24


Определение семантических типов колонок в табличных данных является важной задачей в области профилирования. Под семантическим типом понимают связь между содержимым колонки и какой-то сущностью из реального мира, например: “Имя”, “Возраст”, “Страна”. При этом определение семантических типов значительно сложнее определения атомарных таких как: int, string, date, так как одному атомарному типу может соответствовать несколько семантических. Например семантические типы “Страна”, “Столица” и “Область” соответствуют атомарному string.
Для автоматизации поиска семантических типов исследователями было предложено множество подходов. Классические решения данной задачи используют регулярные выражения, словари и статистики. При этом они обладают малой точностью и сильно ограничены количеством распознаваемых типов [7]. Применение машинного обучения позволило значительно повысить качество распознавания и увеличить число распознаваемых сущностей.
Успешное решение данной задачи открывает возможности для решениях смежных задач, создавая для них основу. Полученную модель возможно применить для извлечения эмбеддингов, векторов представляющих семантику таблицы. Получаемые эмбеддинги далее можно использовать для решения задач интерпретации, поиска, заполнения пропущенных значений, расширения таблиц новыми столбцами и строками [11,12].
Существующие на данный момент решения не подходят для работы с данными, содержащими русский язык, поскольку используют для обучения данные, которые в основном содержат только английский язык. Также отсутствует набор данных, который позволил бы обучить модель, способную решать поставленную задачу. В данной работе описан процесс создания соответствующего набора данных и разработки модели машинного обучения для определения семантических типов колонок.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были достигнуты следующие результаты.
1. Выполнен обзор существующих на данный момент исследовательских решений Sherlock, SeLaB, Doduo и индустриальных решений: SAS Viya, Tableau и Talend для решения задачи определения семантического типа колонки. По результатам обзора была выбрана архитектура модели Doduo в качестве основы, поскольку Doduo на сегодняшний день решает аналогичную задачу для английского языка наилучшим образом по сравнению с другими моделями.
2. Разработана архитектура модели на основе архитектуры модели Doduo. Полученная модель адаптирована для работы с русским языком, а также способна работать в условиях ограниченных вычислительных ресурсов.
3. Подготовлен набор данных из 53 тысяч таблиц на основе RWT (корпуса русскоязычных таблиц), полученных из Wikipedia. Автоматизирован процесс обработки новых данных.
4. Выполнено обучение модели, проведены эксперименты, выбраны оптимальные гиперпараметры. Предложены модификации решения, способные улучшить конечный результат, а именно: предложен новый подход к токенизации таблиц и расширение вокабуляра.
5. Код модели опубликован на github.com, веса модели доступны на huggingface.co, датасет на kaggle.com. Демонстрационный стенд доступен на платформе streamlit.app.



[1] Annotating Columns with Pre-trained Language Models / Yoshihiko Suhara, Jinfeng Li, Yuliang Li et al. // Proceedings of the 2022 International Conference on Management of Data. — Association for Computing Machinery, 2022. — ISBN: 9781450392495. — URL: https://doi.org/10.1145/3514221.3517906.
[2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova // CoRR. — 2018. — Vol. abs/1810.04805. — arXiv : 1810.04805.
[3] Fedorov Platon, Mironov Alexey, Chernishev George A. Russian Web Tables: A Public Corpus of Web Tables for Russian Language Based on Wikipedia // CoRR.— 2022.— Vol. abs/2210.06353.— arXiv : 2210.06353.
[4] Hameed Mazhar, Naumann Felix. Data Preparation: A Survey of Commercial Tools // SIGMOD Rec. — 2020. — dec. — Vol. 49, no. 3. — P. 18-29. — URL: https://doi.org/10.1145/3444831.3444835.
[5] Hidden Technical Debt in Machine Learning Systems / D. Sculley, Gary Holt, Daniel Golovin et al. // Advances in Neural Information Processing Systems / Ed. by C. Cortes, N. Lawrence, D. Lee et al.— Vol. 28.— Curran Associates, Inc., 2015.— URL: https://proceedings.neurips.cc/paper_files/paper/2015/ file/86df7dcfd896fcaf2674f757a2463eba-Paper.pdf.
[6] Sato: Contextual Semantic Type Detection in Tables / Dan Zhang, Yoshihiko Suhara, Jinfeng Li et al. // CoRR. — 2019. — Vol. abs/1911.06311. — arXiv : 1911.06311.
[7] Sherlock: A Deep Learning Approach to Semantic Data Type Detection / Madelon Hulsebos, Kevin Hu, Michiel Bakker et al. // Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. — KDD ’19. — New York, NY, USA : Association for Computing Machinery, 2019. — P. 1500-1508. — URL: https://doi.org/10.1145/3292500.3330993.
[8] TURL: Table Understanding through Representation Learning / Xiang Deng, Huan Sun, Alyssa Lees et al. // CoRR. — 2020. — Vol. abs/2006.14806. — arXiv : 2006.14806.
[9] Trabelsi Mohamed, Cao Jin, Heflin Jeff. Semantic Labeling Using a Deep Contextualized Language Model // CoRR. — 2020. — Vol. abs/2010.16037. — arXiv : 2010.16037.
[10] VizNet: Towards a large-scale visualization learning and benchmarking repository / Kevin Hu, Neil Gaikwad, Michiel Bakker et al. // Proceedings of the 2019 Conference on Human Factors in Computing Systems (CHI).-ACM, 2019.
[11] Zhang Li, Zhang Shuo, Balog Krisztian. Table2Vec: Neural Word and Entity Embeddings for Table Population and Retrieval // Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. - SIGIR’19. - New York, NY, USA : Association for Computing Machinery, 2019. — P. 1029-1032.— URL: https://doi.org/10.1145/3331184.3331333.
[12] Zhang Shuo, Balog Krisztian. Ad Hoc Table Retrieval Using Semantic Similarity // Proceedings of the 2018 World Wide Web Conference. — WWW ’18. — Republic and Canton of Geneva, CHE : International World Wide Web Conferences Steering Committee, 2018. — P. 1553-1562. — URL: https://doi.org/10.1145/3178876.3186067.
[13] exBERT: Extending Pre-trained Models with Domain-specific Vocabulary Under Constrained Training Resources / Wen Tai, H. T. Kung, Xin Dong et al. // Findings of the Association for Computational Linguistics: EMNLP 2020. — Online : Association for Computational Linguistics, 2020. — . — P. 1433-1439. — URL: https://aclanthology. org/2020.findings-emnlp.l29.



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ