📄Работа №215283

Тема: ВЫДЕЛЕНИЕ ИМЕНОВАННЫХ СУЩНОСТЕЙ ИЗ НАИМЕНОВАНИЙ ТОВАРОВ

📝
Тип работы Дипломные работы, ВКР
📚
Предмет информационные системы
📄
Объем: 65 листов
📅
Год: 2022
👁️
Просмотров: 6
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

ВВЕДЕНИЕ 4
1. МАШИННОЕ ОБУЧЕНИЕ И ТОКЕНИЗАЦИЯ 6
1.1. Машинное обучение 6
1.2. Нейронные сети 8
1.3. Named Entity Recognition 10
1.4. Метрики 12
1.4.1. Accuracy 12
1.4.2. Precision, Recall, F1 13
1.5. Векторное представление слов 17
1.6. Выводы к первой главе 19
2. АНАЛИЗ МОДЕЛЕЙ 20
2.1. Лог-линейная модель 20
2.2. Рекуррентные сети 26
2.3. CharCNN-BiLSTM-CRF 33
2.4. Transformers 36
2.4.1. BERT 40
2.5. Sequence-Labeling 42
2.6. Подход через другие задачи 43
2.7. Выводы ко второй главе 46
3. ПОСТРОЕНИЕ МОДЕЛИ 47
3.1. Формализация задачи 47
3.2. Анализ моделей и датасетов для русского языка 48
3.3. Подготовка датасета 50
3.4. Обучение моделей 55
3.5. Анализ значений метрик 56
3.6. Пример работы 58
3.7. Выводы к третьей главе 61
ЗАКЛЮЧЕНИЕ 62
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 63

Приложения должны быть в работе, но в данный момент отсутствуют

📖 Введение

Современный мир очень сильно завязан на обработке огромных массивов данных. Это могут быть, как и видеопотоки, аудио, так и потоки текстовых данных. Как мы знаем, сейчас довольно привычным является тот факт, что алгоритмы машинного обучения хорошо справляются с задачами в области компьютерного зрения. Работа с аудио тоже не отстает, все мы знаем о множестве голосовых помощников, которые хоть и не совершенны на данный момент, но также бурно развиваются. Но даже работа с аудио может быть очень завязана на работу с текстовыми данными, которые вы преобразуете в последовательность символов. Как раз обработке текстовой информации будет посвящена наша работа.
Последние несколько лет происходит бурное развитие в решении задачах, связанных с обработкой текстовых данных, извлечении из этих текстовых данных какой-либо ценной информации. Это может быть как поиск определенных сущностей в тексте, связей между ними, классификация этого текста, генерация последовательностей, составление вопросно-ответных систем и т.д.
Классификация токенов в последовательности является одной из задач обработки естественного языка. Как пример, этим могут заниматься банки, в которых постоянно происходит обработка огромного количества неструктурированного текста. Так, например, Сбербанк применяет задачу классификации токенов для того, чтобы ускорить выдачу кредитов [16]. Или, например, ВТБ использует как одну из задач, для решения проблем, связанных с мониторингом новостей для оценки кредитных рисков компании, рекомендации покупки/продажи ценных бумаг, выявление взаимосвязанных компаний/бенефициаров, разбора команд, произнесенных клиентом голосовому помощнику, для идентификации получателя платежа и т.д. [13]. Также, не только банки используют эту информацию. Например, Яндекс использует распознавание именованных сущностей для нахождения нужных
объектов при запросах к Алисе [12]. Или же, например, компания Домклик также решает эту задачу для своего текстового и голосового помощника, помогая найти упоминания персоны, даты, продукта, приложения и т.п. [15].
В нашем случае имеется текстовые данные с характеристиками товара. Это могут быть такие свойства как бренд, вес, объем и т.д. Эту полезную информацию можно использовать, например, для того, чтобы находить нужную информацию при запросе к голосовому или текстовому ассистенту. Также, эти свойства могут помочь для автоматизации в колл-центрах. Например, помогать перенаправлять запрос на оператора по работе с определенным брендом или типом товара.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Эта работа посвещена решению задачи распознавания именованных сущностей для текстовых данных представляющих из себя описание товаров. В результате работы:
1. Описан метод при помощи которого решается данная задача, а именно была определена задача машинного обучения и произведена её правильная классификация, позволяющая избежать множество проблем.
2. Описаны основные модели, решающие эту задачу. И исходя из этого описания, был произведен выбор модели на основе архитектуры Transformer.
3. Была произведена подготовка датасета и построена модель, обученная на размеченном датасете, которая хорошо может распозновать бренд товара.
4. Проанализированы результаты модели и предложены гепотезы об улучшении показателей.
Исходя из построенной модели и её анализа, можно сказать, что поставленная цель достигнута, а задачи выполнены.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Brink, H. Real-World Machine Learning / H. Brink, J.W. Richards. Shelter Island: Manning Publications Co., 2017
2. Bishop, C.M. Pattern Recognition and Machine Learning / C.M. Bishop. – Singapore: Springer Science+Business Media, 2019.
3. Pointer, I. Programming PyTorch for Deep Learning / I. Pointer. – Sebastopol: O’Reilly Media, 2019.
4. Mueller, A.C. Machine Learning with Python / A.C. Mueller, S. Guido. – Sebastopol: O’Reilly Media, 2016.
5. McKinney, W. Python for Data Analysis / W. McKinney. – Sebastopol: O’Reilly Media, 2018.
6. Mikolov, T. Efficient estimation of word representations in vector space / T. Mikolov, K. Chen. // Proceedings of Workshop at ICLR. – 2013. – С. 1–12.
7. Lample, G. Neural Architectures for Named Entity Recognition / G. Lample, M. Ballesteros // Proceedings of the NAACL. – 2016. – С. 1-6.
8. Hochreiter, S. Long short-term memory / S. Hochreiter, J. Schmidhuber // Neural Computation journal. – 1997. – Т. 9, № 8. – С. 1735 – 1780.
9. Cui, L. Template-Based Named Entity Recognition Using BART / L. Cui, Y. Wu. // Findings of the Association for Computational Linguistics: ACL- IJCNLP. – 2021. – С. 1-9.
10. Ding, N. Few-NERD: A Few-Shot Named Entity Recognition Dataset / N. Ding, G. Xu. // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. – 2018. – С. 1-10.
11. Vaswani, A. Attention is all you need / A. Vaswani, N. Shazeer. // Proceedings of the NeurIPS. – 2017. – С. 1-7.
12. Алиса поможет разработчикам найти объекты в запросах пользователей. NER в Диалогах. // Habr, доступ:
https://habr.com/ru/company/yandex/blog/425331/ (дата обращения 1 июня 2022).
13. Искусство распознавания: как мы разрабатывали прототип AutoML для задачи Named Entity Recognition. // Habr, доступ:
https://habr.com/ru/company/vtb/blog/651525/(дата обращения – 15 апреля 2022).
14. Проект Natasha — набор Python-библиотек для обработки текстов на естественном русском языке. // Natasha, доступ:https://natasha.github.io/(дата обращения – 15 апреля 2022).
15. Что новенького по сущностям? Новости последней конференции EMNLP. // Habr, доступ:https://habr.com/ru/company/domclick/blog/653739/.(дата обращения 15 апреля 2022).
16. Few-Shot NER, или Как перестать размечать и начать жить. // Habr, доступ: https://habr.com/ru/company/sberbank/blog/649609/ (дата
обращения 4 февраля 2022).
17. Adam: A Method for Stochastic Optimization. // arxiv, доступ: https://arxiv.org/abs/1412.6980 (дата обращения 1 июня 2022).
18. Layer normalization // arxiv, доступ:https://arxiv.org/abs/1607.06450 (дата обращения 27 мая 2022).
19. A Unified MRC Framework for Named Entity Recognition // arxiv, доступ: https://arxiv.org/abs/1910.11476(дата обращения 12 апреля 2022).
20. Balto-Slavic Natural Language Processing 2019 // bsnlp, доступ:
http://bsnlp.cs.helsinki.fi/bsnlp-2019/shared_task.html (дата обращения – 14 апреля 2022).
21. Adam: A Method for Stochastic Optimization. // arxiv, доступ: https://arxiv.org/abs/1412.6980 (дата обращения 1 июня 2022).
22. A Unified MRC Framework for Named Entity Recognition // arxiv, доступ: https://arxiv.org/abs/1910.11476(дата обращения 12 апреля 2022).
23. Balto-Slavic Natural Language Processing 2019 // bsnlp, доступ:
http://bsnlp.cs.helsinki.fi/bsnlp-2019/shared_task.html (дата обращения – 14 апреля 2022).
24. Byte Pair Encoding. // wikipedia, доступ:
https://en.wikipedia.org/wiki/Byte_pair_encoding (дата обращения – 16
апреля 2022).
25. CrossEntropy. // pytorch, доступ:
https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss (дата обращения – 16 апреля 2022).
26. DeepPavlov/distilrubert-tiny-cased-conversational-v1. // huggingface, доступ: https://huggingface.co/DeepPavlov/distilrubert-tiny-cased-conversational-v1(дата обращения – 15 апреля 2022).
27. Label Studio – Open Source Data Labeling // labelstud, доступ: https://labelstud.io/(дата обращения 14 апреля 2022).
28. Layer normalization // arxiv, доступ:https://arxiv.org/abs/1607.06450 (дата обращения 27 мая 2022).
29. Named Entity Recognition // paper with code, доступ:
https://paperswithcode.com/task/named-entity-recognition-ner (дата
обращения – 13 июня 2022).

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ