Тип работы:
Предмет:
Язык работы:


Методы извлечения информации о продукте из пользовательских объявлений в социальных сетях

Работа №144896

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы34
Год сдачи2024
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
23
Не подходит работа?

Узнай цену на написание


1. Введение 4
1.1. Цель работы 5
1.2. Задачи работы 5
1.3. Результаты работы 5
2. Постановка задачи 7
2.1. Определения 7
2.2. Формулировка 8
3. Обзор предметной области 9
3.1. Подходы к извлечению информации из текстов 9
3.2. Подходы с применением машинного обучения 9
3.2.1 Encoder-Decoder 10
3.2.2 Decoder-only 11
3.2.3 NERRE 11
4. Предлагаемый метод 13
4.1. Какая задача решалась 13
4.2. Пилотное исследование 13
4.3. Данные 13
4.3.1 Сбор данных 13
4.3.2 Обработка данных 14
4.3.3 Разметка данных 15
4.4. Эксперименты 17
4.4.1 Модели 17
4.4.2 Форматы 17
4.4.3 Прочие идеи 18
5. Детали экспериментов 19
5.1. Параметры обучений 19
5.2. Оценка качества 20
5.2.1 Метрики 20
5.3. Автоматический подсчёт метрик 21
5.3.1 Ручной подсчёт метрик 21
5.4. Оценка времени работы 22
6. Результаты 23
6.1. Автоматическая оценка качества 23
6.1.1 Сравнение моделей ruT5-base 24
6.1.2 Модели ruT5-large 25
6.1.3 Модели FRED-T5 25
6.2. Ручная оценка качества 27
6.3. Оценка времени работы 28
Заключение 30
Список литературы 31
7. Приложения 33
7.1. Промпты для разметки и валидации 33
7.2. Финансы 34
7.3. Github 34
7.4. Визуализация доверительных интервалов 34

В современном мире мы окружены технологиями, которые уже давно стали частью нашей жизни. Так, для поиска информации не обязательно идти в библиотеку: практически всё необходимое можно найти в сети Интернет (далее - интернет). Классический поиск предполагает выдачу ссылок на релевантные источники информации, что универсально, но не всегда удобно. Например, если релевантных источников очень много, изучить все может быть весьма проблематично.
«Классический» сценарий поиска и покупки товара в интернете содержит следующие шаги:
• Поиск релевантных интернет-магазинов, то есть интернет-магазинов, в которых может продаваться нуж­ный товар.
• Поиск товара на сайте каждого из найденных интернет-магазинов, сравнение предложений.
Так как релевантная информация распределена по множеству веб-страниц, пользователь вынужден проделать большое количество однообразной монотонной работы, объём которой хочется минимизировать. Для этого у компании "Яндекс"есть товарный поиск, позволяющий собирать предложения о продаже товаров в одном месте.
Работает это следующим образом: на этапе индексации (Опр. 1) товарные объявления с сайтов интернет-магазинов также попадают в индекс, что позволяет им впоследствии попадать в поисковую выдачу, ко­гда они релевантны запросу. Это даёт пользователю возможность просматривать предложения непосредственно на странице поиска, а переходить к источнику нужно лишь в случае заинтересованности предложением. Таким образом, товарный поиск собирает вместе большое количество объявлений о продаже искомых товаров.
Однако есть ещё значительный класс объявлений, которые не индексируются и, как следствие, не могут попасть в поисковую выдачу. Это объявления, размещённые в социальных сетях. При этом там есть довольно большое количество активных сообществ типа «барахолка» (Рис. 1), в которых пользователи размещают объяв­ления о продаже своих товаров. Эти объявления могут представлять интерес для потенциальных покупателей, поэтому их также важно учитывать и индексировать.
Проблема заключается в том, что с социальными сетями нельзя работать так же, как с классическими интернет-магазинами. Сайты интернет-магазинов имеют структуру (например, html-разметку), и, пользуясь знанием этой структуры, можно довольно легко извлекать всю необходимую информацию о товаре для по­следующего размещения в поисковой выдаче. Для этого подходят классические методы парсинга (Опр. 2) веб-страниц. Более того, некоторые ресурсы сами предоставляют информацию о своих товарах. Но с социаль­ными сетями всё сложнее: во-первых, размещённые там объявления не имеют единой структуры, во-вторых, одно объявление может содержать сразу несколько товаров. Эти факторы делаю неприменимыми классические методы, для которых важно знание структуры объявления.
Задачи, неразрешимые с помощью классических методов, могут быть решены с помощью машинного обучения. Современные языковые модели - это мощные инструменты обработки естественного языка. Обу­ченные на очень больших объёмах данных, они способны решать широкий спектр задач, таких как машинный перевод, обобщение текста, ответы на вопросы и даже генерация творческого письма. Это позволяет сформули­ровать гипотезу о том, что задача извлечения информации о товарах из объявлений также может быть решена с помощью генеративных языковых моделей.
1.1. Цель работы
Исследовать возможности применения методов машинного обучения для задачи извлечения информа­ции о товарах из неструктурированных товарных объявлений. Разработать алгоритм с применением машинного обучения, решающий поставленную задачу.
1.2. Задачи работы
• Выбрать класс задач машинного обучения, к которому можно отнести поставленную задачу.
• Ознакомиться с известными решениями для задач выбранного класса.
• Собрать, обработать и разметить данные для обучения модели. Оценить качество данных.
• Провести эксперименты, обучить модель (модели) решать поставленную задачу.
• Сравнить обученные модели, проанализировать результаты.
Внедрение такой модели сделает товарный поиск лучше и удобнее, так как в нём будет больший ассортимент различных товаров, как новых, так и подержанных.
Работа над проектом велась в команде. Этап сбора и разметки данных был сделан мной пополам с напарником. Обучение моделей у каждого из участников проходило независимо друг от друга.
1.3. Результаты работы
• Было проведено пилотное исследование возможностей применения методов машинного обучения для решения задачи извлечения структурированной информации из товарных объявлений.
• Был собран уникальный датасет объявлений о продаже товаров, размещённых в социальных сетях;
• Был предложен двухэтапный способ разметки датасета с помощью GPT4: первый этап - разметка, второй - валидация разметки;
...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Было проведено пилотное исследование возможностей применения машинного обучения для извлече­ния информации о товарах из объявлений в социальных сетях.
В ходе работы было проделано следующее:
• Был собран и очищен датасет объявлений о продаже товаров из социальной сети «ВКонтакте» и мессен­джера «Телеграм».
• Собранный датасет был размечен с помощью специально подобранного промпта GPT4.
• Была произведена валидация разметки датасета с помощью GPT4-асессора (модели GPT4, использующей специально подобранный валидационный промпт). Доля верно размеченных объявлений на валидацион- ной выборке после валидации асессором составила 0.89.
• На размеченном датасете с помощью метода «fine-tuning» были обучены русскоязычные языковые модели Т5-подобных архитектур. Было произведено сравнение моделей между собой по качеству обработки объявлений и по скорости работы.
• Были предложены и сравнены между собой различные форматы целевой последовательности: JustJson, SpecTokens и LightTokens. Нельзя однозначно ответить на вопрос, какой из позволяет добиться лучшего качества, однако было замечено, что формат LightTokens, вероятно, помогает уменьшить количество генераций с дубликатами, а модели, генерирующие последовательности в формате SpecTokens показывают в среднем более высокие значения полноты.
• Перемешивание товаров в целевой последовательности в процессе обучения, вероятно, выполняет роль «структурной регуляризации», добавляет в данные разнообразие, что в итоге позволяет добиться луч­ших значений полноты для больших моделей. Вместе с тем отсутствие перемешивания способствует уменьшению количества генераций с дубликатами.
• Увеличение пропорции объявлений, содержащих более одного товара, в обучающем датасете, приводит к улучшению качества, но только на объявлениях, в которых содержится несколько товаров.
• Скорость работы моделей зависит не столько от размера и архитектуры, сколько от объёма генерации: модели, генерирующие большое количество дубликатов, как правило, работаю дольше. Напротив, модели, генерирующие мало товаров, склонны работать быстрее.
• Лучшее качество показали модели большого размера - FRED-T5-1.7B. Они корректно извлекли более 80% товаров тестовой выборки, при это также более 80% сгенерированных ими товаров действительно содержались в тестовом датасете.
Проведённое пилотное исследование показало, что небольшие языковые модели способны качествен­но обрабатывать товарные объявления и извлекать из них продаваемые товары, значительно превосходя по скорости GPT4. Полученное высокое качество показывает перспективность подхода. При наличии данных с более качественной разметкой, которую можно получить с помощью краудсорсинга, можно рассчитывать как на менее шумные оценки качества, так и на лучшие результаты в целом.


[1] S. Smith, D.Hillard et al. Minimally-Supervised Extraction of Entities from Text Advertisements (https:// aclanthology.org/N10- 1009.pdf)
[2] J. Cordeiro, P. Brazdil. Learning Text Extraction Rules, without
Ignoring Stop Words (https://www.researchgate.net/publication/
221383029_Learning_Text_Extraction_Rules_without_Ignoring_Stop_Words)
[3] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. L. Gomez, L. Kaiser, I. Polosukhin, 2017. Attention Is All You Need (https://arxiv.org/abs/1706.03762)
[4] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, L. Zettlemoyer. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension, 2019. (https://arxiv.org/pdf/1910.13461)
[5] J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (https://arxiv.org/pdf/1810.04805)
[6] GPT https://en.m. wikipedia.org/wiki/Generative_pre-trained_transformer
[7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P.Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M,. Ziegler J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, D. Amodei. Language Models are Few-Shot Learners, 2020. (https://arxiv.org/pdf/2005.14165)
[8] T5 https://en.wikipedia.org/wiki/T5_Clanguage_model)
[9] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Exploring the limits of transfer learning with a unified text-to-text transformer, 2020. JMLR. (https://arxiv.org/pdf/1910.10683v1)
[10] L. Xue, N. Constant, A. Roberts, M. Kale, R. Al-Rfou, A. Siddhant, A. Barua, C. Raffel, 2021. mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer (https://arxiv.org/pdf/2010.11934)
[11] Y. Tay, M. Dehghani, V. Q. Tran, X. Garcia, D. Bahri, T. Schuster, H. S. Zheng, N. Houlsby, D. Metzler, 2022. Unifying Language Learning Paradigms (https://arxiv.org/pdf/2205.05131v1)
[12] Y. N. Dauphin, A. Fan, M. Auli, D Grangier, 2017. Language Modeling with Gated Convolutional Networks (https://arxiv.org/pdf/1612.08083)
[13] D. Zmitrovich, A. Abramov, A. Kalmykov, M. Tikhonova, E. Taktasheva, D. Astafurov, M. Baushenko, A. Snegirev, V. Kadulin, S. Markov, T. Shavrina, V. Mikhailov, A. Fenogenova, 2024. A Family of Pretrained Transformer Language Models for Russian. (https://arxiv.org/pdf/2309.10931)
[14] T. Shavrina, A. Fenogenova, A. Emelyanov, D. Shevelev, E. Artemova, V. Malykh, V. Mikhailov, M. Tikhonova, A. Chertok, A. Evlampiev, 2020. RussianSuperGLUE: A Russian Language Understanding Evaluation Benchmark (https://arxiv.org/pdf/2010.15925)
[15] B. Townsend, E. Ito-Fisher, L. Zhang, M. May, 2021. Doc2Dict: Information Extraction as Text Generation (https://arxiv.org/pdf/2105.07510)
... всего 25 источников


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ