Тип работы:
Предмет:
Язык работы:


Автодополнение текста на естественном языке c использованием глубокого обучения

Работа №127530

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы28
Год сдачи2022
Стоимость4380 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
41
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
1. Сравнение существующих моделей 9
1.1. GPT-2 9
1.2. mT5 9
1.3. Дообучение моделей 10
1.4. Сравнение результатов моделей 10
1.4.1. Описание метрик 11
1.4.2. Результаты моделей 13
1.5. Выводы 13
2. Дообучение модели 15
2.1. Описание датасета 15
2.1.1. Предобработка входных данных 16
2.2. Процесс дообучения 16
2.3. Оценка результатов модели 18
2.3.1. Описание метрик 19
2.3.2. Результаты дообучения 19
3. Дальнейшее улучшение результатов 21
3.1. Биграммная языковая модель 21
3.2. Комбинированная модель 22
3.3. Результаты комбинированной модели 23
Выводы 24
Заключение 25
Список литературы 26


В современном мире всё большую значимость приобретает электронный документооборот. Так, в электронном виде могут храниться медицинские данные - о заболеваниях пациента, назначенных процедурах и лекарственных средствах. Корпуса судебных слушаний облегчают юристам поиск похожих дел и прецендентов. Реестры недвижимости позволяют предотвратить мошенничество и спорные ситуации владения имуществом. Это лишь часть примеров - электронный документооборот прочно вошёл в жизнь общества. На то есть несколько причин, одна из которых - удобство. Такой подход не только позволяет обеспечить надёжное и централизованное хранение существующих документов с возможностью быстрого из поиска, но и ускоряет создание и добавление новых. В электронных документах проще оставлять ссылки на связанные тексты, что упрощает навигацию. Ими удобно делиться, делать копии и получать доступ к содержимому вне зависимости от физического расположения читателя.
Тем не менее, несмотря на все свои преимущества и всё удобство, эта система всё ещё содержит простор для оптимизаций. В частности, документы, как правило, строятся по некоторому шаблону, повторяя с некоторыми вариациями не только структуру, но и определённые части текстов. С одной стороны, следование шаблону и использование клишированных фраз не требует творческого участия человека, с другой - усложняет составление документа. Даже обладая релевантным опытом, люди неизбежно тратят какое-то время на подобные участки - как минимум, на выбор и набор нужного шаблона. Такая почти механическая работа является перспективной для автоматизации или, по крайней мере, использования методов, способных ускорить её выполнение человеком.
В то же время, сейчас всё большую популярность приобретают системы, использующие машинное обучение для достижения целей, сложно выразимых алгоритмически. В частности, эта тенденция наблюдается в области обработки естественных языков. Спектр задач, решаемых такими системами, обширен - в их число входит суммаризация текста, перефразирование, анализ тональности, а также генерация и, в том числе, автодополнение. Скажем, широко известно автодополнение для формальных языков, таких как языки программирования. Одним из наиболее известных примеров систем автодополнения программного кода, использующих машинное обучение, может служить GitHub Copilot [7].
Несмотря на то, что для документов используются естественные языки, они всё же имеют черты, роднящие их с текстами на языках формальных. Так, большинство документов имеют фиксированную форму, строятся по определённому набору правил, содержат одинаковые фрагменты. В свете всего вышеперечисленного кажется разумным использование для их автодополнения тех же методов, которые уже используются для формальных языков.
Постановка задачи
Исходя из сказанного во Введении, требуется упростить написание электронных документов человеком путём сокращения затрат времени на написание присущих данным документам клише, а также конкретных фраз, повторяющихся в рамках одного документа. Обобщить и формализировать эту задачу можно следующим образом: по имеющемуся тексту, представленному в виде набора токенов, требуется предложить наиболее вероятное его продолжение. Таким образом, получаем задачу автодополнения текста. Поскольку в качестве текстов рассматриваются документы - речь идёт о текстах на естественном языке. Для сужения класса возможных подходов к решению будем рассматривать только способы автодополнения текста, основанные на глубоком обучении. Кроме того, для определённости в качестве рассматриваемого типа документов определим юридические тексты, а именно - решения судов. Язык документов - русский.
Данная работа состоит из следующих этапов:
1. Обзор литературы затрагивающей родственные вопросы.
2. Выбор нескольких нейросетевых моделей.
3. Сравнение выбранных моделей и выбор наиболее подходящей.
4. Создание датасета, пригодного для дообучения выбранной модели.
5. Дообучение выбранной модели.
6. Обзор результатов дообученной модели.
7. Дальнейшее улучшение результатов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной работе был сформулирован и достигнут ряд целей. Был проведён обзор литературы, так или иначе имеющей отношение к решению задач NLP методами машинного обучения и в частности - задач генерации и автодополнения текста на естественном языке. На основании данного обзора была выбрана архитектура, наилучшим образом подходящая для решения выдвинутой задачи, а именно - Transfomer. Кроме того, был произведён сравнительный анализ двух предобученных моделей выбранной архитектуры - ruGPT-3 и ruT5-base, сделаны выводы и выдвинуты гипотезы, объясняющие результаты. Также с использованием открытых источников был собран датасет решений российских судов. На данных из этого датасета была дообучена модель ruGPT-3. Были выбраны метрики, которые позволили оценить качество итоговой модели. Кроме того, был предложен и реализован вариант улучшения результатов модели путём учёта контекста конкретного документа с помощью использования биграммной языковой модели совместно с нейросетевой. Таким образом, поставленные изначально задачи были выполнены в полном объёме.


[1] Vaswani Ashish, Shazeer Noam, Parmar Niki, Uszkoreit Jakob,
Jones Llion, Gomez Aidan N, Kaiser L ukasz, and Polosukhin Illia. Attention is All you Need // Advances in Neural Information Processing Systems / ed. by Guyon I., Luxburg U. Von, Bengio S., Wallach H., Fergus R., Vishwanathan S., and Garnett R. — Curran Associates, Inc. — 2017. — Vol. 30. — Access mode: https://proceedings.neurips.cc/paper/2017/file/
3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.
[2] Devlin Jacob, Chang Ming-Wei, Lee Kenton, and Toutanova Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. — 2018. — Access mode: https://arxiv.org/abs/1810.04805.
[3] Dale David. — How to adapt a multilingual T5 model for a single language : 2021.—Access mode: https://towardsdatascience.com/how-to-adapt-a-multilingual-t5-model-for-a-single-language-b9f9
[4] Peters Matthew E., Neumann Mark, Iyyer Mohit, Gardner Matt, Clark Christopher, Lee Kenton, and Zettlemoyer Luke. Deep contextualized word representations. — 2018. — Access mode: https://arxiv.org/abs/1802.05365.
[5] Raffel Colin, Shazeer Noam, Roberts Adam, Lee Katherine, Narang Sharan, Matena Michael, Zhou Yanqi, Li Wei, and Liu Peter J. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. — 2020. — 1910.10683.
[6] Alexandr Nikolich, Irina Osliakova, Tatyana Kudinova, Inessa Kappusheva, and Arina Puchkova. Fine-Tuning GPT-3 for Russian Text Summarization // Data Science and Intelligent Systems / ed. by Silhavy Radek, Silhavy Petr, and Prokopova Zdenka. — Cham : Springer International Publishing. — 2021. — P. 748-757.
[7] GitHub Copilot. Your AI pair programmer. — 2021. — Access mode: https://copilot.github.com/.
[8] Kang Dongyeop and Hovy Eduard. Plan ahead: Self-Supervised Text Planning for Paragraph Completion Task. — 2020. — Access mode: https://arxiv.org/abs/2010.05141.
[9] Kingma Diederik P. and Ba Jimmy. Adam: A Method for Stochastic Optimization. — 2014. —1412.6980.
[10] Brown Tom, Mann Benjamin, Ryder Nick, Subbiah Melanie, Kaplan Jared D, Dhariwal Prafulla, Neelakantan Arvind, Shyam Pranav, Sastry Girish, Askell Amanda, Agarwal Sandhini, Herbert-Voss Ariel, Krueger Gretchen, Henighan Tom, Child Rewon, Ramesh Aditya, Ziegler Daniel, Wu Jeffrey, Winter Clemens, Hesse Chris, Chen Mark, Sigler Eric, Litwin Mateusz, Gray Scott, Chess Benjamin, Clark Jack, Berner Christopher, McCandlish Sam, Radford Alec, Sutskever Ilya, and Amodei Dario. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems / ed. by Larochelle H., Ranzato M., Hadsell R., Balcan M.F., and Lin H. — Curran Associates, Inc. — 2020. — Vol. 33. — P. 1877¬1901. — Access mode: https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.
[11] Radford Alec, Wu Jeffrey, Child Rewon, Luan David,
Amodei Dario, and Sutskever Ilya. Language Models are Unsupervised Multitask Learners. — 2019. — Access mode: https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf.
[12] Golovanov Sergey, Kurbanov Rauf, Nikolenko Sergey, Truskovskyi Kyryl, Tselousov Alexander, and Wolf Thomas. Large-Scale Transfer Learning for Natural Language Generation // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. -- Florence, Italy : Association for Computational Linguistics. — 2019. — July. — P. 6053-6058. — Access mode: https://aclanthology.org/P19-1608.
[13] Lee Dong-Ho, Hu Zhiqiang, and Lee Roy Ka-Wei. Improving Text Auto-Completion with Next Phrase Prediction. — 2021. — Access mode: https://arxiv.org/abs/2109.07067.
[14] Peric Lazar, Mijic Stefan, Stammbach Dominik, and Ash Elliott. Legal Language Modeling with Transformers // Proceedings of the Fourth Workshop on Automated Semantic Analysis of Information in Legal Text (ASAIL 2020) held online in conjunction with te 33rd International Conference on Legal Knowledge and Information Systems (JURIX 2020) December 9, 2020 / ed. by Ashley Kevin D., Atkinson Katie, Branting L. Karl, Francesconi Enrico, Grabmair Matthias, Walker Vern R., and Waltl Bernhard. - s.l. : CEUR-WS. - 2020-12. - Vol. 2764. - 4th Workshop on Automated Semantic Analysis of Information in Legal Text (ASAIL 2020); Conference Location: online; Conference Date: December 9, 2020; Due to the Coronavirus (COVID-19) the conference was conducted virtually.
[15] Lin Chin-Yew. ROUGE: A Package for Automatic Evaluation of Summaries. — 2004. — Access mode: https://aclanthology.org/W04-1013.pdf.
[16] Lu Sidi, Zhu Yaoming, Zhang Weinan, Wang Jun, and Yu Yong. Neural Text Generation: Past, Present and Beyond. — 2018. — Access mode: https://arxiv.org/abs/1803.07133.
[17] Paik Incheon and Wang Jun-Wei. Improving Text-to-Code Generation with Features of Code Graph on GPT-2 //Electronics. — 2021. — Vol. 10, no. 21.—Access mode: https://www.mdpi.com/2079-9292/10/21/2706.
[18] Pan Sinno Jialin and Yang Qiang. A Survey on Transfer Learning // IEEE Transactions on Knowledge and Data Engineering. — 2010. — Vol. 22, no. 10. —P. 1345-1359.
[19] Shatalov O. Ryabova N. Towards Russian Text Generation Problem Using OpenAI’s GPT-2. — 2021. — Access mode: https://openarchive.nure.ua/handle/document/19040.
[20] Sobania Dominik, Schweim Dirk, and Rothlauf Franz. A Comprehensive Survey on Program Synthesis with Evolutionary Algorithms //IEEE Transactions on Evolutionary Computation. — 2022. —P. 1-1.
[21] de Vries Wietse and Nissim Malvina. As Good as New. How toSuccessfully Recycle English GPT-2 to Make Models for OtherLanguages // Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. — Association for Computational Linguistics. — 2021. — Access mode: https://doi.org/10.18653Z2Fv1%2F2021.findings-acl.74.
[22] Xue Linting, Constant Noah, Roberts Adam, Kale Mihir, Al- Rfou Rami, Siddhant Aditya, Barua Aditya, and Raffel Colin. mT5: A massively multilingual pre-trained text-to-text transformer. — 2021. — 2010.11934.
[23] Brown Peter F, Cocke John, Della Pietra Stephen A, Della Pietra Vincent J, Jelinek Frederick, Lafferty John, Mercer Robert L, and Roossin Paul S. A statistical approach to machine translation // Computational linguistics. — 1990.—Vol. 16, no. 2. —P. 79-85.
[24] von Davier Matthias. Training Optimus Prime, M.D.: Generating Medical Certification Items by Fine-Tuning OpenAI’s gpt2 Transformer Model. — 2019. — Access mode: https://arxiv.org/abs/1908.08594.
[25] Архив судебных решений. — 2022. — Access mode: https://sudrf.cntd.ru/rospravo/.
[26] ГАС РФ ’’Правосудие”. — Access mode: https://sudrf.ru/index.php?id=300.
[27] Марков Сергей. Сбер выложил русскоязычную модель GPT- 3 Large с 760 миллионами параметров в открытый доступ. — 2020. — Access mode: https://habr.com/ru/company/sberbank/blog/524522/.
[28] Судебные и нормативные акты РФ. — 2022. — Access mode: https://sudact.ru/regular/.
[29] Судебные решения РФ.—Access mode: http://судебныерешения.Рф/.


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ