Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА МОДУЛЯ АВТОПРОТОКОЛИРОВАНИЯ ДЕЛОВЫХ СОВЕЩАНИЙ

Работа №182628

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы54
Год сдачи2023
Стоимость4540 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
6
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
Перечень условных обозначений 3
Введение 4
1 Анализ задачи разработки модуля автопротоколирования деловых задач ... 6
1.1 Состав датасета 9
2 Семантическая сегментация текста стенограммы 14
3 Классические подходы к суммаризации текстов 17
2.1 Экстрактивные методы суммаризации текстов 17
2.2 Абстрактивные методы суммаризации текстов 19
2.3 Sequence to Sequence подход 20
2.4 Архитектура BART 24
4 Метрика 26
5 Реализация 28
5.1 Подготовка данных 28
5.2 Используемые инструменты 29
5.3 Процесс обучения модели суммаризации 29
5.4 Результаты суммаризации на тестовой выборке диалогов 32
5.5 Результаты суммаризации стенограмм на переведенном ELITR датасете 34
5.6 Результаты суммаризации стенограмм совещаний государственной
думы и дум регионов 35
6. Результаты 39
Заключение 40
Список литературы 41
Приложение A. Пример работы разработанного модуля
Автопротоколирования деловых совещаний на стенограмме совещания
Томской Думы из GOVSUM 46
Приложение Б. Пример работы разработанного модуля
Автопротоколирования деловых совещаний на стенограмме совещания
Самарской Думы из GOVSUM 47
Приложение В. Пример работы разработанного модуля
Автопротоколирования деловых совещаний на стенограмме совещания команды Protocol AI 48


Переговоры являются обязательной частью любой человеческой деятельности, в которой задействована группа людей, и общая деятельность которых предполагает разделение обязанностей между участниками. Для важных совещаний, как правило, ведётся аудиозапись, на основе которой отдельно назначенные люди создают краткую выжимку самого важного на произошедшем совещании.
Этот процесс достаточно трудоёмок. Возможность иметь качественную документацию происходящего на деловых совещаниях, без выделения дополнительных человеческих ресурсов, способна улучшить
производительность самих организаций, так как важные моменты и принятые решения не будут теряться в потоке информации, окружающем всех людей. Автоматическое протоколирование (автопротоколирование) деловых совещаний становится всё более популярным решением для автоматизации этого процесса.
Система автопротоколирования деловых совещаний может быть полезной не только для компаний, но и для государственных учреждений и образовательных учреждений. Ежедневно проходят сотни встреч и совещаний, и иметь возможность автоматически создавать выжимку самого важного содержания этих встреч может значительно сократить время и ресурсы, затрачиваемые на документирование этой информации. Благодаря системе автопротоколирования, участники совещания могут
сконцентрироваться на важных моментах, не тратя время на подробную запись и анализ информации.
Именно поэтому компания NTR разработало собственную систему распознавания речи, как часть продукта ProtocolAI. Построенное решение позволяет получить стенограмму совещания с разделенными по спикерам репликам. Получаемое системой текстовое представление совещания делает возможным построить собственную систему автопротоколирования.
Целью представленной работы является разработка модуля автоматической генерации протокола деловых совещаний по тексту стенограммы.
Исходя из представленных выше условий, для достижения поставленной цели работы, необходимо выполнить следующие задачи.
Задачи работы:
1. Формализовать задачу в терминах известных NLP подходов;
2. Подготовить датасет стенограмм деловых совещаний с протоколами;
3. Обучить несколько моделей машинного обучения;
4. Сравнить показатели эффективности обученных моделей на тестовой выборке;
5. Интегрировать в итоговый продукт лучшую по эффективности модель.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Построенное решение упаковано в программный модуль и готово к интеграции в итоговый продукт.
Видим, что качество построенного алгоритма автопротоколирования не даёт возможности заменить человека в протоколировании совещаний полностью. Для того чтобы приблизиться к полностью автоматической генерации протокола, необходимо перейти от задачи суммаризации стенограмм совещаний к вопросно-ответной форме с обучением своей InstructGPT модели.
Результаты поставленных экспериментов оформлены в статью «Automated Minuting on DumSum Dataset» и отправлены для участия в студенческом треке конференции Dialogue 2023 [43].



1. Онлайн учебник по машинному обучению от ШАД // [сайт]. [2022].
URL: https://academy.yandex.ru/handbook/ml/article/metriki-klassifikacii-i-
regressii (дата обращения: 21.04.2023).
2. Chen W. et al. Dialogue summarization with supporting utterance flow modelling and fact regularization //Knowledge-Based Systems. - 2021. - Т. 229. - С.107328.
3. Anna Nedoluzhko, Muskaan Singh, Marie Hledikova, Tirthankar Ghosal, and Ondrej Bojar. 2022. ELITR Minuting Corpus: A Novel Dataset for Automatic Minuting from Multi-Party Meetings in English and Czech. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 3174-3182, Marseille, France. European Language Resources Association.
4. Gliwa B. et al. SAMSum corpus: A human-annotated dialogue dataset for abstractive summarization //arXiv preprint arXiv:1911.12237. - 2019.
5. Chen Y. et al. DialogSum: A real-life scenario dialogue summarization dataset //arXiv preprint arXiv:2105.06762. - 2021.
6. Shinde, K., Bhavsar, N., Bhatnagar, A., Ghosal, T. (2021) Team ABC @ AutoMin 2021: Generating Readable Minutes with a BART-based Automatic Minuting Approach. Proc. First Shared Task on Automatic Minuting at Interspeech 2021, 26-33, doi: 10.21437/AutoMin.2021-2.
7. Narayan S., Cohen S. B., Lapata M. Don't give me the details, just the summary! topic-aware convolutional neural networks for extreme summarization //arXiv preprint arXiv:1808.08745. - 2018.
8. SentenceTransformers [Электронный ресурс] //sbert.net [сайт]. [2023]. URL: https://www.sbert.net/ (дата обращения 20.04.2023).
9. Reimers N., Gurevych I. Sentence-bert: Sentence embeddings using siamese bert-networks //arXiv preprint arXiv:1908.10084. - 2019.
10. Campello, R.J.G.B., Moulavi, D., Sander, J. (2013). Density-Based Clustering Based on Hierarchical Density Estimates. In: Pei, J., Tseng, V.S., Cao, L., Motoda, H., Xu, G. (eds) Advances in Knowledge Discovery and Data Mining. PAKDD 2013. Lecture Notes in Computer Science(), vol 7819. Springer, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-37456-2 14
11. H. P. Luhn, "The Automatic Creation of Literature Abstracts," in IBM Journal of Research and Development, vol. 2, no. 2, pp. 159-165, Apr. 1958, doi: 10.1147/rd.22.0159.
12. Rada Mihalcea and Paul Tarau. 2004. TextRank: Bringing Order into Text. In Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pages 404-411, Barcelona, Spain. Association for Computational Linguistics.
13. Erkan G., Radev D. R. Lexrank: Graph-based lexical centrality as salience in text summarization //Journal of artificial intelligence research. - 2004. - Т. 22. - С. 457-479.
14. Nallapati R., Zhai F., Zhou B. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents //Proceedings of the AAAI conference on artificial intelligence. - 2017. - Т. 31. - №. 1.
15. Liu Y., Lapata M. Text summarization with pretrained encoders //arXiv preprint arXiv:1908.08345. - 2019.
...43


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ