Введение 4
1 Постановка задачи 5
2 Обзор литературы 6
2.1 Классификация методов автоматического реферирования . . 6
2.2 Описание используемых алгоритмов 8
2.3 Описание используемых метрик 11
3 Эксперименты 13
3.1 Описание тестового набора данных 13
3.2 Оценка применимости алгоритмов к текстам на русском языке 15
3.3 Оценка алгоритмов и их сравнение 16
3.4 Модификации алгоритма TextRank и их сравнение 21
Заключение 23
Список литературы
Во многих документах зачастую содержится большое количество текста, который не несет существенную информацию. Хорошим примером таких документов являются различные новостные статьи. Зачастую людям, у которых нет времени на прочтение полного текста, нужно ознакомиться с кратким содержанием новости. Также очень удобно прочитать лишь краткую аннотацию новости для того, чтобы понять стоит ли читать новость полностью. Таким образом, появляется необходимость сокращать объём документа, выделяя наиболее значимую часть текста, называемую рефератом. Ручное реферирование — сложная, рутинная работа, требующая дополнительных сотрудников, поэтому целесообразно использовать системы автоматического реферирования текстов.
Задача автоматического реферирования текстов очень популярна среди исследователей. Существует большое количество публикаций, в которых описываются различные алгоритмы автоматического реферирования. Однако, различные авторы используют различные метрики для оценки предложенных ими алгоритмов. Кроме того, оценка алгоритмов производится, в основном, на англоязычных наборах документов. В связи с этим применение алгоритмов автоматического реферирования текстов к русскоязычному набору документов и их сравнение является актуальной задачей.
Данная работа выполнена при поддержке компании Digital Design, в научной лаборатории которой проводится исследование методов автоматического реферирования текстов для использования их в одном из проектов.
В ходе проделанной работы были изучены основные подходы к экстракционному реферированию текстов и способы оценки их качества.
На языке Python с использованием оптимизированных библиотек были реализованы модули работы алгоритмов экстракционного реферирования TextRank, LSA, k-means, модуль предобработки текстов, модуль сбора статистики по тестовому набору данных, модули оценки алгоритмов и другие вспомогательные модули. Исходный код доступен по ссылке:https://github.com/novonastya/summarization
Были проведены эксперименты, в ходе которых алгоритмы были оценены по четырем метрикам на русскоязычном наборе данных, состоящем из 35300 новостных статей. В ходе оценки алгоритм TextRank показал лучшие результаты среди рассмотренных алгоритмов.
Также была проведена оценка двух возможных модификаций алгоритма TextRank, одна из которых показала более высокие оценки по сравнению с оригинальным алгоритмом.
По материалам работы был подготовлен доклад на всероссийской научной конференции по проблемам информатики СПИСОК-2017.
[1] Gambhir and V. Gupta. Recent automatic text summarization techniques: a survey// Artificial Intelligence Review. - 2016. - C. 1-66.
[2] A. Nenkova and K. McKeown. Automatic summarization// Foundations and Trends in Information Retrieval Vol. 5. - 2011. - C. 103-233.
[3] D. Das and A. Martins. A Survey on Automatic Text Summarization// Literature Survey for the Language and Statistics II course at Carnegie Mellon University. - 2007. - C. 1-31.
[4] R. Mihalcea and P. Tarau. TextRank: Bringing Order into Texts// Proc. of the 9th Conf. on Empirical Methods in Natural Language Processing. - 2004. - C. 404-411.
[5] R. Garcia-Hernandez, R. Montiel, Y. Ledeneva, E. Rendon, A. Gelbukh and R. Cruz. Text Summarization by Sentence Extraction Using Unsupervised Learning// In Proceedings of the 7th Mexican International Conference on Artificial Intelligence: Advances in Artificial Intelligence/ Alexander Gelbukh and Eduardo F. Morales (Eds.) - Springer-Verlag, Berlin, Heidelberg, 2008. - C. 133-143
[6] Y. Kumar Meena and D. Gopalani. Analysis of Sentence Scoring Methods for Extractive Automatic Text Summarization// Proceedings of the 2014 International Conference on Information and Communication Technology for Competitive Strategies. - ACM, New York, NY, USA, 2014.
[7] Y. Gong and X. Liu. Generic text summarization using relevance measure and latent semantic analysis// Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. - 2001. - C. 19-25.
[8] J. Steinberger and K. Jezek. Using Latent Semantic Analysis in Text Summarization and Summary Evaluation// Proc. of ISIM. - 2004. - C. 93-100.
[9] C.-Y. Lin. ROUGE: A package for automatic evaluation of summaries// Proceedings of ACL Text Summarization Branches Out Workshop. - 2004. - C. 74-81,
[10] Federico Barrios, Federico Lopez, Luis Argerich, Rosa Wachenchauzer. Variations of the Similarity Function of TextRank for Automated Summarization. - 44 JAIIO - ASAI 2015 - ISSN: 2451-7585, 2015. - C. 65-72
[11] H. P. Luhn. The automatic creation of literature abstracts. - IBM Journal of Research and Development, vol. 2, no. 2, 1958. - C. 159-165