Тема: Исследование методов автоматического реферирования текстов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Постановка задачи 5
2 Обзор литературы 6
2.1 Классификация методов автоматического реферирования . . 6
2.2 Описание используемых алгоритмов 8
2.3 Описание используемых метрик 11
3 Эксперименты 13
3.1 Описание тестового набора данных 13
3.2 Оценка применимости алгоритмов к текстам на русском языке 15
3.3 Оценка алгоритмов и их сравнение 16
3.4 Модификации алгоритма TextRank и их сравнение 21
Заключение 23
Список литературы
📖 Введение
Задача автоматического реферирования текстов очень популярна среди исследователей. Существует большое количество публикаций, в которых описываются различные алгоритмы автоматического реферирования. Однако, различные авторы используют различные метрики для оценки предложенных ими алгоритмов. Кроме того, оценка алгоритмов производится, в основном, на англоязычных наборах документов. В связи с этим применение алгоритмов автоматического реферирования текстов к русскоязычному набору документов и их сравнение является актуальной задачей.
Данная работа выполнена при поддержке компании Digital Design, в научной лаборатории которой проводится исследование методов автоматического реферирования текстов для использования их в одном из проектов.
✅ Заключение
На языке Python с использованием оптимизированных библиотек были реализованы модули работы алгоритмов экстракционного реферирования TextRank, LSA, k-means, модуль предобработки текстов, модуль сбора статистики по тестовому набору данных, модули оценки алгоритмов и другие вспомогательные модули. Исходный код доступен по ссылке:https://github.com/novonastya/summarization
Были проведены эксперименты, в ходе которых алгоритмы были оценены по четырем метрикам на русскоязычном наборе данных, состоящем из 35300 новостных статей. В ходе оценки алгоритм TextRank показал лучшие результаты среди рассмотренных алгоритмов.
Также была проведена оценка двух возможных модификаций алгоритма TextRank, одна из которых показала более высокие оценки по сравнению с оригинальным алгоритмом.
По материалам работы был подготовлен доклад на всероссийской научной конференции по проблемам информатики СПИСОК-2017.



