Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
Введение 4
1 Постановка задачи 5
2 Обзор литературы 6
2.1 Классификация методов автоматического реферирования . . 6
2.2 Описание используемых алгоритмов 8
2.3 Описание используемых метрик 11
3 Эксперименты 13
3.1 Описание тестового набора данных 13
3.2 Оценка применимости алгоритмов к текстам на русском языке 15
3.3 Оценка алгоритмов и их сравнение 16
3.4 Модификации алгоритма TextRank и их сравнение 21
Заключение 23
Список литературы
📖 Аннотация
Работа посвящена исследованию методов автоматического экстракционного реферирования текстов. Актуальность обусловлена необходимостью эффективной обработки больших массивов русскоязычных текстов, в частности новостных статей, где ручное реферирование является трудоемким процессом, а существующие алгоритмы преимущественно оцениваются на англоязычных данных с использованием разнородных метрик. В исследовании проведен анализ и программная реализация на Python алгоритмов TextRank, LSA и k-means, включая модули предобработки текстов и оценки качества. Экспериментальная часть выполнена на корпусе из 35300 русскоязычных новостных статей с оценкой по четырем метрикам, где алгоритм TextRank показал наилучшие результаты; также предложена и протестирована его модификация, превзошедшая базовую версию. Практическая значимость работы заключается в возможности применения разработанных модулей и сравнительного анализа в проектах по автоматической обработке естественного языка, например, в системах анализа новостного контента. Результаты исследования, обобщающие ключевые подходы к экстрактивному реферированию и их оценке, представлены в виде открытого исходного кода и доклада на научной конференции.
📖 Введение
Во многих документах зачастую содержится большое количество текста, который не несет существенную информацию. Хорошим примером таких документов являются различные новостные статьи. Зачастую людям, у которых нет времени на прочтение полного текста, нужно ознакомиться с кратким содержанием новости. Также очень удобно прочитать лишь краткую аннотацию новости для того, чтобы понять стоит ли читать новость полностью. Таким образом, появляется необходимость сокращать объём документа, выделяя наиболее значимую часть текста, называемую рефератом. Ручное реферирование — сложная, рутинная работа, требующая дополнительных сотрудников, поэтому целесообразно использовать системы автоматического реферирования текстов.
Задача автоматического реферирования текстов очень популярна среди исследователей. Существует большое количество публикаций, в которых описываются различные алгоритмы автоматического реферирования. Однако, различные авторы используют различные метрики для оценки предложенных ими алгоритмов. Кроме того, оценка алгоритмов производится, в основном, на англоязычных наборах документов. В связи с этим применение алгоритмов автоматического реферирования текстов к русскоязычному набору документов и их сравнение является актуальной задачей.
Данная работа выполнена при поддержке компании Digital Design, в научной лаборатории которой проводится исследование методов автоматического реферирования текстов для использования их в одном из проектов.
✅ Заключение
В ходе проделанной работы были изучены основные подходы к экстракционному реферированию текстов и способы оценки их качества.
На языке Python с использованием оптимизированных библиотек были реализованы модули работы алгоритмов экстракционного реферирования TextRank, LSA, k-means, модуль предобработки текстов, модуль сбора статистики по тестовому набору данных, модули оценки алгоритмов и другие вспомогательные модули. Исходный код доступен по ссылке:https://github.com/novonastya/summarization
Были проведены эксперименты, в ходе которых алгоритмы были оценены по четырем метрикам на русскоязычном наборе данных, состоящем из 35300 новостных статей. В ходе оценки алгоритм TextRank показал лучшие результаты среди рассмотренных алгоритмов.
Также была проведена оценка двух возможных модификаций алгоритма TextRank, одна из которых показала более высокие оценки по сравнению с оригинальным алгоритмом.
По материалам работы был подготовлен доклад на всероссийской научной конференции по проблемам информатики СПИСОК-2017.