📄Работа №131316

Тема: Исследование методов автоматического реферирования текстов

Характеристики работы

▣

Тип работы Дипломные работы, ВКР

Предмет Информационные системы

📄

Объем: 25 листов

📅

Год: 2017

👁️

4215 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Аннотация 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
1 Постановка задачи 5
2 Обзор литературы 6
2.1 Классификация методов автоматического реферирования . . 6
2.2 Описание используемых алгоритмов 8
2.3 Описание используемых метрик 11
3 Эксперименты 13
3.1 Описание тестового набора данных 13
3.2 Оценка применимости алгоритмов к текстам на русском языке 15
3.3 Оценка алгоритмов и их сравнение 16
3.4 Модификации алгоритма TextRank и их сравнение 21
Заключение 23
Список литературы

📖 Аннотация

Работа посвящена исследованию методов автоматического экстракционного реферирования текстов. Актуальность обусловлена необходимостью эффективной обработки больших массивов русскоязычных текстов, в частности новостных статей, где ручное реферирование является трудоемким процессом, а существующие алгоритмы преимущественно оцениваются на англоязычных данных с использованием разнородных метрик. В исследовании проведен анализ и программная реализация на Python алгоритмов TextRank, LSA и k-means, включая модули предобработки текстов и оценки качества. Экспериментальная часть выполнена на корпусе из 35300 русскоязычных новостных статей с оценкой по четырем метрикам, где алгоритм TextRank показал наилучшие результаты; также предложена и протестирована его модификация, превзошедшая базовую версию. Практическая значимость работы заключается в возможности применения разработанных модулей и сравнительного анализа в проектах по автоматической обработке естественного языка, например, в системах анализа новостного контента. Результаты исследования, обобщающие ключевые подходы к экстрактивному реферированию и их оценке, представлены в виде открытого исходного кода и доклада на научной конференции.

📖 Введение

Во многих документах зачастую содержится большое количество текста, который не несет существенную информацию. Хорошим примером таких документов являются различные новостные статьи. Зачастую людям, у которых нет времени на прочтение полного текста, нужно ознакомиться с кратким содержанием новости. Также очень удобно прочитать лишь краткую аннотацию новости для того, чтобы понять стоит ли читать новость полностью. Таким образом, появляется необходимость сокращать объём документа, выделяя наиболее значимую часть текста, называемую рефератом. Ручное реферирование — сложная, рутинная работа, требующая дополнительных сотрудников, поэтому целесообразно использовать системы автоматического реферирования текстов.
Задача автоматического реферирования текстов очень популярна среди исследователей. Существует большое количество публикаций, в которых описываются различные алгоритмы автоматического реферирования. Однако, различные авторы используют различные метрики для оценки предложенных ими алгоритмов. Кроме того, оценка алгоритмов производится, в основном, на англоязычных наборах документов. В связи с этим применение алгоритмов автоматического реферирования текстов к русскоязычному набору документов и их сравнение является актуальной задачей.
Данная работа выполнена при поддержке компании Digital Design, в научной лаборатории которой проводится исследование методов автоматического реферирования текстов для использования их в одном из проектов.

✅ Заключение

В ходе проделанной работы были изучены основные подходы к экстракционному реферированию текстов и способы оценки их качества.
На языке Python с использованием оптимизированных библиотек были реализованы модули работы алгоритмов экстракционного реферирования TextRank, LSA, k-means, модуль предобработки текстов, модуль сбора статистики по тестовому набору данных, модули оценки алгоритмов и другие вспомогательные модули. Исходный код доступен по ссылке:https://github.com/novonastya/summarization
Были проведены эксперименты, в ходе которых алгоритмы были оценены по четырем метрикам на русскоязычном наборе данных, состоящем из 35300 новостных статей. В ходе оценки алгоритм TextRank показал лучшие результаты среди рассмотренных алгоритмов.
Также была проведена оценка двух возможных модификаций алгоритма TextRank, одна из которых показала более высокие оценки по сравнению с оригинальным алгоритмом.
По материалам работы был подготовлен доклад на всероссийской научной конференции по проблемам информатики СПИСОК-2017.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Gambhir and V. Gupta. Recent automatic text summarization techniques: a survey// Artificial Intelligence Review. - 2016. - C. 1-66.
[2] A. Nenkova and K. McKeown. Automatic summarization// Foundations and Trends in Information Retrieval Vol. 5. - 2011. - C. 103-233.
[3] D. Das and A. Martins. A Survey on Automatic Text Summarization// Literature Survey for the Language and Statistics II course at Carnegie Mellon University. - 2007. - C. 1-31.
[4] R. Mihalcea and P. Tarau. TextRank: Bringing Order into Texts// Proc. of the 9th Conf. on Empirical Methods in Natural Language Processing. - 2004. - C. 404-411.
[5] R. Garcia-Hernandez, R. Montiel, Y. Ledeneva, E. Rendon, A. Gelbukh and R. Cruz. Text Summarization by Sentence Extraction Using Unsupervised Learning// In Proceedings of the 7th Mexican International Conference on Artificial Intelligence: Advances in Artificial Intelligence/ Alexander Gelbukh and Eduardo F. Morales (Eds.) - Springer-Verlag, Berlin, Heidelberg, 2008. - C. 133-143
[6] Y. Kumar Meena and D. Gopalani. Analysis of Sentence Scoring Methods for Extractive Automatic Text Summarization// Proceedings of the 2014 International Conference on Information and Communication Technology for Competitive Strategies. - ACM, New York, NY, USA, 2014.
[7] Y. Gong and X. Liu. Generic text summarization using relevance measure and latent semantic analysis// Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. - 2001. - C. 19-25.
[8] J. Steinberger and K. Jezek. Using Latent Semantic Analysis in Text Summarization and Summary Evaluation// Proc. of ISIM. - 2004. - C. 93-100.
[9] C.-Y. Lin. ROUGE: A package for automatic evaluation of summaries// Proceedings of ACL Text Summarization Branches Out Workshop. - 2004. - C. 74-81,
[10] Federico Barrios, Federico Lopez, Luis Argerich, Rosa Wachenchauzer. Variations of the Similarity Function of TextRank for Automated Summarization. - 44 JAIIO - ASAI 2015 - ISSN: 2451-7585, 2015. - C. 65-72
[11] H. P. Luhn. The automatic creation of literature abstracts. - IBM Journal of Research and Development, vol. 2, no. 2, 1958. - C. 159-165

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211446)

Статьи

»» Все статьи

Вход в личный кабинет