Помощь студентам в учебе
РАЗРАБОТКА СИСТЕМЫ ДЛЯ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ НОВОСТНЫХ ТЕКСТОВ
|
АННОТАЦИЯ 3
ГЛОССАРИЙ 4
ВВЕДЕНИЕ 5
1. Теоретическая база 8
1.1 Реферирование 8
1.2 Автоматическое реферирование 9
1.2.1 История 9
1.2.2 Подходы к анализу исходного текста 10
1.2.3 Подходы по типу получаемого реферата 12
1.2.3.1Экстрактивное автоматическое реферирование 13
1.2.3.2Абстрактное автоматическое реферирование 18
1.3 Метрики оценки качества реферирования 23
1.3.1 Метрики экстракции 24
1.3.2 Метрики абстракции 25
2. Анализ проблемы и существующих решений 26
2.1 Постановка проблемы 26
2.2 Обзор существующих решений 27
2.3 Преимущества разрабатываемого сервиса 28
3. Реализация алгоритмов автоматического реферирования 29
3.1. Технологии для реализации 29
3.2. Реализация экстракции 29
3.2.1. Модель Word2Vec 29
3.2.2. Подготовка данных для обучения 34
3.2.3 Обучение модели Word2Vec 36
3.2.4 Реализация алгоритма реферирования 38
3.3 Реализация абстракции 40
4. Проектирование веб-сервиса 46
4.1 Анализ требований 46
4.2 Прототипы дизайна 49
4.3 Архитектура проекта 52
5. Реализация 55
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 61
ГЛОССАРИЙ 4
ВВЕДЕНИЕ 5
1. Теоретическая база 8
1.1 Реферирование 8
1.2 Автоматическое реферирование 9
1.2.1 История 9
1.2.2 Подходы к анализу исходного текста 10
1.2.3 Подходы по типу получаемого реферата 12
1.2.3.1Экстрактивное автоматическое реферирование 13
1.2.3.2Абстрактное автоматическое реферирование 18
1.3 Метрики оценки качества реферирования 23
1.3.1 Метрики экстракции 24
1.3.2 Метрики абстракции 25
2. Анализ проблемы и существующих решений 26
2.1 Постановка проблемы 26
2.2 Обзор существующих решений 27
2.3 Преимущества разрабатываемого сервиса 28
3. Реализация алгоритмов автоматического реферирования 29
3.1. Технологии для реализации 29
3.2. Реализация экстракции 29
3.2.1. Модель Word2Vec 29
3.2.2. Подготовка данных для обучения 34
3.2.3 Обучение модели Word2Vec 36
3.2.4 Реализация алгоритма реферирования 38
3.3 Реализация абстракции 40
4. Проектирование веб-сервиса 46
4.1 Анализ требований 46
4.2 Прототипы дизайна 49
4.3 Архитектура проекта 52
5. Реализация 55
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 61
В современном мире важность получения новых знаний с наименьшими затратами времени велика как никогда, особенно в случае с новостными текстами, так как в них содержится наиболее важная и актуальная информация о тех или иных событиях, происходящих в реальном времени, и потому как нахождение в актуальной новостной повестке было важно и раньше, и со временем важность лишь усиливается.
В это же время одной из самых серьезных проблем в современном мире является повсеместно увеличивающийся объём информации, которую современному человеку необходимо воспринимать, запоминать и в дальнейшем использовать в своей деятельности. Согласно последним исследованиям, объём информации и её использования уже растут экспоненциально. Это также является причиной важности и необходимости методов для обработки больших объёмов информации в более удобный для быстрого восприятия вид.
Таким образом, рост важности и спроса на быстрое освоение новой информации большого объема обеспечивают актуальность подобных методов, а именно актуальность автоматического реферирования - метода, направленного на создание краткой версии, то есть реферата, исходного текстового документа, содержащего наиболее важную информацию в сжатом виде, с помощью компьютерной программы, использование которого вместо объемных исходных текстов позволяет гораздо эффективнее работать с большими объемами информации. Соответственно теми же самыми причинами обусловлена актуальность систем по автоматическому реферированию текстов.
Также подобная система будет востребована среди специалистов, создающих сами новости, например, для проверки того, какие информационные блоки являются наиболее важными, а также для генерации заголовков.
Хорошим решением для такого рода систем является представление в виде веб-сервиса. Но на данный момент в широком доступе не существует удобных веб-сервисов, обрабатывающих русскоязычные новостные тексты, а также предоставляющих возможность выбора подхода к генерации реферата и требуемой тематики новостей, к которой относится исходный текст.
Основными подходами к автоматическому являются экстракция - извлечение из исходного текста наиболее важных и существенных информационных блоков и абстракция - генерация реферата, состоящего из нового текста, который не содержался в исходном тексте и который содержательно обобщает его. Экстракция и абстракция являются подходами к автоматическому реферированию согласно классификации по типу получаемого реферата.
Также важен подход к анализу исходного текста. Существуют различные уровни, располагающие своими особенностями и методами. Работа над системой будет проводиться с использованием методов машинного обучения. Другие подходы и методы автоматического реферирования будут рассмотрены более подробно в соответствующей главе.
Таким образом, целью работы является разработка системы для автоматического реферирования новостных текстов на русском языке с возможностью выбора подхода к реферированию по типу получаемого реферата с помощью использования методов машинного обучения.
Для достижения цели были поставлены задачи:
1. Рассмотреть теоретическую базу автоматического реферирования текстов.
2. Выбрать и обучить подходящие модели машинного обучения.
3. Реализовать алгоритмы автоматического реферирования.
4. Спроектировать систему для автоматического реферирования новостных текстов на русском языке, представленную в виде веб-сервиса.
5. Разработать спроектированный сервис.
В это же время одной из самых серьезных проблем в современном мире является повсеместно увеличивающийся объём информации, которую современному человеку необходимо воспринимать, запоминать и в дальнейшем использовать в своей деятельности. Согласно последним исследованиям, объём информации и её использования уже растут экспоненциально. Это также является причиной важности и необходимости методов для обработки больших объёмов информации в более удобный для быстрого восприятия вид.
Таким образом, рост важности и спроса на быстрое освоение новой информации большого объема обеспечивают актуальность подобных методов, а именно актуальность автоматического реферирования - метода, направленного на создание краткой версии, то есть реферата, исходного текстового документа, содержащего наиболее важную информацию в сжатом виде, с помощью компьютерной программы, использование которого вместо объемных исходных текстов позволяет гораздо эффективнее работать с большими объемами информации. Соответственно теми же самыми причинами обусловлена актуальность систем по автоматическому реферированию текстов.
Также подобная система будет востребована среди специалистов, создающих сами новости, например, для проверки того, какие информационные блоки являются наиболее важными, а также для генерации заголовков.
Хорошим решением для такого рода систем является представление в виде веб-сервиса. Но на данный момент в широком доступе не существует удобных веб-сервисов, обрабатывающих русскоязычные новостные тексты, а также предоставляющих возможность выбора подхода к генерации реферата и требуемой тематики новостей, к которой относится исходный текст.
Основными подходами к автоматическому являются экстракция - извлечение из исходного текста наиболее важных и существенных информационных блоков и абстракция - генерация реферата, состоящего из нового текста, который не содержался в исходном тексте и который содержательно обобщает его. Экстракция и абстракция являются подходами к автоматическому реферированию согласно классификации по типу получаемого реферата.
Также важен подход к анализу исходного текста. Существуют различные уровни, располагающие своими особенностями и методами. Работа над системой будет проводиться с использованием методов машинного обучения. Другие подходы и методы автоматического реферирования будут рассмотрены более подробно в соответствующей главе.
Таким образом, целью работы является разработка системы для автоматического реферирования новостных текстов на русском языке с возможностью выбора подхода к реферированию по типу получаемого реферата с помощью использования методов машинного обучения.
Для достижения цели были поставлены задачи:
1. Рассмотреть теоретическую базу автоматического реферирования текстов.
2. Выбрать и обучить подходящие модели машинного обучения.
3. Реализовать алгоритмы автоматического реферирования.
4. Спроектировать систему для автоматического реферирования новостных текстов на русском языке, представленную в виде веб-сервиса.
5. Разработать спроектированный сервис.
Возникли сложности?
Нужна помощь преподавателя?
Помощь в написании работ!
В процессе выполнения данной работы были выполнены все поставленные задачи. Цель работы была достигнута. Сформированные требования удовлетворены.
Результатом работы является реализованная система (представленная в виде веб-сервиса) для автоматического реферирования новостных текстов на русском языке с возможностью выбора тематики новостей и подхода к реферированию по типу получаемого реферата.
Данная работа обсуждалась на VIII Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» на секции «Искусственный интеллект, машинное обучение, большие данные», а также получила статус призера на конкурсе докладов X Конгресса молодых ученых ИТМО [18].
Результатом работы является реализованная система (представленная в виде веб-сервиса) для автоматического реферирования новостных текстов на русском языке с возможностью выбора тематики новостей и подхода к реферированию по типу получаемого реферата.
Данная работа обсуждалась на VIII Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» на секции «Искусственный интеллект, машинное обучение, большие данные», а также получила статус призера на конкурсе докладов X Конгресса молодых ученых ИТМО [18].
1. VisualWorld beta [Электронный ресурс] // https://visualworld.ru - URL: https://visualworld.ru/referat.jsp (дата обращения: 26.02.2021).
2. Splitbrain.org [Electronic data] // https://www.splitbrain.org - URL: https://www.splitbrain.org/services/ots (дата обращения: 26.02.2021).
3. Esummaizer [Electronic data] // http://esummarizer.com/ - URL: http://esummarizer.com/ (дата обращения: 26.02.2021).
4. Scitldr [Electronic data] // https://scitldr.apps.allenai.org/ - URL: https://scitldr.apps.allenai.org/ (дата обращения: 26.02.2021).
5. Сравнение аннотирования, резюмирования и реферирования [Электронный ресурс] // https://docplayer.ru - URL: https://docplayer.ru/26424808-Sravnenie- annotirovaniya-rezyumirovaniya-i-referirovaniya.html (дата обращения: 02.03.2021).
6. Тарасов, С. Д. Современные методы автоматического реферирования. Информатика, телекоммуникации и управление, 2010, №6. С. 59-74.
7. Towards Automatic Tex Summarization: ExtractiveMethods [Electronic data] // https://medium.com/ - URL: https://medium.com/sciforce/towards-automatic- text-summarization-extractive-methods-e8439cd54715 (дата обращения: 15.03.2021).
8. Towards Automatic Summarization. Part 2. Abstractive Methods [Electronic data] // https://medium.com/ - URL: https://medium.com/sciforce/towards-automatic- summarization-part-2-abstractive-methods-c424386a65ea (дата обращения: 01.04.2021).
9. Understanding Automatic Text Summarization-2: Abstractive Methods
[Electronic data] // https://towardsdatascience.com/ - URL:
https://towardsdatascience.com/understanding-automatic-text-summarization-2- abstractive-methods-7099fa8656fe (дата обращения: 01.04.2021).
10. Методы векторизации текстов [Электронный ресурс] // - https://python-
school.ru/ - URL: https://python-school.ru/nlp-vectorization-methods/ (дата
обращения: 01.05.2021).
11. Как работает word2vec: нейросети для NLP [Электронный ресурс] //
https://python-school.ru/ - URL: https://python-school.ru/what-is-word2vec/
(дата обращения: 01.05.2021).
12. GitHub [Electronic data] // https://github.com - URL:
https://github.com/natasha/corus (дата обращения: 20.04.2021).
13. Лексическая единица [Электронный ресурс] // http://school-collection.edu.ru/
- URL: http://school-collection.edu.ru/dlrstore-wrapper/339d9c16-87f2-4aac-
adb9-3f5120ff277c/g1673.htm (дата обращения: 20.05.2021)
14. Eskici K, Perez L. A. Multi-Document Text Summarization. Harvard University, 2017. 26 p.
15. Steinberger J, Jezek K. Evaluation measures for text summarization. Computing and Informatics, 2009, vol. 28, pp. 1001-1026.
..18
2. Splitbrain.org [Electronic data] // https://www.splitbrain.org - URL: https://www.splitbrain.org/services/ots (дата обращения: 26.02.2021).
3. Esummaizer [Electronic data] // http://esummarizer.com/ - URL: http://esummarizer.com/ (дата обращения: 26.02.2021).
4. Scitldr [Electronic data] // https://scitldr.apps.allenai.org/ - URL: https://scitldr.apps.allenai.org/ (дата обращения: 26.02.2021).
5. Сравнение аннотирования, резюмирования и реферирования [Электронный ресурс] // https://docplayer.ru - URL: https://docplayer.ru/26424808-Sravnenie- annotirovaniya-rezyumirovaniya-i-referirovaniya.html (дата обращения: 02.03.2021).
6. Тарасов, С. Д. Современные методы автоматического реферирования. Информатика, телекоммуникации и управление, 2010, №6. С. 59-74.
7. Towards Automatic Tex Summarization: ExtractiveMethods [Electronic data] // https://medium.com/ - URL: https://medium.com/sciforce/towards-automatic- text-summarization-extractive-methods-e8439cd54715 (дата обращения: 15.03.2021).
8. Towards Automatic Summarization. Part 2. Abstractive Methods [Electronic data] // https://medium.com/ - URL: https://medium.com/sciforce/towards-automatic- summarization-part-2-abstractive-methods-c424386a65ea (дата обращения: 01.04.2021).
9. Understanding Automatic Text Summarization-2: Abstractive Methods
[Electronic data] // https://towardsdatascience.com/ - URL:
https://towardsdatascience.com/understanding-automatic-text-summarization-2- abstractive-methods-7099fa8656fe (дата обращения: 01.04.2021).
10. Методы векторизации текстов [Электронный ресурс] // - https://python-
school.ru/ - URL: https://python-school.ru/nlp-vectorization-methods/ (дата
обращения: 01.05.2021).
11. Как работает word2vec: нейросети для NLP [Электронный ресурс] //
https://python-school.ru/ - URL: https://python-school.ru/what-is-word2vec/
(дата обращения: 01.05.2021).
12. GitHub [Electronic data] // https://github.com - URL:
https://github.com/natasha/corus (дата обращения: 20.04.2021).
13. Лексическая единица [Электронный ресурс] // http://school-collection.edu.ru/
- URL: http://school-collection.edu.ru/dlrstore-wrapper/339d9c16-87f2-4aac-
adb9-3f5120ff277c/g1673.htm (дата обращения: 20.05.2021)
14. Eskici K, Perez L. A. Multi-Document Text Summarization. Harvard University, 2017. 26 p.
15. Steinberger J, Jezek K. Evaluation measures for text summarization. Computing and Informatics, 2009, vol. 28, pp. 1001-1026.
..18
Работу высылаем на протяжении 30 минут после оплаты.
Подобные работы
- Автоматическое реферирование научных публикаций средствами синтаксического анализа на материале современных статей по компьютерному синтаксису
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4835 р. Год сдачи: 2018 - Методы автоматического реферирования текстов на русском языке
Магистерская диссертация, нейронные сети . Язык работы: Русский. Цена: 5450 р. Год сдачи: 2022 - КЛАСТЕРИЗАЦИЯ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ В КОРПУСЕ ТЕКСТОВ НА ОСНОВЕ СТОХАСТИЧЕСКОГО РАНЖИРОВАНИЯ
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4840 р. Год сдачи: 2016 - КЛАСТЕРИЗАЦИЯ ЯЗЫКОВЫХ ВЫРАЖЕНИЙ В КОРПУСЕ ТЕКСТОВ НА ОСНОВЕ СТОХАСТИЧЕСКОГО РАНЖИРОВАНИЯ
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4870 р. Год сдачи: 2016 - ЛИДЕРЫ МНЕНИЙ КАК ВЕКТОРЫ РАСПРОСТРАНЕНИЯ
МЕДИАИНФОРМАЦИИ
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4920 р. Год сдачи: 2020