ВВЕДЕНИЕ 4
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 6
2. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 8
2.1. Обзор алгоритмов токенизации 8
2.2. Обзор подходов к решению задачи суммаризации 10
2.2.1. Extractive 11
2.2.2. Abstractive 15
2.3. Метрики качества 20
2.4. Набор данных 22
3. ПРОЕКТИРОВАНИЕ 23
3.1. Требование к системе 23
3.2. Архитектура системы 23
3.3. Варианты использования приложения 24
3.4. Проектирование интерфейса приложения 26
4. РЕАЛИЗАЦИЯ 28
4.1. Программные средства реализации 28
4.2. Обучение нейронных сетей 28
4.3. Разработка приложения 29
5. ТЕСТИРОВАНИЕ 33
5.1. Тестирование архитектур нейронной сети 33
5.2. Функциональное тестирование приложения 33
5.3. Тестирование работы нейронной сети 34
ЗАКЛЮЧЕНИЕ 40
ЛИТЕРАТУРА 41
В современном мире человека постоянно окружает информация, представленная в письменном виде. Каждый секунду тысячи новых фрагментов текста появляются и исчезают. Такая перегрузка информацией заметно изменила способ ее получения и обработки. Пользователи стали более требовательны к емкости информации, то есть к обработке больших объемом данных за меньшее количество времени. В свою очередь производители информации, все чаще конкурируют друг с другом за внимание пользователя. Это вынуждает их производить все более сжатую информацию и делать это как можно быстрее. Следовательно, существует все возрастающая потребность в автоматических системах, способных получать наиболее актуальную текстовую информацию и выводить ее кратчайшим и наиболее информативным возможным способом.
Заголовок является наиболее информативной частью статьи и пользователь, при выборе источника информации, в первую очередь руководствуется им. Заголовок в первую очередь должен отражать основной смысл статьи. В нем не должно быть нарушена логическая связь между словами, отсутствовать смысловая законченность и прямой порядок слов.
Таким образом, разработка системы автоматической генерации заголовков новостных статей является актуальной задачей:
Цель и задачи
Целью данной работы является разработка системы автоматической генерации заголовков новостных статей. Для достижение этой цели необходимо решить следующие задачи :
1) произвести анализ предметной области, изучить существующие методы и подходы;
2) протестировать архитектуры нейронной сети;
3) разработать систему автоматической генерации заголовков новостных статей;
4) протестировать работоспособность разработанной системы.
Структура и объем
Выпускная квалификационная работа состоит из введения, пяти основных разделов, заключения и библиографии. Объем работы составляет 44 страниц, объем библиографии - 26 наименований.
Краткий обзор содержания работы
В первом разделе «Анализ предметной области» приводится история и способы решения задачи суммаризации. Во втором разделе «Теоретическая часть» описывается обзор алгоритмов предобработки текстовых данных, нейросетевые модели для обработки естественного языка, а также описываются метрики качества. В третьем разделе «Проектирование» описываются требования к системе, варианты использования системы, приводится проектирование интерфейса приложения. В четвертом разделе «Реализация» описываются средства реализации, параметры обучения модели. В пятом разделе «Тестирование» приводятся результаты тестирования моделей нейронной сети и вебинтерфейса. В заключение приводятся основные результаты работы и направления дальнейших исследований.
В рамках данной работы были обучены нейронной сети для задачи генерации краткого содержания, а также было реализовано приложение для генерации новостных заголовков на основе нейросетевых технологий.
В ходе разработки были решены задачи, перечисленные ниже:
1) выполнен анализ предметной области;
2) протестированы архитектуры нейронный сети;
3) разработана система автоматической генерации заголовков новостных статей;
4) протестирована работоспособность разработанной системы.
В будущем планируется продолжить тестировать модели нейронных сетей для более качественного составления заголовков.