Тип работы:
Предмет:
Язык работы:


АВТОМАТИЧЕСКАЯ ГЕНЕРАЦИЯ НОВОСТНЫХ ЗАГОЛОВКОВ ПРИ ПОМОЩИ НЕЙРОННОЙ СЕТИ RuGPT-3

Работа №187291

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы77
Год сдачи2023
Стоимость4770 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
10
Не подходит работа?

Узнай цену на написание


АННОТАЦИЯ 3
ВВДЕНИЕ 3
Глава 1 Жанр новости 9
1.1 Краткая история новости 9
1.2 Место новости в жизни человека и в социальных сетях 14
1.3 Определение новости, ее функции и характеристики 16
1.4 Новостной дискурс и жанры новостей 21
1.5 Структура новостной статьи 24
1.6 Хороший заголовок 26
Выводы по главе 1 28
Глава 2 Нейронные сети для задач суммаризации 29
2.1 Становление искусственного интеллекта 29
2.2 Подходы к определению искусственного интеллекта 30
2.3 Значение искусственного интеллекта в жизни людей и его функции 34
2.4 Обработка естественного языка 36
2.5 Машинное обучение и нейронные сети 38
2.6 Семейство GPT и вариация ruGPT-3 43
2.7 Опыт применения нейронных сетей для генерации новостных заголовков 44
2.8 Формальные метрики качества 45
Выводы по главе 2 48
Глава 3 Практическое применение модели ruGPT-3 для генерации новостных заголовков 50
3.1 Материал для обучения модели 50
3.2 Обучение модели 51
3.3 Оценка качества модели 51
Выводы по главе 3 61
Заключение 62
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 63
ПРИЛОЖЕНИЕ А 72
ПРИЛОЖЕНИЕ Б 73
ПРИЛОЖЕНИЕ В 74


Мы живем и информационную эпоху - эру компьютеров и информационных технологий, и с каждым годом количество людей, использующих интернет, и объемы информации, которая производится в мире, значительно увеличиваются.
Так, по оценкам исследователей, на данный момент интернетом пользуются примерно 5,16 миллиардов людей по всему миру, то есть более половины населения планеты - 65%. Для сравнения, в 1994 году, когда интернет только начинал входить в массовое использование, количество пользователей не превышало 16 миллионов человек (0,4% населения Земли) [1]. При этом из 5,16 миллиардов примерно 80% пользуются интернетом на каждодневной основе. В среднем пользователь проводит в интернете 6,5 часов в день [4].
Особое влияние на интернет-среду оказала пандемия COVID-19: она подчеркнула значимое и незаменимое место интернета в жизни человека. Учебные учреждения, компании и простые пользователи, в стремлении адаптироваться к сложившимся обстоятельствам, стали активно переходить в цифровое пространство. Так, в промежутке с 2019 по 2021 год количество интернет-пользователей увеличилось на 782 миллиона[5]. При этом люди настолько «вошли во вкус», что после пандемии темпы цифровизации и освоения интернет-пространства не только не остановились (и тем более не вернулись в прежнее русло), а наоборот растут [6].
Каждый день люди создают около 2,5 миллиардов гигабайт информации (около 1,7 мегабайт в секунду), и при этом 90% всей информации в интернете было создано за последние несколько лет [2]. На данный момент существует около 1,92 миллиарда активных сайтов, ежедневно совершается около 5,6 миллиардов поисковых запросов (и это только в одной поисковой системе Google), каждый день отправляется примерно 333 миллиарда сообщений по электронной почте (около 192 миллионов каждую минуту), только в одном из самых популярных мессенджеров WhatsApp посылают 41,6 миллионов сообщений каждый день [1; 2; 3].
Исследователи также подчеркивают и значительную роль искусственного интеллекта в создании информации: согласно подсчетам, за 2020 год примерно 40% созданной информации было сгенерировано с помощью искусственного интеллекта и машинного обучения (т.е. только 60% всей интернет-информации было непосредственно произведено людьми) [3].
Ежедневно производятся колоссальные объемы информации. По оценкам экспертов ожидается, что за 2025 год будет произведено примерно 463 миллиарда гигабайт информации [3].
Интернет-пространство является неотъемлемой частью жизни большинства населения планеты и прочно закрепилось в каждодневной рутине. Количество информации растет, и темп роста не сбавляется, а наоборот только нарастает.
Такие огромные объемы информации естественным образом ставят задачи по упрощению и ускорению работы с ней. В связи с этим очень активно развиваются такие сферы науки, как искусственный интеллект, машинное обучение и обработка естественного языка.
Одной из актуальнейших проблем современной компьютерной лингвистики является решение задачи автоматического реферирования и суммаризации неструктурированных текстовых данных - т.е. извлечения ключевой информации из текста. Хотя исследователи в этой области и достигают определенных успехов, данная проблема по-прежнему считается нерешенной.
Такая обработка текста представляется очень эффективной и востребованной для множества сфер жизни, в которых аккумулируются большие массивы текстовых данных. Например, суммаризация может применяться при составлении информационных бюллетеней, что позволит предоставлять их в виде кратких сводок вместо обычного списка ссылок (что может быть особенно удобно для мобильных устройств); при поисковой оптимизации для анализа поисковых запросов и обнаружения общих тем и наиболее важных элементов, анализа конкурентов; при анализе внутренней документации компаний, которая зачастую хранится в базах данных в неструктурированном виде, для быстрого анализа истории действий компании и текущей ситуации; в сфере финансов для анализа рынка, документов, отчетов, статей и т.д. для быстрого принятия решений; для анализа и выведения основных пунктов объемной юридической документации, такой как контракты и договоры; в SMM-сфере для компаний и блоггеров, которые создают объемный текстовый контент, чтобы он был пригоден для размещения на площадках с ограничениями по количеству символов в посте; для создания ботов и виртуальных ассистентов для ответа на вопросы (ведь большинство ботов, как правило, довольно ограничены в своих возможностях при ответе на вопросы), т.к. бот сможет, например, дать ответ на конкретный и очень узконаправленный вопрос, собрав, проанализировав и суммаризировав ряд статей и документации по теме; при создании текстов и сценариев для видеоконтента, например, в сфере образования, когда необходимо изучать большое количество источников; в медицинской сфере при анализе истории болезни, симптомов и жалоб для скорейшего выявления проблем и направления человека к нужному специалисту; в сфере литературы, например, для предоставления сути сюжета книги для потенциального покупателя; при работе с большим количеством электронных сообщений для более быстрого и эффективного их чтения; в сфере науки для выявления трендов и вычленения сути объемных статей; для вычленения главных идей и тем при онлайн встречах при переводе звучащей речи в текст; для помощи людям с ограниченными возможностями, например, с нарушениями слуха, для которых перевод звучащей речи в текстовый формат с короткими выжимками главных идей позволит более быстро и эффективно воспринимать информацию; и др.
Суммаризация востребована и представляется крайне эффективной и в такой сфере, как СМИ.
С появлением и распространением интернета традиционный уклад СМИ претерпел (и продолжает претерпевать) значительные изменения. Так, например, обращение печатных газет в США в 2018 году достигло исторического минимума на уровне 1940-го года, доходы от рекламы в печатных изданиях упали на 62% в промежутке с 2008 по 2018 год (с 37,8 миллиардов долларов до 14,3 миллиардов); количество работников печатных изданий за тот же промежуток сократилось на 47% (с 71 тысячи до 38 тысяч) [9]. Примерно 86% американцев читают или смотрят новости преимущественно в цифровом пространстве (смартфоны, компьютеры, планшеты и т.д.). При ответе на вопрос, на какой платформе они больше предпочитают получать новостную информацию, примерно 52% указали цифровые платформы (интернет), и лишь 35% указали телевизор (остальные указали радио или печатные издания) [10].
В России ситуация похожая: наиболее часто россияне предпочитают читать новости онлайн (примерно 69% граждан). Печатные же издания читают лишь 7% россиян [11].
Каждый день в мире публикуется от 2 до 3 миллионов новостных статей [12]. В России в 2014 году интернет-СМИ публиковали примерно 47 тысяч новостей ежедневно[13]. Это на 50% больше, чем было в 2011 году. На 2021 год в России около 60 тысяч действующих СМИ, при этом около 21 тысячи являются электронными изданиями [14]. Стоит обратить внимание на тот факт, что с 2013 по 2020 годы количество российских СМИ сократилось примерно на 27% [15]. Можно сделать вывод о крайне высокой конкуренции в СМИ.
Высокоскоростное извлечение данных из текста позволит сократить ценное время на обработку новостной статьи и опубликовать ее как можно раньше. Это может применяться для генерации заголовка, лида и тела новости на основе, например, пресс - релиза или другой неструктурированной информации, представляющей из себя инфоповод, что должно ускорить публикацию новости вследствие значительного сокращения времени на создание указанных частей новостной статьи вручную, так как каждая часть новостной статьи обладает строгой структурой и автономностью от других частей.
В сфере суммаризции в целом и суммаризации частей новостных статей в частности проходят очень активные исследования (А.А. Шевчук, А.И. Здоровец, А.Ю. Душейко, Д.А. Аишева, А.Ю. Белякова, Ю.Д. Беляков, А.И. Егунова, Р.С. Комаров, Д.П. Сидоров, Ani Nenkova, Kathleen McKeown, U. Hahn, I. Mani, Elena Lloret, Manuel Palomar, Sameer Raj Maskey, Julia Hirschberg и др.). Особого внимания требует тот факт, что суммаризацию в целом невозможно генерализировать и универсализировать. То есть, произведение суммаризации, например, новостной статьи будет значительно отличаться от суммаризации, скажем, финансового отчета ввиду множества различных параметров, таких как длина текста, жанр, тема и т.д. Именно поэтому суммаризация требует индивидуального подхода в каждом отдельном случае.
Данная работа посвящена автоматической генерации новостных заголовков.
Актуальность данной работы обуславливается высокой конкурентностью СМИ в цифровом пространстве, где дорого каждое мгновение, и где от скорости публикации новостной статьи будет зависеть успешность новостного агентства, в связи с чем автоматическая генерация новостных заголовков является очень привлекательным и необходимым инструментом для СМИ. Более того, алгоритмы суммаризации могут очень эффективно применяться и в других сферах, таких как работа с документацией, обработка жалоб, связи с общественностью и др.
Кроме этого, данная работа вносит вклад в проект World2News, который разрабатывает продукт для автоматической обработки текста и генерации новостных статей, одной из задач которого является автоматическая генерация новостных заголовков.
Также настоящая работа способствует развитию компьютерной лингвистики, машинного обучения, искусственного интеллекта и обработки естественного языка. Ряд работ посвящен проблеме генерации частей новостных статей и суммаризации в целом (А.Ю. Белякова, Ю.Д. Беляков, А.И. Егунова, Р.С. Комаров, Д.П. Сидоров, Ani Nenkova, Kathleen McKeown, U. Hahn, I. Mani, Elena Lloret, Manuel Palomar, Sameer Raj Maskey, Julia Hirschberg, А.А. Шевчук, А.И. Здоровец, А.Ю. Душейко, Д.А. Аишева и др.), и исследователи подчеркивают необходимость дальнейшей проработки этой проблемы и оптимизации работы алгоритмов суммаризации.
Объект - автоматическая суммаризация текстов.
Предмет - суммаризация текста новостных заголовков с помощью нейронной сети ruGPT-3.
Цель работы заключается в установлении, есть ли разница в качестве генерируемого заголовка при обучении модели ruGPT-3 на материале новостных статей отдельных рубрик и на их совокупности.
Гипотеза - обучение модели ruGPT-3 на статьях отдельных рубрик (модель, обученная на новостях рубрики «наука», и модель, обученная на новостях рубрики «спорт») и на их совокупности (модель, обученная на совокупности статей рубрик «наука» и «спорт») даст разные результаты в качестве генерируемого заголовка.
Для решения поставленной цели предполагается следующий перечень задач:
1) Изучить организационную структуру новостной статьи, ее жанровые особенности, особенности заголовка в ней;
2) Изучить особенности нейронных сетей для задач автоматической обработки текста;
3) Изучить нейронную сеть ruGPT-3 и ее особенности при работе с суммаризацией текста;
4) Изучить опыт применения нейронных сетей для генерации заголовков новостных статей;
5) Рассмотреть критерии для оценки качества работы алгоритма суммаризации;
6) Создать модель на основе нейронной сети ruGPT-3 для генерации новостных заголовков;
7) Оценить качество применения созданной модели для задач автоматической генерации новостных заголовков и проверить гипотезу.
Методы, применяемые в настоящей работе: для подготовки компьютерного анализа текстов использовались методы предварительной обработки текста: структуризация (создание датафрейма из новостных статей для обучения нейронной сети) и нормализация (обработка текста в датафрейме для обучения нейронной сети, такая как удаление ненужных символов и т.д.). В практической части использовались методы машинного обучения (обучение нейронной сети и настройка гиперпараметров) и оценки качества работы нейронных сетей (метод ROUGE).
При работе с кодом был использован язык программирования Python.
Материалом исследования стали новостные статьи информационного агентства Лента.ру, организованные в три датасета: 6900 статей рубрики «наука», 6900 статей рубрики «спорт», и 6900 статей из совокупности этих рубрик.
Научная новизна данной работы заключается в том, что она дает представление о разнице качества генерируемых заголовков новостных статей при сопоставлении моделей, обученных на новостных статьях отдельных рубрик и на их совокупности.
Теоретическая значимость работы заключается в том, что полученный результат вносит вклад в решение проблемы автоматической суммаризации текстов и новостных заголовков в частности на материале русского языка, а также в развитии такого направления, как автоматическая генерация текстов в целом.
Практическая значимость данной работы заключается в возможности применения результатов исследования - влиянии обучения модели на отдельных рубриках и их совокупности на качество генерируемого заголовка - для решения проблемы автоматической суммаризации новостных заголовков путем их использования как базы для более комплексных и сложных исследований.
Структура работы: данная работа состоит из введения, трех глав, заключения и списка литературы.
Во введении рассматривается актуальность проблемы, которой посвящена данная работа, и обозначаются объект, предмет, цель, методы, материал, научная новизна, практическая и теоретическая значимость, и формулируется гипотеза.
В первой главе обсуждаются жанры новости, место новости в медиа, структура новостной статьи, заголовок в структуре новости, особенности и характеристики заголовка, требования к хорошему заголовку.
Во второй главе рассматривается становление искусственного интеллекта, его значение в жизни современного человека, основы обработки естественного языка и машинного обучения, нейронные сети в решении проблемы суммаризации, а также формальные метрики качества для оценки суммаризации. Отдельное внимание посвящено модели ruGPT-3 и ее использованию для задач суммаризации.
Третья глава посвящена подготовке данных для обучения модели ruGPT-3, ее непосредственному обучению, оценке качества и анализу генерируемых моделью заголовков.
В заключении подводятся итоги исследования, отмечается теоретическая и практическая значимость работы и обозначаются перспективы дальнейших исследований.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В настоящее время мир претерпевает очень бурное развитие технологий, и одни из самых значительных - это цифровые технологии. Компьютерные средства, алгоритмы и искусственный интеллект развиваются и помогают человечеству решать задачи с такой эффективностью и скоростью, которая была бы невообразима даже всего лишь полвека назад. Среди множества задач и проблем, для решения которых и происходит развитие и улучшение указанных технологий, есть обработка естественного языка с применением машинного обучения и нейронных сетей, и частная, очень актуальная проблема этого направления - это суммаризация новостных статей, проблеме которой было посвящено данное исследование.
В данной работе было проведено обучение модели ruGPT-3 на материале новостных статей рубрик «наука» и «спорт» для генерация новостных заголовков в целях установить, есть ли разница в качестве генерируемого заголовка при обучении модели на статьях отдельных рубрик и их совокупности.
Все задачи, поставленные для достижения цели, были выполнены. Была изучена организационная структура новостной статьи, особенности заголовка в ней; были изучены нейронные сети и их применение для задач автоматической обработки текста и суммаризации, более подробно была изучена нейронная сеть ruGPT-3 и ее особенности при работе с суммаризацией. Была изучена метрика качества для оценки сгенерированных заголовков. Был рассмотрен опыт применения нейронных сетей для решения проблемы суммаризации новостных статей. Для решения практического задания были собраны данные (новостные статьи) в три датасета (по рубрикам «наука», «спорт» и их совокупности) и обработаны для обучения модели, после чего было обучено три модели (по каждому датасету). Анализ сгенерированных заголовков проводился с помощью метрики ROUGE.
В результате анализа гипотеза подтвердилась, и оказалось, что при обучении модели на новостных статьях совокупности рубрик («наука» и «спорт») качество генерации заголовка в соответствии с метрикой ROUGE получается выше в сравнении с моделями, обученными на отдельных рубриках. Анализ сгенерированных заголовков также показал, что они в соответствуют большинству правил хорошего заголовка и выглядят очень естественно.
Тем не менее, необходимы дополнительные исследования с привлечением большего числа рубрик, новостных статей, более крупных моделей и мощного оборудования, и результаты, полученные в данной работе, могут быть использованы в качестве базы исследователями для проведения собственных экспериментов.



1. Key Internet Statistice on 2023 - The State of Cyberspace [Электронный ресурс]. // InternetAdvisor. - URL: https://www.internetadvisor.com/key-internet-statistics (дата обращения на страницу: 23.03.2023).
2. How much Data is Produced every Day 2021? [Электронный ресурс]. // The Text Tech.
- URL: https://www.the-next-tech.com/blockchain-technology/how-much-data-is-
produced-every-day-2019/#:~:text=of%20data%20usage.
,How%20much%20data%20is%20produced%20every%20day%20in%202021%3F,to%2 0double%20every%20two%20years (дата обращения на страницу: 23.03.2023)
3. How Much Data Is Created Every Day in 2023? [Электронный ресурс]. // Techjury. - URL: https://techjury.net/blog/how-much-data-is-created-every-day/ (дата обращения на страницу: 24.03.2023)
4. How much time does the average person spend on the Internet? [Электронный ресурс]. // OBERLO. - URL: https://www.oberlo.com/statistics/how-much-time-does-the-average- person-spend-on-the-internet (дата обращения на страницу: 24.03.2023)
5. As Internet user numbers swell due to pandemic, UN Forum discusses measures to improve
safety of cyberspace. [Электронный ресурс]. // UN. - URL:
https://www.un.org/sustainabledevelopment/blog/2021/12/as-internet-user-numbers- swell-due-to-pandemic-un-forum-discusses-measures-to-improve-safety-of-cyberspace/ (дата обращения на страницу: 24.03.2023)
6. Статистика интернета и соцсетей на 2022 год — цифры и тренды в мире и в России.
[Электронный ресурс]. // WebCanape. - URL: https://www.web-
canape.ru/business/statistika-interneta-i-socsetej-na-2022-god-cifry-i-trendy-v-mire-i-v- rossii/ (дата обращения на страницу: 24.03.2023)
7. 20 Applications of Automatic Summarization in the Enterprise. [Электронный ресурс]. // Frase. - URL: https://www.frase.io/blog/20-applications-of-automatic-summarization-in- the-enterprise/ (дата обращения на страницу: 25.03.2023)
8. AI-Driven Abstractive Text Summarization. [Электронный ресурс]. // Medium. - URL: https://medium.com/swlh/ai-driven-abstractive-text-summarization-56a094b722d4 (дата обращения на страницу: 25.03.2023)
9. Fast facts about the newspaper industry’s financial struggles as McClatchy files for
bankruptcy. [Электронный ресурс]. // Pew Research Center. - URL:
https://www.pewresearch.org/short-reads/2020/02/14/fast-facts-about-the-newspaper- industrys-financial-struggles/ (дата обращения на страницу: 25.03.2023)
10. More than eight-in-ten Americans get news from digital devices. [Электронный ресурс].
// Pew Research Center. - URL: https://www.pewresearch.org/short-
reads/2021/01/12/more-than-eight-in-ten-americans-get-news-from-digital-devices/ (дата обращения на страницу: 25.03.2023)
11. Сколько времени тратят россияне на чтение новостей? [Электронный ресурс]. //
Инфомер. - URL: https://ruinformer.com/page/skolko-vremeni-tratjat-rossijane-na-
chtenie-novostej (дата обращения на страницу: 26.03.2023)
12. How Many News Articles are Published Every Day in 2023? [Электронный ресурс]. // Earthweb. - URL: https://earthweb.com/how-many-news-articles-are-published-every- day/ (дата обращения на страницу: 26.03.2023)
13. Новости в интернете: СМИ и читатели [Электронный ресурс]. // Яндекс. - URL: https://yandex.ru/company/researches/2014/ya_news#:~:text=%D0%9D%D0%BE%D0 %B2%D0%BE%D1%81%D1%82%D0%B5%D0%B9%2C%20%D0%BA%D0%B0%D 0%B6%D0%B4%D1%8B%D0%B9%20%D0%B4%D0%B5%D0%BD%D1%8C%20% D1%80%D0%BE%D1%81%D1%81%D0%B8%D0%B9%D1%81%D0%BA%D0%B8 %D0%B5%20%D0%A1%D0%9C%D0%98,%D0%B8%D0%BD%D1%82%D0%B5% D1%80%D0%BD%D0%B5%D1 (дата обращения на страницу: 26.03.2023)
14. СМИ в России [Электронный ресурс]. // Tadviser. - URL:
https://www.tadviser.ru/index.php/%D0%A1%D1%82%D0%B0%D1%82%D1%8C%D 1%8F:%D0%A1%D0%9C%D0%98_%D0%B2_%D0%A0%D0%BE%D 1%81%D 1%81 %D0%B8%D0%B8 (дата обращения на страницу: 27.03.2023)
15. Средства массовой информации России [Электронный ресурс]. // Wikipedia. - URL: https://ru.wikipedia. org/wiki/%D0%A1%D 1%80%D0%B5%D0%B4%D 1%81%D 1%82 %D0%B2%D0%B0_%D0%BC%D0%B0%D 1%81%D 1%81%D0%BE%D0%B2%D0% BE%D0%B9_%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D 1%86%D0%B8%D0%B8_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8 (дата обращения на страницу: 27.03.2023)
..140


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ