Тема: АНАЛИЗ РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ НОВОСТНЫХ ТЕКСТОВ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 4
ГЛАВА 1 8
Теоретико-методологические основы «ручного» и автоматического реферирования текстов 8
1.1 Реферирование как способ извлечения и представления основного содержания текста 8
1.1.1 Становление реферирования 8
1.1.2 Определение понятий «реферирование» и «реферат» 9
1.1.3 Методы реферирования 10
1.1.4 Виды рефератов 13
1.1.5 Сущность и методы компрессии материала первоисточника 15
1.2 Проблемы и методы автоматического реферирования текстов 17
1.2.1 Зарождение и становление идеи автоматического реферирования текста 17
1.2.2 Автоматическое реферирование текста 19
1.2.2.1 Переход от «ручного» к автоматическому реферированию 19
1.2.2.2 Определение понятия «автоматическое реферирование» 20
1.2.2.3 Преимущества автоматического реферирования 21
1.2.2.4 Этапы и подходы к автоматическому реферированию 21
1.2.2.5 Проблемы автоматического реферирования, проверка качества 23
1.2.2.6 Варианты автоматического реферирования в зависимости от типов текстов 25
1.3 Особенности новостных текстов как объектов реферирования 25
1.3.1 Значимость массмедиа 25
1.3.2 Язык массмедиа 26
1.3.3. Предмет медиалингвистики 27
1.3.3.1 Структура и содержание понятия «медиатекст» 28
1.3.3.2 Методы изучения медиатекстов 30
1.3.3.3 Типы медиатекстов: новости 31
1.3.3.4 Лингвомедийные свойства новостных текстов. Общая характеристика новостных
текстов. Понятие новостной ценности 31
1.3.3.5 Особенности формата новостных текстов в средствах массовой информации в сети
Интернет 34
Выводы по первой главе 36
ГЛАВА 2 37
Лингвистический анализ результатов автоматического реферирования новостных текстов 37
2.1 Алгоритмы автоматического реферирования 37
2.2 Критерии оценки качества реферата 40
2.2.1 Метрики BLEU и ROUGE для оценки качества автоматического реферирования 40
2.2.2 Критерии оценки «ручного» реферирования 40
2.2.3 Анализ автоматически сгенерированных рефератов 44
2.2.3.1 Пример анализа автоматически сгенерированных рефератов на основе разработанных критериев 44
2.2.3.3 Результаты анализа автоматически сгенерированных рефератов на основе разработанных критериев 51
Выводы по второй главе 59
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 63
ПРИЛОЖЕНИЕ А 70
ПРИЛОЖЕНИЕ Б 72
📖 Введение
В настоящее время все мы являемся очевидцами того, как быстро информационные потоки заполняют интернет-пространство. Стремительный рост объема информации именуется «информационным взрывом». Вместе с потоками информации растет и информационная перенасыщенность людей, которая приводит к неспособности адекватно воспринимать и перерабатывать необходимый объем поступающей информации. Большая часть информации представлена в текстовом формате, поэтому для решения проблемы «информационного взрыва» необходимо участие компьютерных лингвистов. С помощью методов, применяемых в компьютерной лингвистике, можно проводить автоматический анализ текстовых данных на естественном языке. Процесс автоматического реферирования текстовой информации экономит ресурсы, так как превосходит по скорости ручной труд человека и сокращает материальные затраты на содержание штата сотрудников.
Автоматическое реферирование текстов можно осуществлять разными способами. Например, существуют подходы, основанные на графах. Представителем такого подхода является TextRank. Для автоматического реферирования также используется алгоритм LSA (Latent Semantic Analysis), название алгоритма говорит само за себя, так как реферирование текста основывается на скрытом семантическом анализе. Реферирование текстов осуществляется и посредством алгоритма k-means, который основывается на кластеризации. Каждый из способов имеет свои недостатки и преимущества, одни употребляются чаще других.
В данной исследовательской работе будет уделено особое внимание автоматическому реферированию на основе статистических методов.
Актуальность настоящей работы обуславливается потребностью в разработке качественного и работающего алгоритма автоматического реферирования новостных текстов. Данная потребность вызвана «информационным взрывом», который сейчас претерпевает современное общество. Кроме того, в использовании алгоритмов автоматического реферирования текстов заинтересованы различные новостные агентства и порталы. Повышенное внимание к проблеме информационной перенасыщенности говорит о том, что данная проблема весьма актуальна. Более того, существующие алгоритмы автоматического реферирования текстов применяются в основном на англоязычных текстах, поэтому русскоязычное общество нуждается в адаптации данных алгоритмов или в создании новых, которые будут исправно работать на текстах, написанных на русском языке.
В настоящее время в научном сообществе часто поднимается вопрос автоматического реферирования текстов, что доказывается активным обсуждением данной темы на конференциях по компьютерной лингвистике. Представителем одной из таких конференций является «Диалог» — крупнейшая в России международная научная конференция по компьютерной лингвистике. Начиная с конца прошлого века, количество исследований в данной области увеличилось в разы. Кроме того, проекты по автоматическому реферированию текстов активно финансируются.
Таким образом, высокая социальная значимость, нарастающий интерес со стороны заинтересованных в автоматическом реферировании лиц (новостные агентства и компании), проблема адаптации методов автоматического реферирования англоязычных текстов к русскому языку, а также необходимость в разработке системы оценки их результативности доказывают актуальность обращения к реферированию новостных текстов.
Объектом исследования является автоматическое реферирование новостных текстов.
Предметом исследования выступают алгоритмы реферирования новостных текстов.
Цель - разработать систему оценки эффективности алгоритмов реферирования, примененных к материалу новостных текстов.
Поставленная цель определила следующие основные задачи работы:
1. Изучить существующие методы реферирования.
2. Изучить теоретико-методологические основы автоматического реферирования текстов.
3. Ознакомиться с существующими алгоритмами автоматического реферирования.
4. Ознакомиться с жанровой структурой новостных текстов.
5. Найти, отобрать, извлечь и сформировать корпус новостных текстов для анализа.
6. Разработать критерии оценки качества рефератов.
7. Применить готовые алгоритмы реферирования к корпусу новостных текстов.
8. Проанализировать результаты работы разных методов реферирования с лингвистической точки зрения.
9. Сравнить результаты реферирования, проведенного на основе применения разных алгоритмов.
Материалом исследования послужили текстовые данные информационного агентства «ТАСС» из рубрики по происшествиям [16]. Всего методом сплошной выборки было отобрано 100 новостных текстов из рубрики «Происшествия».
С учетом поставленной цели в данном исследовании применяются следующие методы: метод автоматического анализа текста, включающий следующие приемы: сбор данных, предобработка текста, применение программного кода для выполнения автоматического реферирования; метод филологического анализа текста: оценка; метод сплошной выборки.
Метод сплошной выборки применялся на этапе сбора текстовых материалов для анализа. Тексты отбирались по мере их встречаемости в рубрике «Происшествия».
Для подготовки текстовой выборки к анализу применялись методы предварительной обработки текстов. К предобработанной текстовой выборке осуществлялось применение программного кода с целью получить рефераты.
Метод филологического анализа, в частности, оценка, применялся на этапе анализа полученных рефератов.
Теоретическая основа исследования.
В области автоматического реферирования мы опирались на работы Х. Луна, Х. Торреса-Морено, Г.П. Эдмундсона, Р.И. Уиллиса, К. Спарк Джонс, Д.Б. Клевеленда, К. МакКеона и Б. Дорра.
В области медиалингвистики и жанровой структуры новостных текстов мы опирались на работы Т.Г. Добросклонской, Т. Ван Дейка, А.Н. Богомолова, В.Г. Костомарова, Б.В. Кривенко, О. А. Ксендзенко, М.М. Назарова, А.А. Гречихина, И.Г. Здорова, В.И. Соловьева, А.И. Жолкова, Л.П. Маркушевской, Ю.А. Цапаевой, Д.И. Блюменау, Н.М. Нестеровой, Н.А. Герте, В.А. Вейзе и др.
Структура работы определяется целями и задачами. Магистерская диссертация состоит из введения, двух глав, заключения, списка использованной литературы и приложений.
Во введении обосновывается актуальность исследования, формулируются объект, предмет, цель и решаемые задачи, а также характеризуется теоретическая основа исследования.
В первой главе рассмотрены такие ключевые пункты, как зарождение и становление автоматического реферирования, проблемы и методы автоматического реферирования, описаны подходы и этапы к автоматическому реферированию, а также раскрыты особенности новостных текстов как объектов реферирования.
Вторая глава посвящена анализу результатов автоматического реферирования новостных текстов.
В заключении описываются реализованные этапы исследования и определяются перспективы его дальнейшего развития.
В Приложении А представлены иллюстрации программного кода на языке программирования Python.
В Приложении Б представлены примеры хороших текстов обоих алгоритмов.
Результаты исследования были апробированы на VII (XXI) Международной научнопрактической конференции «Актуальные проблемы лингвистики и литературоведения» и V Международному научно-исследовательском конкурсе «Конкурс молодых ученых».
✅ Заключение
В рамках данной исследовательской работы мы фокусируемся на реферировании новостных текстов, так как именно новостные тексты являются ключевым источником прироста данных в сети Интернет. Кроме того, фокус на новостных текстах обусловлен заинтересованностью в автоматическом реферировании со стороны новостных порталов и агентств.
На сегодняшний день разрешение проблемы автоматического реферирования является актуальной задачей в области компьютерной лингвистики. Проблема автоматического реферирования заключается не только в создании алгоритма, который будет качественно реферировать тексты, но и в разработке системы оценивания качества автоматических рефератов, так как без системы оценивания невозможно понять актуальна ли на данный момент проблема разработки качественного алгоритма.
В ходе данного исследования мы занимались решением второй проблемы - разработка системы оценивания качества автоматических рефератов. Полученные результаты анализа подтвердили необходимость создания алгоритма, рефераты которого будут соответствовать критериям качества. Оба анализируемых алгоритмов показали достаточно низкий уровень качества рефератов. Так, более 90% текстов из обеих выборок содержали в себе ошибки.
В рамках проведения анализа, на этапе подготовки возникли трудности с поиском работающих алгоритмов автоматического реферирования, так как большинство онлайн рефераторов более не являются действующими, либо работают некорректно, а программные коды, находящиеся в свободном доступе при запуске выдают ошибки. Данная трудность еще раз указывает на то, что область автоматического реферирования нуждается в свежих разработках или доработке уже существующих алгоритмов.
Таким образом, при работе над исследованием была достигнута поставленная цель - разработать систему оценки эффективности алгоритмов реферирования, примененных к материалу новостных текстов. Проведен анализ автоматических рефератов новостных текстов, который указал на то, что область автоматического реферирования нуждается в совершенствовании алгоритмов.
Перспективы дальнейшего исследования нам видятся в разработке системы оценки эффективности алгоритмов автоматического реферирования на материале других типов текстов.





