📄Работа №192207

Тема: АНАЛИЗ РЕЗУЛЬТАТОВ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ НОВОСТНЫХ ТЕКСТОВ

Характеристики работы

Тип работы Магистерская диссертация
Лингвистика
Предмет Лингвистика
📄
Объем: 79 листов
📅
Год: 2021
👁️
Просмотров: 49
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Аннотация 3
ВВЕДЕНИЕ 4
ГЛАВА 1 8
Теоретико-методологические основы «ручного» и автоматического реферирования текстов 8
1.1 Реферирование как способ извлечения и представления основного содержания текста 8
1.1.1 Становление реферирования 8
1.1.2 Определение понятий «реферирование» и «реферат» 9
1.1.3 Методы реферирования 10
1.1.4 Виды рефератов 13
1.1.5 Сущность и методы компрессии материала первоисточника 15
1.2 Проблемы и методы автоматического реферирования текстов 17
1.2.1 Зарождение и становление идеи автоматического реферирования текста 17
1.2.2 Автоматическое реферирование текста 19
1.2.2.1 Переход от «ручного» к автоматическому реферированию 19
1.2.2.2 Определение понятия «автоматическое реферирование» 20
1.2.2.3 Преимущества автоматического реферирования 21
1.2.2.4 Этапы и подходы к автоматическому реферированию 21
1.2.2.5 Проблемы автоматического реферирования, проверка качества 23
1.2.2.6 Варианты автоматического реферирования в зависимости от типов текстов 25
1.3 Особенности новостных текстов как объектов реферирования 25
1.3.1 Значимость массмедиа 25
1.3.2 Язык массмедиа 26
1.3.3. Предмет медиалингвистики 27
1.3.3.1 Структура и содержание понятия «медиатекст» 28
1.3.3.2 Методы изучения медиатекстов 30
1.3.3.3 Типы медиатекстов: новости 31
1.3.3.4 Лингвомедийные свойства новостных текстов. Общая характеристика новостных
текстов. Понятие новостной ценности 31
1.3.3.5 Особенности формата новостных текстов в средствах массовой информации в сети
Интернет 34
Выводы по первой главе 36
ГЛАВА 2 37
Лингвистический анализ результатов автоматического реферирования новостных текстов 37
2.1 Алгоритмы автоматического реферирования 37
2.2 Критерии оценки качества реферата 40
2.2.1 Метрики BLEU и ROUGE для оценки качества автоматического реферирования 40
2.2.2 Критерии оценки «ручного» реферирования 40
2.2.3 Анализ автоматически сгенерированных рефератов 44
2.2.3.1 Пример анализа автоматически сгенерированных рефератов на основе разработанных критериев 44
2.2.3.3 Результаты анализа автоматически сгенерированных рефератов на основе разработанных критериев 51
Выводы по второй главе 59
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 63
ПРИЛОЖЕНИЕ А 70
ПРИЛОЖЕНИЕ Б 72

📖 Введение

Данная исследовательская работа проводится в сфере информационных технологий и направлена на анализ результатов работы алгоритмов реферирования новостных текстов.
В настоящее время все мы являемся очевидцами того, как быстро информационные потоки заполняют интернет-пространство. Стремительный рост объема информации именуется «информационным взрывом». Вместе с потоками информации растет и информационная перенасыщенность людей, которая приводит к неспособности адекватно воспринимать и перерабатывать необходимый объем поступающей информации. Большая часть информации представлена в текстовом формате, поэтому для решения проблемы «информационного взрыва» необходимо участие компьютерных лингвистов. С помощью методов, применяемых в компьютерной лингвистике, можно проводить автоматический анализ текстовых данных на естественном языке. Процесс автоматического реферирования текстовой информации экономит ресурсы, так как превосходит по скорости ручной труд человека и сокращает материальные затраты на содержание штата сотрудников.
Автоматическое реферирование текстов можно осуществлять разными способами. Например, существуют подходы, основанные на графах. Представителем такого подхода является TextRank. Для автоматического реферирования также используется алгоритм LSA (Latent Semantic Analysis), название алгоритма говорит само за себя, так как реферирование текста основывается на скрытом семантическом анализе. Реферирование текстов осуществляется и посредством алгоритма k-means, который основывается на кластеризации. Каждый из способов имеет свои недостатки и преимущества, одни употребляются чаще других.
В данной исследовательской работе будет уделено особое внимание автоматическому реферированию на основе статистических методов.
Актуальность настоящей работы обуславливается потребностью в разработке качественного и работающего алгоритма автоматического реферирования новостных текстов. Данная потребность вызвана «информационным взрывом», который сейчас претерпевает современное общество. Кроме того, в использовании алгоритмов автоматического реферирования текстов заинтересованы различные новостные агентства и порталы. Повышенное внимание к проблеме информационной перенасыщенности говорит о том, что данная проблема весьма актуальна. Более того, существующие алгоритмы автоматического реферирования текстов применяются в основном на англоязычных текстах, поэтому русскоязычное общество нуждается в адаптации данных алгоритмов или в создании новых, которые будут исправно работать на текстах, написанных на русском языке.
В настоящее время в научном сообществе часто поднимается вопрос автоматического реферирования текстов, что доказывается активным обсуждением данной темы на конференциях по компьютерной лингвистике. Представителем одной из таких конференций является «Диалог» — крупнейшая в России международная научная конференция по компьютерной лингвистике. Начиная с конца прошлого века, количество исследований в данной области увеличилось в разы. Кроме того, проекты по автоматическому реферированию текстов активно финансируются.
Таким образом, высокая социальная значимость, нарастающий интерес со стороны заинтересованных в автоматическом реферировании лиц (новостные агентства и компании), проблема адаптации методов автоматического реферирования англоязычных текстов к русскому языку, а также необходимость в разработке системы оценки их результативности доказывают актуальность обращения к реферированию новостных текстов.
Объектом исследования является автоматическое реферирование новостных текстов.
Предметом исследования выступают алгоритмы реферирования новостных текстов.
Цель - разработать систему оценки эффективности алгоритмов реферирования, примененных к материалу новостных текстов.
Поставленная цель определила следующие основные задачи работы:
1. Изучить существующие методы реферирования.
2. Изучить теоретико-методологические основы автоматического реферирования текстов.
3. Ознакомиться с существующими алгоритмами автоматического реферирования.
4. Ознакомиться с жанровой структурой новостных текстов.
5. Найти, отобрать, извлечь и сформировать корпус новостных текстов для анализа.
6. Разработать критерии оценки качества рефератов.
7. Применить готовые алгоритмы реферирования к корпусу новостных текстов.
8. Проанализировать результаты работы разных методов реферирования с лингвистической точки зрения.
9. Сравнить результаты реферирования, проведенного на основе применения разных алгоритмов.
Материалом исследования послужили текстовые данные информационного агентства «ТАСС» из рубрики по происшествиям [16]. Всего методом сплошной выборки было отобрано 100 новостных текстов из рубрики «Происшествия».
С учетом поставленной цели в данном исследовании применяются следующие методы: метод автоматического анализа текста, включающий следующие приемы: сбор данных, предобработка текста, применение программного кода для выполнения автоматического реферирования; метод филологического анализа текста: оценка; метод сплошной выборки.
Метод сплошной выборки применялся на этапе сбора текстовых материалов для анализа. Тексты отбирались по мере их встречаемости в рубрике «Происшествия».
Для подготовки текстовой выборки к анализу применялись методы предварительной обработки текстов. К предобработанной текстовой выборке осуществлялось применение программного кода с целью получить рефераты.
Метод филологического анализа, в частности, оценка, применялся на этапе анализа полученных рефератов.
Теоретическая основа исследования.
В области автоматического реферирования мы опирались на работы Х. Луна, Х. Торреса-Морено, Г.П. Эдмундсона, Р.И. Уиллиса, К. Спарк Джонс, Д.Б. Клевеленда, К. МакКеона и Б. Дорра.
В области медиалингвистики и жанровой структуры новостных текстов мы опирались на работы Т.Г. Добросклонской, Т. Ван Дейка, А.Н. Богомолова, В.Г. Костомарова, Б.В. Кривенко, О. А. Ксендзенко, М.М. Назарова, А.А. Гречихина, И.Г. Здорова, В.И. Соловьева, А.И. Жолкова, Л.П. Маркушевской, Ю.А. Цапаевой, Д.И. Блюменау, Н.М. Нестеровой, Н.А. Герте, В.А. Вейзе и др.
Структура работы определяется целями и задачами. Магистерская диссертация состоит из введения, двух глав, заключения, списка использованной литературы и приложений.
Во введении обосновывается актуальность исследования, формулируются объект, предмет, цель и решаемые задачи, а также характеризуется теоретическая основа исследования.
В первой главе рассмотрены такие ключевые пункты, как зарождение и становление автоматического реферирования, проблемы и методы автоматического реферирования, описаны подходы и этапы к автоматическому реферированию, а также раскрыты особенности новостных текстов как объектов реферирования.
Вторая глава посвящена анализу результатов автоматического реферирования новостных текстов.
В заключении описываются реализованные этапы исследования и определяются перспективы его дальнейшего развития.
В Приложении А представлены иллюстрации программного кода на языке программирования Python.
В Приложении Б представлены примеры хороших текстов обоих алгоритмов.
Результаты исследования были апробированы на VII (XXI) Международной научнопрактической конференции «Актуальные проблемы лингвистики и литературоведения» и V Международному научно-исследовательском конкурсе «Конкурс молодых ученых».

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

С ростом количества информации в современном обществе растет и информационная перенасыщенность людей. Анализ огромного массива данных требует существенных человеческих ресурсов. Одним из способов автоматизации процесса обработки информации является автоматическое реферирование.
В рамках данной исследовательской работы мы фокусируемся на реферировании новостных текстов, так как именно новостные тексты являются ключевым источником прироста данных в сети Интернет. Кроме того, фокус на новостных текстах обусловлен заинтересованностью в автоматическом реферировании со стороны новостных порталов и агентств.
На сегодняшний день разрешение проблемы автоматического реферирования является актуальной задачей в области компьютерной лингвистики. Проблема автоматического реферирования заключается не только в создании алгоритма, который будет качественно реферировать тексты, но и в разработке системы оценивания качества автоматических рефератов, так как без системы оценивания невозможно понять актуальна ли на данный момент проблема разработки качественного алгоритма.
В ходе данного исследования мы занимались решением второй проблемы - разработка системы оценивания качества автоматических рефератов. Полученные результаты анализа подтвердили необходимость создания алгоритма, рефераты которого будут соответствовать критериям качества. Оба анализируемых алгоритмов показали достаточно низкий уровень качества рефератов. Так, более 90% текстов из обеих выборок содержали в себе ошибки.
В рамках проведения анализа, на этапе подготовки возникли трудности с поиском работающих алгоритмов автоматического реферирования, так как большинство онлайн рефераторов более не являются действующими, либо работают некорректно, а программные коды, находящиеся в свободном доступе при запуске выдают ошибки. Данная трудность еще раз указывает на то, что область автоматического реферирования нуждается в свежих разработках или доработке уже существующих алгоритмов.
Таким образом, при работе над исследованием была достигнута поставленная цель - разработать систему оценки эффективности алгоритмов реферирования, примененных к материалу новостных текстов. Проведен анализ автоматических рефератов новостных текстов, который указал на то, что область автоматического реферирования нуждается в совершенствовании алгоритмов.
Перспективы дальнейшего исследования нам видятся в разработке системы оценки эффективности алгоритмов автоматического реферирования на материале других типов текстов.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1. Абрамова, Н. Н. Автоматическое составление обзорных рефератов новостных сюжетов / Н. Н. Абрамова, В. Е. Абрамов // Интернет-математика 2007 : сб. работ участников конкурса науч. проектов по информ. поиску / [отв. ред. П. И. Браславский]. — Екатеринбург : Изд-во Урал. ун-та, 2007. — С. 5-15.
2. Андреева К.А. Проектирование автоматизированной системы реферирования текстов / К.А. Андреева, Р.С. Шайдуров // Решетневские чтения. — 2015. — №19. — С. 202 — 203. — URL: https://cyberleninka.ru/article/nZproektirovanie- avtomatizirovannoy-sistemy-referirovaniya-tekstov (дата обращения: 28.02.2021).
3. Батура Т. В. Методы и системы автоматического реферирования текстов : монография / Т. В. Батура, А. М. Бакиева. Ин-т систем информатики им. А. П. Ершова СО РАН. — Новосибирск : ИПЦ НГУ, 2019. — 110 с.
4. Блюменау Д. И. Проблемы свертывания научной информации. Л. : Наука, 1982. — 166 с.
5. Вейзе А.А. Реферирование текста / А.А. Вейзе. — Минск : Изд-во Белорус. гос. унта, 1978. — 128 с.
6. Википедия: Свободная Энциклопедия [Электронный ресурс] // Автоматическое реферирование. — Электрон. дан. — [Б. м.], — 2020. — URL: https://ru.wikipedia.org/wiki/%D0%90%D0%B2%D1%82%D0%BE%D0%BC%D0%B 0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D1 %80%D0%B5%D1%84%D0%B5%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0 %B0%D0%BD%D0%B8%D0%B5 (дата обращения: 12.02.2021).
7. ГОСТ 7.76-96. Библиографирование. Каталогизация. Основные понятия. URL: https://files.stroyinf.rU/Data2/1/4294850/4294850382.pdf (дата обращения 15.04.2021).
8. ГОСТ 7.9-95. Реферат и аннотация. Общие требования. URL: http://www.tehnorma.ru/ (дата обращения: 24.01.2021).
9. Гречихин А.А. Жанры информационной литературы: Обзор. Реферат / А.А. Гречихин, И.Г. Здоров, В.И. Соловьев. — М. : Книга, 1983. — 320 с.
10. Губанова Е. Г. Рекомендации по написанию рефератов: для обучающихся по специальности 29.02.04 «Конструирование, моделирование и технология швейных изделий». — Магнитогорск: ГБОУ ПОО МТК, 2017. — 16 с.
11. Дейк Т. А. ван. Когнитивные и речевые стратегии выражения этнических предубеждений // Язык. Познание. Коммуникация. — М. : Прогресс, 1989. — С. 123.
12. Добросклонская Т.Г. Вопросы изучения медиатекстов. Опыт исследования современной английской медиаречи / Т.Г. Добросклонская. — М. : Ridero, 2005. — 170 с.
13. Добросклонская Т.Г. Теория и методы медиалингвистики / Т.Г. Добросклонская. — М. : АДД, 2000. — 203 с.
14. Догма газеты «Ведомости» [Электронный ресурс]. — Электрон. дан. — [Б. м.], —
2001. — URL:
https://www.dropbox.eom/s/7fof0qv7ps3qzg8/dogma_vedomosti.pdf7dU0 (дата
обращения: 10.05.2021).
15. Жолкова А. И. Фасетный метод реферирования как проблема библиографирования технической литературы: автореф. дис. ... канд. пед. наук. Л.: ЛГИК им. Н.К. Крупской, 1985. — 15 с.
..84

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ