Тип работы:
Предмет:
Язык работы:


ЭКСПЕРИМЕНТАЛЬНОЕ ИССЛЕДОВАНИЕ МЕТОДОВ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯ КЛЮЧЕВЫХ ВЫРАЖЕНИЙ В КОРПУСАХ РУССКОЯЗЫЧНЫХ ТЕКСТОВ

Работа №128534

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы143
Год сдачи2021
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
25
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Теоретические основания процедуры автоматического извлечения ключевых выражений 9
1.1. Проблемы, возникающие при извлечении ключевых выражений 12
Глава 2. Анализ и отбор методов автоматического извлечения ключевых выражений 15
2.1. Методы, основанные на статистическом подходе 15
2.1.1. Логарифмическая функция правдоподобия 15
2.1.2. TF-IDF 16
2.1.3. Критерий Хи-квадрат 17
2.1.4. YAKE 17
2.2. Методы, основанные на лингвистическом подходе 18
2.2.1. Инструмент PullEnti 18
2.2.2. RAKE 19
2.3. Методы, основанные на машинном обучении 21
2.3.1. TextRank 21
2.3.2. KeyBERT 21
2.3.3. Topia 22
Глава 3. Лингвистические данные для проведения экспериментов 24
Глава 4. Методика проведения исследования 26
4.1. Проблемы извлечения ключевых выражений экспертным и компьютерным способами 26
4.2. Методика проведения экспериментов 27
4.3. Процедура сравнения методов автоматического выделения ключевых выражений 30
Глава 5. Проведение экспериментов и процедуры сравнения результатов экспертов и методов автоматического извлечения ключевых выражений 32
5.1. Публицистический подкорпус 32
5.2. Научный подкорпус 50
5.3. Художественный подкорпус 69
6. Оценка результатов экспериментов 90
6.1. Теоретические основания оценки результатов 90
6.2. Проведение расчетов оценки результатов 91
Глава 7. Разработка собственного экстрактора ключевых выражений 102
7.1. Исследование структуры ключевого выражения на подкорпусе научных текстов 102
7.2. Экстрактор ключевых выражений, основанный на грамматике русского языка 105
7.2.1. Грамматика экстрактора 105
7.2.2. Метрика экстрактора 108
7.2.3. Реализация экстрактора 109
7.3. Результаты работы экстрактора для публицистического, научного и художественного подкорпусов текстов 110
7.4. Проведение расчетов оценки результатов экстрактора 117
Заключение 119
Список источников 121
Приложение А. Листинг программы для автоматической сборки корпуса 125
Приложение Б. Листинг программы для сборки ключевых выражений из научных статей 126
Приложение В. Листинг программы для морфологического анализа слов и словосочетаний 129
Приложение Г. Листинг программы для экстрактора ключевых выражений на основе грамматики 138

Увеличение потока текстовой информации в современном мире порождает необходимость эту информацию структурировать, упорядочивать, делать более простой и быстрой для поиска. Именно для решения задач компрессии потока текстовой информации необходимы методы автоматической обработки текстов. Одной из важнейших таких задач является процедура автоматического извлечения ключевых выражений из текстов для рубрикации, индексировании, классификации, бизнес-стратегиях, лексикографии, библиотечном деле, информационном поиске и так далее. Ключевые выражения также помогают составить быструю оценку содержания документов, что становится актуальнее в настоящем мире.
Исследования в области автоматического извлечения ключевых выражений широко проводятся на материале английского языка. Существует множество алгоритмов и исследований особенно в последние десятилетия. Исследования с использованием русскоязычного материала можно найти у таких исследователей, как Е.В.Ягунова, О.А.Митрофанова, Т.Ю.Шерстинова, А.Д.Москвина и др. Довольно часто предпринимаются попытки адаптирования алгоритмов для работы с англоязычными документами под работу с русскоязычными. Однако сопоставительных исследований работы разных алгоритмов не было проведено и оценено на материале русского языка. В настоящем исследовании впервые описываются алгоритмы, способные работать с русскоязычными документами смешанных функциональных стилей, с дальнейшей обработкой результатов оценки эффективности.
Актуальность работы обуславливается необходимостью структурирования потока текстовой информации при помощи компрессии. В данной работе проводится исследование природы текстового документа на предмет местоположения ключевого выражения относительно традиционного деления текста на введение, основную часть и заключение. Таким образом, деление документа на части и извлечение ключевых выражений из определенной его части в разы сократит время обработки текста на естественном языке.
Извлечение ключевых выражений из документов является довольно традиционной, а значит, старой процедурой, но с изменением типа текстов и задач работы с этим текстом, актуальным является сравнение методов с целью определения их эффективности.
Новизна исследования заключается в использовании сопоставительного анализа на смешанных корпусах разных функциональных стилей - публицистическом, научном и художественном. Впервые проводится исследование сравнения не только самих алгоритмов на предмет эффективности, но и сравнение ключевых выражений, извлеченных алгоритмами и размеченных экспертами. Данное решение обусловлено целью исследовать природу текстов и определения местоположения ключевых выражений в тексте.
Объектом исследования выступает природа ключевых выражений в корпусе русскоязычных текстов смешанных стилей. Предметом настоящей работы являются методы, использованные для извлечения ключевых выражений из текстов.
Цель исследования состоит в том, чтобы экспериментальным путем определить местоположение ключевых выражений относительно всего текста при помощи сравнения экспертной разметки и различных методов автоматического выделения ключевых выражений при работе с русскоязычными текстами различной тематики и стилей.
Для достижения данной цели требуется решить следующие задачи:
1. исследовать теоретические основания процедуры автоматического выделения ключевых выражений, проанализировать подходы к выделению ключевых выражений с точки зрения психолингвистики (А.С.Штерн, Л.В.Сахарный, Л.Н.Мурзин, Е.В.Ягунова и др.);
2. произвести отбор методов автоматического выделения ключевых выражений для проведения экспериментов (tf-idf, Log-likelihood, Chi­square, RAKE, YAKE, TextRank, KeyBERT, Topia, PullEnti), дать характеристику каждого из методов и обосновать свой выбор;
3. подготовить лингвистические данные для проведения экспериментов: произвести сборку и предобработку исследовательских корпусов текстов разных стилей (художественный, научный, публицистический);
4. разработать процедуру сравнения разметки экспертов и методов автоматического выделения ключевых выражений;
5. произвести планирование и проведение экспериментов:
a) определить параметры экспериментов: определить объемы текстов, длину ключевых выражений, объемы списков ключевых выражений, способы их ранжирования и т.д.
b) автоматически извлечь ключевые выражения из корпусов текстов;
c) извлечь ключевые выражения при помощи экспертов;
d) разработать и провести процедуры оценки результатов;
e) сравнить данные, полученные с помощью исследуемых методов автоматического выделения ключевых выражений и эталона.
6. проанализировать результаты экспериментов: определить местоположение ключевого выражения относительно всего текста.
Материалом исследования является русскоязычный корпус, состоящий из трех подкорпусов разных функциональных стилей: публицистического, научного и художественного. В каждом подкорпусе содержится 50 документов, то есть в сумме корпус составляет 150 текстов на русском языке. Сборка корпуса производилась автоматически и вручную, предварительная обработка текста проводилась при помощи графематического анализа с удалением таблиц, рисунков и так далее. Особенностью каждого документа в подкорпусах является наличие аннотации (развернутый заголовок для новостного текста, собственно аннотация и ключевые слова для научной статьи и опорные слова, вынесенные автором произведения перед каждой главой с сюжетными событиями повествования).
В настоящем исследовании была выдвинута гипотеза о существовании зависимости ключевого выражения и его местоположения. В данном случае проверялось наличие ключевых выражений в начале текста.
Для проверки или опровержения гипотезы был проведен следующий эксперимент:
1. тексты подкорпусов функциональных стилей разбиты на 2 части - начало и остаток. Для текста каждого функционального стиля было собственное деление ввиду разной природы текстов. Для публицистического подкорпуса - заголовок и первые два-три предложения новости, для научного - аннотация и первый абзац статьи, для художественного - размеченные автором опорные слова и первый абзац главы;
2. первые части текстов размечены экспертами;
3. вторые части текста автоматически обработаны автоматическими методами извлечения ключевых выражений;
4. произведена процедура сравнения ключевых выражений, размеченных экспертами и извлеченных алгоритмами. Таким образом, проверялось количество совпадений результатов алгоритма с результатами эталона - экспертной разметкой;
5. проведена процедура оценки эффективности по каждому методу.
Теоретическая значимость исследования заключается в обосновании существования зависимости местоположения ключевых выражений относительно всего текста. С одной стороны, исследуется природа и структура построения текста. С другой стороны, исследуется эффективность извлечения ключевых выражений алгоритмами, способными работать с русскоязычными документами.
Практическая значимость исследования заключается в реализации собственного экстрактора ключевых выражений, основанного на грамматических правилах. В рамках настоящей работы на материале научного подкорпуса было проведено исследование структуры ключевых выражений. Выяснилось, что у ключевого выражения научного подкорпуса есть ограничения в виде отсутствия ключевых выражений, состоящих из глагольной группы.
Объем и структура диссертации. Работа состоит из 7 глав, введения, заключения, списка источников и 4 приложений. Главы 1 и 2 посвящены теоретическим вопросам: проблемам, возникающим при извлечении ключевых выражений, а также обзору научной литературы по избранным методам автоматического извлечения ключевых выражений. Глава 3 содержит информацию о лингвистических данных, необходимых для проведения эксперимента, то есть о сборке корпуса и структуре документов. В главе 4 приводится методика проведения экспериментов с описанием параметров, необходимых для экспериментов. Глава 5 посвящена непосредственно проведению самого эксперимента с разбиением на параграфы подкорпусов разных функциональных стилей. В главе приводятся примеры текстов, ключевые выражения экспертов и методов, а также результаты совпадений разметки информантов и выдачи алгоритмов. В главе 6 содержатся результаты оценки эффективности полученных результатов совпадений. Завершающая 7 глава посвящена исследованию природы ключевого выражения на материале научного подкорпуса, а также описанию разработанного самостоятельно экстрактора ключевых выражений. Приложения содержат листинги программ, использованных для проведения исследования на разных этапах работы. Общий объем работы составляет 143 страницы, основное содержание изложено на 120 страницах, текст содержит 44 таблицы, 5 рисунков и 99 формул, приложение занимает 18 страниц. Список источников состоит из 31 позиции.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе исследования была достигнута следующая цель: экспериментальным путем было определено, что существует зависимость местоположения ключевых выражений относительно всего текста при помощи сравнения экспертной разметки и различных методов автоматического выделения ключевых выражений при работе с русскоязычными текстами различной тематики и стилей. Ключевые выражения содержатся в самом начале текста и с малой вероятностью появляются в основной части и заключении документа.
В настоящей работе было проведено исследование природы ключевых выражений относительно структуры текста. Гипотеза о существовании зависимости местоположения ключевого выражения подтвердилась в ходе эксперимента, который состоял в том, чтобы поделить текст на две части, извлечь ключевые выражения из начала при помощи экспертов, а при помощи алгоритмов из оставшейся части и сравнить количество совпадений. Суммы совпадений оказались настолько низкими, что был сделан вывод о концентрации ключевых выражений в самом начале текста. Оценка эффективности алгоритмов не поднялась выше 0,2, что говорит о малом количестве встречаемости ключевых выражений результатов алгоритмов и разметки экспертов.
Важно отметить тот факт, что для подкорпусов всех трех функциональных стилей - публицистического, научного и художественного - наблюдается подтверждение гипотезы. Самые высокие показатели совпадений получились у публицистического подкорпуса, самые низкие - у художественного. Такая ситуация объясняется простой и краткостью новостных текстов публицистического подкорпуса и объемом и сложностью документов художественного подкорпуса.
В ходе работы над диссертацией был создан и опробован собственный экстрактор ключевых выражений, основанный на грамматике. Данный алгоритм способен извлекать выражения, нужные пользователю, то есть необходимо написать правила грамматики, и алгоритм начнет работу.
Для настоящего исследования были написаны правила грамматики, основанные на ключевых выражениях научного подкорпуса. Экстрактор наравне с другими традиционными алгоритмами извлекал ключевые выражения. Результаты оценки эффективности были признаны средними относительно остальных алгоритмов, однако, опровергнуть гипотезу разработанному экстрактору не удалось, показатели совпадений и f-меры по-прежнему остались в пределах от 0 до 0,2.


1. Браславский, П.И. Автоматическое извлечение терминологии с использованием поисковых машин интернета / Е.А. Соколов; [Электронный ресурс / Electronic resource] : научная статья. - Режим доступа : http://www.dialog-21.ru/digests/dialog2007/materials/html/14.htm
2. Ванюшкин, А.С. Методы и алгоритмы извлечения ключевых слов / Л.А. Гращенко; Новые информационные технологии в автоматизированных системах. 2016. №19. С. 85-87.
3. Гамзатова, А.Ф. «Эмоциональное» и «формальное»: проблема выделения ключевых слов компьютерными программами в сопоставлении с методикой их экспертного вычленения.
4. Захаров, В.П. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке. - 2010. - / М.В. Хохлова; Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог - 2010».
5. Москвина, А. Д. Автоматическое выделение ключевых слов и словосочетаний из русскоязычных корпусов текстов с помощью алгоритма RAKE / О. А. Митрофанова, А. Р. Ерофеева, Я. К. Харабет; Труды международной конференции «Корпусная лингвистика - 2017». -СПб: Издательство Санкт-Петербургского университета, 2017. - С. 268-275.
6. Москвитина, Т.Н. Ключевые слова и их функции в научном тексте // Вестник Челябинского государственного педагогического университета. 2009. № 11. С. 270-283.
7. Мурзин, Л. Н. Текст и его восприятие / А. С. Штерн; Свердловск : Изд-во Урал. ун-та, 1991.
8. Система PullEnti - извлечение информации из текстов естественного языка и автоматизированное построение информационных систем / О. В. Золотарев, М. М. Шарнин, С. В. Клименко, К. И. Кузнецов // Ситуационные центры и информационно-аналитические системы класса 4i для задач мониторинга и безопасности (SCVRT2015-16) : Труды Международной научной конференции: в 2-х томах, ЦарьГрад, Московская область, Россия, 21-24 ноября 2016 года. - ЦарьГрад, Московская область, Россия: Автономная некоммерческая организация "Институт физико-технической информатики", 2016. - С. 28-35.
9. Усталов, Д.А. Извлечение терминов из русскоязычных текстов при помощи графовых моделей. - 2012. - // CSEDays: Теория графов и приложения. - Екатеринбург.
10. Шереметьева, С.О. Методы и модели автоматического извлечения ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ. Серия «Лингвистика» : 2015. - Т. 12, № 1. - С. 76-81.
11. Ягунова, Е.В. Эксперимент и вычисления в анализе ключевых слов художественного текста // Философия языка. Лингвистика. Лингводидактика №1 Пермь : 2010. с.83-89
12. Campos, R., Mangaravite, V., Pasquali, A., Jorge, A.M., Nunes, C., Jatowt, A.: Yake! collection-independent automatic keyword extractor. In: European Conference on Information Retrieval. Springer : 2018. pp. 806-810.
13. Campos, R., Mangaravite, V., Pasquali, A., Jatowt, A., Jorge, A., Nunes, C. and Jatowt, A. (2020). YAKE! Keyword Extraction from Single Documents using Multiple Local Features. In Information Sciences Journal. Elsevier, Vol 509, pp 257-289.
14. Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill- Manning. 1999. Domain-specific keyphrase extraction. In Proceedings of 16th International Joint Conference on Artificial Intelligence, pages 668-673.
15. Kazi Saidul Hasan and Vincent Ng, Automatic Keyphrase Extraction: A Survey of the State of the Art. ACL : 2014.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ