Тип работы:
Предмет:
Язык работы:


Разработка метода извлечения ключевых фраз из постов социальной сети ”Твиттер”

Работа №130557

Тип работы

Бакалаврская работа

Предмет

математика и информатика

Объем работы34
Год сдачи2019
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
63
Не подходит работа?

Узнай цену на написание


1. Введение 4
2. Постановка задачи 5
3. Обзор литературы 6
4. Выбор инструментов 8
4.1. Язык программирования и среда разработки 8
4.2. Фреймворк для машинного обучения 8
4.3. Инструменты для морфологического анализа 8
4.4. Векторное представление слов 8
4.5. Оценка качества извлечённых фраз 9
5. Разработка русскоязычной коллекции документов, размеченой ключевыми фразами 11
5.1. Поиск датасета 11
5.2. Очистка датасета 11
5.3. Имплементация алгоритма разметки датасета ключевыми фразами 12
5.4. Проверка автоматически извлечённых ключевых фраз 12
5.5. Обработка коллекции для получения тестовой и обучающей выборок 14
6. Извлечение ключевых фраз из твитов с помощью joint-layer neural networks 16
6.1. Общие сведения о нейронных сетях 16
6.2. Описание joint-layer neural networks 16
6.3. Обучение нейросети 18
6.4. Создание модели и обучение 18
6.5. Анализ результатов 19
7. Поиск путей усовершенствования алгоритма извлечения ключевых фраз с помощью joint-layer
neural networks 21
7.1. Расширение алгоритма для поиска нескольких ключевых фраз в одном твите 21
7.2. Выделение наиболее популярных хэштегов 23
7.3. Анализ результатов 25
8. Сравнение с другими методами 26
8.1. TF-IDF 26
8.2. Рекуррентные нейронные сети 27
8.3. Анализ результатов 28
9. Выводы 29
10. Заключение 31
11. Список литературы 32
12. Приложение


С постоянным увеличением потоков информации, наполняющих сеть Интернет, всё более актуальной становится задача извлечения из единицы контента некоторой ключевой части, позволяющей с высокой точностью определить основную мысль данного текста. Эту ключевую часть обычно называют ключевой фразой (keyphrase).
С помощью ключевых фраз конечный пользователь может получить концентрированную и исчерпывающую информацию об основных мыслях или тематике того или иного текста. Такую задачу постоянно вынуждены решать поисковые системы, новостные аггрегаторы и ресурсы, анализирующие мнение пользователей социальных сетей по какому-либо вопросу. Существует множество видов контента, из которого можно извлечь ключевую часть: это могут быть веб-страницы, научные статьи, книги или даже фильмы. В данной работе будут рассмотрены методы извлечения ключевых фраз из коротких(объёмом до 140 символов) текстов, в частности постов, размещаемых в социальной сети Twitter.
В то время как методы извлечения ключевых фраз из текстов на английском языке достаточно глубоко изучены(как для текстов большого обьёма, так и для небольших текстов, например твитов), подобных исследований для русскоязычных текстов по-прежнему очень немного. Следует обратить внимание на то, что мы отделяем задачу извлечения ключевых фраз от таких задач как извлечение ключевых слов(на эту тему есть достаточно исследований для русского языка, например [2,4,6]), извлечения терминологии предметной области и задачи извлечения коллокаций(словосочетаний, имеющих признаки синтаксически и семантически целостной единичны).
Из-за ограничения на максимальное количество символов стандартные методы, подходящие для работы с текстами большого объема, могут показывать неудовлетворительные результаты на постах из Твиттера или подобных ему ресурсов.
Изложенные выше обстоятельства и побудили меня избрать темой выпускной квалификационной работы извлечение ключевых фраз из русскоязычных постов в социальных сетях, т.к данная тема в настоящее время представляет как коммерческий, так и научный интерес.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Как было заявлено во введении, задача извлечения ключевых слов и фраз из коротких текстов(наиболее распространённым примером которых являются записи, размещаемые в социальной сети ’’Твиттер”) становится с течением времени всё более актуальной. Данная исследование было проведено с целью изучения возможности применения наиболее передовых подходов, используемых для извлечения ключевых фраз из текстов на английском языке, для решения аналогичной задачи для русскоязычного контента.
По итогам выполнения работы были решены следующие задачи:
• Проанализирована литература в данной предметной области
• Исходя из условий выбраны наиболее подходящие инструменты для работы
• Разработана русскоязычная обучающая коллекция
• Реализованы алгоритмы извлечения ключевых фраз
• Алгоритмы протестированы и проведена оценка качества их работы
• Проанализированы полученные результаты
• По итогам проекта подготовлены соответствующие выводы
Результаты данной работы говорят о том, что описанный в [12] подход демонстрирует высокие результаты не только для английского, но и для русского языка. В связи с чем можно признать, что цели, поставленные в п.2 данной работы были выполнены в полном объёме, получены результаты, позволяющие опираться на них в дальнейших исследованиях данного вопроса.



[1] Брадис Н.В. Применение статистических методов выявления устойчивых словосочетаний в текстах на русском языке для извлечения ключевых фраз/ С.В Брадис, Д.А. Сытник // Глобальный научный потенциал. Информационные технологии в экономике, 2016, №11(68).
[2] Ванюшкин А.С. Методы и алгоритмы извлечения ключевых слов / А.С. Ванюшкин, Л.А. Гращенко //Новые информационные технологии в автоматизированных системах, 2016
[3] Попова С.В. Извлечение ключевых словосочетаний/ С.В. Попова, И.А. Ходырев // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2012, № 1 (77).
[4] Соколова. Е.В. Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA./ Е.В. Соколова, О.А. Митрофанова// Компьютерная лингвистика и вычислительные онтологии. Выпуск 1 (Труды XX Международной объединенной научной конференции «Интернет и современное общество», IMS-2017, Санкт-Петербург, 21-23 июня 2017 г. Сборник научных статей).
[5] Ю. В. Рубцова, Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), С.72-78.
[6] Шереметьева, С.О. Методы и модели автоматического извлечения ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ Серия «Лингвистика». - 2015. - Т 12, № 1. - С. 76-81.
[7] Mandic, D., Chambers, J. Recurrent Neural Networks for Prediction: Learning Algorithms, Architectures and Stability.
[8] Tomas Mikolov, Distributed Representations of Words and Phrases and their Compositionality / T Mikolov, I.Sutskever, K.Chen, G.Corrado, J.Dean// In Proceedings of NIPS.
[9] Salton, G., Buckley, C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, 1988, 24(5): 513—523
[10] Ilya Segalovich, A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA’03, June 23 - 26, 2003, Las Vegas, Nevada, USA
[11] Nils Schaetti, UniNE at CLEF 2017: TF-IDF and Deep-Learning for Author Profiling, Conference and Labs of the Evaluation Forum, Dublin, Ireland, September 11-14, 2017.
[12] Qi Zhang, Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter / Qi Zhang, Yang Wang, Yeyun Gong, Xuanjing Huang // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 836-845, Austin, Texas, November 1-5, 2016.
[13] Yabin Zheng, Automatic Keyphrase Extraction via Topic Decomposition / Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 366-376, MIT, Massachusetts, USA, 9-11 October 2010.
[14] Python 3.7.3 documentation - https://docs.python.Org/3/ - 3.7.3 Documentation


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ