Тема: Разработка метода извлечения ключевых фраз из постов социальной сети ’’Твиттер”
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
2. Постановка задачи 5
3. Обзор литературы 6
4. Выбор инструментов 8
4.1. Язык программирования и среда разработки 8
4.2. Фреймворк для машинного обучения 8
4.3. Инструменты для морфологического анализа 8
4.4. Векторное представление слов 8
4.5. Оценка качества извлечённых фраз 9
5. Разработка русскоязычной коллекции документов, размеченой ключевыми фразами 11
5.1. Поиск датасета 11
5.2. Очистка датасета 11
5.3. Имплементация алгоритма разметки датасета ключевыми фразами 12
5.4. Проверка автоматически извлечённых ключевых фраз 12
5.5. Обработка коллекции для получения тестовой и обучающей выборок 14
6. Извлечение ключевых фраз из твитов с помощью joint-layer neural networks 16
6.1. Общие сведения о нейронных сетях 16
6.2. Описание joint-layer neural networks 16
6.3. Обучение нейросети 18
6.4. Создание модели и обучение 18
6.5. Анализ результатов 19
7. Поиск путей усовершенствования алгоритма извлечения ключевых фраз с помощью joint-layer
neural networks 21
7.1. Расширение алгоритма для поиска нескольких ключевых фраз в одном твите 21
7.2. Выделение наиболее популярных хэштегов 23
7.3. Анализ результатов 25
8. Сравнение с другими методами 26
8.1. TF-IDF 26
8.2. Рекуррентные нейронные сети 27
8.3. Анализ результатов 28
9. Выводы 29
10. Заключение 31
11. Список литературы 32
12. Приложение
📖 Введение
С помощью ключевых фраз конечный пользователь может получить концентрированную и исчерпывающую информацию об основных мыслях или тематике того или иного текста. Такую задачу постоянно вынуждены решать поисковые системы, новостные аггрегаторы и ресурсы, анализирующие мнение пользователей социальных сетей по какому-либо вопросу. Существует множество видов контента, из которого можно извлечь ключевую часть: это могут быть веб-страницы, научные статьи, книги или даже фильмы. В данной работе будут рассмотрены методы извлечения ключевых фраз из коротких(объёмом до 140 символов) текстов, в частности постов, размещаемых в социальной сети Twitter.
В то время как методы извлечения ключевых фраз из текстов на английском языке достаточно глубоко изучены(как для текстов большого обьёма, так и для небольших текстов, например твитов), подобных исследований для русскоязычных текстов по-прежнему очень немного. Следует обратить внимание на то, что мы отделяем задачу извлечения ключевых фраз от таких задач как извлечение ключевых слов(на эту тему есть достаточно исследований для русского языка, например [2,4,6]), извлечения терминологии предметной области и задачи извлечения коллокаций(словосочетаний, имеющих признаки синтаксически и семантически целостной единицы).
Из-за ограничения на максимальное количество символов стандартные методы, подходящие для работы с текстами большого объема, могут показывать неудовлетворительные результаты на постах из Твиттера или подобных ему ресурсов.
Изложенные выше обстоятельства и побудили меня избрать темой выпускной квалификационной работы извлечение ключевых фраз из русскоязычных постов в социальных сетях, т.к данная тема в настоящее время представляет как коммерческий, так и научный интерес
✅ Заключение
По итогам выполнения работы были решены следующие задачи:
• Проанализирована литература в данной предметной области
• Исходя из условий выбраны наиболее подходящие инструменты для работы
• Разработана русскоязычная обучающая коллекция
• Реализованы алгоритмы извлечения ключевых фраз
• Алгоритмы протестированы и проведена оценка качества их работы
• Проанализированы полученные результаты
• По итогам проекта подготовлены соответствующие выводы
Результаты данной работы говорят о том, что описанный в [12] подход демонстрирует высокие результаты не только для английского, но и для русского языка. В связи с чем можно признать, что цели, поставленные в п.2 данной работы были выполнены в полном объёме, получены результаты, позволяющие опираться на них в дальнейших исследованиях данного вопроса.



