📄Работа №130557

Тема: Разработка метода извлечения ключевых фраз из постов социальной сети ”Твиттер”

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Математика

📄

Объем: 34 листов

📅

Год: 2019

👁️

4700 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

1. Введение 4
2. Постановка задачи 5
3. Обзор литературы 6
4. Выбор инструментов 8
4.1. Язык программирования и среда разработки 8
4.2. Фреймворк для машинного обучения 8
4.3. Инструменты для морфологического анализа 8
4.4. Векторное представление слов 8
4.5. Оценка качества извлечённых фраз 9
5. Разработка русскоязычной коллекции документов, размеченой ключевыми фразами 11
5.1. Поиск датасета 11
5.2. Очистка датасета 11
5.3. Имплементация алгоритма разметки датасета ключевыми фразами 12
5.4. Проверка автоматически извлечённых ключевых фраз 12
5.5. Обработка коллекции для получения тестовой и обучающей выборок 14
6. Извлечение ключевых фраз из твитов с помощью joint-layer neural networks 16
6.1. Общие сведения о нейронных сетях 16
6.2. Описание joint-layer neural networks 16
6.3. Обучение нейросети 18
6.4. Создание модели и обучение 18
6.5. Анализ результатов 19
7. Поиск путей усовершенствования алгоритма извлечения ключевых фраз с помощью joint-layer
neural networks 21
7.1. Расширение алгоритма для поиска нескольких ключевых фраз в одном твите 21
7.2. Выделение наиболее популярных хэштегов 23
7.3. Анализ результатов 25
8. Сравнение с другими методами 26
8.1. TF-IDF 26
8.2. Рекуррентные нейронные сети 27
8.3. Анализ результатов 28
9. Выводы 29
10. Заключение 31
11. Список литературы 32
12. Приложение

📖 Введение

С постоянным увеличением потоков информации, наполняющих сеть Интернет, всё более актуальной становится задача извлечения из единицы контента некоторой ключевой части, позволяющей с высокой точностью определить основную мысль данного текста. Эту ключевую часть обычно называют ключевой фразой (keyphrase).
С помощью ключевых фраз конечный пользователь может получить концентрированную и исчерпывающую информацию об основных мыслях или тематике того или иного текста. Такую задачу постоянно вынуждены решать поисковые системы, новостные аггрегаторы и ресурсы, анализирующие мнение пользователей социальных сетей по какому-либо вопросу. Существует множество видов контента, из которого можно извлечь ключевую часть: это могут быть веб-страницы, научные статьи, книги или даже фильмы. В данной работе будут рассмотрены методы извлечения ключевых фраз из коротких(объёмом до 140 символов) текстов, в частности постов, размещаемых в социальной сети Twitter.
В то время как методы извлечения ключевых фраз из текстов на английском языке достаточно глубоко изучены(как для текстов большого обьёма, так и для небольших текстов, например твитов), подобных исследований для русскоязычных текстов по-прежнему очень немного. Следует обратить внимание на то, что мы отделяем задачу извлечения ключевых фраз от таких задач как извлечение ключевых слов(на эту тему есть достаточно исследований для русского языка, например [2,4,6]), извлечения терминологии предметной области и задачи извлечения коллокаций(словосочетаний, имеющих признаки синтаксически и семантически целостной единичны).
Из-за ограничения на максимальное количество символов стандартные методы, подходящие для работы с текстами большого объема, могут показывать неудовлетворительные результаты на постах из Твиттера или подобных ему ресурсов.
Изложенные выше обстоятельства и побудили меня избрать темой выпускной квалификационной работы извлечение ключевых фраз из русскоязычных постов в социальных сетях, т.к данная тема в настоящее время представляет как коммерческий, так и научный интерес.

✅ Заключение

Как было заявлено во введении, задача извлечения ключевых слов и фраз из коротких текстов(наиболее распространённым примером которых являются записи, размещаемые в социальной сети ’’Твиттер”) становится с течением времени всё более актуальной. Данная исследование было проведено с целью изучения возможности применения наиболее передовых подходов, используемых для извлечения ключевых фраз из текстов на английском языке, для решения аналогичной задачи для русскоязычного контента.
По итогам выполнения работы были решены следующие задачи:
• Проанализирована литература в данной предметной области
• Исходя из условий выбраны наиболее подходящие инструменты для работы
• Разработана русскоязычная обучающая коллекция
• Реализованы алгоритмы извлечения ключевых фраз
• Алгоритмы протестированы и проведена оценка качества их работы
• Проанализированы полученные результаты
• По итогам проекта подготовлены соответствующие выводы
Результаты данной работы говорят о том, что описанный в [12] подход демонстрирует высокие результаты не только для английского, но и для русского языка. В связи с чем можно признать, что цели, поставленные в п.2 данной работы были выполнены в полном объёме, получены результаты, позволяющие опираться на них в дальнейших исследованиях данного вопроса.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Брадис Н.В. Применение статистических методов выявления устойчивых словосочетаний в текстах на русском языке для извлечения ключевых фраз/ С.В Брадис, Д.А. Сытник // Глобальный научный потенциал. Информационные технологии в экономике, 2016, №11(68).
[2] Ванюшкин А.С. Методы и алгоритмы извлечения ключевых слов / А.С. Ванюшкин, Л.А. Гращенко //Новые информационные технологии в автоматизированных системах, 2016
[3] Попова С.В. Извлечение ключевых словосочетаний/ С.В. Попова, И.А. Ходырев // Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2012, № 1 (77).
[4] Соколова. Е.В. Автоматическое извлечение ключевых слов и словосочетаний из русскоязычных текстов с помощью алгоритма KEA./ Е.В. Соколова, О.А. Митрофанова// Компьютерная лингвистика и вычислительные онтологии. Выпуск 1 (Труды XX Международной объединенной научной конференции «Интернет и современное общество», IMS-2017, Санкт-Петербург, 21-23 июня 2017 г. Сборник научных статей).
[5] Ю. В. Рубцова, Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), С.72-78.
[6] Шереметьева, С.О. Методы и модели автоматического извлечения ключевых слов / С.О. Шереметьева, П.Г. Осминин // Вестник ЮУрГУ Серия «Лингвистика». - 2015. - Т 12, № 1. - С. 76-81.
[7] Mandic, D., Chambers, J. Recurrent Neural Networks for Prediction: Learning Algorithms, Architectures and Stability.
[8] Tomas Mikolov, Distributed Representations of Words and Phrases and their Compositionality / T Mikolov, I.Sutskever, K.Chen, G.Corrado, J.Dean// In Proceedings of NIPS.
[9] Salton, G., Buckley, C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, 1988, 24(5): 513—523
[10] Ilya Segalovich, A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA’03, June 23 - 26, 2003, Las Vegas, Nevada, USA
[11] Nils Schaetti, UniNE at CLEF 2017: TF-IDF and Deep-Learning for Author Profiling, Conference and Labs of the Evaluation Forum, Dublin, Ireland, September 11-14, 2017.
[12] Qi Zhang, Keyphrase Extraction Using Deep Recurrent Neural Networks on Twitter / Qi Zhang, Yang Wang, Yeyun Gong, Xuanjing Huang // Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 836-845, Austin, Texas, November 1-5, 2016.
[13] Yabin Zheng, Automatic Keyphrase Extraction via Topic Decomposition / Zhiyuan Liu, Wenyi Huang, Yabin Zheng, Maosong Sun // Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 366-376, MIT, Massachusetts, USA, 9-11 October 2010.
[14] Python 3.7.3 documentation - https://docs.python.Org/3/ - 3.7.3 Documentation

🖼 Скриншоты

Выдержки из бакалаврской работы – Разработка метода извлечения ключевых фраз из постов социальной сети ”Твиттер”

Содержание бакалаврской работы – Разработка метода извлечения ключевых фраз из постов социальной сети ”Твиттер”

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211139)

Статьи

»» Все статьи

Вход в личный кабинет