1. Введение 4
2. Постановка задачи 5
3. Обзор литературы 6
4. Выбор инструментов 8
4.1. Язык программирования и среда разработки 8
4.2. Фреймворк для машинного обучения 8
4.3. Инструменты для морфологического анализа 8
4.4. Векторное представление слов 8
4.5. Оценка качества извлечённых фраз 9
5. Разработка русскоязычной коллекции документов, размеченой ключевыми фразами 11
5.1. Поиск датасета 11
5.2. Очистка датасета 11
5.3. Имплементация алгоритма разметки датасета ключевыми фразами 12
5.4. Проверка автоматически извлечённых ключевых фраз 12
5.5. Обработка коллекции для получения тестовой и обучающей выборок 14
6. Извлечение ключевых фраз из твитов с помощью joint-layer neural networks 16
6.1. Общие сведения о нейронных сетях 16
6.2. Описание joint-layer neural networks 16
6.3. Обучение нейросети 18
6.4. Создание модели и обучение 18
6.5. Анализ результатов 19
7. Поиск путей усовершенствования алгоритма извлечения ключевых фраз с помощью joint-layer
neural networks 21
7.1. Расширение алгоритма для поиска нескольких ключевых фраз в одном твите 21
7.2. Выделение наиболее популярных хэштегов 23
7.3. Анализ результатов 25
8. Сравнение с другими методами 26
8.1. TF-IDF 26
8.2. Рекуррентные нейронные сети 27
8.3. Анализ результатов 28
9. Выводы 29
10. Заключение 31
11. Список литературы 32
12. Приложение
С постоянным увеличением потоков информации, наполняющих сеть Интернет, всё более актуальной становится задача извлечения из единицы контента некоторой ключевой части, позволяющей с высокой точностью определить основную мысль данного текста. Эту ключевую часть обычно называют ключевой фразой (keyphrase).
С помощью ключевых фраз конечный пользователь может получить концентрированную и исчерпывающую информацию об основных мыслях или тематике того или иного текста. Такую задачу постоянно вынуждены решать поисковые системы, новостные аггрегаторы и ресурсы, анализирующие мнение пользователей социальных сетей по какому-либо вопросу. Существует множество видов контента, из которого можно извлечь ключевую часть: это могут быть веб-страницы, научные статьи, книги или даже фильмы. В данной работе будут рассмотрены методы извлечения ключевых фраз из коротких(объёмом до 140 символов) текстов, в частности постов, размещаемых в социальной сети Twitter.
В то время как методы извлечения ключевых фраз из текстов на английском языке достаточно глубоко изучены(как для текстов большого обьёма, так и для небольших текстов, например твитов), подобных исследований для русскоязычных текстов по-прежнему очень немного. Следует обратить внимание на то, что мы отделяем задачу извлечения ключевых фраз от таких задач как извлечение ключевых слов(на эту тему есть достаточно исследований для русского языка, например [2,4,6]), извлечения терминологии предметной области и задачи извлечения коллокаций(словосочетаний, имеющих признаки синтаксически и семантически целостной единичны).
Из-за ограничения на максимальное количество символов стандартные методы, подходящие для работы с текстами большого объема, могут показывать неудовлетворительные результаты на постах из Твиттера или подобных ему ресурсов.
Изложенные выше обстоятельства и побудили меня избрать темой выпускной квалификационной работы извлечение ключевых фраз из русскоязычных постов в социальных сетях, т.к данная тема в настоящее время представляет как коммерческий, так и научный интерес.
Как было заявлено во введении, задача извлечения ключевых слов и фраз из коротких текстов(наиболее распространённым примером которых являются записи, размещаемые в социальной сети ’’Твиттер”) становится с течением времени всё более актуальной. Данная исследование было проведено с целью изучения возможности применения наиболее передовых подходов, используемых для извлечения ключевых фраз из текстов на английском языке, для решения аналогичной задачи для русскоязычного контента.
По итогам выполнения работы были решены следующие задачи:
• Проанализирована литература в данной предметной области
• Исходя из условий выбраны наиболее подходящие инструменты для работы
• Разработана русскоязычная обучающая коллекция
• Реализованы алгоритмы извлечения ключевых фраз
• Алгоритмы протестированы и проведена оценка качества их работы
• Проанализированы полученные результаты
• По итогам проекта подготовлены соответствующие выводы
Результаты данной работы говорят о том, что описанный в [12] подход демонстрирует высокие результаты не только для английского, но и для русского языка. В связи с чем можно признать, что цели, поставленные в п.2 данной работы были выполнены в полном объёме, получены результаты, позволяющие опираться на них в дальнейших исследованиях данного вопроса.