Тема: АВТОМАТИЧЕСКОЕ ВЫДЕЛЕНИЕ НОВОСТНЫХ СООБЩЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ С ПОМОЩЬЮ ПРОГРАММЫ WEKA
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Машинное обучение в прикладной лингвистике 7
1.1. Общие принципы машинного обучения 7
1.2. Наивный байесовский классификатор 9
1.3. Использование машинного обучения для автоматического анализа
сообщений 10
1.4. Выводы к главе 1 14
Глава 2. Автоматическое выделение новостных сообщений в социальной сети
Twitter 15
2.1. Общее описание эксперимента 15
2.2. Создание обучающей и тестовой выборки 16
2.2.1. Сбор данных 16
2.2.2. Предварительная обработка данных 17
2.3. Обработка данных с помощью программы Weka 18
2.4. Анализ с помощью структурных признаков 19
2.5. Анализ с помощью морфологической информации 23
2.6. Анализ с помощью структурных признаков и морфологической
информации 25
2.7. Анализ с помощью векторных представлений текстов 26
2.8. Анализ с помощью объединенного набора признаков 29
2.9. Сравнение результатов 30
2.10. Выводы к главе 2 31
Заключение 33
Список литературы 35
Приложения 40
Приложение 1. Примеры новостных текстов 40
Приложение 2. Примеры текстов личного характера 41
Приложение 3. Алгоритм выделения количества упоминаний и хэштегов, наличия ссылок в текстах 42
Приложение 4. Алгоритм выделения текстов, содержащих глаголы и имена
собственные 44
Приложение 5. Алгоритм объединения файлов с признаками, использованными на первом и втором этапах анализа 47
Приложение 6. Алгоритм удаления ссылок, имен пользователей и символов хэштега из текстов, записи в файл лемматизированных текстов и объединенного набора признаков 48
📖 Введение
Технологии машинного обучения широко используются в различных целях, к примеру, в маркетинговых исследованиях, в медицине, в робототехнике. Их применение возможно в тех областях, где необходима эффективная автоматическая обработка больших массивов эмпирических данных.
Машинное обучение все чаще используется и для решения задач компьютерной лингвистики. В круг таких задач входят машинный перевод, определение тональности (эмоциональной окраски) текстов, морфологический анализ, автоматическая рубрикация текстов, распознавание речи.
В данной работе исследуется возможность использования алгоритмов машинного обучения для автоматического выделения новостных текстов в социальных сетях. С этой целью анализируется массив текстов на русском языке, для которого создается признаковое описание. К полученному массиву описанных по выбранной модели текстов применяется алгоритм машинного обучения. Проверка результатов построения модели по данным проводится с помощью массива ранее не анализировавшихся данных. Результаты работы модели на этих данных сравниваются с информацией об истинной принадлежности текстов классу новостных или личных сообщений. Этот процесс повторяется несколько раз с использованием различных моделей признакового описания текстов, что позволяет выявить лучший набор признаков для классификации сообщений.
Цель работы - сравнительный анализ различных моделей формального признакового описания русскоязычных текстов для выделения новостных сообщений в социальных сетях из общего массива сообщений.
Для достижения этой цели выполняются несколько задач:
• изучение принципов машинного обучения;
• сбор данных, создание тестовой и обучающей выборки;
• разработка алгоритма классификации:
о настройка ПО Weka для работы с русскоязычными текстами, о описание текстов при помощи различных наборов признаков, о преобразование данных в нужный для классификации в Weka формат,
о обучение модели,
о классификация контрольной выборки при помощи построенной
модели,
• оценка результатов классификации.
Материал для исследования - случайная выборка из 1348 коротких текстов на русском языке. Тексты были собраны в социальной сети Twitter при помощи программы Webometric Analyst и затем обработаны. В наборы признаков, использованные на разных этапах работы, вошли векторные представления нелеммати- зированных и лемматизированных текстов, упоминания автором твита профилей других пользователей социальной сети, хэштеги, ссылки в тексте сообщения, а также наличие в сообщении глаголов и имен собственных.
Использованный алгоритм машинного обучения - наивный байесовский классификатор. Он был выбран как достаточно простой, но в то же время эффективный для признаковых пространств большой размерности способ построения обучаемой модели.
Актуальность работы связана с интенсивным развитием использования методов машинного обучения в автоматической обработке текстов, в том числе текстов из социальных сетей, которые становятся все более значимым источником информации о происходящих в мире событиях.
Практическая значимость проделанной работы обусловлена возможностью дальнейшего использования разработанных алгоритмов определения признаков твитов, а также опыта применения ПО Weka для классификации русскоязычных текстов. Полученные модели могут использоваться в качестве первой ступени агрегации новостей в социальной сети Twitter.
✅ Заключение
Для исследования при помощи программы Webometric Analyst был собран массив твитов на русском языке. После предварительной обработки текстов была сформирована выборка из 1348 сообщений (898 сообщений личного характера и 450 новостей).
На языке программирования Python 3 были реализованы алгоритмы выделения различных наборов признаков текстов. На разных этапах было использовано 5 наборов признаков:
1. упоминания пользователей, хэштеги и ссылки в твитах;
2. глаголы и имена собственные в твитах;
3. упоминания, хэштеги, ссылки + глаголы, имена собственные;
4. тексты твитов, преобразованные в векторный формат;
5. тексты твитов, очищенные от ссылок и упоминаний, лемматизированные
при помощи морфологического анализатора MyStem и затем
преобразованные в векторный формат, вместе с информацией об упоминаниях, хэштегах, ссылках, глаголах и именах собственных в исходном тексте твита.
Программа Weka была настроена для работы с русскоязычными текстами (рабочая кодировка изменена на UTF-8, увеличен объем выделяемой на работу программы памяти). Была сформирована обучающая выборка из 899 твитов (599 личных и 300 новостных текстов) и тестовая выборка из 449 твитов (299 личных и 150 новостных текстов). При загрузке в программу Weka типы данных были приведены к нужным при помощи встроенных фильтров, все данные были сохранены в формате .arff. Для классификации был применен наивный байесовский классификатор. Модель проходила обучение на обучающей выборке, эффективность оценивалась по результатам классификации тестовой выборки.
Полнота и точность классификации последовательно улучшалась при использовании более сложных комбинаций признаков. Классификация по количеству упоминаний и хэштегов и наличию ссылок в тексте показала результат в 69,3% верно классифицированных объектов тестовой выборки, но полнота классификации новостных твитов составила лишь 0,213, т.е. для распознавания новостей этих признаков было недостаточно. Использование информации о наличии глаголов и имен собственных позволило увеличить полноту классификации новостей до 0,647, а одновременное использование пяти признаков - до 0,693, причем F-мера стала равна 0,756, и 85% объектов тестовой выборки было верно классифицировано. При классификации по векторным представлениям текстов в исходном виде F-мера полноты и точности для личных и новостных твитов составила 0,917 и 0,859 соответственно. После удаления из текстов лишней информации, лемматизации и добавления признаков из первого и второго набора удалось достичь увеличения F-меры для личных и новостных твитов до 0,955 и 0,908 соответственно. Верно классифицированы были 93,99% объектов тестовой выборки.
Эти результаты позволяют сделать вывод, что алгоритмы машинного обучения и, в частности, наивный байесовский классификатор могут быть с успехом использованы для выделения новостей из массива твитов на русском языке. Одновременное использование различных типов признаков позволяет достичь наилучших результатов.





