Тема: Кластеризация и классификация текстовых данных с использованием технологий text mining
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 5
1 Анализ методов кластеризации и классификации 7
1.1 Постановка задачи 7
1.2 Концепция машинного обучения 7
1.3 Определение больших данных в машинном обучении 10
1.4 Виды машинного обучения 13
1.5 Предварительная обработка текста 18
1.6 Математическая модель нейронных сетей 24
2 Разработка и реализация программных модулей 28
2.1 Выбранные технологии 28
2.2 Оценка «токсичности» текста 28
2.3 Обработка постов 30
2.4 Веб-приложение 31
3 Тестирование и отладка программных модулей 34
3.1 Демонстрационное приложение 34
3.2 Синтетические тесты 37
Заключение 40
Список используемой литературы 41
📖 Введение
Такое количество производимой информации требует систематизации и анализа. Текст отлично подходит для анализа за относительную простоту хранения и обработки, но основная сложность заключается в анализе естественного языка. На помощь в решении данной задачи приходят технологии текст-майнинга (text mining).
Из общеизвестных примеров можно вспомнить социальные сети, количество постов, а значит и информации, в них растёт с каждой минутой. Она полностью соответствует критерием больших данных: большой объём, многообразие и высокая скорость генерации новых данных. По этой причине обрабатывать их вручную практически невозможно.
В такой и подобной ситуации на помощь приходят алгоритмы машинного обучения, которые можно разделить на “без учителя” - кластеризация, и “с учителем” - классификация, их и рассмотрим.
Целью данной квалификационной работы является изучение и анализ технологий текст-майнинга для кластеризации и классификации текстовых данных применимо к социальным сетям для классификации постов по эмоциональному признаку, а именно на предмет негативно окрашенных высказываний.
Для достижения указанной цели в работе необходимо решить следующие задачи:
• Провести анализ задач кластеризации и классификации текстовых данных, решаемых алгоритмами текст-майнинга;
• Провести анализ популярных алгоритмов для решения задач классификации текста;
• Подобрать материалы для тестового анализа;
• Рассмотреть и применить метод обработки естественного языка;
• Применение методов классификации для определения принадлежности к каждой из кластерных групп;
• Разработать иллюстрирующее приложение с использование веб-фреймворка Django.
✅ Заключение
В ходе работы был разработан метод анализа и кластеризации текста по эмоциональному окрасу, призванный помечать агрессивные и оскорбительные тексты. А также было разработано демонстрационное приложение для наглядного тестирования разработанного метода, также демонстрирующее возможности применения разработанного метода для автоматической модерации постов.
Метод и приложение были реализованы на современном языке программирования Python с использованием библиотеки PyTorch и веб-фреймворка Django, на основе нейронной сети BERT. Хранение данных осуществляется с помощью базы данных PostgeSQL. Данный метод может быть использован как часть крупного проекта или как отдельный микросервис. А для хранения данных может быть использована любая другая система управления базами данных.
Теоретический анализ литературы позволяет выделить перспективное направление разработки систем анализа текстов по эмоциональному окрасу. Эта работа будет полезна при создании нового социального пространства свободного от агрессивного общения и оскорблений.
А также сама работа представляет собой отличный опыт для меня как для будущего специалиста, благодаря современности и универсальности затронутых в ней технологий и методов. Опыт, полученный во время выполнения данной работы, может и будет применён в моей будущей профессиональной деятельности.





