Тип работы:
Предмет:
Язык работы:


Кластеризация и классификация текстовых данных с использованием технологий text mining

Работа №116179

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы42
Год сдачи2022
Стоимость4650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
120
Не подходит работа?

Узнай цену на написание


Аннотация 2
Введение 5
1 Анализ методов кластеризации и классификации 7
1.1 Постановка задачи 7
1.2 Концепция машинного обучения 7
1.3 Определение больших данных в машинном обучении 10
1.4 Виды машинного обучения 13
1.5 Предварительная обработка текста 18
1.6 Математическая модель нейронных сетей 24
2 Разработка и реализация программных модулей 28
2.1 Выбранные технологии 28
2.2 Оценка «токсичности» текста 28
2.3 Обработка постов 30
2.4 Веб-приложение 31
3 Тестирование и отладка программных модулей 34
3.1 Демонстрационное приложение 34
3.2 Синтетические тесты 37
Заключение 40
Список используемой литературы 41

Всё большее количество информации окружает нас в том числе в текстовом виде. При том всё больше технологий позволяет переводить аудио и видеоконтент в текст. Повсеместная распространённость и доступность интернета позволила людям по всему миру производить всё больше информации в огромнейших объёмах.
Такое количество производимой информации требует систематизации и анализа. Текст отлично подходит для анализа за относительную простоту хранения и обработки, но основная сложность заключается в анализе естественного языка. На помощь в решении данной задачи приходят технологии текст-майнинга (text mining).
Из общеизвестных примеров можно вспомнить социальные сети, количество постов, а значит и информации, в них растёт с каждой минутой. Она полностью соответствует критерием больших данных: большой объём, многообразие и высокая скорость генерации новых данных. По этой причине обрабатывать их вручную практически невозможно.
В такой и подобной ситуации на помощь приходят алгоритмы машинного обучения, которые можно разделить на “без учителя” - кластеризация, и “с учителем” - классификация, их и рассмотрим.
Целью данной квалификационной работы является изучение и анализ технологий текст-майнинга для кластеризации и классификации текстовых данных применимо к социальным сетям для классификации постов по эмоциональному признаку, а именно на предмет негативно окрашенных высказываний.
Для достижения указанной цели в работе необходимо решить следующие задачи:
• Провести анализ задач кластеризации и классификации текстовых данных, решаемых алгоритмами текст-майнинга;
• Провести анализ популярных алгоритмов для решения задач классификации текста;
• Подобрать материалы для тестового анализа;
• Рассмотреть и применить метод обработки естественного языка;
• Применение методов классификации для определения принадлежности к каждой из кластерных групп;
• Разработать иллюстрирующее приложение с использование веб-фреймворка Django.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В выпускной квалификационной работе были рассмотрены и проанализированы технологии кластеризации и классификации текстовых данных с применением text mining по отношению к социальным сетям для классификации постов по эмоциональному окрасу и выявлению негативно окрашенных текстов оскорбительного, навязчивого или угрожающего содержания.
В ходе работы был разработан метод анализа и кластеризации текста по эмоциональному окрасу, призванный помечать агрессивные и оскорбительные тексты. А также было разработано демонстрационное приложение для наглядного тестирования разработанного метода, также демонстрирующее возможности применения разработанного метода для автоматической модерации постов.
Метод и приложение были реализованы на современном языке программирования Python с использованием библиотеки PyTorch и веб-фреймворка Django, на основе нейронной сети BERT. Хранение данных осуществляется с помощью базы данных PostgeSQL. Данный метод может быть использован как часть крупного проекта или как отдельный микросервис. А для хранения данных может быть использована любая другая система управления базами данных.
Теоретический анализ литературы позволяет выделить перспективное направление разработки систем анализа текстов по эмоциональному окрасу. Эта работа будет полезна при создании нового социального пространства свободного от агрессивного общения и оскорблений.
А также сама работа представляет собой отличный опыт для меня как для будущего специалиста, благодаря современности и универсальности затронутых в ней технологий и методов. Опыт, полученный во время выполнения данной работы, может и будет применён в моей будущей профессиональной деятельности.


1. Барский. А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2007. 174 с.
2. Васильев А. Н., Тархов Д. А. Принципы и техника нейросетевого моделирования. Москва: Гостехиздат, 2015. 334 с.
3. Ваш первый BERT: иллюстрированное руководство. [Электронный ресурс] URL: https://habr.com/ru/post/498144/ (дата обращения 14.05.2022).
4. Вороновский Г. К., Махотило К. В., Петрашев С. Н., Сергеев С. А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. Х.: ОСНОВА, 1997. 112 c.
5. Галушкин А. И. Нейрокомпьютеры. Учебное пособие. М.: Альянс, 2014. 528 с.
6. Гелиг А. Х., Матвеев А. С. Введение в математическую теорию обучаемых распознающих систем и нейронных сетей. Учебное пособие: моногр. М.: Издательство СПбГУ, 2014. 224 c.
7. Дронов В. Django: практика создания Web-сайтов на Python М.: БХВ- Петербург, 2016. 707 c.
8. Заенцев И. В. Нейронные сети: основные модели. Воронеж: Изд-во Воронежского госуд. ун-та, 1999. 76 с.
9. Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. [Электронный ресурс] URL: https://habr.com/ru/post/526984/ (дата обращения 16.05.2022).
10. Клименко Р. Веб-мастеринг на 100%. М.: Питер, 2015. 614 c.
11. Круглов В. В., Борисов. В.В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия - Телеком, 2002. 382 c.
12. Латыпова Р. Нейронные сети. М.: LAP Lambert Academic Publishing, 2012. 465 c.
13. Лутц М. Программирование на Python. Том 2. М.: Символ-плюс, 2013. 334 c.
14. Осовский. С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2004. 343 с.
15. Редько В. Г. Эволюция, нейронные сети, интеллект: Модели и концепции эволюционной кибернетики. Москва: Наука, 2017. 224 c.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ