📄Работа №116179

Тема: Кластеризация и классификация текстовых данных с использованием технологий text mining

📝

Тип работы Бакалаврская работа

📚

Предмет Программирование

📄

Объем: 42 листов

📅

Год: 2022

👁️

4650 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Аннотация 2
Введение 5
1 Анализ методов кластеризации и классификации 7
1.1 Постановка задачи 7
1.2 Концепция машинного обучения 7
1.3 Определение больших данных в машинном обучении 10
1.4 Виды машинного обучения 13
1.5 Предварительная обработка текста 18
1.6 Математическая модель нейронных сетей 24
2 Разработка и реализация программных модулей 28
2.1 Выбранные технологии 28
2.2 Оценка «токсичности» текста 28
2.3 Обработка постов 30
2.4 Веб-приложение 31
3 Тестирование и отладка программных модулей 34
3.1 Демонстрационное приложение 34
3.2 Синтетические тесты 37
Заключение 40
Список используемой литературы 41

📖 Введение

Всё большее количество информации окружает нас в том числе в текстовом виде. При том всё больше технологий позволяет переводить аудио и видеоконтент в текст. Повсеместная распространённость и доступность интернета позволила людям по всему миру производить всё больше информации в огромнейших объёмах.
Такое количество производимой информации требует систематизации и анализа. Текст отлично подходит для анализа за относительную простоту хранения и обработки, но основная сложность заключается в анализе естественного языка. На помощь в решении данной задачи приходят технологии текст-майнинга (text mining).
Из общеизвестных примеров можно вспомнить социальные сети, количество постов, а значит и информации, в них растёт с каждой минутой. Она полностью соответствует критерием больших данных: большой объём, многообразие и высокая скорость генерации новых данных. По этой причине обрабатывать их вручную практически невозможно.
В такой и подобной ситуации на помощь приходят алгоритмы машинного обучения, которые можно разделить на “без учителя” - кластеризация, и “с учителем” - классификация, их и рассмотрим.
Целью данной квалификационной работы является изучение и анализ технологий текст-майнинга для кластеризации и классификации текстовых данных применимо к социальным сетям для классификации постов по эмоциональному признаку, а именно на предмет негативно окрашенных высказываний.
Для достижения указанной цели в работе необходимо решить следующие задачи:
• Провести анализ задач кластеризации и классификации текстовых данных, решаемых алгоритмами текст-майнинга;
• Провести анализ популярных алгоритмов для решения задач классификации текста;
• Подобрать материалы для тестового анализа;
• Рассмотреть и применить метод обработки естественного языка;
• Применение методов классификации для определения принадлежности к каждой из кластерных групп;
• Разработать иллюстрирующее приложение с использование веб-фреймворка Django.

✅ Заключение

В выпускной квалификационной работе были рассмотрены и проанализированы технологии кластеризации и классификации текстовых данных с применением text mining по отношению к социальным сетям для классификации постов по эмоциональному окрасу и выявлению негативно окрашенных текстов оскорбительного, навязчивого или угрожающего содержания.
В ходе работы был разработан метод анализа и кластеризации текста по эмоциональному окрасу, призванный помечать агрессивные и оскорбительные тексты. А также было разработано демонстрационное приложение для наглядного тестирования разработанного метода, также демонстрирующее возможности применения разработанного метода для автоматической модерации постов.
Метод и приложение были реализованы на современном языке программирования Python с использованием библиотеки PyTorch и веб-фреймворка Django, на основе нейронной сети BERT. Хранение данных осуществляется с помощью базы данных PostgeSQL. Данный метод может быть использован как часть крупного проекта или как отдельный микросервис. А для хранения данных может быть использована любая другая система управления базами данных.
Теоретический анализ литературы позволяет выделить перспективное направление разработки систем анализа текстов по эмоциональному окрасу. Эта работа будет полезна при создании нового социального пространства свободного от агрессивного общения и оскорблений.
А также сама работа представляет собой отличный опыт для меня как для будущего специалиста, благодаря современности и универсальности затронутых в ней технологий и методов. Опыт, полученный во время выполнения данной работы, может и будет применён в моей будущей профессиональной деятельности.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Барский. А. Б. Нейронные сети: распознавание, управление, принятие решений. М.: Финансы и статистика, 2007. 174 с.
2. Васильев А. Н., Тархов Д. А. Принципы и техника нейросетевого моделирования. Москва: Гостехиздат, 2015. 334 с.
3. Ваш первый BERT: иллюстрированное руководство. [Электронный ресурс] URL: https://habr.com/ru/post/498144/ (дата обращения 14.05.2022).
4. Вороновский Г. К., Махотило К. В., Петрашев С. Н., Сергеев С. А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. Х.: ОСНОВА, 1997. 112 c.
5. Галушкин А. И. Нейрокомпьютеры. Учебное пособие. М.: Альянс, 2014. 528 с.
6. Гелиг А. Х., Матвеев А. С. Введение в математическую теорию обучаемых распознающих систем и нейронных сетей. Учебное пособие: моногр. М.: Издательство СПбГУ, 2014. 224 c.
7. Дронов В. Django: практика создания Web-сайтов на Python М.: БХВ- Петербург, 2016. 707 c.
8. Заенцев И. В. Нейронные сети: основные модели. Воронеж: Изд-во Воронежского госуд. ун-та, 1999. 76 с.
9. Кластеризация и классификация больших Текстовых данных с помощью машинного обучения на Java. [Электронный ресурс] URL: https://habr.com/ru/post/526984/ (дата обращения 16.05.2022).
10. Клименко Р. Веб-мастеринг на 100%. М.: Питер, 2015. 614 c.
11. Круглов В. В., Борисов. В.В. Искусственные нейронные сети. Теория и практика. М.: Горячая линия - Телеком, 2002. 382 c.
12. Латыпова Р. Нейронные сети. М.: LAP Lambert Academic Publishing, 2012. 465 c.
13. Лутц М. Программирование на Python. Том 2. М.: Символ-плюс, 2013. 334 c.
14. Осовский. С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2004. 343 с.
15. Редько В. Г. Эволюция, нейронные сети, интеллект: Модели и концепции эволюционной кибернетики. Москва: Наука, 2017. 224 c.
...

🖼 Скриншоты

Содержание с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210473)

Статьи

»» Все статьи

Вход в личный кабинет