Тема: Разработка информационной системы по определению тематики текста с использованием алгоритмов кластеризации
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. ИЗУЧЕНИЕ ТЕХНОЛОГИЙ АНАЛИЗА ДАННЫХ И
ПОСТАНОВКА ЗАДАЧИ 4
1.1 Постановка задачи 7
1.2 Математическая постановка задачи 8
1.3 Выбор алгоритмов для обработки данных 10
1.4 Технологии для программной реализации обработки данных
ГЛАВА 2. Разработка модуля для анализа текстовых данных 16
2.1 Подготовка данных 16
2.2 Программная реализация обработки данных 23
Глава 3. Разработка визуализатора 30
3.1 Структура данных 30
3.2 Функционал приложения 31
3.2 Демонстрация работы приложения 36
ЗАКЛЮЧЕНИЕ 41
Список литературы 42
Приложение 1 44
Приложение 2 48
Приложение 3 51
Приложение 4
📖 Введение
Обширной областью данного направления является интеллектуальный анализ текстов, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка.
В рамках исследования анализу подвергаются квалификационные работы студентов для определения основных направлений исследования и тематики каждой работы. Необходимо провести анализ всех документов, чтобы сравнить содержимое с учебно-методическим комплексом.
Актуальность работы заключается в том, что полученные данные позволяют выявить наиболее распространенные тематики студенческих работ, выявить области исследования и определить, какие дисциплины наиболее популярны у студентов.
Целью данной работы является разработка информационной системы для интеллектуального анализа текстовых работ студентов и выявления значимости образовательных дисциплин в сравнении с учебно-методическим комплексом.
Для достижения цели были поставлены следующие задачи:
• изучение технологий для кластеризации текстовых данных и подходов к визуализации результатов
• разработка программного модуля для кластеризации текстовых документов
• разработка приложения для визуализации результатов обработки документов и анализа направлений обучения
✅ Заключение
Реализован программный модуль для извлечения ключевых слов и кластерного анализа на языке Python.
Разработано приложение для визуализации результатов анализа текста на языке C# с использованием технологии WPF.
Разработанная информационная система позволяет производить интеллектуальный анализ текстов квалификационных работ студентов, визуально оценивать кластерную структуру набора документов, предоставляет данные для анализа причин формирования кластеров и позволяет провести сравнение студенческих работ и файлов УМК по ключевым словам.
В ходе эксперимента было выявлено, что чаще всего работы одного направления находятся в одном кластере. В некоторых случаях, документы распределяются между несколькими соседними кластерами. При этом, ключевые слова документов, представленных в таких кластерах, так или иначе соответствуют тематикам, которые изучаются в рамках данного направления.



