ВВЕДЕНИЕ 3
Глава 1. ИЗУЧЕНИЕ ТЕХНОЛОГИЙ АНАЛИЗА ДАННЫХ И
ПОСТАНОВКА ЗАДАЧИ 4
1.1 Постановка задачи 7
1.2 Математическая постановка задачи 8
1.3 Выбор алгоритмов для обработки данных 10
1.4 Технологии для программной реализации обработки данных
ГЛАВА 2. Разработка модуля для анализа текстовых данных 16
2.1 Подготовка данных 16
2.2 Программная реализация обработки данных 23
Глава 3. Разработка визуализатора 30
3.1 Структура данных 30
3.2 Функционал приложения 31
3.2 Демонстрация работы приложения 36
ЗАКЛЮЧЕНИЕ 41
Список литературы 42
Приложение 1 44
Приложение 2 48
Приложение 3 51
Приложение 4
Главная задача интеллектуального анализа данных - выявление закономерностей и тенденций, существующих в данных. Обычно такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложны, или из-за чрезмерного объема данных.
Обширной областью данного направления является интеллектуальный анализ текстов, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка.
В рамках исследования анализу подвергаются квалификационные работы студентов для определения основных направлений исследования и тематики каждой работы. Необходимо провести анализ всех документов, чтобы сравнить содержимое с учебно-методическим комплексом.
Актуальность работы заключается в том, что полученные данные позволяют выявить наиболее распространенные тематики студенческих работ, выявить области исследования и определить, какие дисциплины наиболее популярны у студентов.
Целью данной работы является разработка информационной системы для интеллектуального анализа текстовых работ студентов и выявления значимости образовательных дисциплин в сравнении с учебно-методическим комплексом.
Для достижения цели были поставлены следующие задачи:
• изучение технологий для кластеризации текстовых данных и подходов к визуализации результатов
• разработка программного модуля для кластеризации текстовых документов
• разработка приложения для визуализации результатов обработки документов и анализа направлений обучения
В результате выполнения выпускной квалификационной работы были изучены технологии интеллектуального анализа текстов, а также подходы к визуализации результатов анализа. Рассмотрена задача выделения ключевых слов из текстовых документов, изучены особенности кластеризации многомерных данных.
Реализован программный модуль для извлечения ключевых слов и кластерного анализа на языке Python.
Разработано приложение для визуализации результатов анализа текста на языке C# с использованием технологии WPF.
Разработанная информационная система позволяет производить интеллектуальный анализ текстов квалификационных работ студентов, визуально оценивать кластерную структуру набора документов, предоставляет данные для анализа причин формирования кластеров и позволяет провести сравнение студенческих работ и файлов УМК по ключевым словам.
В ходе эксперимента было выявлено, что чаще всего работы одного направления находятся в одном кластере. В некоторых случаях, документы распределяются между несколькими соседними кластерами. При этом, ключевые слова документов, представленных в таких кластерах, так или иначе соответствуют тематикам, которые изучаются в рамках данного направления.
1. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / И.И. Холод, В.В. Степаненко, Куприянов М.С. - М.: БХВ-Петербург, 2007 - 384 с.
2. Мьятт, Г. Making Sense of Data I: A Practical Guide to Exploratory Data Analysis and Data Mining / Г. Мьятт, В. Джонсон - М.: Wiley, 2-е издание, 2014 - 248 с.
3. Маккини, У. Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython / У. Маккини - М.: O’Reilly Media, 2-е издание, 2017 - 550 с.
4. Макдональд, М. Pro WPF 4.5 in C#: Windows Presentation Foundation in .NET 4.5 / М. Макдональд - М.: Apress, 4-е издание, 2012 - 1078 с.
5. Document Clustering with Python http://brandonrose.org/clustering(Дата последнего обращения: 10.05.19).
6. Clustering - scikit-learn 0.21.2 documentation https://scikit- learn.org/stable/modules/clustering.htm(Дата последнего обращения: 29.05.19).
7. Tutorial: Extracting Keywords with TF-IDF and Python’s Scikit- Learn http ://kavita-ganesan.com/extracting-keywords-from-text-tfidf/ Dimensionality (Дата последнего обращения: 15.05.19).
8. Reduction - Zenwa | Python Machine Leatning Tutorials https://pythonmachinelearning.pro/dimensionality-reduction/(Дата последнего обращения: 28.05.19).
9. Python and Data Science
https://www.datasciencegraduateprograms.com/python/(Дата последнего обращения: 17.06.19)
10. Text Similarities : Estimate the degree of similarity between two texts https://medium.com/@adriensieg/text-similarities- da019229c894(Дата последнего обращения: 05.06.19)
11. Calculating Semantic Similarity between Academic Articles using Topic Event and Ontology / Минг Л., Бо Л., Зепенг Г. - State Key Laboratory of Software Development Environment, Beihang University, 2016 - 21 с.
12. gensim: models.word2vec - Word2vec embeddings https://radimrehurek.com/gensim/models/word2vec.html(Дата последнего обращения: 10.06.19)