Аннотация 2
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных 35
3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
В настоящее многие организации осознали пользу от внедрения аналитических инструментов для поддержки принятия решений.
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
Предметом исследования бакалаврской работы является применение алгоритмов интеллектуального анализа текстовых данных.
Целью выпускной квалификационной работы является исследование особенностей практического применения алгоритмов интеллектуального анализа для повышения качества анализа текстовых данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• провести анализ методов и алгоритмов интеллектуального анализа текстовых данных;
• исследовать особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах;
• разработать и протестировать программу, реализующую алгоритмы интеллектуального анализа текстовых данных.
Методы исследования - текстовая аналитика, Text Mining, методы и технологии проектирования программного обеспечения.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей эффективные алгоритмы интеллектуального анализа текстовых данных.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
Первая глава посвящена обзору и анализу методов и алгоритмов интеллектуального анализа текстовых данных.
Во второй главе проанализированы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах.
В третьей главе описан процесс разработки и тестирования программы, реализующей алгоритмы интеллектуального анализа текстовых данных.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 46 страниц текста, 15 рисунков, 1 таблицы и 24 источников.
Выпускная квалификационная работа посвящена проблеме исследования особенностей практического применения алгоритмов интеллектуального анализа для повышения качества анализа текстовых данных.
В процессе работы над ВКР решены следующие задачи:
• проведен анализ методов и алгоритмов интеллектуального анализа текстовых данных. Отмечено, что методы интеллектуального анализа текстовых данных относятся к области обработки естественного языка - NLP. Проанализированы методы токенизации, TF-IDF, стемминга,и лемматизации и стоп-листинга. Описаны области применения каждого метода, его достоинства и недостатки;
• исследованы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах. Описаны характеристики алгоритмов BPE, TF-IDF, WordNet и кластеризации текстовых документов;
• разработана и протестирована программа, реализующая алгоритмы интеллектуального анализа текстовых данных. Как показал анализ, наилучшими характеристиками для разработки программ на языке Python обладает IDE Eclipse+PyDEv. С помощью библиотеки NLTK разработаны программные коды алгоритмов токенизации подсчета слов в тексте. Тестирование подтвердило работоспособность разработанной программы и правильность реализации алгоритмов интеллектуального анализа текстовых данных.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для бизнес-аналитиков и разработчиков программ, использующих для принятия управленческих решений методы и алгоритмы интеллектуального анализа текстовых данных.
1. Бахтин А.В. Алгоритмы извлечения из неструктурированных текстовых источников метаинформации о научно-технических конференциях. М: МГУ [Электронный ресурс]. URL: https: //www. hse. ru/data/2015/06/07/1097438594/presentation_cfp. pdf (дата обращения: 10.06.2021).
2. Библиотека NTLK [Электронный ресурс]. URL: http://www.nltk.org/ (дата обращения: 10.06.2021).
3. ВКонтакте опубликовали библиотеку для предобработки текстовых данных [Электронный ресурс]. URL: https://neurohive.io/ru/novosti/vkontakte- opublikovali-biblioteku-dlya-predobrabotki-tekstovyh-dannyh/ (дата обращения: 10.06.2021).
4. Кластеризация и классификация больших текстовых данных с помощью машинного обучения на Java [Электронный ресурс]. URL: https://itnan.ru/post.php?c=1&p=529548 (дата обращения: 10.06.2021).
5. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide-orientation?view=vs- 2019 (дата обращения: 10.06.2021).
6. Ле Мань Ха. Оптимизация алгоритма KNN для классификации // ТРУДЫ МФТИ. 2016. Том 8, № 1. С. 92-94.
7. Левенштейн В.И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. АН СССР. 1965. 163 (4). C. 845-848.
8. Метод TF-IDF [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/TF-IDF (дата обращения: 10.06.2021).
9. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации. Вестник РГРТУ. 2018. № 64. С. 74-82.
10. Самуйлов С. В. Алгоритмы и структуры обработки данных : учебное пособие. Саратов : Вузовское образование, 2016. 132 с. [Электронный ресурс]. URL: https://www.iprbookshop.ru/47275.html (дата обращения: 12.06.2021).
11. Что такое «текстовая аналитика»? [Электронный ресурс]. URL: https://www.megaputer.com/ru/what-is-text-analytics/ (дата обращения: 10.06.2021).
12. B. Bhatt, S. Kunnath, P. Bhattacharyya. Graph Based Algorithm for Automatic Domain Segmentation of WordNet, Center for Indian Language Technology Indian Institute of Technology Bombay Mumbai, India, 2014.
13. Eclipse IDE [Электронный ресурс]. URL: https://www.eclipse.org/eclipseide/ (дата обращения: 10.06.2021).
14. EM кластеризация [Электронный ресурс]. URL: https://basegroup.ru/deductor/function/algorithm/em-clustering (дата обращения: 10.06.2021).
15. K-Nearest Neighbors Algorithm for Machine Learning [Электронный ресурс]. URL: https://medium.com/capital-one-tech/k-nearest-neighbors-knn-algorithm-for-machine-learning-e883219c8f26 (дата обращения: 10.06.2021).
...