Тема: Применение алгоритмов интеллектуального анализа текстовых данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных 35
3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
📖 Введение
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
Предметом исследования бакалаврской работы является применение алгоритмов интеллектуального анализа текстовых данных.
Целью выпускной квалификационной работы является исследование особенностей практического применения алгоритмов интеллектуального анализа для повышения качества анализа текстовых данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• провести анализ методов и алгоритмов интеллектуального анализа текстовых данных;
• исследовать особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах;
• разработать и протестировать программу, реализующую алгоритмы интеллектуального анализа текстовых данных.
Методы исследования - текстовая аналитика, Text Mining, методы и технологии проектирования программного обеспечения.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей эффективные алгоритмы интеллектуального анализа текстовых данных.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
Первая глава посвящена обзору и анализу методов и алгоритмов интеллектуального анализа текстовых данных.
Во второй главе проанализированы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах.
В третьей главе описан процесс разработки и тестирования программы, реализующей алгоритмы интеллектуального анализа текстовых данных.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 46 страниц текста, 15 рисунков, 1 таблицы и 24 источников.
✅ Заключение
В процессе работы над ВКР решены следующие задачи:
• проведен анализ методов и алгоритмов интеллектуального анализа текстовых данных. Отмечено, что методы интеллектуального анализа текстовых данных относятся к области обработки естественного языка - NLP. Проанализированы методы токенизации, TF-IDF, стемминга,и лемматизации и стоп-листинга. Описаны области применения каждого метода, его достоинства и недостатки;
• исследованы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах. Описаны характеристики алгоритмов BPE, TF-IDF, WordNet и кластеризации текстовых документов;
• разработана и протестирована программа, реализующая алгоритмы интеллектуального анализа текстовых данных. Как показал анализ, наилучшими характеристиками для разработки программ на языке Python обладает IDE Eclipse+PyDEv. С помощью библиотеки NLTK разработаны программные коды алгоритмов токенизации подсчета слов в тексте. Тестирование подтвердило работоспособность разработанной программы и правильность реализации алгоритмов интеллектуального анализа текстовых данных.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для бизнес-аналитиков и разработчиков программ, использующих для принятия управленческих решений методы и алгоритмы интеллектуального анализа текстовых данных.





