Применение алгоритмов интеллектуального анализа текстовых данных
|
Аннотация 2
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных 35
3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
Введение 5
Глава 1 Обзор и анализ методов и алгоритмов интеллектуального анализа текстовых данных 7
1.1 Метод токенизации 9
1.2 Частота термина в документе (TF-IDF) 13
1.3 Методы стемминга и лемматизации 15
1.4 Стоп-листинг 19
Глава 2 Обзор и анализ алгоритмов интеллектуального анализа текстовых данных 22
2.1 Алгоритмы токенизации 22
2.2 Алгоритм TF-IDF 26
2.3 Алгоритм лемматизации WordNet 29
2.4 Алгоритмы стоп-листинга 31
Глава 3 Разработка программы интеллектуального анализа текстовых данных 35
3.1 Выбор среды разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация и тестирование программы 41
Заключение 44
Список используемой литературы 45
В настоящее многие организации осознали пользу от внедрения аналитических инструментов для поддержки принятия решений.
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
Предметом исследования бакалаврской работы является применение алгоритмов интеллектуального анализа текстовых данных.
Целью выпускной квалификационной работы является исследование особенностей практического применения алгоритмов интеллектуального анализа для повышения качества анализа текстовых данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• провести анализ методов и алгоритмов интеллектуального анализа текстовых данных;
• исследовать особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах;
• разработать и протестировать программу, реализующую алгоритмы интеллектуального анализа текстовых данных.
Методы исследования - текстовая аналитика, Text Mining, методы и технологии проектирования программного обеспечения.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей эффективные алгоритмы интеллектуального анализа текстовых данных.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
Первая глава посвящена обзору и анализу методов и алгоритмов интеллектуального анализа текстовых данных.
Во второй главе проанализированы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах.
В третьей главе описан процесс разработки и тестирования программы, реализующей алгоритмы интеллектуального анализа текстовых данных.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 46 страниц текста, 15 рисунков, 1 таблицы и 24 источников.
Одним из новых направлений в этой области является текстовая аналитика.
Текстовая аналитика - это автоматизированный процесс преобразования больших объемов неструктурированного текста в количественные данные для выявления идей, тенденций и закономерностей. В сочетании с инструментами визуализации данных этот метод позволяет компаниям понять суть цифр и принимать более обоснованные решения [11].
Как показывает практика текстовой аналитики, наиболее эффективными средствами повышения качества анализа текстов являются методы и алгоритмы интеллектуального анализа данных.
Применение алгоритмов интеллектуального анализа текстовых данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы являются методы и алгоритмы интеллектуального анализа текстовых данных.
Предметом исследования бакалаврской работы является применение алгоритмов интеллектуального анализа текстовых данных.
Целью выпускной квалификационной работы является исследование особенностей практического применения алгоритмов интеллектуального анализа для повышения качества анализа текстовых данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• провести анализ методов и алгоритмов интеллектуального анализа текстовых данных;
• исследовать особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах;
• разработать и протестировать программу, реализующую алгоритмы интеллектуального анализа текстовых данных.
Методы исследования - текстовая аналитика, Text Mining, методы и технологии проектирования программного обеспечения.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей эффективные алгоритмы интеллектуального анализа текстовых данных.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
Первая глава посвящена обзору и анализу методов и алгоритмов интеллектуального анализа текстовых данных.
Во второй главе проанализированы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах.
В третьей главе описан процесс разработки и тестирования программы, реализующей алгоритмы интеллектуального анализа текстовых данных.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 46 страниц текста, 15 рисунков, 1 таблицы и 24 источников.
Выпускная квалификационная работа посвящена проблеме исследования особенностей практического применения алгоритмов интеллектуального анализа для повышения качества анализа текстовых данных.
В процессе работы над ВКР решены следующие задачи:
• проведен анализ методов и алгоритмов интеллектуального анализа текстовых данных. Отмечено, что методы интеллектуального анализа текстовых данных относятся к области обработки естественного языка - NLP. Проанализированы методы токенизации, TF-IDF, стемминга,и лемматизации и стоп-листинга. Описаны области применения каждого метода, его достоинства и недостатки;
• исследованы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах. Описаны характеристики алгоритмов BPE, TF-IDF, WordNet и кластеризации текстовых документов;
• разработана и протестирована программа, реализующая алгоритмы интеллектуального анализа текстовых данных. Как показал анализ, наилучшими характеристиками для разработки программ на языке Python обладает IDE Eclipse+PyDEv. С помощью библиотеки NLTK разработаны программные коды алгоритмов токенизации подсчета слов в тексте. Тестирование подтвердило работоспособность разработанной программы и правильность реализации алгоритмов интеллектуального анализа текстовых данных.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для бизнес-аналитиков и разработчиков программ, использующих для принятия управленческих решений методы и алгоритмы интеллектуального анализа текстовых данных.
В процессе работы над ВКР решены следующие задачи:
• проведен анализ методов и алгоритмов интеллектуального анализа текстовых данных. Отмечено, что методы интеллектуального анализа текстовых данных относятся к области обработки естественного языка - NLP. Проанализированы методы токенизации, TF-IDF, стемминга,и лемматизации и стоп-листинга. Описаны области применения каждого метода, его достоинства и недостатки;
• исследованы особенности применения алгоритмов интеллектуального анализа текстовых данных в различных прикладных задачах. Описаны характеристики алгоритмов BPE, TF-IDF, WordNet и кластеризации текстовых документов;
• разработана и протестирована программа, реализующая алгоритмы интеллектуального анализа текстовых данных. Как показал анализ, наилучшими характеристиками для разработки программ на языке Python обладает IDE Eclipse+PyDEv. С помощью библиотеки NLTK разработаны программные коды алгоритмов токенизации подсчета слов в тексте. Тестирование подтвердило работоспособность разработанной программы и правильность реализации алгоритмов интеллектуального анализа текстовых данных.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для бизнес-аналитиков и разработчиков программ, использующих для принятия управленческих решений методы и алгоритмы интеллектуального анализа текстовых данных.
Подобные работы
- Использование методов интеллектуального анализа данных для совершенствования обслуживания корпоративных клиентов банка
Магистерская диссертация, экономика. Язык работы: Русский. Цена: 5500 р. Год сдачи: 2019 - Разработка информационной системы по определению тематики текста с использованием алгоритмов кластеризации
Бакалаврская работа, информационные системы. Язык работы: Русский. Цена: 4210 р. Год сдачи: 2019 - Использование методов интеллектуального анализа данных для формирования маркетинговой стратегии компании
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4290 р. Год сдачи: 2017 - Применение методов машинного обучения в задачах анализа новостных медиа
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - Программные пакеты и статистические методы в постановке медицинского диагноза
Бакалаврская работа, математика. Язык работы: Русский. Цена: 3850 р. Год сдачи: 2020 - Исследование алгоритмов тематического моделирования для новостных статей
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4600 р. Год сдачи: 2023 - Модели и алгоритмы системы управления поиском информации в торговой организации
Магистерская диссертация, прикладная информатика. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2023 - Информационно-аналитические методы численной обработки данных в условиях неопределенности
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2016 - ПРИМЕНЕНИЕ НЕЙРОННЫХ СЕТЕЙ LSTM В ОБНАРУЖЕНИИ АНОМАЛИЙ В LOGFILES
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019





