Разработка приложения для классификации текста
|
Введение 4
Глава 1 Анализ современных подходов по классификация текста в бизнес- аналитике 7
1.1 Обзор литературных источников по классификации текста в
бизнес-аналитике 7
1.2 Моделирование процесса классификации текста 10
Глава 2 Проектирование системы для автоматизированной классификации текста 14
2.1 Описание задачи классификации 14
2.2 Предобработка и векторизация текста 16
2.3 Разметка и балансировка данных для обучения 23
2.4 Применяемые методы классификации 24
Глава 3 Разработка приложения для классификации текста 28
3.1 Особенности реализации программного модуля 28
3.3. Результаты тестирования приложения 34
Заключение 37
Список используемой литературы и используемых источников 39
Глава 1 Анализ современных подходов по классификация текста в бизнес- аналитике 7
1.1 Обзор литературных источников по классификации текста в
бизнес-аналитике 7
1.2 Моделирование процесса классификации текста 10
Глава 2 Проектирование системы для автоматизированной классификации текста 14
2.1 Описание задачи классификации 14
2.2 Предобработка и векторизация текста 16
2.3 Разметка и балансировка данных для обучения 23
2.4 Применяемые методы классификации 24
Глава 3 Разработка приложения для классификации текста 28
3.1 Особенности реализации программного модуля 28
3.3. Результаты тестирования приложения 34
Заключение 37
Список используемой литературы и используемых источников 39
Классификация текстовой информации является одной из часто решаемых задач в области бизнес-аналитики. Например, когда требуется провести анализ оценки качества предоставляемых компанией услуг, обычно проводится классификация текста отзывов клиентов, которые они оставляют в различных социальных сетях и на форумах. При этом под классификацией понимается не только маркировка положительный отрицательной и отрицательных отзывов, но распознавание темы отзыва, т.е. определение конкретного типа услуги, на который написан отзыв.
На основе классификации текста отзывов можно определить:
- на какую услугу клиенты чаще всего обращают внимание;
- что клиентов подталкивает к использованию услуг компании;
- чем клиенты недовольны;
- какие проблемы возникают у клиентов при получении услуг компании;
- какое соотношение довольных и недовольных клиентов.
В широком смысле, процессы бизнес-аналитики направлены на превращение необработанных данных взятых из различных источников в наглядное представление, на основе которого можно сделать полезные выводы для оптимизации деятельности компании. Бизнес аналитика включает в себя выполнение четырех основных этапов - сбор данных, их анализ, визуализация и принятие на их основе управленческих решений.
На этапе сбора данных осуществляется агрегирование структурированных и неструктурированных данных из различных источников информации. Обычно на этом этапе используется метод ETL (Extract, Transform, Load). Собранные данные преобразуются в модель, расположенную в хранилище данных. При этом для хранилища выбирается такая структура данных, которая оптимизирована для быстрого извлечения и анализа информации с использованием специальных программных комплексов.
На втором этапе используются специальные алгоритмы, предназначенные для обнаружения закономерностей в данных. Именно на этом этапе в случае необходимости решается задача классификации текстовой информации. И большинство исследований из области бизнес- аналитики направлено на повышение степени автоматизации выполнения этого этапа.
Третий этап направлен на формирование отчета c бизнес-аналитикой, основанного на использовании средств визуализации данных. При визуализации могут применяться интерактивные информационные панели, графики и диаграммы различных видов.
Четвертый этап является заключительным, и он направлен на устранение неэффективностей, возникающих в основной деятельности компании, выполнение стратегического планирования. Благодаря выполнению четвертого этапа компания осуществляет адаптацию своей деятельности к изменениям внешней бизнес среды.
Данная бакалаврская работа направлена на повышения степени автоматизации выполнения второго этапа бизнес-анализа. При этом для рассмотрения выбрана задача классификации текста. А в качестве инструмента для повышения степени автоматизации будут применяться алгоритмы машинного обучения.
Цель выпускной квалификационной работы - разработка универсальной системы классификации текстов, обеспечивающей повышение уровня автоматизации бизнес-процессов при анализе текстовой информации.
Для достижения данной цели необходимо выполнить следующие задачи:
- анализ технологий классификации текстов;
- разработка алгоритм классификации текста;
- реализация и тестирование программного обеспечения для классификации текстов.
Методы исследования - методы и технологии проектирования информационных систем, технологии программирования.
Практическая значимость бакалаврской работы заключается в разработке универсальной программной системы, обеспечивающей автоматизацию процесса классификации текста.
Данная работа состоит из введения, трех глав, заключения, списка используемой литературы и приложений.
В первой главе приводится описание решаемой задачи классификации текста, рассматриваются технологии решения данной задачи на основе алгоритмов машинного обучения. Также в данной главе приводятся построенные диаграммы по моделированию процесса классификации текста и дается обзор исследований на тему классификации текстов. В тексте главы даны ссылки на современные научные статьи по теме исследования.
Вторая глава посвящена разработке практических решений по классификации текстов. Приводится описание таких этапов как предобработка и векторизация текста, разметка и балансировка данных.
В третьей главе представлен процесс разработки программного обеспечения для классификации текста, а также приведены результаты тестирования программного обеспечения.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 41 страниц текста, 17 рисунков, 2 таблицы и 20 источников.
На основе классификации текста отзывов можно определить:
- на какую услугу клиенты чаще всего обращают внимание;
- что клиентов подталкивает к использованию услуг компании;
- чем клиенты недовольны;
- какие проблемы возникают у клиентов при получении услуг компании;
- какое соотношение довольных и недовольных клиентов.
В широком смысле, процессы бизнес-аналитики направлены на превращение необработанных данных взятых из различных источников в наглядное представление, на основе которого можно сделать полезные выводы для оптимизации деятельности компании. Бизнес аналитика включает в себя выполнение четырех основных этапов - сбор данных, их анализ, визуализация и принятие на их основе управленческих решений.
На этапе сбора данных осуществляется агрегирование структурированных и неструктурированных данных из различных источников информации. Обычно на этом этапе используется метод ETL (Extract, Transform, Load). Собранные данные преобразуются в модель, расположенную в хранилище данных. При этом для хранилища выбирается такая структура данных, которая оптимизирована для быстрого извлечения и анализа информации с использованием специальных программных комплексов.
На втором этапе используются специальные алгоритмы, предназначенные для обнаружения закономерностей в данных. Именно на этом этапе в случае необходимости решается задача классификации текстовой информации. И большинство исследований из области бизнес- аналитики направлено на повышение степени автоматизации выполнения этого этапа.
Третий этап направлен на формирование отчета c бизнес-аналитикой, основанного на использовании средств визуализации данных. При визуализации могут применяться интерактивные информационные панели, графики и диаграммы различных видов.
Четвертый этап является заключительным, и он направлен на устранение неэффективностей, возникающих в основной деятельности компании, выполнение стратегического планирования. Благодаря выполнению четвертого этапа компания осуществляет адаптацию своей деятельности к изменениям внешней бизнес среды.
Данная бакалаврская работа направлена на повышения степени автоматизации выполнения второго этапа бизнес-анализа. При этом для рассмотрения выбрана задача классификации текста. А в качестве инструмента для повышения степени автоматизации будут применяться алгоритмы машинного обучения.
Цель выпускной квалификационной работы - разработка универсальной системы классификации текстов, обеспечивающей повышение уровня автоматизации бизнес-процессов при анализе текстовой информации.
Для достижения данной цели необходимо выполнить следующие задачи:
- анализ технологий классификации текстов;
- разработка алгоритм классификации текста;
- реализация и тестирование программного обеспечения для классификации текстов.
Методы исследования - методы и технологии проектирования информационных систем, технологии программирования.
Практическая значимость бакалаврской работы заключается в разработке универсальной программной системы, обеспечивающей автоматизацию процесса классификации текста.
Данная работа состоит из введения, трех глав, заключения, списка используемой литературы и приложений.
В первой главе приводится описание решаемой задачи классификации текста, рассматриваются технологии решения данной задачи на основе алгоритмов машинного обучения. Также в данной главе приводятся построенные диаграммы по моделированию процесса классификации текста и дается обзор исследований на тему классификации текстов. В тексте главы даны ссылки на современные научные статьи по теме исследования.
Вторая глава посвящена разработке практических решений по классификации текстов. Приводится описание таких этапов как предобработка и векторизация текста, разметка и балансировка данных.
В третьей главе представлен процесс разработки программного обеспечения для классификации текста, а также приведены результаты тестирования программного обеспечения.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 41 страниц текста, 17 рисунков, 2 таблицы и 20 источников.
При выполнении бакалаврской работы были получены следующие результаты:
- в ходе анализа литературных источников установлено, что процесс бизнес-аналитики направлен на сбор, анализ и визуализацию данных о деятельности компании с целью принятия оптимальных управленческих решений;
- установлено, что классификация текста выполняется на втором этапе процесса бизнес-аналитики и может быть использована, например, для разметки отзывов и комментариев при анализе лояльности клиентов к компании;
- выявлено, что актуальной проблемой в области бизнес-аналитики является разработка и совершенствование программного обеспечения, способного автоматизировано выполнять процесс классификации текста с использованием современных подходов;
- проведено моделирование процесса классификации текста, в ходе которого построены схема процесса обучения текстового классификатора, схема процесса классификации нового документа, диаграмма классов текстового классификатора, диаграмма последовательности процесса взаимодействия текстового классификатора с аналитической информационной системой;
- установлено, что при классификации текста необходимо использовать сочетание методов двух разных видов: метода векторизации, который преобразует исходный текст документа в числовой вектор и метод классификации, который на основе числового вектора определяет класс текстового документа;
- проведен анализ особенностей работы таких методов векторизации как TF-IDF, Word2Vec, Doc2Vec, FastText, GloVe, Universal¬Sentence-Encoder, Bert, а также особенности работы таких методов классификации как LogisticRegression, SVM, Single-layer perceptron (SLP), Bert и GPT-2;
- установлено, что заранее не известно, какое сочетание методов покажет наилучшие результаты при классификации текста, поэтому разрабатываемое программное обеспечение направлено на сравнительное тестирование различных методов. При этом решаемая задача классификации - автоматизированное определение тематики текстовых документов (новостных статей).
- на языке программирования python разработан программный модуль, выполняющий загрузку, предобработку, классификацию текстовых данных и сравнение точности работы классификаторов.
- работа программного модуля протестирована на задаче автоматического определения тематики статей из новостных агрегарторов Google news и Yandex новости.
Таким образом, цель бакалаврской работы достигнута.
- в ходе анализа литературных источников установлено, что процесс бизнес-аналитики направлен на сбор, анализ и визуализацию данных о деятельности компании с целью принятия оптимальных управленческих решений;
- установлено, что классификация текста выполняется на втором этапе процесса бизнес-аналитики и может быть использована, например, для разметки отзывов и комментариев при анализе лояльности клиентов к компании;
- выявлено, что актуальной проблемой в области бизнес-аналитики является разработка и совершенствование программного обеспечения, способного автоматизировано выполнять процесс классификации текста с использованием современных подходов;
- проведено моделирование процесса классификации текста, в ходе которого построены схема процесса обучения текстового классификатора, схема процесса классификации нового документа, диаграмма классов текстового классификатора, диаграмма последовательности процесса взаимодействия текстового классификатора с аналитической информационной системой;
- установлено, что при классификации текста необходимо использовать сочетание методов двух разных видов: метода векторизации, который преобразует исходный текст документа в числовой вектор и метод классификации, который на основе числового вектора определяет класс текстового документа;
- проведен анализ особенностей работы таких методов векторизации как TF-IDF, Word2Vec, Doc2Vec, FastText, GloVe, Universal¬Sentence-Encoder, Bert, а также особенности работы таких методов классификации как LogisticRegression, SVM, Single-layer perceptron (SLP), Bert и GPT-2;
- установлено, что заранее не известно, какое сочетание методов покажет наилучшие результаты при классификации текста, поэтому разрабатываемое программное обеспечение направлено на сравнительное тестирование различных методов. При этом решаемая задача классификации - автоматизированное определение тематики текстовых документов (новостных статей).
- на языке программирования python разработан программный модуль, выполняющий загрузку, предобработку, классификацию текстовых данных и сравнение точности работы классификаторов.
- работа программного модуля протестирована на задаче автоматического определения тематики статей из новостных агрегарторов Google news и Yandex новости.
Таким образом, цель бакалаврской работы достигнута.
Подобные работы
- Разработка приложений для мобильных устройств под ОС Android
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2016 - Автоматическая классификация текстов с использованием нейронных сетей
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2016 - Создание приложения для людей с ограниченными возможностями по зрению с функцией Accessibility
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4320 р. Год сдачи: 2023 - Разработка приложения для сравнения эффективности алгоритмов классификации данных
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4365 р. Год сдачи: 2022 - Приложение для вуза «мобильный РГППУ»
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4750 р. Год сдачи: 2017 - Разработка приложения для продвижения услуг туристско-информационного центра (Владивостокский Государственный Университет)
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 1800 р. Год сдачи: 2023 - Разработка кроссплатформенного приложения для сурдоперевода
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 2350 р. Год сдачи: 2017 - РАЗРАБОТКА ВЕБ-ПРИЛОЖЕНИЯ ДЛЯ КЛАССИФИКАЦИИ
ЮРИДИЧЕСКИХ ДОКУМЕНТОВ НА ОСНОВЕ МАШИННОГО
ОБУЧЕНИЯ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019 - РАЗРАБОТКА МОДУЛЯ РАНЖИРОВАНИЯ МЕСТ ПРОВЕДЕНИЯ ДОСУГА НА ОСНОВЕ ТОНАЛЬНОСТИ ОТЗЫВОВ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4325 р. Год сдачи: 2019



