Тема: Автоматическая классификация текстов с использованием нейронных сетей
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Методы классификации 8
1.1. Виды классификаторов 8
1.2. Постановка задачи. Формулировка задач классификации и
распознавания образов 13
1.3. Методы оценки эффективности
системы классификации текстов 16
1.3.1. Определение меры эффективности классификации 17
1.3.2. Меры эффективности классификации 19
1.3.3. Тестовые наборы 20
1.4. Жизненный цикл автоматической системы классификации 22
Глава 2. Методы распознавания и классификации 25
2.1. Предъявление обучающего множества 25
2.2. Правила классификации 26
2.3. Математические модели рубрикаторов 27
2.3.1. Классификаторы, основанные на правиле Байеса 28
2.3.2. Метод максимизации энтропии 31
2.3.3. Классификация методом поиска ближайших соседей (kNN)....34
2.3.4. Нейронные сети 36
2.3.5. Технология Word2vec 38
2.4. Сравнение методов классификации 42
Глава 3. Реализация классификатора 44
Постановка задачи. Обучающая выборка 46
Метод n-грамм 49
Нейронная сеть 54
Схема работы классификатора 57
3.4.1. Обучение нейронной сети 58
3.4.2. Анализ текста 59
3.5. Программа «Анализатор языка» 60
Заключение 63
Список использованных источников 65
Приложение
📖 Введение
На сегодняшний день автоматическая классификация текстовых документов, т.е. определение принадлежности текста к некому классу в ситуации стабильно возрастающего объема потребляемой информации является актуальной и крайне интересной задачей. Классификация текста может осуществляться по общей тематике текста, по использованию определенных понятий, стилей.
Классификация применяется в решении многих практических задач, таких как:
■ фильтрация документов;
■ распознавание спама;
■ автоматическое аннотирование;
■ поиск текстовых документов;
■ навигация по большим информационным ресурсам;
■классификация новостей;
■ индексация данных в поисковых запросах и т.д.
Целью данной работы является разработка и создание программы для автоматической классификации текстов по функциональным стилям - научный, официально-деловой, разговорный, публицистический, художественный с использованием нейронных сетей.
Чтобы достичь поставленную цель необходимо решить следующие задачи:
1. проанализировать литературу с описанием работы нейронных сетей и их применение для решения задач классификации текстовых документов;
2. описать основные подходы к решению задач классификации текстов;
3. создать обучающую выборку;
4. создать алгоритм для классификации текстов в соответствии с поставленной целью.
Научная новизна работы заключается в объединении двух подходов - п- грамм и нейронные сети с последующей реализацией автоматического классификатора.
Актуальность темы заключается в том, что создание программы для классифицирования текстов на разных языках, разных стилей существенно упростит и ускорит процессы их обработки, классификации.
Объектом исследования работы является метод n-грамм и нейронные сети в задачах классификации текстов.
Практическая значимость дипломной работы состоит в том, что введение и использование этой программы на предприятии соответствующего профиля позволит сократить финансовые расходы, время- и трудозатраты на обработку документов на различных языках, т.к. позволит обрабатывать собрание текстовых документов на всех языках за один цикл, а не настраивать алгоритм каждый раз под каждый конкретный язык.
Теоретическую основу диплома составляют научные труды и публикации отечественных и иностранных ученых по вопросам в области компьютерной лингвистики, в частности для решения задач классификации текстовой информации.
Методологическую основу диплома составляет анализ имеющихся методов распознавания текстов.
Эмпирическую основу исследования составляют обучающие выборки публицистического, научного, художественного, официально-делового и разговорного текстов на двух языках - русском и английском, а также одна из осуществлений алгоритма n-грамм с применением нейронных сетей с адаптацией под необходимые исследования и использовалась для решения поставленных задач.
✅ Заключение
Нейронные сети широко применяются в различных отраслях. Нейросети должны использоваться для обобщения данных, а не для определения, атрибуты и критерии которого крайне важны при сборе и анализе данных. Обучающиеся машины нашли широкое распространение при формализации знаний из данных реального мира, но все же сами обучающиеся машины не могут создавать принципы формализации - здесь не обойтись без помощи человека.
При выполнении выпускной квалификационной работы были решены поставленные задачи:
изучена литература с описанием работы нейронных сетей и их применение для решения задач классификации текстов;
- описаны основные подходы к решению задач классификации текстов;
- выбран наиболее предпочтительный алгоритм для реализации собственной модели;
- собрана обучающая выборка;
- создан алгоритм для классификации текстов.
В процессе работы была разработана программа «Анализатор текста» для автоматической классификации текстов по функциональным стилям.
В процессе выполнения работы был изучен большой объем информации, освоены значительные объемы по изучению классификаторов текстов, нейронных сетей. Все это позволило нам убедиться в колоссальности данной среды.
Целью выпускной квалификационной работы являлась разработка и создание программы для автоматической классификации текстов по функциональным стилям - научный, официально-деловой, разговорный, публицистический, художественный с использованием нейронных сетей для двух языков - русский и английский. Цель была достигнута.



