📄Работа №77392

Тема: Разработка программного комплекса для жанровой (стилевой) классификации текстов на основе алгоритмов машинного обучения

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Информационные системы

📄

Объем: 73 листов

📅

Год: 2016

👁️

4255 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение Л...2
Обзорно постановочная часть 4
Цель работы 4
Теоретическая часть 6
Описание стилей речи документов 6
Морфологические признаки стилей речи 8
Предварительная обработка данных 10
Представление данных в векторной форме с использованием анализатора
MyStem 11
Векторная модель документа 19
Программная среда Weka 21
Методы классификации 22
Практическая часть 25
Создание WindowsForm в Microsoft Visual Studio 25
Внедрение анализатора Mystem в среду VS 29
Создание векторной модели документа в MS VS 33
Внедрение вектора документа в среду Weka 34
Построение и обучение классификатора в Weka 37
Эксперименты 41
Эксперименты по обучению (классификации выбранных стилей) 41
Заключение 48
Список литературы 49
Приложение

📖 Введение

В наше время прогрессирует интерес людей к различным видам распознавания текстов и языков. Автоматический анализ информации становится все более актуальным, потому что идет рост объема информации и данных. Ресурсы сети Интернет безграничны, и с каждым годом мировое сообщество выпускает более полутора-миллионов статей, рецензий. Все эти данные имеют потенциал, который можно реализовать только с использованием text-mining и data-mining.
Извлечением зависимостей необходимых для принятия решений в различных сферах человеческой деятельности занимаются специалисты области data-mining. Появилась данная область в 1989 году на одном из семинаров Григория Пятецкого-Шапиро. Данные идеи появились при анализе проблемы ускорения запросов к большим базам данных. Тогда же и появились Data Mining (“добыча данных”) и Knowledge Discovery in Data (“открытие знаний в базах данных”). Алгоритмы в Data Mining требуют большого количества вычислений. В прошлом это было главным фактором, который сдерживал практическое применение данной области. Теперь, с ростом производительности современных процессоров, можно провести анализ сотен тысяч и более записей.
Технология Text Mining - это одна из разновидностей методов Data Mining и подразумевает процессы извлечения знаний и информации из текстовых массивов (получение статистики). Статистика является совокупностью методов реализации эксперимента, сбора, представления и обобщения данных, а также анализа и выведения отчетов на основании полученных экспериментов.
В статье описывается стилевая классификация массивов опытных документов. В статье изложена методика вычисления параметров и методы пробной классификации данного массива по стилям речи. Браславский выделяет сложность определения текстов художественного стиля и показывает наличие
3 схожестей параметров научного стиля относительно других видов текста. Данная задача актуальна и по сей день.
Задача дипломной работы заключается в распознавании стилей (жанров) текстов русского языка на основе статистических методов классификации частей речи. В качестве атрибутов классификации необходимо использовать построенный вектор морфологических признаков и статистика текстов. В ходе выполнения работы необходимо сделать выводы о применимости методов сокращения числа атрибутов и использовании классификации для выделения лучшего алгоритма.

✅ Заключение

В данной работе получены следующие результаты.
Во-первых, были отобраны интересующие нам части речи для всех стилей. Реализовано приложение для автоматического создания данных в Weka и выделении морфологических признаков из текстов. Для оценки работы создана экспериментальная среда и подготовлены данные - корпус русских текстов из сети Интернет. В ходе анализа результатов установлено, что научный стиль является самым сложным в распознавании, потому что имеет схожие черты с другими стилями.
Во-вторых, для стилевой классификации русских текстов по частям речи и статистике по тексту, исследован ряд характеристик, отражающих особенности каждого стиля. Доказана возможность определения данных и распознавания текстов. После проведенных исследований, выявлены методы классификации, дающие большую точность. Лучший результат показал метод “Naive Bayes” : точность классификации - 88% , средняя ошибка - 23%. Худший результат показал метод 1R (One rule) с точностью классификации - 20% и средней ошибкой 100%. Данные результаты можно объяснить тем, что в работе задействовано большое количество атрибутов, а метод “Naive Bayes” и “J4.8” являются универсальными. Метод lR(One Rule) отличается простотой реализации и низкой затратой для вычисления. Также было выявлено, что к классификациям подходят не все методы. К примеру, метод ЮЗ не подошел к данным, так как использует независимую переменную, от которой строится дерево, при этом считывая только числовые значения без использования номинальных. Результаты, которые были получены, сопоставимы с предыдущими, но являются экспериментальными, потому что был исследован малый корпус текстов. Таким образом, в работе создана основа для последующих исследований в данной области.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1) Использование Mystem[l]. [Электронный ресурс]: 2014-2016 Яндекс. Режим доступа:
https://tech.Yandex.ru/mystem/doc/index-docpage/
https ://tech .vandex.ru/mvstem/ doc/usage-examp les-docpage/https://tech.yandex.ru/mvstem/doc/grammemes-values-docpage/
Время обращения: (5.05.16)
2) Понятие UTF-8 [2]. [Электронный ресурс] : 2013-2016. Режим доступа:
https://ru.wikipedia.org/wiki/UTF-8
Время обращения: (8.05.16)
3) Шумовые слова [3], [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Stop words
Время обращения: (9.05.16)
4) Морфология(лингвистика) [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Morphology_(linguistics)
Время обращения: (13.05.16)
5) Weka - машинное обучение.[Электронный ресурс]: 1999. Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=WEKA
Время обращения: (15.05.16)
6) SVM классификация. [Электронный ресурс]: 2014. Режим доступа: http://www.machineleaming.ru/wiki/index.php?title=SVM
Время обращения: (16.05.16)
7) Интеллектуальный анализ данных с помощью программного пакета WEKA: Часть
2. Классификация и кластеризация.[Электронный ресурс]: 2008 Майкл Абернети. Режим доступа:
http://www.ibm.com/developerworks/ru/library/os-weka2/
Время обращения: (16.05.16)
8) Классификация. [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Classification
Время обращения: (16.05.16)
9) Байесовская классификация. [Электронный ресурс]: 1995. Режим доступа: http://www.intuit.rn/studies/courses/6/6/lecture/1767page~5
Время обращения: (18.05.16)
10) Автоматическая классификация документов Intrenet по стилям.
[Электронный ресурс]: 1999.П.И.Браславский. Режим доступа:
http://www.ict.nsc.rU/ws/el-pub-2000/29/#morph
Время обращения: (18.05.16)
11) Нечисловая статистика[Электронный ресурс] Орлов А.И. М.: МЗ-Пресс, 2004.
Режим доступа: http://www.aup.rU/books/ml62/2 8.htm
Время обращения: (18.05.16)

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211197)

Статьи

»» Все статьи

Вход в личный кабинет