Введение Л...2
Обзорно постановочная часть 4
Цель работы 4
Теоретическая часть 6
Описание стилей речи документов 6
Морфологические признаки стилей речи 8
Предварительная обработка данных 10
Представление данных в векторной форме с использованием анализатора
MyStem 11
Векторная модель документа 19
Программная среда Weka 21
Методы классификации 22
Практическая часть 25
Создание WindowsForm в Microsoft Visual Studio 25
Внедрение анализатора Mystem в среду VS 29
Создание векторной модели документа в MS VS 33
Внедрение вектора документа в среду Weka 34
Построение и обучение классификатора в Weka 37
Эксперименты 41
Эксперименты по обучению (классификации выбранных стилей) 41
Заключение 48
Список литературы 49
Приложение
В наше время прогрессирует интерес людей к различным видам распознавания текстов и языков. Автоматический анализ информации становится все более актуальным, потому что идет рост объема информации и данных. Ресурсы сети Интернет безграничны, и с каждым годом мировое сообщество выпускает более полутора-миллионов статей, рецензий. Все эти данные имеют потенциал, который можно реализовать только с использованием text-mining и data-mining.
Извлечением зависимостей необходимых для принятия решений в различных сферах человеческой деятельности занимаются специалисты области data-mining. Появилась данная область в 1989 году на одном из семинаров Григория Пятецкого-Шапиро. Данные идеи появились при анализе проблемы ускорения запросов к большим базам данных. Тогда же и появились Data Mining (“добыча данных”) и Knowledge Discovery in Data (“открытие знаний в базах данных”). Алгоритмы в Data Mining требуют большого количества вычислений. В прошлом это было главным фактором, который сдерживал практическое применение данной области. Теперь, с ростом производительности современных процессоров, можно провести анализ сотен тысяч и более записей.
Технология Text Mining - это одна из разновидностей методов Data Mining и подразумевает процессы извлечения знаний и информации из текстовых массивов (получение статистики). Статистика является совокупностью методов реализации эксперимента, сбора, представления и обобщения данных, а также анализа и выведения отчетов на основании полученных экспериментов.
В статье описывается стилевая классификация массивов опытных документов. В статье изложена методика вычисления параметров и методы пробной классификации данного массива по стилям речи. Браславский выделяет сложность определения текстов художественного стиля и показывает наличие
3 схожестей параметров научного стиля относительно других видов текста. Данная задача актуальна и по сей день.
Задача дипломной работы заключается в распознавании стилей (жанров) текстов русского языка на основе статистических методов классификации частей речи. В качестве атрибутов классификации необходимо использовать построенный вектор морфологических признаков и статистика текстов. В ходе выполнения работы необходимо сделать выводы о применимости методов сокращения числа атрибутов и использовании классификации для выделения лучшего алгоритма.
В данной работе получены следующие результаты.
Во-первых, были отобраны интересующие нам части речи для всех стилей. Реализовано приложение для автоматического создания данных в Weka и выделении морфологических признаков из текстов. Для оценки работы создана экспериментальная среда и подготовлены данные - корпус русских текстов из сети Интернет. В ходе анализа результатов установлено, что научный стиль является самым сложным в распознавании, потому что имеет схожие черты с другими стилями.
Во-вторых, для стилевой классификации русских текстов по частям речи и статистике по тексту, исследован ряд характеристик, отражающих особенности каждого стиля. Доказана возможность определения данных и распознавания текстов. После проведенных исследований, выявлены методы классификации, дающие большую точность. Лучший результат показал метод “Naive Bayes” : точность классификации - 88% , средняя ошибка - 23%. Худший результат показал метод 1R (One rule) с точностью классификации - 20% и средней ошибкой 100%. Данные результаты можно объяснить тем, что в работе задействовано большое количество атрибутов, а метод “Naive Bayes” и “J4.8” являются универсальными. Метод lR(One Rule) отличается простотой реализации и низкой затратой для вычисления. Также было выявлено, что к классификациям подходят не все методы. К примеру, метод ЮЗ не подошел к данным, так как использует независимую переменную, от которой строится дерево, при этом считывая только числовые значения без использования номинальных. Результаты, которые были получены, сопоставимы с предыдущими, но являются экспериментальными, потому что был исследован малый корпус текстов. Таким образом, в работе создана основа для последующих исследований в данной области.
1) Использование Mystem[l]. [Электронный ресурс]: 2014-2016 Яндекс. Режим доступа:
https://tech.Yandex.ru/mystem/doc/index-docpage/
https ://tech .vandex.ru/mvstem/ doc/usage-examp les-docpage/https://tech.yandex.ru/mvstem/doc/grammemes-values-docpage/
Время обращения: (5.05.16)
2) Понятие UTF-8 [2]. [Электронный ресурс] : 2013-2016. Режим доступа:
https://ru.wikipedia.org/wiki/UTF-8
Время обращения: (8.05.16)
3) Шумовые слова [3], [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Stop words
Время обращения: (9.05.16)
4) Морфология(лингвистика) [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Morphology_(linguistics)
Время обращения: (13.05.16)
5) Weka - машинное обучение.[Электронный ресурс]: 1999. Режим доступа: http://www.machinelearning.ru/wiki/index.php?title=WEKA
Время обращения: (15.05.16)
6) SVM классификация. [Электронный ресурс]: 2014. Режим доступа: http://www.machineleaming.ru/wiki/index.php?title=SVM
Время обращения: (16.05.16)
7) Интеллектуальный анализ данных с помощью программного пакета WEKA: Часть
2. Классификация и кластеризация.[Электронный ресурс]: 2008 Майкл Абернети. Режим доступа:
http://www.ibm.com/developerworks/ru/library/os-weka2/
Время обращения: (16.05.16)
8) Классификация. [Электронный ресурс]: 2016. Режим доступа: https://en.wikipedia.org/wiki/Classification
Время обращения: (16.05.16)
9) Байесовская классификация. [Электронный ресурс]: 1995. Режим доступа: http://www.intuit.rn/studies/courses/6/6/lecture/1767page~5
Время обращения: (18.05.16)
10) Автоматическая классификация документов Intrenet по стилям.
[Электронный ресурс]: 1999.П.И.Браславский. Режим доступа:
http://www.ict.nsc.rU/ws/el-pub-2000/29/#morph
Время обращения: (18.05.16)
11) Нечисловая статистика[Электронный ресурс] Орлов А.И. М.: МЗ-Пресс, 2004.
Режим доступа: http://www.aup.rU/books/ml62/2 8.htm
Время обращения: (18.05.16)