Введение Л...2
Обзорно постановочная часть 4
Цель работы 4
Теоретическая часть 6
Описание стилей речи документов 6
Морфологические признаки стилей речи 8
Предварительная обработка данных 10
Представление данных в векторной форме с использованием анализатора
MyStem 11
Векторная модель документа 19
Программная среда Weka 21
Методы классификации 22
Практическая часть 25
Создание WindowsForm в Microsoft Visual Studio 25
Внедрение анализатора Mystem в среду VS 29
Создание векторной модели документа в MS VS 33
Внедрение вектора документа в среду Weka 34
Построение и обучение классификатора в Weka 37
Эксперименты 41
Эксперименты по обучению (классификации выбранных стилей) 41
Заключение 48
Список литературы 49
Приложение
В наше время прогрессирует интерес людей к различным видам распознавания текстов и языков. Автоматический анализ информации становится все более актуальным, потому что идет рост объема информации и данных. Ресурсы сети Интернет безграничны, и с каждым годом мировое сообщество выпускает более полутора-миллионов статей, рецензий. Все эти данные имеют потенциал, который можно реализовать только с использованием text-mining и data-mining.
Извлечением зависимостей необходимых для принятия решений в различных сферах человеческой деятельности занимаются специалисты области data-mining. Появилась данная область в 1989 году на одном из семинаров Григория Пятецкого-Шапиро. Данные идеи появились при анализе проблемы ускорения запросов к большим базам данных. Тогда же и появились Data Mining (“добыча данных”) и Knowledge Discovery in Data (“открытие знаний в базах данных”). Алгоритмы в Data Mining требуют большого количества вычислений. В прошлом это было главным фактором, который сдерживал практическое применение данной области. Теперь, с ростом производительности современных процессоров, можно провести анализ сотен тысяч и более записей.
Технология Text Mining - это одна из разновидностей методов Data Mining и подразумевает процессы извлечения знаний и информации из текстовых массивов (получение статистики). Статистика является совокупностью методов реализации эксперимента, сбора, представления и обобщения данных, а также анализа и выведения отчетов на основании полученных экспериментов.
В статье описывается стилевая классификация массивов опытных документов. В статье изложена методика вычисления параметров и методы пробной классификации данного массива по стилям речи. Браславский выделяет сложность определения текстов художественного стиля и показывает наличие
3 схожестей параметров научного стиля относительно других видов текста. Данная задача актуальна и по сей день.
Задача дипломной работы заключается в распознавании стилей (жанров) текстов русского языка на основе статистических методов классификации частей речи. В качестве атрибутов классификации необходимо использовать построенный вектор морфологических признаков и статистика текстов. В ходе выполнения работы необходимо сделать выводы о применимости методов сокращения числа атрибутов и использовании классификации для выделения лучшего алгоритма.
В данной работе получены следующие результаты.
Во-первых, были отобраны интересующие нам части речи для всех стилей. Реализовано приложение для автоматического создания данных в Weka и выделении морфологических признаков из текстов. Для оценки работы создана экспериментальная среда и подготовлены данные - корпус русских текстов из сети Интернет. В ходе анализа результатов установлено, что научный стиль является самым сложным в распознавании, потому что имеет схожие черты с другими стилями.
Во-вторых, для стилевой классификации русских текстов по частям речи и статистике по тексту, исследован ряд характеристик, отражающих особенности каждого стиля. Доказана возможность определения данных и распознавания текстов. После проведенных исследований, выявлены методы классификации, дающие большую точность. Лучший результат показал метод “Naive Bayes” : точность классификации - 88% , средняя ошибка - 23%. Худший результат показал метод 1R (One rule) с точностью классификации - 20% и средней ошибкой 100%. Данные результаты можно объяснить тем, что в работе задействовано большое количество атрибутов, а метод “Naive Bayes” и “J4.8” являются универсальными. Метод lR(One Rule) отличается простотой реализации и низкой затратой для вычисления. Также было выявлено, что к классификациям подходят не все методы. К примеру, метод ЮЗ не подошел к данным, так как использует независимую переменную, от которой строится дерево, при этом считывая только числовые значения без использования номинальных. Результаты, которые были получены, сопоставимы с предыдущими, но являются экспериментальными, потому что был исследован малый корпус текстов. Таким образом, в работе создана основа для последующих исследований в данной области.