Введение 5
Глава 1. Методы классификации 8
1.1. Виды классификаторов 8
1.2. Постановка задачи. Формулировка задач классификации и
распознавания образов 13
1.3. Методы оценки эффективности
системы классификации текстов 16
1.3.1. Определение меры эффективности классификации 17
1.3.2. Меры эффективности классификации 19
1.3.3. Тестовые наборы 20
1.4. Жизненный цикл автоматической системы классификации 22
Глава 2. Методы распознавания и классификации 25
2.1. Предъявление обучающего множества 25
2.2. Правила классификации 26
2.3. Математические модели рубрикаторов 27
2.3.1. Классификаторы, основанные на правиле Байеса 28
2.3.2. Метод максимизации энтропии 31
2.3.3. Классификация методом поиска ближайших соседей (kNN)....34
2.3.4. Нейронные сети 36
2.3.5. Технология Word2vec 38
2.4. Сравнение методов классификации 42
Глава 3. Реализация классификатора 44
Постановка задачи. Обучающая выборка 46
Метод n-грамм 49
Нейронная сеть 54
Схема работы классификатора 57
3.4.1. Обучение нейронной сети 58
3.4.2. Анализ текста 59
3.5. Программа «Анализатор языка» 60
Заключение 63
Список использованных источников 65
Приложение
С появлением компьютеров и увеличением объемов хранимой информации в электронном виде перед нами открываются новые возможности для исследований не только в области физики, химии, биологии, но и в области литературоведения и языка. С помощью компьютера можно обрабатывать большие объемы информации, позволяя широко применять статистические методы в языкознании и литературе.
На сегодняшний день автоматическая классификация текстовых документов, т.е. определение принадлежности текста к некому классу в ситуации стабильно возрастающего объема потребляемой информации является актуальной и крайне интересной задачей. Классификация текста может осуществляться по общей тематике текста, по использованию определенных понятий, стилей.
Классификация применяется в решении многих практических задач, таких как:
■ фильтрация документов;
■ распознавание спама;
■ автоматическое аннотирование;
■ поиск текстовых документов;
■ навигация по большим информационным ресурсам;
■классификация новостей;
■ индексация данных в поисковых запросах и т.д.
Целью данной работы является разработка и создание программы для автоматической классификации текстов по функциональным стилям - научный, официально-деловой, разговорный, публицистический, художественный с использованием нейронных сетей.
Чтобы достичь поставленную цель необходимо решить следующие задачи:
1. проанализировать литературу с описанием работы нейронных сетей и их применение для решения задач классификации текстовых документов;
2. описать основные подходы к решению задач классификации текстов;
3. создать обучающую выборку;
4. создать алгоритм для классификации текстов в соответствии с поставленной целью.
Научная новизна работы заключается в объединении двух подходов - п- грамм и нейронные сети с последующей реализацией автоматического классификатора.
Актуальность темы заключается в том, что создание программы для классифицирования текстов на разных языках, разных стилей существенно упростит и ускорит процессы их обработки, классификации.
Объектом исследования работы является метод n-грамм и нейронные сети в задачах классификации текстов.
Практическая значимость дипломной работы состоит в том, что введение и использование этой программы на предприятии соответствующего профиля позволит сократить финансовые расходы, время- и трудозатраты на обработку документов на различных языках, т.к. позволит обрабатывать собрание текстовых документов на всех языках за один цикл, а не настраивать алгоритм каждый раз под каждый конкретный язык.
Теоретическую основу диплома составляют научные труды и публикации отечественных и иностранных ученых по вопросам в области компьютерной лингвистики, в частности для решения задач классификации текстовой информации.
Методологическую основу диплома составляет анализ имеющихся методов распознавания текстов.
Эмпирическую основу исследования составляют обучающие выборки публицистического, научного, художественного, официально-делового и разговорного текстов на двух языках - русском и английском, а также одна из осуществлений алгоритма n-грамм с применением нейронных сетей с адаптацией под необходимые исследования и использовалась для решения поставленных задач.
В данной выпускной квалификационной работе было показано, каким образом нейронные сети способны помочь в работе с текстовыми данными. Исследования в области нейронных сетей достаточно наглядны. По сравнению с другими вычислительными методами они имеют значительные преимущества. У моделей, разработанных на основе нейронных сетей динамичные требования: им необходимы незначительные предварительные знания относительно формирования задачи.
Нейронные сети широко применяются в различных отраслях. Нейросети должны использоваться для обобщения данных, а не для определения, атрибуты и критерии которого крайне важны при сборе и анализе данных. Обучающиеся машины нашли широкое распространение при формализации знаний из данных реального мира, но все же сами обучающиеся машины не могут создавать принципы формализации - здесь не обойтись без помощи человека.
При выполнении выпускной квалификационной работы были решены поставленные задачи:
изучена литература с описанием работы нейронных сетей и их применение для решения задач классификации текстов;
- описаны основные подходы к решению задач классификации текстов;
- выбран наиболее предпочтительный алгоритм для реализации собственной модели;
- собрана обучающая выборка;
- создан алгоритм для классификации текстов.
В процессе работы была разработана программа «Анализатор текста» для автоматической классификации текстов по функциональным стилям.
В процессе выполнения работы был изучен большой объем информации, освоены значительные объемы по изучению классификаторов текстов, нейронных сетей. Все это позволило нам убедиться в колоссальности данной среды.
Целью выпускной квалификационной работы являлась разработка и создание программы для автоматической классификации текстов по функциональным стилям - научный, официально-деловой, разговорный, публицистический, художественный с использованием нейронных сетей для двух языков - русский и английский. Цель была достигнута.
1. Бузикашвили Н.Е., Самойлов Д.В., Крылова Г. А. N-граммы в лингвистике. Москва: Диториал УРРС. 2000. 376 с. С. 91-130.
2. Васильев В.Г. Комплексная технология автоматической классификации текстов. - Вып. 7(14). — М.: РГГУ, 2008. - С. 83-91.
3. Вудс В.А. Сетевые грамматики для анализа естественных языков. // Кибернетический сборник. Новая серия. -М.:Мир, 1978.-вып. 13. Стр. 120-158.
4. Головко В.А. Нейронные сети: обучение, организация и применение. Нейрокомпьютеры и их применение: учеб, пособие - М.,2001.256 с.
5. Кожина М.Н. Стилистика русского языка. Москва: Флинта. 2008. 464 с.
6. Котельников Е. В. Автоматический анализ тональности текстов на основе методов машинного обучения. Вып. 11 (18), М.: Изд-во РГГУ, 2012, С. 27-36.
7. Маннинг К.Д., Рагхаван П., Шютце X. Введение в информационный поиск. М.: Ви- льямс. 2011. 528 с
8. «Находимость корпоративных данных. Обзор опыта пользователей ЕСМ- систем»// Docflow, Abbyy, 2014
9. Тарануха В. Ю. Метод построения n-граммной модели адаптированной для славянских языков // Инновации в науке: сб. ст. по матер. XXXIII междунар. науч.-практ. конф. № 5(30). - Новосибирск: СибАК, 2014.
10. Харламов А.А. Ассоциативный процессор на основе нейроподобных элементов для структурной обработки информации. // Информационные технологии, 1997, № 8, - с. 40-44
11. Холоденко А.Б. Использование лексических и синтаксических анализаторов в задачах распознавания для естественных языков. // Интеллектуальные системы. Т.4, вып. 1-2, 1999, с. 185-193.
12. Biemann С., Handschuh S., Freitas A., Meziane F. Metais E.: Natural Language Processing and Information Systems. - 2015. - Springer, 453 c.
13. Mikolov T., Corrado, G., Chen K., Dean J.: Efficient Estimation of Word
Representations in Vector Space// arXiv: 1301.378 lv3, - 2013
14. http://www.docflow.ru/
15. http://idcrussia.com/ru/
16. https://habrahabr.ru
17. https://ru.wikipedia.org/wiki
18. http://wciom.ru/