Введение 3
Глава 1. Предметная область 5
1.1 Общие сведения о текстовом анализе 5
1.2 Построение векторной модели 7
1.2.1 Лингвистическая обработка 8
1.2.2 Математическая обработка 11
Глава 2. Методы исследования 14
2.1 Задача классификации данных 14
2.2 Алгоритмы классификации 15
2.2.1 Метод C4.5 15
2.2.2 Наивный байесовский метод. 19
2.3 Метрики оценивания качества 22
Глава 3. Формирование данных для классификатора 25
3.1 Разработка схемы классификации 25
3.2 Организация обучающего и тестового множеств 26
3.2.1 Общие сведения по полученным выборкам 28
3.2.2 Информация по полученным классам в тестовой выборке 29
3.2.3 Информация о размерах классов в обучающей выборке 30
Глава 4 Проведение экспериментов 32
4.1 Описание шагов предобработки данных 32
4.2 Результаты экспериментов 33
Заключение 50
Список литературы 51
Важным аспектом в современном обществе является гонка технологий и постоянный рост темпов научного прогресса. Развитие существующего потенциала учёных, помощь в продвижении их идей, предоставление максимально комфортных условий для проведения исследований – все эти вопросы регулярно подымаются как отдельным государством, так и мировым сообществом в целом. С целью их разрешения формируется огромное количество фондов и программ, которые проводят всевозможные конкурсы и мероприятия с различными целевыми группами. Но встаёт проблема доступности данной информации для отдельного учёного. Объявления, как правило, публикуются на сайтах организаторов, т.е. данные весьма разрознены, и отдельному лицу сложно своевременно отслеживать новые публикации. При получении информации с различных источников результатом будет являться весьма большой объём документов, большая часть которых не будет интересна отдельному лицу.
Таким образом, видна актуальная задача сбора сообщений в научной сфере и их автоматического представления в виде удобном для быстрого фасетного поиска. Предполагается, что последнее позволит учёному настроить нужные фильтры и получить только тот набор объявлений, который интересен непосредственно ему.
Получение первичных результатов для разработки такой системы легло в основу данной дипломной работы, целью которой является создания аппарата автоматической классификации научных (в первую очередь конкурсных) объявлений по заданной системе классов ряда категорий. Для достижения выбранной цели решались следующие задачи:
• анализ значительного объёма данных для определения категорий, которые могут быть интересны пользователю (например, для кого сделано объявление, тип объявления, возрастная группы и т.д.) и выделение основных классов внутри категорий, например, по целевой группе: аспиранты, студенты, доктора наук, кандидаты наук и др.
• разработка тестовой и обучающей коллекций на основе определённых категорий и классов.
• изучение подходов к обработке естественно языка и задачи классификации, выбор стратегии обработки данных.
• изучение и имплементация двух алгоритмов машинного обучения, решающих задачу классификации
• оценить влияние использования различных подходов нормализации документов и значений ключевых параметров алгоритмов, определение лучших результатов.
В качестве материала по рассматриваемой теме были использованы объявления о конкурсах, которые ранее были получены с сайта УНИ СПБГУ. Данные были классифицированы и размечены вручную. Всего рассматривались четыре категории, количество документов в которых составило:
• Категория участников - 492
• Тип конкурс - 399
• Тип объявления - 329
• Масштаб конкурса - 297
В роли инструментария, который позволил написать необходимую программу для проведения исследования, использовалась библиотека алгоритмов машинного обучения Weka. В ходе работы были изучены такие общие принципы Weka, как область применения, какие задачи возможно решить при помощи данного пакета, доступные методы, структура входных данных, API (интерфейс программирования приложений).
В ходе данной работы разрабатывался инструмент для автоматической классификации текстовых документов, содержащих информацию из научной сферы. Решались такие задачи, как: разработка обучающего и тестового множеств, выбор модели представления документа, анализ возможностей выбранного программного пакета Weka, изучение двух алгоритмов машинного обучения – дерева построения решений и Наивного байесовский метода.
Рассмотрены различные подходы, влияющие на качество классификации. По результатам проведённого исследования для каждой категории данных были определены параметры, при которых были получены наилучшие результаты.
1. Hartley, R.V.L., Transmission of Information. // Bell Systems Technical Journal, 7 July 1928, pp 535-563
2. Hull, D.A.: Stemming Algorithms - A Case Study for Detailed Evaluation in Journal of the American Society for Information Science 47(1), 1986, pp 70-84,
3. Pantel P., Turney P. Kantrowitz, M: Vector Space Models of Semantics // Journal of Artificial Intelligence Research 37, 2010, pp 141-188
Книга одного автора
4. DeRose, Steven J. Stochastic Methods for Resolution of Grammatical Category Ambiguity in Inflected and Uninflected Languages. 1990. P 566
5. Miyao Y. From Linguistic Theory to Syntactic Analysis: Corpus-oriented Grammar Development and Feature Forest Model. PHD thesis, University of Tokyo. 2006.
6. Porter M.F. An algorithm for suffix stripping / M.F. Porter // Program. - 1980. - Volume 14, № 3. - P. 130-137.
7. Quinlan J. Ross. C4.5 : programs for machine learning. San Mateo, Calif. :Morgan Kaufmann Publishers, c1993. P. 302
Книга нескольких авторов
8. Ceriel, J. Grune, D. Parsing Techniques. A Practical Guide, 2007 P. 662
9. Green G. M., Morgan J. L., Practical guide to Syntactic analysis. 2001. P 14
10. Golub G. van Loan C. Matrix computations. Johns Hopkins University Press; 3rd edition (October 15, 1996) P. 728
11. Michie D., Spiegelhalter D.J., Taylor C.C.. Machine Learning, Neural and Statistical Classification. February 17, 1994. P. 290
12. Rokach L., Maimon O. Data Mining with Decision Trees. 2007. P264
13. Salton G., Wong A., Yang C.S., From Frequency to Meaning for automatic indexing
14. Srivastava A., Sahami M.. Text Mining: Classification, Clustering, and Applications. 2009. P. 328.
Статья в сборнике
15. G.H. John, P. Langley, Estimating continuous distributions in Bayesian classifiers, in: Proceedings of the 11th Conference on Uncertainty in Artificial Intelligence, 1995, pp. 338–345
16. Kantrowitz, M. Stemming and its effects on TFIDF ranking / M. Kantrowitz, B. Mohit, V. Mittal // In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval. - 2000. - NY, USA: ACM Press. - P . 357-359.
17. Singal A., Salton G., Mitra M., Buckley C. Document Lenght Normalization. Information Processing and Management. Technical Report TR95-1529, Department of Computer Science, Cornell University, Ithaca, New York, July 1995.
18. Ilya Segalovich, A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine
Ссылка в интернете
19. Машинное обучение (курс лекций, К.В.Воронцов) http://www.machinelearning.ru/
20. Сервис MyStem https://tech.yandex.ru/mystem/