ВВЕДЕНИЕ 3
1 ПОСТАНОВКА ЗАДАЧИ 5
2 ОПИСАНИЕ СОСТОЯНИЯ ДЕЛ В ОБЛАСТИ, ОБЗОР ПОДХОДОВ К
АКТИВНОМУ ОБУЧЕНИЮ 6
2.1 Машинное обучение с учителем для задачи классификации 6
2.1.1 Задача классификации текста 7
2.1.2 Логистическая регрессия 8
2.2 Активное обучение в задачах классификации 12
2.2.1 Сценарии реализации подходов, основанных на активном обучении . 13
2.2.2 Стратегия построения запроса 15
3 ОПИСАНИЕ МЕТОДОВ 20
3.1 Сэмплирование по степени неуверенности 20
3.2 Отбор комитетом 21
4 РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 23
ЗАКЛЮЧЕНИЕ 30
ССЫЛКИ
Мы живем в век информации. Каждый день мы сталкиваемся с огромным количеством данных в сфере бизнеса, государственных учреждений, научных исследований, от новостей до денежных транзакций. Помимо этого, у большинства людей есть почта, мессенджеры, адресные книги, цифровые фотографии, музыка, видео. Управлять большим потоком данных становится более затруднительным. Пока цифровые компьютеры существуют в нашей жизни, распространение данных будет расти, как и потребность в их эффективной организации, извлечении и интерпретации.
К счастью, технологический прогресс, повлиявший на рост объема информации, в свою очередь создал область решения проблемы, связанной с её управлением. Машинное обучение - это изучение компьютерных алгоритмов, которые автоматически обучаются исходя из полученного опыта. С каждым разом они прогрессируют, показывая хороший результат в анализе данных, в принятии решений или в прогнозировании. К примеру, обучившись на звукозаписи, которые проаннотированы по словам и предложениям, машина может воспроизводить человеческую речь [1]. После наблюдений над поведением человека за рулем в определенный период времени, она может научиться водить машину [2]. Анализируя профили здорового и больного человека, машина может диагностировать болезнь [3].
Как правило, методы обучения, используемые для задач управления информацией, делятся на две группы:
• Обучение без учителя. Дается набор не размеченных данных. Цель - сформировать аспекты для коллекции. Например, кластеризовать данные, именованные сущности, в группы на основе набора наблюдаемых признаков;
• Обучение с учителем. Дается набор размеченных сущностей, каждая в виде пары {х,у}. Цель - предсказать ответ у для любой новой сущности х, основываясь на наборе признаков описывающих её. Если у является числом, то задача называется регрессией, если это набор дискретных значений, то это задача классификации.
В данной работе были разработаны и апробированы два метода активного обучения для задачи анализа тональности текста на казахском языке. В ходе поставленных экспериментов, был проведен сравнительный анализ полученных результатов и выявлено наиболее эффективное решение. На основании проделанного нами исследования можно сделать вывод, что поставленная цель была достигнута.
Реализованные методы можно использовать для решения проблемы отсутствия аннотированного корпуса для казахского языка. Учитывая принципы активного обучения можно не только пополнять корпус, но и повышать качество классификации.
1. Tur G., Hakkani-Tur D., Schapire R. E. Combining active and semi-supervised learning for spoken language understanding //Speech Communication. - 2005. - Т. 45. - №. 2. - С. 171-186.
2. Urmson C. et al. Autonomous driving in urban environments: Boss and the urban challenge //Journal of Field Robotics. - 2008. - Т. 25. - №. 8. - С. 425-466.
3. Mangasarian O. L., Street W. N., Wolberg W. H. Breast cancer diagnosis and prognosis via linear programming //Operations Research. - 1995. - Т. 43. - №.
4. - С. 570-577.
4. Nocedal J., Wright S. J. Numerical optimization 2nd. - 2006.
5. Berger A. L., Pietra V. J. D., Pietra S. A. D. A maximum entropy approach to natural language processing //Computational linguistics. - 1996. - Т. 22. - №.
1. - С. 39-71.
6. Lang K. Newsweeder: Learning to filter netnews //Proceedings of the 12th international conference on machine learning. - 1995. - С. 331-339.
7. Zhu X., Lafferty J., Rosenfeld R. Semi-supervised learning with graphs. - Carnegie Mellon University, language technologies institute, school of computer science, 2005.
8. Dagan I., Engelson S. P. Committee-based sampling for training probabilistic classifiers //Proceedings of the Twelfth International Conference on Machine Learning. - The Morgan Kaufmann series in machine learning,(San Francisco, CA, USA), 1995. - С. 150-157.
9. Krishnamurthy V. Algorithms for optimal scheduling and management of hidden Markov model sensors //Signal Processing, IEEE Transactions on. - 2002. - Т. 50. - №. 6. - С. 1382-1397.
10. Yu H. SVM selective sampling for ranking with application to data retrieval //Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining. - ACM, 2005. - С. 354-363.
11. Fujii A. et al. Selective sampling for example-based word sense disambiguation //Computational Linguistics. - 1998. - Т. 24. - №. 4. - С. 573¬597.
12. Lewis D. D., Gale W. A. A sequential algorithm for training text classifiers //Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval. - Springer-Verlag New York, Inc., 1994. - С. 3-12.
13.Settles B., Craven M. An analysis of active learning strategies for sequence labeling tasks //Proceedings of the conference on empirical methods in natural language processing. - Association for Computational Linguistics, 2008. - С. 1070-1079.
14. Zhang C., Chen T. An active learning framework for content-based information retrieval //Multimedia, IEEE Transactions on. - 2002. - Т. 4. - №.2.- С. 260-268.
15. Hauptmann A. G. et al. Extreme video retrieval: joint maximization of human and computer performance //Proceedings of the 14th annual ACM international conference on Multimedia. - ACM, 2006. - С. 385-394..
16. Hakkani-Tur D. Z., Schapire R. E., Tur G. Combining active and semi-supervised learning for spoken language understanding : пат. 8010357 США. - 2011..
17. Liu Y. Active learning with support vector machine applied to gene expression data for cancer classification //Journal of chemical information and computer sciences. - 2004. - Т. 44. - №. 6. - С. 1936-1941..
18.Scheffer T., Decomain C., Wrobel S. Active hidden markov models for information extraction //Advances in Intelligent Data Analysis. - Springer Berlin Heidelberg, 2001. - С. 309-318..
19.Shannon C. E. A mathematical theory of communication //ACM SIGMOBILE Mobile Computing and Communications Review. - 2001. - Т. 5. - №. 1. - С. 3-55..