Введение
Постановка задачи
Обзор литературы
Глава 1. Обзор применяемых методо
1.1. Рекомендательные системы
1.2. Классификация текста
1.3. Семантическая близость слов
Глава 2. Практическая реализация системы.
2.1. Обучение классификаторов
2.2. Извлечение временных интересов ..
2.3. Определение семантической близости интересов
с помощью модели word2vec
2.4. Построение рекомендательной системы..
2.5. Программная реализация системы.
Глава 3. Оценка результатов
3.1. Оценка классификации
3.2. Примеры выделения временных интересов..................................35
3.3. Примеры результатов определения близости интересов.............38
3.4 Оценка работы всей системы.
Выводы
Заключение
Список литературы
Приложение
Задача разработки рекомендательных систем появилась относительно недавно – в век развития Интернета и информационных технологий количество доступной информации увеличилось настолько, что человек не
способен просмотреть ее всю, чтобы выбрать только интересную ему.
Поэтому многие современные сервисы создают рекомендательные системы, которые на основе информации о профиле пользователя и его предыдущему поведению в системе пытаются определить, какие объекты, товары или услуги могут быть ему интересны. Объектами могут быть товары, книги, музыка, фильмы, новости и т. д. Яркими примерами могут служить такие сервисы или сайты, как «Юлмарт», «КиноПоиск», «Яндекс.Дзен» и многие другие. «Юлмарт» — российский онлайн-магазин по продаже непродовольственных товаров и цифрового контента. При просмотре на сайте компании информации о товаре он также отображает список дополнительно рекомендованных товаров на основе просмотров пользователя. Кинопоиск – российский сайт о фильмах, который предлагает пользователю фильмы на основе его предпочтений. «Яндекс.Дзен» – расширение для браузера от компании «Яндекс», ставшее популярным, ищущее в Интернете информацию, которая может быть интересна пользователю, и собирающее ее в персональную ленту.
Как видно из примеров, рекомендательные системы могут служить инструментом для увеличения продаж, продажи более разнообразных объектов, увеличения лояльности пользователей, а также улучшения понимания пользовательских потребностей и желаний. Поэтому они быстро набирают популярность и начинают широко применяться в электронной коммерции, при поиске фильмов, музыки, ПО, научных статей, а также на новостных сайтах и в справочных центрах, а задача разработки эффективных рекомендательных систем является актуальной.
Выделяют два основных метода построения рекомендательных систем
— метод фильтрации на основе содержания и метод коллаборативной фильтрации.
Методы фильтрации на основе содержания основаны на описании объекта и профиле предпочтений пользователя. Описанием объекта является конечное множество его дескрипторов, таких как ключевые слова, бинарные дескрипторы и т. д, а профиль предпочтений представляет собой взвешенный вектор дескрипторов объекта, в котором веса показывают важность каждого дескриптора для пользователя и его вклад в принятие конечного решения.
Этот подход пытается подобрать объекты, похожие на те, которые нравились пользователю ранее, и опирается на методы информационного поиска и машинного обучения. Популярными сервисами, использующими этот тип
рекомендательных систем, являются Rotten Tomatoes, Internet Movie Database и Pandora Radio.
Метод коллаборативной фильтрации базируется на информации об истории поведения пользователей в системе. Например, могут использоваться данные о покупках или оценках. В этом случае для пользователя находятся
похожие на него по истории пользователи, и рекомендация основывается их на отношении к объекту. На данном методе основаны рекомендательные системы таких сервисов, как Last.fm и Amazon.com.
В работе произведен обзор предметной области рекомендательных систем. Рассмотрены главные подходы к их построению: метод коллаборативной фильтрации и метод фильтрации на основе содержания. Предложен новый подход в разработке рекомендательных систем методом фильтрации по содержанию, основанный на автоматическом извлечении интересов пользователей, определении семантически похожих интересов и выявлении временных интересов.
Рассмотрены популярные методы машинного обучения для бинарной и мультиклассовой классификации: метод опорных векторов, байесовские методы, деревья принятия решений и метод ближайших соседей. Изучены главные подходы к задаче политематической классификации текстов: методы на основе сведения проблемы к задаче бинарной или мультиклассовой
классификации, такие как Label Powerset и цепной классификатор, и адаптивные методы как адаптивный метод ближайших соседей. Рассмотрены ключевые методы оценки эффективности политематических классификаторов. В результате проведенного исследования на наборе данных лучшим классификатором для задачи классификации текста на естественном русском языке оказался Label Powerset с деревьями принятия решений в качестве базисных классификаторов. Рассмотрены методы построения векторного представления слов на основе нейронных сетей и разработан алгоритм построения набора данных и определены параметры для эффективного обучения модели word2vec. Изучено поведение интересов во времени и предложен алгоритм распознавания циклических, направленных и постоянных интересов. Построена рекомендательная система, учитывающая эти свойства интересов на коллекции документов блог-платформы LiveJournal. Произведена оценка целесообразности использования общей статистики по интересам при составлении рекомендаций и показана статистическая значимость наблюдаемого улучшения работы системы
1. Краюшкин О., Смирнов М., Чернобай Ю. Сборка, хранение и
предобработка коллекции документов для обучения multi-label
классификатора текстов на естественном русском языке // Программная
инженерия и организация информации, SEIM-2016: труды 1-й научнопрактической конференции / Под ред.В. М. Ицыксона, А. С. Ярыгиной. Спб.:
Computer Science Center, С. 49-53.
2. Pollock, S. A rule-based message filtering system // ACM Transactions on
Office Information Systems, 1988. Т. 6, Вып. 3. С. 232-254.
3. Goldberg, D., Nichols, D., Oki, B. M., and Terry, D. Using collaborative
filtering to weave an information tapestry. // Communications of the ACM, 1992.
Т. 35, Вып. 12. С. 61-70.
4. Resnick, P., Varian, H.R. Recommender systems // Communications of the
ACM, 1997. Т. 40, Вып. 3. С. 56- 58.
5. Brusilovsky, P. Methods and techniques of adaptive hypermedia // User
Modeling and UserAdapted Interaction, 1996. Т. 6, Вып. 2. С. 87-129.
6. Pazzani, M.J. A framework for collaborative, content-based and
demographic filtering // Artificial Intelligence Review, 1999. Т. 13. С. 393-408.
7. Ahn, H., Kim, K.J., Han, I. Mobile advertisement recommender system
using collaborative filtering // Proceedings of the 2006 Conference of the Korea
Society of Management Information Systems, 2006. С. 709-715.
8. A¨ımeur, E., Brassard, G., Fernandez, J.M., Onana, F.S.M. Alambic: a
privacy-preserving recommender system for electronic commerce // International
Journal of Infectious Diseases, 2008. Т. 7. Вып. 5. С. 307–334.
9. Golbeck, J. Generating predictive movie recommendations from trust in
social networks // Trust Management, 4th International Conference, iTrust 2006,
Pisa, Italy, May 16-19, 2006, Proceedings, 2006 . pp. 93–104.
10. Cortes C., Vapnik V. Support-vector networks // Machine Learning,
441995. Т. 20. С. 273-297.
11. Joachims T. Text categorization with support vector machines: Learning
with many relevant features // Springer Berlin Heidelberg, 1998. С. 137-142.
12. Russell, S., Norvig, P. Artificial Intelligence: A Modern Approach (2nd
ed.). Prentice Hall, 2003. 946 с.
13. Rokach, L., Maimon, O. Data mining with decision trees: theory and
applications. World Scientific Pub Co, 2008. 305 с.
14. Tsoumakas, G.; Katakis, I. Multi-label classification: an overview. //
International Journal of Data Warehousing & Mining, 2007. Т. 3. Вып. 3. С. 1-13.
15. Read, J.; Bernhard P.; Geoff H.; Eibe F. Classifier Chains for Multi-label
Classification. // Machine Learning, 2011. Т. 85. Вып. 3. С. 333-359.
16. Tsoumakas, G., Vlahavas, I. Random k-labelsets: An ensemble method
for multilabel classification // Machine Learning: ECML 2007, 2007. С. 406-417
17. Sinclair, J. The automatic analysis of corpora // Directions in Corpus
Linguistics (Proceedings of Nobel Symposium 82), 1992. Berlin: Mouton de
Gruyter, C. 379-397
18. Митрофанова О.А. Измерение семантических расстояний как
проблема прикладной лингвистики // Структурная и прикладная лингвистика.
Межвузовский сборник: журнал. Издательство СПбГУ, 2008. Вып.7. C. 92-
101.
19. Laurene V. F., Fundamentals of neural networks. Prentice-Hall, Inc.
Upper Saddle River, NJ, USA,1994. 476 с.
20. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word
Representations in Vector Space, Researchgate, 2014. 12 c.
21. Levy, O., Goldberg, Y., Dagan, I. Improving Distributional Similarity
with Lessons Learned from Word Embeddings // Transactions of the Association
for Computational Linguistics, 2015. Т. 3. С. 211-225