Тип работы:
Предмет:
Язык работы:


Алгоритм построения профиля пользователя в научных рекомендательных системах

Работа №85764

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы48
Год сдачи2017
Стоимость4325 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
83
Не подходит работа?

Узнай цену на написание


Введение 3
1. Постановка задачи 5
2. Процедура автоматической обработки текста 7
2.1. Стемминг 7
3. Алгоритм вычисления меры схожести документов коллекции 9
3.1. Библиотека gensim 9
3.2. Модель bag-of-words 12
3.3. Алгоритм решения 16
3.4. Описание методов 22
4. Описание приложения 27
4.1. Клиент-серверная архитектура 27
4.2. ModelViewController 27
4.3. Freemarker 29
4.4. Обнаружение схожих текстов Python 33
5. Реализация алгоритма в виде веб-сервиса 35
6. Заключение 37
Используемая литература 38
Приложение

В последнее время все более актуальным становится вопрос улучшения работы поисковых сервисов и большая персонализация результатов запросов. Вместе с тем, актуальной становится проблема разработки информационных технологий для анализа и извлечения полезной информации из огромного количества накопленных коллекций научных документов по ряду тематических областей. Необходима их предварительная автоматическая обработка для дальнейшего использования. При обработке текстовой информации возникает целый ряд задач, одной из которых является установлении смысловой связи между различными документами. Решив эту задачу и установив связь между документами, появится возможность создания некой рекомендательной системы, которая позволила бы рекомендовать пользователю остальные документы по соответствующей теме.
Целью работы является создание алгоритма, позволяющего в автоматическом режиме установить смысловую близость между несколькими текстовыми документами на основе метода машинного обучения. В качестве тестового набора использовались коллекции курсовых работ, выпускных квалификационных работ и магистерских диссертаций.
Вся работа разделена на несколько глав. В первой главе постановка задачи, даны основные определения. Во второй главе дипломной работы даны основные анализы автоматической обработки текстов и описание алгоритма стемминга. Третья разделена на несколько подпунктов, представлены решение поставленной задачи на основе метода машинного обучения, алгоритм решения и описания библиотеки gensim и метода bag- of-words. В четвертой главе подробно описано приложение и его функционал. Реализация алгоритма и функционал сайта представлены в пятой главе. Далее идет заключение и список использованной литературы. В приложении представлен код программы, который реализует в настоящей работе алгоритм для определения смысловой близости документов. Программа выполнена в виде веб-приложения на двух языках: Java Script и Python.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Описанная работа посвящена решению проблемы поиска аналогичных статей по запросу пользователя. В основу разработанного метода был положен метод машинного обучения. Были рассмотрены такие методы, как машинное обучение, стемминг, baf-of-words и библиотека gensim. Описано преставление документа в виде вектора, основанное на том, что чем больше коэффициент схожести векторов, тем больше похожи данные документы.
Практическая часть, заключается в создании и разработке программы, на языке Java и Python, как веб приложения, метода автоматического подбора схожих статей .Программа обеспечивает возможность автоматической обработки текста, позволяющего в автоматическом режиме установить смысловую близость различных документов с получением результата в виде рекомендации наиболее схожей статьи из заданного набора .



[1] Захаров В.Н. Опыт создания кластеров документов на основе метода
определения их тематического подобия / В.Н. Захаров, А. А Хорошилов // Труды 16-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные
коллекции» — RCDL-2014, Дубна, Россия, 13-16 октября 2014 г., с.123¬138.
[2] Белоус В.В. Интеллектуальный анализ данных в электронных обучающих системах/ В.В. Белоус, А.С. Домников // Электронный научно-технический журнал «Инженерный вестник», № 12 декабрь 2013 г., с. 99¬109.
[3] Захаров B.H. Автоматическое формирование визуального представления смыслового содержания/ В.Н. Захаров, А. А. Хорошилов // Системы и средства информ., 2013, том 23, выпуск 1, с.143-158.
[4] Белоногов Г.Г. Компьютерная лингвистика и перспективные информационные технологии. Теория и практика построения систем автоматической обработки текстовой информации/ Г.Г. Белоногов // — М.: Русский мир, 2004г., с. 264.
[5] Salton G.H. Automatic Text Processing. / G.H. Salton // Addison-Wesley Publishing Company, Inc., Reading, MA, 1989, p.66.
[6] Salton G.H. Automatic structuring and retrieval of large text files / G.H. Salton, J.K. Allan, C.C. Buckley // Communications of the ACM, 37(2), February 1994., p 72.
[7] Чалая Л.Э. Метод векторно-графовой кластеризации документов в системах обработки текстовой информации/ Л.Э. Чалая, Ю.Ю. Харитонова // Харьковский национальный университет радиоэлектроники, «Системы обработки информации » — 2015г., г. Харьков — № 10(135) — с. 145-151.
[8] Селезнев К.Н. Лингвистика и обработка текстов / Владимиров А. A// «Открытые системы». — 2013г., — № 04. — с. 46-49.
[9] Хорошилов А.А. Методы автоматического установления смысловой
близости документов на основе их концептуального анализа / А.А. Хорошилов // Труды XV Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии,
электронные коллекции» - RCDL’2013, г. Ярославль, 14-17 окт. 2013 г. - с. 369-376.
[10] Елизаров А.М. Онтологии математического знания и рекомендательная система для коллекций физико-математических документов / А.М. Елизаров, А.Б. Жижченко, Н.Г. Жильцов, А.В. Кириллович, Е.К. Липачёв // Докл. РАН. - 2016. - 467. №4. - С. 392—395.
[11] Елизаров А.М. Терминологическое аннотирование и рекомендательный сервис в системе управления физико-математическим контентом / А.М. Елизаров, Н.Г. Жильцов, А.В. Кириллович, Е.К. Липачёв // Труды XVII Межд. конф. DAMDID/RCDL’2015 «Аналитика и управление данными в областях с интенсивным использованием данных». Обнинск: ИАТЭ НИЯУ МИФИ, с. 347-350, 2015.
[12] Агеев М. C. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов / М.С. Агеев // Московский Государственный Университет им. М.В. Ломоносова диссертация: 05.13.11, г. Москва, 2013г., с.123-138.
[6] Shirude S.B. (2012) A Library Recommender system using cosine similarity measure and ontology based measure S.B. Shirude, S.R. Kolhe Advances in Computational Research, ISSN: 0975-3273 & E-ISSN: 0975-9085, Volume 4, Issue 1, pp. 91-94.
[8] Manouselis N. Recommender Systems for Learning N. Manouselis, H. Drachsler, V. Katrien, D. Erik Springer, 2013, pp. 37-43.
[9] Francesco Ricci Recommender systems handbook Ricci Francesco, Lior Rokach, Bracha Shapira Springer, 2015, pp. 21-35


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ