Тип работы:
Предмет:
Язык работы:


ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ПРИ РАНЖИРОВАНИИ И ПОДБОРЕ НОВОСТЕЙ ПО ЗАДАННОЙ ТЕМЕ

Работа №40777

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы51
Год сдачи2019
Стоимость3900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
277
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1. Обзор существующих алгоритмов машинного обучения для задачи ранжирования 5
1.1. Поточечный подход 5
1.2. Попарный подход 6
1.3. Посписочные методы 7
2. Теоретические основы алгоритмов ранжирования текстов 8
2.1. Предобработка входных данных 8
2.2. Нейронные сети 11
2.3. Метод опорных векторов 19
3. Практическая реализация 24
3.1. Обработка текста 24
3.2. Нейронные сети 29
3.3. Метод опорных векторов 37
ЗАКЛЮЧЕНИЕ 41
СПИСОК ЛИТЕРАТУРЫ 42
ПРИЛОЖЕНИЕ 45


Каждый человек в своей жизни сталкивался с тем или иным ранжированием, так как многие пользуются различными онлайн- кинотеатрами, социальными сетями, крупными интернет-магазинами и уж точно поисковыми системами. Во всех перечисленных интернет-площадках можно столкнуться с ранжированием: будь то поисковая выдача на запрос или индивидуально подобранная для каждого пользователя лента рекомендаций в онлайн-кинотеатре Netflix и видеохостинге Youtube или таргетированная реклама в соцсетях, как Вконтакте и Инстаграм. К тому же, помимо очевидных примеров, ранжирование встречается в таких сферах, как машинный перевод[1] и даже в вычислительной биологии. Для такой распространенной задачи существуют разные алгоритмы решения, и одними из основных являются алгоритмы обучения ранжированию.
Обучение ранжированию - один из классов задач машинного обучения, обычно обучения с учителем, обучения с частичным учителем и обучения с подкреплением, которое направлено на решение проблем ранжирования информации. Данная задача выделяется на фоне других задач машинного обучения, так как обычно конечным результатом, например, классификации или регрессии является предсказывание одного или нескольких значений к одному элементу выборки, то есть класса в случае классификации и вектора значений в случае регрессии. Однако обучение ранжированию - это анализ сразу целого списка элементов выборки одновременно, так как стоит задача отсортировать этот список так, чтобы получить релевантную выдачу на какой-либо запрос.
Однако анализ сразу корпуса элементов - задача непростая, и существует несколько подходов обучения ранжированию для решения данной задачи: поточечный, попарный и списочный. У каждого есть свои преимущества и свои проблемы, и существует огромное количество различных алгоритмов в каждом подходе.
Целью работы является решение задачи подбора новостей по заданной теме и ранжирование найденных новостей по степени их релевантности. Основным инструментом решения задачи должны являться методы машинного обучения. Для этого будут проанализированы и реализованы два алгоритма: нейронная сеть и метод опорных векторов. Оба они реализованы с попарным подходом решения задач ранжирования. Попарный подход был выбран, так как он показывает лучшие результаты на практике, чем, например, поточечный подход, да и предсказывание порядка двух документов по отношению друг к другу ближе к природе ранжирования, чем предсказывание оценки релевантности в отрыве от других документов в списке. И многие популярные алгоритмы, например, RankNet, LambdaRank и LambdaMART [2] [3] относятся к попарному подходу.
Для данной работы поставлены задачи:
- Сбор и изучение материалов по существующим алгоритмам машинного обучения для задачи ранжирования:
- поточечные методы;
- попарные методы;
- списочные методы.
- Разбор полученной информации по ранжированию:
- способы реализации;
- различия;
- преимущества и недостатки.
- Реализация двух алгоритмов машинного обучения для задачи ранжирования:
- нейронная сеть;
- метод опорных векторов.
- Тестирование.
- Анализ результатов работы отобранных алгоритмов и выбор оптимального алгоритма.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы для решения задачи подбора новостей по заданной теме и ранжирование найденных новостей по степени их релевантности были разработаны два алгоритма попарного подхода обучения ранжированию: нейронные сети и метод опорных векторов. В ходе разработки были решены следующие поставленные задачи:
- Сбор и изучение материалов по существующим алгоритмам машинного обучения для задачи ранжирования.
- Реализация двух алгоритмов машинного обучения для задачи ранжирования на языке программирования Python:
- нейронная сеть;
- метод опорных векторов.
- Анализ результатов работы отобранных алгоритмов.
Рассмотрены алгоритмы были с различными параметрами. Нейронная
сеть была реализована в трёх моделях: с одним скрытым слоем, с двумя и тремя, а также обучена при помощи двух алгоритмов оптимизации целевой функции. Точнее всего результат был при обучении градиентовским спуском, а увеличение количества слоёв на результат повлияло незначительно. Для метода опорных векторов рассматривались различные ядра. Их результаты тоже отличались незначительно. Как итог, были выбраны параметры для алгоритмов, которые дают лучшее время - нейронная сеть с одним скрытым слоем и градиентовским спуском в обучении и метод опорных векторов с полиномиальным ядром.
По результатам дальнейших экспериментов можно отметить, что с задачей ранжирования справляются оба отобранных алгоритма одинаково хорошо, однако по времени выигрывает нейронная сеть (17,5 с. против 166,9 с. у метода опорных векторов).



1. Hang Li, A Short Introduction to Learning to Rank [Текст] / Hang Li // IEICE Transactions on Information and Systems. - 2011. - С. 1854-1863.
2. What is the intuitive explanation of Learning to Rank and algorithms like RankNet, LambdaRank and LambdaMART? In what types of data/variables can these techniques be used? What are their strengths and limitations? [Электронный ресурс] - 2016. - URL: https://www.quora.com/What-is- the-intuitive-explanation-of-Learning-to-Rank-and-algorithms-like- RankNet-LambdaRank-and-LambdaMART-In-what-types-of-data- variables-can-these-techniques-be-used-What-are-their-strengths-and- limitations/answer/Nikhil-Dandekar (дата обращения: 18.05.2019)
3. Chris Burges, Learning to Rank using Gradient Descent [Текст] / Chris Burges, Tal Shaked, Erin Renshaw // ICML, Proceedings of the 22nd international conference on Machine learning. - 2011. - С. 89-96.
4. Tie-Yan Liu, Learning to Rank for Information Retrieval [Текст] / Tie-Yan Liu. - Now Publishers Inc. - 2009. - 110 с.
5. Norbert Fuhr, Optimum polynomial retrieval functions based on the probability ranking principle [Текст] / Norbert Fuhr // ACM Transactions on Information Systems. - 1989. - С:183-204.
6. Cooper, William S., Probabilistic retrieval based on staged logistic regression [Текст] / Cooper, William S., Gey, Frederic C., Dabney, Daniel P. // SIGIR '92 Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. - 1992. - С:198-210.
7. Ping Li, Learning to Rank Using Classification and Gradient Boosting [Текст] / Ping Li, Chris J.C., Burges Qiang Wu // NIPS'07 Proceedings of the 20th International Conference on Neural Information Processing Systems. - 2007. - С:1-10.
8. Yunbo CAO, Adapting Ranking SVM to Document Retrieval [Текст] / Yunbo CAO, Jun XU, Tie-Yan LIU, Hang LI, Yalou HUANG, Hsiao-
Wuen HON // SIGIR '06 Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. -
2006. - G186-193.
9. Mike Taylor, SoftRank: Optimising Non-Smooth Rank Metrics [Текст] / Mike Taylor, John Guiver, Stephen Robertson, Tom Minka // WSDM '08 Proceedings of the 2008 International Conference on Web Search and Data Mining. - 2008. - С:77-86.
10. Jun Xu, AdaRank: a boosting algorithm for information retrieval [Текст] / Jun Xu // SIGIR '07 Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. -
2007. - G391-398.
11. Zhe Cao, Learning to rank: from pairwise approach to listwise approach [Текст] / Zhe Cao, Tao Qin, Tie-Yan Liu, Ming-Feng Tsai, Hang Li // ICML '07 Proceedings of the 24th international conference on Machine learning. - 2007. - С: 129-136.
12. Fen Xia, Listwise approach to learning to rank: theory and algorithm [Текст] / Fen Xia, Tie-Yan Liu, Jue Wang, Wensheng Zhang, Hang Li // ICML '08 Proceedings of the 25th international conference on Machine learning. - 2008. - С: 1192-1199.
13. T. Mikolov, Efficient Estimation of Word Representations in Vector Space [Текст] / T. Mikolov, K. Chen, G. Corrado, J. Dean // ICLR 2013 conference submission. - 2013. - arXiv: 1301.3781.
14. T. Mikolov, Distributed Representations of Words and Phrases and their Compositionality / T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean // NIPS'13 Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2. - 2013. - С: 3111-3119.
15. Многослойный персептрон [Электронный ресурс] - 2016. - URL: http://www.aiportal.ru/articles/neural-networks/multi-perceptron.html (Дата обращения: 18.05.2019)
16. Нейросетевое моделирование: многослойный персептрон
[Электронный ресурс] - 2004. - URL:
http://www.ievbras.ru/ecostat/Kiril/Librarv/Book1/Content394/Content394. htm (Дата обращения: 18.05.2019)
17. Nitish Shirish Keskar, adaQN: An Adaptive Quasi-Newton Algorithm for Training RNNs / Nitish Shirish Keskar, Albert S. Berahas // ECML PKDD 2016 European Conference on Machine Learning and Knowledge Discovery in Databases - Volume 9851. - 2016. - С:1-16.
18. R. H. Byrd, A Stochastic Quasi-Newton Method for Large-Scale Optimization / R. H. Byrd, S. L. Hansen, Jorge Nocedal, and Y. Singer // SIAM Journal on Optimization 26. - 2014. - С:1008-1031.
19. Jascha Sohl-Dickstein, Fast large-scale optimization by unifying stochastic gradient and quasi-Newton methods / Jascha Sohl-Dickstein, Ben Poole, Surya Ganguli // ICML'14 Proceedings of the 31st International Conference on International Conference on Machine Learning. - 2014. - С:604-612.
20. Условия Вольфе - Википедия [Электронный ресурс] - 2013. - URL: https://ru.wikipedia.org/wiki/y^QB^ Вольфе (Дата обращения:
18.05.2019)
21. Outer product - Википедия [Электронный ресурс] - 2016. - URL: https://en.wikipedia.org/wiki/Outer product (Дата обращения: 18.05.2019)
22. Линейная сепарабельность - Википедия [Электронный ресурс] - 2011. - URL: https://ru■wikipedia■org/wiki/Линейная сепарабельность (Дата обращения: 18.05.2019)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ