Тип работы:
Предмет:
Язык работы:


Разработка алгоритма построения инвертированного индекса на основе технологии MapReduce

Работа №109733

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы59
Год сдачи2018
Стоимость4300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
15
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ
1. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ ЗАДАЧИ ПОСТРОЕНИЯ
ИНВЕРТИРОВАННОГО ИНДЕКСА 6
1.1 Инвертированный индекс в поисковых системах 6
1.2.1 Алгоритмы построения инвертированного индекса 7
1.2.2 Инвертированный индекс в MapReduce 10
1.3 Парадигма MapReduce 12
1.4 Распределенная файловая система HDFS 20
2. АНАЛИЗ ТЕХНОЛОГИЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ 24
2.1 Альтернативы технологии MapReduce 24
2.2 Сравнительный анализ технологий для обработки больших данных . 29
2.3 Выбор технологии для реализации алгоритма 31
3. ПРОЕКТИРОВАНИЕ И РАЗРАБОТКА АЛГОРИТМА ПОСТРОЕНИЯ ИНВЕРТИРОВАННОГО ИНДЕКСА НА МОДЕЛИ MAPREDUCE
3.1 Требования к разрабатываемой программе
3.2 Архитектура разрабатываемой программы
3.3 Разработка программы построения инвертированного индекса 37
3.4 Компиляция и запуск программы построения инвертированного
индекса в системе Hadoop 40
3.5 Сравнение с последовательной программой 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 46
ПРИЛОЖЕНИЕ_А. Листинг InvertedIndexDriver 49


С появлением вычислительной техники объем информации, с которой может работать человек, значительно увеличился. Еще более 30 лет назад учеными стали разрабатываться алгоритмы, позволяющие упростить работу с данными, а также получить из них новые, ранее неизвестные знания. Однако сегодня эти алгоритмы неэффективны, поскольку объемы информации стали слишком большими.
Для работы с большими объемами данных была разработана специальная система Apache Hadoop [1], Главное место в этой системе занимает технология под названием MapReduce. Реализация MapReduce позволяет производить распределенные вычисления над большими объемами данных в компьютерных кластерах эффективно и безотказно.
Системы, основанные на MapReduce, разработаны таким образом, чтобы параллельность вычислений была реализована не за счет суперкомпьютера, а за счет вычислительных кластеров - наборов стандартных аппаратных средств, соединенных между собой.
Актуальность бакалаврской работы обусловлена тем, что на сегодняшний день объемы хранимых данных становятся слишком большими для того, чтобы была возможность обрабатывать их традиционными алгоритмами. Технология MapReduce позволяет производить эффективные распределенные вычисления за оптимальное время выполнения.
К тому же, технология MapReduce быстро развивается и распространяется. Многие компании используют ее для обработки данных, потому что она имеет открытый исходный код, масштабируема и не требует больших затрат на оборудование.
Новизна исследования состоит в том, что многие проблемы, возникающие, при обработке больших данных могут быть решены за счет высокой отказоустойчивости, масштабируемости и доступности технологии MapReduce.
Целью бакалаврской работы является разработка алгоритма построения инвертированного индекса на основе технологии MapReduce.
Для достижения поставленной цели необходимо выполнить следующие задачи:
1. Рассмотреть принципы работы различных алгоритмов построения инвертированного индекса, а также принцип работы парадигмы Mapreduce.
2. Сравнить существующие технологии для работы с большими данными.
3. Проанализировать результаты сравнения и выбрать наиболее эффективный способ реализации программы.
4. Проектирование программы.
5. Разработка программы
В первой главе рассматриваются алгоритмы построения инвертированного индекса и принцип работы технологии Mapreduce.
Во второй главе произведено сравнение и анализ технологий для работы с большими данными.
В третьей главе представлены проектирование и разработка алгоритма построения инвертированного индекса на основе модели MapReduce.
В заключении сформированы выводы, полученные в процессе выполнения бакалаврской работы.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Целью бакалаврской работы являлась разработка алгоритма построения инвертированного индекса на основе технологии MapReduce. Создание данного алгоритма позволяет распределено строить инвертированный индекс для большого набора документов, который в дальнейшем может быть использован для полнотекстового поиска.
Были рассмотрены теоретические аспекты и методы построения инвертированного индекса. Проведено сравнение технологий распределенных вычислений и установлено, что MapReduce является наиболее подходящей для данной задачи.
Был разработан алгоритм построения инвертированного индекса на основе технологии MapReduce, учитывающий частоту появления слова в каждом документе и обработку стоп-слов.
Было произведено сравнения времени последовательной программы и программы на основе Mapreduce. Результат эксперимента показал, что реализация, использующая парадигму MapReduce является эффективнее.
В дальнейшем инвертированный индекс можно использовать для поиска по текстам.



1. Apache Hadoop [Электронный ресурс]. - Режим доступа: http://hadoop.apache.org/, свободный.
2. Arun Murthy, Vinod Vavilapalli, Douglas Eadline, Joseph Niemiec, Jeff Markham. Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2. - "Addison-Wesley Professional", 2014. - 400 c.
3. Sammer E. Hadoop Operations: A Guide for Developers and Administrators // E. Sammer. — М.: Эксмо, 2015. - 328 с.
4. White T. Hadoop: The Definitive Guide, 4th Edition // T. White. — СПб.: Питер,
- 2015. - 235 с.
5. Miner, D. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems // D. Miner, A. Shook. — ACM, 2016. -p. 252.
6. Mayer V. Big Data: A Revolution That Will Transform How We Live, Work and Think// V. Mayer. — The IT University of Copenhagen, Copenhagen, - 2013.
7.Srinath Perera. Hadoop Mapreduce Cookbook. -: "Packt Publishing Ltd", 2013. - 300 c.
8. V. Jain. Big Data and Hadoop. -: "Khanna Publishing", 2017. - 600 c.
9. Jason Venner, Sameer Wadkar, Madhu Siddalingaiah. Pro Apache Hadoop. -: "Apress", 2014. - 444 c.
10. Jimmy L. Data-Intensive Text Processing with MapReduce // L. Jimmy, C. Dyer.
— СПб.: Питер, -2010. - 175 с.
11 Т.В.Борис, М.О.Алексеев, Сравнительный анализ технологии параллельного вычисления больших массивов данных MapReduce. - Second International Conference "Cluster Computing", 2013.
12. Vignesh Prajapati. Big Data Analytics with R and Hadoop. -: "Packt Publishing Ltd", 2013. - 238 c.
13. Boris Lublinsky, Kevin T. Smith, Alexey Yakubovich. Professional Hadoop Solutions. -: "John Wiley & Sons", 2013. - 504 c.
14. Kevin Sitto, Marshall Presser. Field Guide to Hadoop: An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies. -: "O'Reilly Media, Inc.", 2015. - 132 c.
15. Garry Turkington. Hadoop Beginner's Guide. -: "Packt Publishing Ltd", 2013. - 398 c.
16. Danil Zburivsky. Hadoop Cluster Deployment. -: "Packt Publishing Ltd",
17. Kevin Roebuck. MapReduce: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. -: "Lightning Source", 2011. - 170 c.
18. Donald Miner, Adam Shook. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems. "O'Reilly Media, Inc.", 2012. - 250 c.
19. Thilina Gunarathne. Hadoop MapReduce v2 Cookbook - Second Edition. -: "Packt Publishing Ltd", 2015. - 322 c.
20. Билл Фрэнкс. Укрощение больших данных: Как извлекать знания из массивов информации с помощью глубокой аналитики. -: "Манн, Иванов и Фербер", 2014.
21. Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. -: "Манн, Иванов и Фербер", 2013. - 240 c.
22. Peter Buhlmann, Petros Drineas, Michael Kane, Mark van der Laan. Handbook of Big Data. -: "CRC Press", 2016. - 464 c.
23. What Apache Spark Does [Электронный ресурс]. - 2017. - Режим доступа: https://hortonworks .com/apache/spark/.
24. MapReduce: A programming paradigm that allows for massive scalability across hundreds or thousands of servers in a Hadoop cluster [Электронный ресурс ]. 2017- Режим доступа к ресурсу: https://www.ibm.com/analytics/hadoop/mapreduce
25. Exploring Hadoop Framework: Hadoop Distributed File System (HDFS) [Электронный ресурс] // GENTLAB. - 2016. - Режим доступа к ресурсу: https://www. gentlab .com/articles/exploring-hadoop-framework-hadoopdistributed- file-system-hdfs.
26. A. Harbara, Inverted index implementation, - Masaryk University, 2015
27. Leskovec J. Mining of Massive Datasets / J. Leskovec, A. Rajaraman, J. D. Ullman. - Cambridge: Cambridge University Press, 2014. - 495 p.
28. Jon Z. A profile of Apache Hadoop MapReduce computing efficiency [Электронный ресурс] / Zuanich Jon. - 2010. - Режим доступа к ресурсу: http://blog.cloudera.com/blog/2010/12/a-profile-of-hadoop-mapreducecomputing- efficiency-continued/.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ