📄Работа №109733

Тема: Разработка алгоритма построения инвертированного индекса на основе технологии MapReduce

📝

Тип работы Бакалаврская работа

📚

Предмет информационные системы

📄

Объем: 59 листов

📅

Год: 2018

👁️

4300 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ
1. ТЕОРЕТИЧЕСКОЕ ОБОСНОВАНИЕ ЗАДАЧИ ПОСТРОЕНИЯ
ИНВЕРТИРОВАННОГО ИНДЕКСА 6
1.1 Инвертированный индекс в поисковых системах 6
1.2.1 Алгоритмы построения инвертированного индекса 7
1.2.2 Инвертированный индекс в MapReduce 10
1.3 Парадигма MapReduce 12
1.4 Распределенная файловая система HDFS 20
2. АНАЛИЗ ТЕХНОЛОГИЙ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ 24
2.1 Альтернативы технологии MapReduce 24
2.2 Сравнительный анализ технологий для обработки больших данных . 29
2.3 Выбор технологии для реализации алгоритма 31
3. ПРОЕКТИРОВАНИЕ И РАЗРАБОТКА АЛГОРИТМА ПОСТРОЕНИЯ ИНВЕРТИРОВАННОГО ИНДЕКСА НА МОДЕЛИ MAPREDUCE
3.1 Требования к разрабатываемой программе
3.2 Архитектура разрабатываемой программы
3.3 Разработка программы построения инвертированного индекса 37
3.4 Компиляция и запуск программы построения инвертированного
индекса в системе Hadoop 40
3.5 Сравнение с последовательной программой 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 46
ПРИЛОЖЕНИЕ_А. Листинг InvertedIndexDriver 49

📖 Введение

С появлением вычислительной техники объем информации, с которой может работать человек, значительно увеличился. Еще более 30 лет назад учеными стали разрабатываться алгоритмы, позволяющие упростить работу с данными, а также получить из них новые, ранее неизвестные знания. Однако сегодня эти алгоритмы неэффективны, поскольку объемы информации стали слишком большими.
Для работы с большими объемами данных была разработана специальная система Apache Hadoop [1], Главное место в этой системе занимает технология под названием MapReduce. Реализация MapReduce позволяет производить распределенные вычисления над большими объемами данных в компьютерных кластерах эффективно и безотказно.
Системы, основанные на MapReduce, разработаны таким образом, чтобы параллельность вычислений была реализована не за счет суперкомпьютера, а за счет вычислительных кластеров - наборов стандартных аппаратных средств, соединенных между собой.
Актуальность бакалаврской работы обусловлена тем, что на сегодняшний день объемы хранимых данных становятся слишком большими для того, чтобы была возможность обрабатывать их традиционными алгоритмами. Технология MapReduce позволяет производить эффективные распределенные вычисления за оптимальное время выполнения.
К тому же, технология MapReduce быстро развивается и распространяется. Многие компании используют ее для обработки данных, потому что она имеет открытый исходный код, масштабируема и не требует больших затрат на оборудование.
Новизна исследования состоит в том, что многие проблемы, возникающие, при обработке больших данных могут быть решены за счет высокой отказоустойчивости, масштабируемости и доступности технологии MapReduce.
Целью бакалаврской работы является разработка алгоритма построения инвертированного индекса на основе технологии MapReduce.
Для достижения поставленной цели необходимо выполнить следующие задачи:
1. Рассмотреть принципы работы различных алгоритмов построения инвертированного индекса, а также принцип работы парадигмы Mapreduce.
2. Сравнить существующие технологии для работы с большими данными.
3. Проанализировать результаты сравнения и выбрать наиболее эффективный способ реализации программы.
4. Проектирование программы.
5. Разработка программы
В первой главе рассматриваются алгоритмы построения инвертированного индекса и принцип работы технологии Mapreduce.
Во второй главе произведено сравнение и анализ технологий для работы с большими данными.
В третьей главе представлены проектирование и разработка алгоритма построения инвертированного индекса на основе модели MapReduce.
В заключении сформированы выводы, полученные в процессе выполнения бакалаврской работы.

✅ Заключение

Целью бакалаврской работы являлась разработка алгоритма построения инвертированного индекса на основе технологии MapReduce. Создание данного алгоритма позволяет распределено строить инвертированный индекс для большого набора документов, который в дальнейшем может быть использован для полнотекстового поиска.
Были рассмотрены теоретические аспекты и методы построения инвертированного индекса. Проведено сравнение технологий распределенных вычислений и установлено, что MapReduce является наиболее подходящей для данной задачи.
Был разработан алгоритм построения инвертированного индекса на основе технологии MapReduce, учитывающий частоту появления слова в каждом документе и обработку стоп-слов.
Было произведено сравнения времени последовательной программы и программы на основе Mapreduce. Результат эксперимента показал, что реализация, использующая парадигму MapReduce является эффективнее.
В дальнейшем инвертированный индекс можно использовать для поиска по текстам.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Apache Hadoop [Электронный ресурс]. - Режим доступа: http://hadoop.apache.org/, свободный.
2. Arun Murthy, Vinod Vavilapalli, Douglas Eadline, Joseph Niemiec, Jeff Markham. Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2. - "Addison-Wesley Professional", 2014. - 400 c.
3. Sammer E. Hadoop Operations: A Guide for Developers and Administrators // E. Sammer. — М.: Эксмо, 2015. - 328 с.
4. White T. Hadoop: The Definitive Guide, 4th Edition // T. White. — СПб.: Питер,
- 2015. - 235 с.
5. Miner, D. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems // D. Miner, A. Shook. — ACM, 2016. -p. 252.
6. Mayer V. Big Data: A Revolution That Will Transform How We Live, Work and Think// V. Mayer. — The IT University of Copenhagen, Copenhagen, - 2013.
7.Srinath Perera. Hadoop Mapreduce Cookbook. -: "Packt Publishing Ltd", 2013. - 300 c.
8. V. Jain. Big Data and Hadoop. -: "Khanna Publishing", 2017. - 600 c.
9. Jason Venner, Sameer Wadkar, Madhu Siddalingaiah. Pro Apache Hadoop. -: "Apress", 2014. - 444 c.
10. Jimmy L. Data-Intensive Text Processing with MapReduce // L. Jimmy, C. Dyer.
— СПб.: Питер, -2010. - 175 с.
11 Т.В.Борис, М.О.Алексеев, Сравнительный анализ технологии параллельного вычисления больших массивов данных MapReduce. - Second International Conference "Cluster Computing", 2013.
12. Vignesh Prajapati. Big Data Analytics with R and Hadoop. -: "Packt Publishing Ltd", 2013. - 238 c.
13. Boris Lublinsky, Kevin T. Smith, Alexey Yakubovich. Professional Hadoop Solutions. -: "John Wiley & Sons", 2013. - 504 c.
14. Kevin Sitto, Marshall Presser. Field Guide to Hadoop: An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies. -: "O'Reilly Media, Inc.", 2015. - 132 c.
15. Garry Turkington. Hadoop Beginner's Guide. -: "Packt Publishing Ltd", 2013. - 398 c.
16. Danil Zburivsky. Hadoop Cluster Deployment. -: "Packt Publishing Ltd",
17. Kevin Roebuck. MapReduce: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. -: "Lightning Source", 2011. - 170 c.
18. Donald Miner, Adam Shook. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems. "O'Reilly Media, Inc.", 2012. - 250 c.
19. Thilina Gunarathne. Hadoop MapReduce v2 Cookbook - Second Edition. -: "Packt Publishing Ltd", 2015. - 322 c.
20. Билл Фрэнкс. Укрощение больших данных: Как извлекать знания из массивов информации с помощью глубокой аналитики. -: "Манн, Иванов и Фербер", 2014.
21. Виктор Майер-Шенбергер, Кеннет Кукьер. Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим. -: "Манн, Иванов и Фербер", 2013. - 240 c.
22. Peter Buhlmann, Petros Drineas, Michael Kane, Mark van der Laan. Handbook of Big Data. -: "CRC Press", 2016. - 464 c.
23. What Apache Spark Does [Электронный ресурс]. - 2017. - Режим доступа: https://hortonworks .com/apache/spark/.
24. MapReduce: A programming paradigm that allows for massive scalability across hundreds or thousands of servers in a Hadoop cluster [Электронный ресурс ]. 2017- Режим доступа к ресурсу: https://www.ibm.com/analytics/hadoop/mapreduce
25. Exploring Hadoop Framework: Hadoop Distributed File System (HDFS) [Электронный ресурс] // GENTLAB. - 2016. - Режим доступа к ресурсу: https://www. gentlab .com/articles/exploring-hadoop-framework-hadoopdistributed- file-system-hdfs.
26. A. Harbara, Inverted index implementation, - Masaryk University, 2015
27. Leskovec J. Mining of Massive Datasets / J. Leskovec, A. Rajaraman, J. D. Ullman. - Cambridge: Cambridge University Press, 2014. - 495 p.
28. Jon Z. A profile of Apache Hadoop MapReduce computing efficiency [Электронный ресурс] / Zuanich Jon. - 2010. - Режим доступа к ресурсу: http://blog.cloudera.com/blog/2010/12/a-profile-of-hadoop-mapreducecomputing- efficiency-continued/.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209042)

Статьи

»» Все статьи

Вход в личный кабинет