Тип работы:
Предмет:
Язык работы:


МОДЕЛИ SMART DATA В БИЗНЕС-АНАЛИЗЕ

Работа №128175

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы64
Год сдачи2018
Стоимость5650 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
21
Не подходит работа?

Узнай цену на написание


Введение 3
1.1 Анализ предметной области 3
1.2 Актуальность проведения исследований 9
2 Теоретическая часть 15
2.1 Обзор литературы и анализ работ по близким к теме ВКР исследованиям 15
2.2 Интеллектуальный анализ текста 19
2.3 Выводы 26
3 Предпроектный анализ компании 29
3.1 Описание сферы деятельности компании 29
3.2 ИТ-инфраструктура компании 29
3.3 Описание общего процесса аналитики в компании 33
3.4 Описание проекта внедрения системы аналитической отчетности по цепочке
добавленной стоимости 35
3.5 Выявление текущих проблем компании 39
4 Реализация концепции Smart Data на примере конкретной компании 42
4.1 Разработка рекомендаций по единой системе НСИ 42
4.2 Налаживание процесса управления знаниями в компании 46
4.3 Разработка приложения, реализующего концепцию Smart Data 48
4.4 Оценка экономической эффективности 56
4.5 Выводы 57
5 Заключение 58
6 Список использованной литературы 59
Приложение 1 63
Аннотация 64

Современное развитие информационных технологий, относительная доступность информации, а также простота генерации новых данных рядовыми пользователями сформировали основные тенденции усиливающегося роста глобального объёма данных. Так, по результатам отчёта IDC, в 2011 году всеобщий объём произведённых и скопированных данных составил 1.8 ZB, увеличившись примерно в 9 раз от уровня 2006 года [1]. По прогнозам аналитиков глобальный объём данных будет удваиваться по крайней мере каждые два года в ближайшем будущем.
Традиционные информационные системы в условиях постоянно усиливающегося потока поступающих данных оказались не способны эффективно решать задачи, которые перед ними ставит бизнес. Эта проблема вызвана недостатками традиционных ИС и СУБД, среди которых можно выделить отсутствие гибкости, небольшие возможности к масштабированию и неэффективность при работе с различными типами данных.
С другой стороны, ограничения накладывают и сами данные. Помимо большого объёма, современные данные также довольно сильно различаются по формату своего представления. Так, например, данные могут быть получены абсолютно из любых источников, включая интернет и устройства различного назначения, и иметь совершенно различный формат - от сенсорных данных, до видео- и аудиофайлов.
В связи с этим предпринимаются постоянные попытки разрешить возникающие противоречия, что привело к появлению и развитию концепции «больших данных» (Big Data), а также специальных методов и подходов для работы с такими данными. В настоящее время «большие данные» главным образом ассоциируется с огромными наборами данных. По сравнению с традиционными данными, Big Data включает в себя значительный объём неструктурированных данных и в большей степени нуждается в обработке в реальном времени.
Одно из определений, раскрывающих понятие «больших данных», дало глобальное консалтинговое агентство McKinsey & Company. С точки зрения данного агентства, «большие данные» - это наборы данных, размер которых не позволяет приобретать, обрабатывать и хранить их с помощью традиционного программного обеспечения.
Следует отметить, что во многом это также зависит от отрасли экономики, которую мы берём для рассмотрения. Так, например, в зависимости от уровня используемых программных продуктов объём «больших данных» может варьироваться от нескольких терабайт (TB) до нескольких петабайт (PB) [2].
Понятие «большие данные» впервые было определено в 2001 году в исследовании Doug Laney, аналитика META [3]. В своей работе данный исследователь, сформулировал возможности и вызовы, которые открываются при возрастании объёма данных в соответствии с 3V моделью. Рост данных определялся 3 аспектами - объёмом (volume), скоростью (velocity) и разнообразием (variety).
Однако огромный объём данных сам по себе не несёт никакой пользы для компании, поэтому в 2011 году компания IDC расширила данную модель до модели 4 V, в которую дополнительно включила понятие ценности (value) [1].
Таким образом, понятие «больших данных» может быть определено четырьмя основными характеристиками:
• Большим объёмом данных (data volume)
• Требованиями к высокой скорости обработки данных (data velocity)
• Разновидностью поступающих данных (data variety)
• Ценностью, содержащейся в данных (data value)
В концепции Big Data объём и скорость определяют количественные аспекты информации, а разновидность и ценность - качественные.
Следует отметить, что некоторые аналитические компании расширяют предложенную модель до 7 V, дополнительно добавляя понятия изменчивости (variability), достоверности (veracity) и визуализации (visualization) [45]. Однако в данной научной работе мы будем пользоваться моделью 4 V.
Повышенное внимание к данной теме со стороны компаний объясняется их стремлением получить выгоду, возникающую при анализе Big Data [46]. Инвестиции и усилия, направленные на анализ «больших данных», полностью оправдывают себя, так как при объединении внутренних и внешних источников данных открываются огромные возможности по поиску ценности и совершению новых открытий. Так, например, анализ Big Data позволяет принимать нестандартные управленческие решения, гибче реагировать на реакции покупателей и создавать по-настоящему ценные продукты.
Выделим основные преимущества, которые открываются перед компаниями,
использующими Big Data [30]:
• возможность привлечения и удержания клиента с самыми низкими затратами для компании
• управление взаимодействием с клиентом на оптимальном уровне рентабельности
• возможность относиться к каждому клиенту как к личности с уникальными вкусами, предпочтениями и ценностями
• возможность предсказывать поведение клиентов и основные тенденции рынка
• возможность исследовать скрытые отношения и зависимости
• значительное снижение расходов на рекламу
• снижение уровня риска
Вкладывая значительные средства и усилия в развитие Big Data, многие компании до сих пор с трудом извлекают из «больших данных» какую-либо ощутимую выгоду. В первую очередь это связано с технологическим и управленческим аспектами работы с «большими данными».
Изложенный выше аспект позволяет говорить о своевременности научных исследований по данной тематике, обосновывает ответ на вопрос, почему представленные проблемы должны быть изучены именно сейчас.
Так, на основании проведённого нами анализа среди главных проблем при работе с Big Data были выделены следующие:
1) Нерешённость вопроса, связанного с управлением данными - управление данными является компетенцией ИТ специалистов или менеджеров?
2) Потеря актуальности данных в связи с устареванием - «большие данные» довольно быстро становятся неактуальными и вследствие этого теряют какую-либо ценность, поэтому важным аспектом в деятельности компаний является своевременный анализ входящих потоков информации, в том числе анализ в режиме реального времени
3) Бизнес-процессы не адаптированы под работу с «большими данными» - при использовании «больших данных» возникает необходимость изменения большинства бизнес-процессов компании и переход на модель data-driven (управление данными)
4) Проблема взаимодействия ИТ и бизнеса - вследствие технологической сложности Big Data и отсутствия решения проблемы управления данными, анализ «больших данных» выполняют ИТ специалисты. Однако вопросы, на которые необходимо найти ответ в данных, способны сформулировать только бизнес-пользователи
5) Вопросы компетенций рядовых пользователей - бизнес-пользователи различного уровня не способны воспринимать «большие данные» без предварительной обработки; особенности представления «больших данных», а также существующие технологии их обработки требуют специальных технических знаний для эффективной работы с Big Data. Поэтому проводить работу по анализу данных способны только квалифицированные специалисты по данным (data scientists). В результате этого процесс анализа Big Data становится привилегией исключительно ИТ специалистов, что значительно сужает потенциальные возможности для аналитики
6) Конфиденциальность «больших данных» - отсутствие законодательства, регламентирующего использование «больших данных». Наличие нерешённых вопросов, связанных с защитой и использованием персональных данных
Следует отметить, что помимо перечисленных частных проблем в сфере Big Data, необходимо также уделить особое внимание современным тенденциям развития и проблемным областям исследований в области в целом. Среди главных современных вызовов можно выделить следующие [6]:
1) Представление данных - большинство поступающих данных имеют определённый уровень гетерогенности (неоднородности) по типу, структуре, семантике, организации и доступности. Цель представления данных заключается в корректном отображении данных для последующего компьютерного анализа и обеспечении корректной интерпретации пользователем полученных результатов. Неправильное представление данных может значительно снизить ценность исходной информации и полностью свести на нет эффективность проводимого анализа
2) Сокращение избыточности и сжатие данных - современные ИТ технологии значительно упрощают создание новых данных. Развитие интернета вещей (IoT) и технологий облачных вычислений привело к возникновению проблем, связанных со сбором, интеграцией, управлением и обработкой широкого спектра данных из огромного числа распределённых источников. Вследствие этого, эффективное сжатие данных в предположении, что сокращение избыточности не окажет негативного влияния на ценность обрабатываемой информации, открывает широкие возможности для существенного сокращения затрат предприятия на хранение и обработку данных
3) Управление жизненным циклом данных - ценность, скрытая в Big Data, зависит от актуальности анализируемых данных, поэтому в настоящее время существует потребность в разработке принципов аналитической обработки данных для определения какие данные следует хранить, а какие данные должны быть отброшены
4) Аналитические механизмы - аналитические алгоритмы Big Data должны быть способны обрабатывать большое количество разнородных данных в течении ограниченного периода времени (в том числе и в режиме реального времени). Нереляционные БД (NoSQL) показали свои уникальные преимущества в обработке неструктурированных данных и в настоящее время являются основным инструментом для анализа «больших данных». Однако несмотря на это существуют определённые проблемы при использовании нереляционных БД, что выражается в потребности поиска компромиссного решения между традиционными СУБД и нереляционными БД. Необходимо также проведение более масштабных исследований по направлению использования оперативных БД (in-memory database) и методов, основанных на приближённом анализе (approximate analysis)
5) Информационная безопасность данных - многие компании, работающие с Big Data,
в настоящее время не могут эффективно обрабатывать и анализировать огромные наборы данных из-за ограниченности собственных мощностей. В своём анализе большинство ИТ компаний должны полагаться на профессионалов или
специальные сервисы для анализа «больших данных», что повышает
потенциальные риски информационной безопасности. Поэтому анализ и обработка Big Data могут быть переданы третьей стороне только в том случае, если в целях обеспечения безопасности компании были приняты надлежащие превентивные меры по защите конфиденциальности данных
6) Расширение и масштабирование - аналитические алгоритмы «больших данных» должны быть способны обрабатывать увеличивающиеся и всё более и более усложняющиеся наборы данных
7) Кооперация - анализ Big Data это междисциплинарная область исследований, которая вынуждает экспертов различных сфер знаний сотрудничать друг с другом в целях увеличения потенциала использования «больших данных» . Архитектура Big Data должна обеспечивать учёным и инженерам из различных областей науки доступ к широкому спектру информации, позволяя полностью использовать имеющийся опыт для достижения поставленных целей
8) Энергетический менеджмент - дальнейшее усовершенствование дата-центров (data center), рост объёма хранимых данных и аналитических потребностей в обработке, хранении и передачи «больших данных» неизбежно вызовет рост потребления электроэнергии. Таким образом, в целях дальнейшего расширения и масштабирования возможностей для анализа данных должны быть внедрены действенные механизмы энергетического менеджмента и разработаны руководства для осуществления контроля потребления электроэнергии на уровне всей системы


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В процессе проведения данного научного исследования были достигнуты все цели и задачи, поставленные во введении настоящей выпускной квалификационной работы. В рамках данной научной работы также были решены частные задачи на конкретном предприятии и предложены рекомендации для улучшения общего процесса аналитики.
В результате проведения настоящей выпускной квалификационной работы были получены следующие результаты:
• На основании анализа современных научных работ выявлены нерешённые проблемы в области «больших данных»
• На основании анализа современных научных работ обоснована актуальность, теоретическая значимость и прикладная ценность исследований по тематике «Smart Data»
• Предложена методика проведения литературного обзора посредством анализа естественного языка в отобранных научных работах методом интеллектуального анализа текста (text mining)
• Предложены подходы по решению проблем процесса аналитики в конкретной компании
• Предложено решение проблемы интеграции большого числа источников данных в виде разработки единой системы НСИ
• Предложена методика формирования базы знаний на примере конкретной компании
• Разработано приложение QlikView, реализующее концепцию Smart Data и удовлетворяющее требованиям бизнеса
• Предложены подходы по оценке эффективности разрабатываемых версий целевого приложения на основе анализа его потоковых данных
Таким образом, результаты, полученные в данной научной работе, могут без значительных изменений быть использованы в компаниях с аналогичным процессом аналитики и подобной информационно-технологической инфраструктурой.
Также следует отметить, что в процессе проведения литературного анализа были выявлены проблемы, которые получили недостаточную освещённость в современных научных исследованиях. Знание о существовании данных проблем могут быть в дальнейшем использованы исследователями для проведения последующих научных работ по тематике «больших данных».



1. Gantz J., Reinsel D. Extracting value from chaos //IDC iview. - 2011. - Т. 1142. - №. 2011.
- С. 1-12.
2. Manyika J. et al. Big Data: The next frontier for innovation, competition, and productivity. - 2011.
3. Laney D. 3D data management: Controlling data volume, velocity and variety //META Group Research Note. - 2001. - Т. 6. - С. 70.
4. Boell S. K., Cecez-Kecmanovic D. A hermeneutic approach for conducting literature reviews and literature searches //Communications of the Association for Information Systems. - 2014. - Т. 34. - №. 1. - С. 257-286.
5. Wang Y. Business intelligence and analytics education: Hermeneutic literature review and future directions in is education //Browser Download This Paper. - 2015.
6. Chen M., Mao S., Liu Y. Big Data: A survey //Mobile Networks and Applications. - 2014. - Т. 19. - №. 2. - С. 171-209.
7. Chen H., Chiang R. H. L., Storey V. C. Business intelligence and analytics: From Big Data to big impact //MIS quarterly. - 2012. - Т. 36. - №. 4. - С. 1165-1188.
8. Wu X. et al. Data mining with Big Data //ieee transactions on knowledge and data engineering.
- 2014. - Т. 26. - №. 1. - С. 97-107.
9. Chen C. L. P., Zhang C. Y. Data-intensive applications, challenges, techniques and technologies: A survey on Big Data //Information Sciences. - 2014. - Т. 275. - С. 314-347.
10. Xu X. From cloud computing to cloud manufacturing //Robotics and computer-integrated manufacturing. - 2012. - Т. 28. - №. 1. - С. 75-86.
11. Zanella A. et al. Internet of things for smart cities //IEEE Internet of Things journal. - 2014.
- Т. 1. - №. 1. - С. 22-32.
12. Cambria E. et al. New avenues in opinion mining and sentiment analysis //IEEE Intelligent Systems. - 2013. - Т. 28. - №. 2. - С. 15-21.
13. Bengio Y., Courville A., Vincent P. Representation learning: A review and new perspectives //IEEE transactions on pattern analysis and machine intelligence. - 2013. - Т. 35. - №. 8. - С. 1798-1828.
14. Hashem I. A. T. et al. The rise of “Big Data” on cloud computing: Review and open research issues //Information Systems. - 2015. - Т. 47. - С. 98-115.
15. Bakshy E. et al. The role of social networks in information diffusion //Proceedings of the 21st international conference on World Wide Web. - ACM, 2012. - С. 519-528.
16. Zissis D., Lekkas D. Addressing cloud computing security issues //Future Generation computer systems. - 2012. - Т. 28. - №. 3. - С. 583-592.
17. Venkatesh V., Thong J. Y. L., Xu X. Consumer acceptance and use of information technology: extending the unified theory of acceptance and use of technology. - 2012.
18. Rosseel Y. lavaan: an R package for structural equation modeling and more Version 0.4-9 (BETA) //Retrieved from. - 2011.
19. Uijlings J. R. R. et al. Selective search for object recognition //International journal of computer vision. - 2013. - Т. 104. - №. 2. - С. 154-171.
20. Akay B., Karaboga D. A modified artificial bee colony algorithm for real-parameter optimization //Information Sciences. - 2012. - Т. 192. - С. 120-142.
21. Dinh H. T. et al. A survey of mobile cloud computing: architecture, applications, and approaches //Wireless communications and mobile computing. - 2013. - Т. 13. - №. 18. - С. 1587-1611.
22. Huang G. B. et al. Extreme learning machine for regression and multiclass classification //IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics). - 2012. - Т. 42. - №. 2. - С. 513-529.
23. Blei D. M. Probabilistic topic models //Communications of the ACM. - 2012. - Т. 55. - №.
4. - С. 77-84.
24. Bobadilla J. et al. Recommender systems survey //Knowledge-based systems. - 2013. - Т. 46.
- С. 109-132.
25. Beloglazov A., Abawajy J., Buyya R. Energy-aware resource allocation heuristics for efficient management of data centers for cloud computing //Future generation computer systems. - 2012. - Т. 28. - №. 5. - С. 755-768.
26. De Brito M. A. G. et al. Evaluation of the main MPPT techniques for photovoltaic applications //IEEE transactions on industrial electronics. - 2013. - Т. 60. - №. 3. - С. 1156-1167.
27. Boccardi F. et al. Five disruptive technology directions for 5G //IEEE Communications Magazine. - 2014. - Т. 52. - №. 2. - С. 74-80.
28. Gubbi J. et al. Internet of Things (IoT): A vision, architectural elements, and future directions //Future generation computer systems. - 2013. - Т. 29. - №. 7. - С. 1645-1660.
29. Dollar P. et al. Pedestrian detection: An evaluation of the state of the art //IEEE transactions on pattern analysis and machine intelligence. - 2012. - Т. 34. - №. 4. - С. 743-761.
30. FROM BIG DATA TO SMART DATA: Using data to drive personalized rand experiences Rob Salkowitz, January 22, 2014
31. Королев О. Л., Апатова Н. В., Круликовский А. П. «Большие данные» как фактор изменения процессов принятия решений в экономике //Научно-технические ведомости Санкт- Петербургского государственного политехнического университета. Экономические науки. - 2017. - Т. 10. - №. 4.
32. Гродзенский С. Я., Калачева Е. А. Большие данные: история, перспективы, потенциал //Стандарты и качество. - 2017. - №. 8. - С. 64-67.
33. Sizov I. BIG DATA-БОЛЬШИЕ ДАННЫЕ В БИЗНЕСЕ //Экономика. Бизнес. Информатика. - 2017. - Т. 2. - №. 3.
34. Кравченко В. О., Крюкова А. А. «Большие данные»-практические аспекты и особенности //Academy. - 2016. - №. 6. - С. 65-67.
35. Зоткин А. С., Ворожцов А. С. БОЛЬШИЕ ДАННЫЕ: СОВРЕМЕННЫЕ ТЕХНОЛОГИИ ОБРАБОТКИ ИНФОРМАЦИИ //И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. - 2016.
36. Шлюйкова Д. П. Большие данные: современные подходы к хранению и обработке //Наука, техника и образование. - 2016. - №. 1. - С. 75. - С. 81.
37. Черникова Е. И. Интернет вещей и технология big data (большие данные) //Ученые записки ИСГЗ. - 2017. - №. 1. - С. 581-584.
38. Назаренко Ю. Л. ОБЗОР ТЕХНОЛОГИИ «БОЛЬШИЕ ДАННЫЕ»(BIG DATA) И ПРОГРАММНО-АППАРАТНЫХ СРЕДСТВ, ПРИМЕНЯЕМЫХ ДЛЯ ИХ АНАЛИЗА И ОБРАБОТКИ //European Science. - 2017. - №. 9. - С. 25-30.
39. Ковалевский А. Е., Ефремов Е. А. БОЛЬШИЕ ДАННЫЕ //Новая наука: Стратегии и векторы развития. - 2016. - №. 6-1. - С. 27-28.
Интернет-ресурсы и электронные базы данных
40. Information Age [Электронный ресурс]: URL: http://www.information-age.com// (Дата обращения: 02.10.2016)
41. Wired [Электронный ресурс]: URL: http://www.wired.com//(Дата обращения:
18.08.2017)
42. Gartner [Электронный ресурс]: URL: http://www.gartner.com//(Дата обращения:
02.10.2016)
43. RusBase[Электронный ресурс]: URL: http://rb.ru//(Дата обращения: 11.11.2016)
44. Big Data Bussiness Summit [Электронный ресурс]: URL:
ййр://Ыдйа1а8иттй.ш/Ьй2015//(Дата обращения: 11.11.2016)
45. Dataconomy [Электронный ресурс]: URL: http://dataconomy.com//(Дата обращения: 17.08.2017)
46. Forbes [Электронный ресурс]: URL: https://www.forbes.com//(,H,aTa обращения:
18.08.2017)
47. Blue-Granite [Электронный ресурс]: URL: https://www.blue-granite.com //(Дата
обращения: 17.04.2018)
48. Globenewswire [Электронный ресурс]: URL: https://globenewswire.com //(Дата
обращения: 17.04.2018)
49. Habrahabr [Электронный ресурс]: URL: https://habrahabr.ru //(Дата обращения:
17.04.2018)
50. HeadHunter [Электронный ресурс]: URL: https://hh.ru //(Дата обращения: 02.05.2018)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ