Тема: МОДЕЛИ SMART DATA В БИЗНЕС-АНАЛИЗЕ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1.1 Анализ предметной области 3
1.2 Актуальность проведения исследований 9
2 Теоретическая часть 15
2.1 Обзор литературы и анализ работ по близким к теме ВКР исследованиям 15
2.2 Интеллектуальный анализ текста 19
2.3 Выводы 26
3 Предпроектный анализ компании 29
3.1 Описание сферы деятельности компании 29
3.2 ИТ-инфраструктура компании 29
3.3 Описание общего процесса аналитики в компании 33
3.4 Описание проекта внедрения системы аналитической отчетности по цепочке
добавленной стоимости 35
3.5 Выявление текущих проблем компании 39
4 Реализация концепции Smart Data на примере конкретной компании 42
4.1 Разработка рекомендаций по единой системе НСИ 42
4.2 Налаживание процесса управления знаниями в компании 46
4.3 Разработка приложения, реализующего концепцию Smart Data 48
4.4 Оценка экономической эффективности 56
4.5 Выводы 57
5 Заключение 58
6 Список использованной литературы 59
Приложение 1 63
Аннотация 64
📖 Введение
Традиционные информационные системы в условиях постоянно усиливающегося потока поступающих данных оказались не способны эффективно решать задачи, которые перед ними ставит бизнес. Эта проблема вызвана недостатками традиционных ИС и СУБД, среди которых можно выделить отсутствие гибкости, небольшие возможности к масштабированию и неэффективность при работе с различными типами данных.
С другой стороны, ограничения накладывают и сами данные. Помимо большого объёма, современные данные также довольно сильно различаются по формату своего представления. Так, например, данные могут быть получены абсолютно из любых источников, включая интернет и устройства различного назначения, и иметь совершенно различный формат - от сенсорных данных, до видео- и аудиофайлов.
В связи с этим предпринимаются постоянные попытки разрешить возникающие противоречия, что привело к появлению и развитию концепции «больших данных» (Big Data), а также специальных методов и подходов для работы с такими данными. В настоящее время «большие данные» главным образом ассоциируется с огромными наборами данных. По сравнению с традиционными данными, Big Data включает в себя значительный объём неструктурированных данных и в большей степени нуждается в обработке в реальном времени.
Одно из определений, раскрывающих понятие «больших данных», дало глобальное консалтинговое агентство McKinsey & Company. С точки зрения данного агентства, «большие данные» - это наборы данных, размер которых не позволяет приобретать, обрабатывать и хранить их с помощью традиционного программного обеспечения.
Следует отметить, что во многом это также зависит от отрасли экономики, которую мы берём для рассмотрения. Так, например, в зависимости от уровня используемых программных продуктов объём «больших данных» может варьироваться от нескольких терабайт (TB) до нескольких петабайт (PB) [2].
Понятие «большие данные» впервые было определено в 2001 году в исследовании Doug Laney, аналитика META [3]. В своей работе данный исследователь, сформулировал возможности и вызовы, которые открываются при возрастании объёма данных в соответствии с 3V моделью. Рост данных определялся 3 аспектами - объёмом (volume), скоростью (velocity) и разнообразием (variety).
Однако огромный объём данных сам по себе не несёт никакой пользы для компании, поэтому в 2011 году компания IDC расширила данную модель до модели 4 V, в которую дополнительно включила понятие ценности (value) [1].
Таким образом, понятие «больших данных» может быть определено четырьмя основными характеристиками:
• Большим объёмом данных (data volume)
• Требованиями к высокой скорости обработки данных (data velocity)
• Разновидностью поступающих данных (data variety)
• Ценностью, содержащейся в данных (data value)
В концепции Big Data объём и скорость определяют количественные аспекты информации, а разновидность и ценность - качественные.
Следует отметить, что некоторые аналитические компании расширяют предложенную модель до 7 V, дополнительно добавляя понятия изменчивости (variability), достоверности (veracity) и визуализации (visualization) [45]. Однако в данной научной работе мы будем пользоваться моделью 4 V.
Повышенное внимание к данной теме со стороны компаний объясняется их стремлением получить выгоду, возникающую при анализе Big Data [46]. Инвестиции и усилия, направленные на анализ «больших данных», полностью оправдывают себя, так как при объединении внутренних и внешних источников данных открываются огромные возможности по поиску ценности и совершению новых открытий. Так, например, анализ Big Data позволяет принимать нестандартные управленческие решения, гибче реагировать на реакции покупателей и создавать по-настоящему ценные продукты.
Выделим основные преимущества, которые открываются перед компаниями,
использующими Big Data [30]:
• возможность привлечения и удержания клиента с самыми низкими затратами для компании
• управление взаимодействием с клиентом на оптимальном уровне рентабельности
• возможность относиться к каждому клиенту как к личности с уникальными вкусами, предпочтениями и ценностями
• возможность предсказывать поведение клиентов и основные тенденции рынка
• возможность исследовать скрытые отношения и зависимости
• значительное снижение расходов на рекламу
• снижение уровня риска
Вкладывая значительные средства и усилия в развитие Big Data, многие компании до сих пор с трудом извлекают из «больших данных» какую-либо ощутимую выгоду. В первую очередь это связано с технологическим и управленческим аспектами работы с «большими данными».
Изложенный выше аспект позволяет говорить о своевременности научных исследований по данной тематике, обосновывает ответ на вопрос, почему представленные проблемы должны быть изучены именно сейчас.
Так, на основании проведённого нами анализа среди главных проблем при работе с Big Data были выделены следующие:
1) Нерешённость вопроса, связанного с управлением данными - управление данными является компетенцией ИТ специалистов или менеджеров?
2) Потеря актуальности данных в связи с устареванием - «большие данные» довольно быстро становятся неактуальными и вследствие этого теряют какую-либо ценность, поэтому важным аспектом в деятельности компаний является своевременный анализ входящих потоков информации, в том числе анализ в режиме реального времени
3) Бизнес-процессы не адаптированы под работу с «большими данными» - при использовании «больших данных» возникает необходимость изменения большинства бизнес-процессов компании и переход на модель data-driven (управление данными)
4) Проблема взаимодействия ИТ и бизнеса - вследствие технологической сложности Big Data и отсутствия решения проблемы управления данными, анализ «больших данных» выполняют ИТ специалисты. Однако вопросы, на которые необходимо найти ответ в данных, способны сформулировать только бизнес-пользователи
5) Вопросы компетенций рядовых пользователей - бизнес-пользователи различного уровня не способны воспринимать «большие данные» без предварительной обработки; особенности представления «больших данных», а также существующие технологии их обработки требуют специальных технических знаний для эффективной работы с Big Data. Поэтому проводить работу по анализу данных способны только квалифицированные специалисты по данным (data scientists). В результате этого процесс анализа Big Data становится привилегией исключительно ИТ специалистов, что значительно сужает потенциальные возможности для аналитики
6) Конфиденциальность «больших данных» - отсутствие законодательства, регламентирующего использование «больших данных». Наличие нерешённых вопросов, связанных с защитой и использованием персональных данных
Следует отметить, что помимо перечисленных частных проблем в сфере Big Data, необходимо также уделить особое внимание современным тенденциям развития и проблемным областям исследований в области в целом. Среди главных современных вызовов можно выделить следующие [6]:
1) Представление данных - большинство поступающих данных имеют определённый уровень гетерогенности (неоднородности) по типу, структуре, семантике, организации и доступности. Цель представления данных заключается в корректном отображении данных для последующего компьютерного анализа и обеспечении корректной интерпретации пользователем полученных результатов. Неправильное представление данных может значительно снизить ценность исходной информации и полностью свести на нет эффективность проводимого анализа
2) Сокращение избыточности и сжатие данных - современные ИТ технологии значительно упрощают создание новых данных. Развитие интернета вещей (IoT) и технологий облачных вычислений привело к возникновению проблем, связанных со сбором, интеграцией, управлением и обработкой широкого спектра данных из огромного числа распределённых источников. Вследствие этого, эффективное сжатие данных в предположении, что сокращение избыточности не окажет негативного влияния на ценность обрабатываемой информации, открывает широкие возможности для существенного сокращения затрат предприятия на хранение и обработку данных
3) Управление жизненным циклом данных - ценность, скрытая в Big Data, зависит от актуальности анализируемых данных, поэтому в настоящее время существует потребность в разработке принципов аналитической обработки данных для определения какие данные следует хранить, а какие данные должны быть отброшены
4) Аналитические механизмы - аналитические алгоритмы Big Data должны быть способны обрабатывать большое количество разнородных данных в течении ограниченного периода времени (в том числе и в режиме реального времени). Нереляционные БД (NoSQL) показали свои уникальные преимущества в обработке неструктурированных данных и в настоящее время являются основным инструментом для анализа «больших данных». Однако несмотря на это существуют определённые проблемы при использовании нереляционных БД, что выражается в потребности поиска компромиссного решения между традиционными СУБД и нереляционными БД. Необходимо также проведение более масштабных исследований по направлению использования оперативных БД (in-memory database) и методов, основанных на приближённом анализе (approximate analysis)
5) Информационная безопасность данных - многие компании, работающие с Big Data,
в настоящее время не могут эффективно обрабатывать и анализировать огромные наборы данных из-за ограниченности собственных мощностей. В своём анализе большинство ИТ компаний должны полагаться на профессионалов или
специальные сервисы для анализа «больших данных», что повышает
потенциальные риски информационной безопасности. Поэтому анализ и обработка Big Data могут быть переданы третьей стороне только в том случае, если в целях обеспечения безопасности компании были приняты надлежащие превентивные меры по защите конфиденциальности данных
6) Расширение и масштабирование - аналитические алгоритмы «больших данных» должны быть способны обрабатывать увеличивающиеся и всё более и более усложняющиеся наборы данных
7) Кооперация - анализ Big Data это междисциплинарная область исследований, которая вынуждает экспертов различных сфер знаний сотрудничать друг с другом в целях увеличения потенциала использования «больших данных» . Архитектура Big Data должна обеспечивать учёным и инженерам из различных областей науки доступ к широкому спектру информации, позволяя полностью использовать имеющийся опыт для достижения поставленных целей
8) Энергетический менеджмент - дальнейшее усовершенствование дата-центров (data center), рост объёма хранимых данных и аналитических потребностей в обработке, хранении и передачи «больших данных» неизбежно вызовет рост потребления электроэнергии. Таким образом, в целях дальнейшего расширения и масштабирования возможностей для анализа данных должны быть внедрены действенные механизмы энергетического менеджмента и разработаны руководства для осуществления контроля потребления электроэнергии на уровне всей системы
✅ Заключение
В результате проведения настоящей выпускной квалификационной работы были получены следующие результаты:
• На основании анализа современных научных работ выявлены нерешённые проблемы в области «больших данных»
• На основании анализа современных научных работ обоснована актуальность, теоретическая значимость и прикладная ценность исследований по тематике «Smart Data»
• Предложена методика проведения литературного обзора посредством анализа естественного языка в отобранных научных работах методом интеллектуального анализа текста (text mining)
• Предложены подходы по решению проблем процесса аналитики в конкретной компании
• Предложено решение проблемы интеграции большого числа источников данных в виде разработки единой системы НСИ
• Предложена методика формирования базы знаний на примере конкретной компании
• Разработано приложение QlikView, реализующее концепцию Smart Data и удовлетворяющее требованиям бизнеса
• Предложены подходы по оценке эффективности разрабатываемых версий целевого приложения на основе анализа его потоковых данных
Таким образом, результаты, полученные в данной научной работе, могут без значительных изменений быть использованы в компаниях с аналогичным процессом аналитики и подобной информационно-технологической инфраструктурой.
Также следует отметить, что в процессе проведения литературного анализа были выявлены проблемы, которые получили недостаточную освещённость в современных научных исследованиях. Знание о существовании данных проблем могут быть в дальнейшем использованы исследователями для проведения последующих научных работ по тематике «больших данных».



