ВВЕДЕНИЕ 3
2. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ И ХАРАКТЕРИСТИКА ОБЪЕКТА ИССЛЕДОВАНИЯ 7
2.1. Общая информация об ИА ИНФОЛайн 7
2.2. Информация о готовом продукте ИА ИНФОЛайн 7
2.3. Характеристика отрасли 10
3. ПОДГОТОВКА ДАННЫХ ДЛЯ ИССЛЕДОВАНИЯ 13
3.1. Консолидация данных 13
3.2. Очистка данных 15
4. ОБОСНОВАНИЕ ВЫБОРА BI-СИСТЕМЫ 20
5. РАЗРАБОТКА АЛГОРИТМА АВТОМАТИЗАЦИИ ПРОЦЕДУР ОБРАБОТКИ НЕСТРУКТУРИРОВАННЫХ МАССИВОВ ДАННЫХ 27
5.1. Определение бизнес-правил 27
5.2. Моделирование данных 28
5.3. Разработка приложения автоматизации процедур обработки неструктурированных массивов данных 29
5.3.1. Загрузочный скрипт 29
5.3.2. Пример решения сформулированных задач исследования в BI-системе «QlikView» 31
5.3.3. Краткое руководство для пользовательской работы с приложением в BI-системе 38
6. ЗАКЛЮЧЕНИЕ 40
7. СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ 41
8. Приложение 1. Код скрипта загрузки 43
9. Приложение 2. Код макроса изменения цвета ярлыка с помощью VB макроса 44
10. Приложение 3. Дашборды приложения 45
11. Приложение 4. Структура анкеты 47
Актуальность
На современном этапе развития общества информационные технологии являются неотъемлемой частью в различных сферах человеческой деятельности: предпринимательская деятельность и государственное управление. С увеличением объемом данных, с которым общество сталкивается как в повседневной жизни, так и в профессиональной деятельности, очень важно правильно, грамотно и экономно обращаться с информацией и ее различными представлениями. Знание возможностей получения, анализа и представления данных, различной информации позволяет грамотно и экономно распорядиться имеющимися ресурсами, оптимизировать различные затраты и сэкономить самый ценный ресурс общества – время. Темпы развития современного мира находят свое отражение не только в различных сферах деятельности, применяемых технологиях и методах, но и предъявляют к ним определенные требования. Управление любой деятельностью, ее поддержка, сегодня неразрывно связаны с информационными системами, которые специалисты пытаются создавать с учетом возможных изменений в различных сферах.
В различных сферах, как бизнеса, так и государственного управления можно наблюдать различные подходы к автоматизации основных процессов деятельности. Часто при сложной структуре устройства предприятия отдельные подразделения решают свои задачи и цели различными путями, в рамках своих сил и возможностей. Зачастую возникают проблемы организации взаимосвязи между системами, обусловленные, как правило, разным временем внедрения систем, различными изначальными требованиями. В конечном итоге все это сказывается на уровне систематизации информации, прозрачности схемы работы организации, возможностях интеграции процедур обработки, хранения и представления данных и т.д.
Неструктурированные данные — это на сегодняшний день еще не до конца оцененный бизнес-актив, эффект от использования которого будет тем выше, чем совершеннее и «тоньше» будут соответствующие программные инструменты. По оценкам экспертов, около 80% внутрикорпоративного информационного контента имеют неструктурированный или частично структурированный вид — это файлы различных форматов (фото, аудио и видео, электронная почта), несущие в себе огромный потенциал для бизнес-анализа. Мало того, наиболее продвинутые компании начинают «сканировать» внешнее информационное поле в поисках дополнительных актуальных знаний о конъюнктуре рынка и поведении своего сегмента потребителей, надеясь найти новые решения для развития своего бизнеса. Однако основной массив данных, генерируемых существующими на планете организационными структурами (предприятиями, компаниями, семьями, группами по интересам и т. д.), остается вне фокуса внимания аналитиков — подобная информация не подпадает под критерии области анализа, отсутствует инструмент обработки, а поток данных избыточен.
Рынок продолжает расти вслед за ростом количества различных информационных систем, которые используют заказчики, и объема данных, обрабатываемых в этих системах. Постепенное накопление данных является драйвером спроса на BI-инструменты. И одним из важных драйверов, о котором рассказывают многие участники рынка, является накопление компаниями большого объема данных. В этом случае у бизнес-игроков появляется желание получить из них добавленную стоимость или дополнительную ценность.
В рамках обозначенной темы можно выделить деятельность ИА «ИНФОЛайн-Аналитика», которая состоит в подготовке ежегодных отраслевых обзоров по направлению строительство и индустриальные рынки, а также в области судостроения. Проблемой составления таких обзоров является разрозненность данных, которая существенно затрудняет процесс исследования. На решение этой проблемы уходят недели работы с данными, что очевидным образом свидетельствует об актуальности процесса автоматизации по их обработке. Данная проблема стала определяющим фактором при выборе темы исследовательской работы.
Цель исследования
Разработать алгоритм автоматизации обработки, хранения и предоставления изначально разнородных массивов данных рынка судостроительной отрасли в целях маркетинговых исследований с использованием таких программных продуктов, как MS Excel и QlikView.
Задачи исследования
1) Ознакомиться со спецификой новой предметной области на базе исследований, проведенных ИА «ИНФОЛайн-Аналитика», выделить ключевые информационные ресурсы, являющиеся основанием маркетинговых исследований по рынку судостроительной промышленности;
2) Разработать аналитический план работы с полученными данными, включающий в себя перечень возможных гипотез, строящихся на основании задействованных переменных, и их разрешения для маркетинговых исследований рынка судостроения;
3) Создать приложение в BI-системе QlikView, являющееся демонстрацией результатов маркетингового исследования.
В чем может заключаться интерес в данном исследовании непосредственно информационных агентств, таких как «ИНФОЛайн»:
Прописываются «узкие» места работы с массивом данных;
Автоматизируется процесс вычленения необходимой информации из текстовых полей данных;
Визуализируется процесс выполнения комплексного анализа текущего состояния судостроительной отрасли в России.
Объект исследования
Информационно-аналитическое агентство ИНФОЛайн.
Предмет исследования
Процесс автоматизации процедур обработки данных в интересах информационно-аналитического агентства ИНФОЛайн.
Практическая значимость результатов исследования
Данное исследование отличается высокой практической значимостью. В ходе его создания был разработан алгоритм автоматизации обработки, хранения и предоставления неструктурированных массивов данных, позволяющий сделать процесс создания маркетинговых исследований ИА ИНФОЛайн наиболее результативным. Разработанный алгоритм рекомендуется внедрять в аналитический отдел.
Новизна
Научная новизна магистерского исследования состоит в разработке аналитического плана работы с неструктурированными данными на примере конкретных данных судостроительной отрасли в интересах информационно-аналитического агентства ИНФОЛайн.
Таким образом, в данной работе была обоснована актуальность выпускной квалификационной работы, поставлены цель и задачи данного исследования, выделены объект и предмет исследования и даны их характеристики, дано описание понятия типового продукта и процесса его разработки, а также выделены основные сущности для дальнейшей автоматизации.
На основании данных ИА «ИНФОЛайн-Аналитика» сформирован алгоритм, включающий аналитический план работы с данными, что может позволить существенно снизить затраты на проведение маркетинговых исследований рынка судостроения.
Формирование подобного алгоритма - процесс трудоемкий, и в конечном счете, может не оправдать затрат на себя, так как существует вероятность того, что при масштабируемости или передаче на исполнение он окажется не пригодным по ряду причин, например, воспримется негативно будущими исполнителями или начальством. Тем не менее, стоит отметить, что проделанная работа может принести свои плоды, как минимум, по факту делегирования полномочий при исполнении, а также повышения эффективности работы.
Получившееся бизнес-приложение, как результат разработанного алгоритма, может служить начальным макетом для дальнейшего его расширения остальными массивами данных, для получения более широкой картины происходящего в отрасли. Также приложение поможет в выборе информации интересной для потенциальных покупателей продукта и информации, оставленной непосредственно для коммерческого продукта.
Результаты проделанной работы подтверждают успешность выполнения поставленных целей и задач исследования.
Монографии, учебники, учебные пособия
1. Барсегян, А. А. «Анализ данных и процессов: учеб. пособие» /
. — 3-е изд., перераб. и доп. — СПб.: БХВ-Петербург, 2009. — 512 с.;
2. В.Л. Аббакумов, Т.А. Лезина. Бизнес-анализ информации. Статистические методы. - М.: ЗАО «Издательство «Экономика», 2009. — 374; с. — (Учебники экономического факультета СПбГУ). ISВN 978-5-282-02918-5;
3. Паклин Н.Б. Орешков В.И. Бизнес-аналитика: от данных к знаниям: Учебное пособие. – СПб.: Питер, 2013. – 704с. ISBN 978-5-459-00717-6;
4. Пахомова Н.В., Мотовилов О.В, Маслова Е.В., Кузнецова А.С. - Методические указания по подготовке и защите магистерской диссертации по основным образовательным программам магистратуры по направлениям 38.04.01 «Экономика», 38.04.05 «Бизнес-информатика», 38.04.08 «Финансы и кредит» очной формы обучения. СПбГУ;
5. Яу Н. Искусство визуализации в бизнесе. Как представить сложную информацию простыми образами / Пер. с англ. Светланы Кировой. М., 2013;
6. QlikView Версия 11.2, SR5 для Microsoft Windows. Учебное пособие. QlikTech International AB, 2013.
Статьи в журналах и других периодических изданиях
7. Иванов П.Д., Вампиловв В.Ж. Технологии Big Data и их применение на современном промышленном предприятии. Инженерный журнал: наука и инновации, 2014, вып. 8. URL: http://engjournal.ru/catalog/it/asu/1228.html
8. Официальный сайт международной компании «Прогноз», статья: «Российский рынок BI в 2016 году: чего ожидать и что делать» – URL: http://www.prognoz.ru/blog/market/russian-bi-market-2016/;
9. Big Data: What It Is and Why You Should Care. White Paper. – IDC, 2011;
Нормативно-правовые документы
10. ГОСТ 2.105–95. Единая система конструкторской документации. Общие требования к текстовым документам [Электронный ресурс] // Федер. агентство по техн. регулированию и метрологии – URL: http://protect.gost.ru/v.aspx?control=8&baseC=-1&page=0&month=-%201&year=-1&search=&RegNum=1&DocOnPageCount=15&id=126445;
Интернет – ресурсы
11. Блог об использовании Microsoft Power BI для бизнес-аналитики и визуализации данных – URL: http://powerbirussia.ru;
12. Документация Business Studio – URL: http://www.businessstudio.ru/wiki/;
13. Интернет ресурс «Открытые системы» – URL: http://www.osp.ru/os/2013/06/13036849/;
14. «ИНФОЛайн» — информационно-аналитическое агентство. [Электронный ресурс]. – URL: http://ИНФОЛайн.spb.ru/;
15. Николай Павлов, Planetaexcel, 2006-2017. – URL: http://www.planetaexcel.ru/;
16. Отраслевой портал морского и речного судостроения РФ – URL: http://sudostroenie.info/;
17. Официальный сайт консалтинговой компании Gartner. – 2016. – URL: https://www.gartner.com/doc/reprints?id=1-2XXKCD7&ct=160204&st=sb;
... Всего источников – 23.
Содержание магистерской диссертации – АВТОМАТИЗАЦИЯ ПРОЦЕДУР ОБРАБОТКИ НЕСТРУКТУРИРОВАННЫХ МАССИВОВ ДАННЫХ В ЦЕЛЯХ МАРКЕТИНГОВЫХ ИССЛЕДОВАНИЙ РЫНКА СУДОСТРОЕНИЯ
Выдержки из магистерской диссертации – АВТОМАТИЗАЦИЯ ПРОЦЕДУР ОБРАБОТКИ НЕСТРУКТУРИРОВАННЫХ МАССИВОВ ДАННЫХ В ЦЕЛЯХ МАРКЕТИНГОВЫХ ИССЛЕДОВАНИЙ РЫНКА СУДОСТРОЕНИЯ