ВВЕДЕНИЕ 3
1. ОПИСАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ 7
1.1. Об информационном агентстве 7
1.2. Характеристика исследований, проводимых ИА 7
1.3. Обобщенная характеристика процесса проведения исследования 8
2. УНИВЕРСАЛЬНАЯ ТЕХНОЛОГИЯ СБОРА ИНФОРМАЦИИ 11
2.1 Контекст сбора информации 11
2.2 Характеристика источников информации 12
2.2.1 Источники первичной информации 12
2.2.1 Источники вторичной информации 13
2.3. Описание процесса сбора информации 14
3. РАЗРАБОТКА ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ ИА 17
3.1. Выявление проблем информационного обеспечения ИА 17
3.2. Способ повышения качества информационного обеспечения ИА 17
3.3. Обзор существующих программных продуктов автоматизации поиска информации
3.4. Сравнение и обоснование выбора ИС 19
3.4.1. Avalanche 20
3.4.2. FileForFiles SiteSputnik 21
3.4.3. WebSite Watcher 23
3.4.4. Сравнительная характеристика программных продуктов 24
4. РЕАЛИЗАЦИЯ ТЕХНОЛОГИИ 27
4.1. Процесс сбора информации: как есть 29
4.2. Процесс сбора информации: как должно быть 29
4.3. Инструментарий SiteSputnik, используемый при поиске информации 29
4.3.1. Для компаний, имеющих веб-сайт. 29
4.3.2. Для компаний, не имеющих веб-сайта: 35
4.7. Пример реализации фрагмента технологии ИО ИА 36
ЗАКЛЮЧЕНИЕ 46
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Настоящая выпускная квалификационная работа является результатом систематизации знаний, навыков, умений, полученных в ходе прохождения практики в одном из крупных информационных агентств Санкт-Петербурга - информационно-аналитическом агентстве «INFOLine».
Информационные агентства (ИА) - специализированные информационные предприятия, основная функция которых - снабжать оперативной политической, экономической, социальной, культурной информацией редакции газет, журналов, телевидения, радиовещания, а также другие учреждения, организации, частных лиц, являющихся подписчиками на их продукцию. Деятельность ИА охватывает широкий спектр услуг по сбору, созданию, накоплению, обработке и распространению информации. Информация, публикуемая ИА впоследствии используется как средствами массовой информации, так и предприятиями всех отраслей для принятия управленческих решений и, реже, физическими лицами.
Несмотря на то, что первые ИА в привычном нам понимании появились на российском рынке относительно недавно - во время информационного бума 1990-х годов, в настоящее время на российском рынке существуют тысячи организаций, в той или иной степени называющих себя информагентствами, - и все они состоят в жесткой конкуренции друг с другом. Особенно ярко конкуренция выражена среди ИА, работающих в экономической, маркетинговой, бизнес-сфере. С одной стороны, такие ИА являются незаменимым источником информации для организаций, не имеющих возможности содержать собственный штат аналитиков, и, в случае успешности своей деятельности, имеют постоянный приток корпоративных клиентов. Однако с другой стороны, это накладывает на ИА повышенные требования к предоставляемой ими информации: от ее полноты, достоверности, оперативности предоставления напрямую зависит качество управленческих решений, принимаемых организациями. ИА, уступающие своим конкурентам в качестве и оперативности предоставляемых услуг, очень быстро лишаются доверия и теряют клиентов.
Таким образом, информация является для ИА основным продуктом деятельности. Качество финального информационного продукта зависит в первую очередь от первичной информации, собираемой аналитиками. Результаты исследования, проводимого по заведомо неверным или неактуальным данным, являются сомнительными и не могут быть использованы на практике. Именно поэтому каждое успешное ИА уделяет большое внимание процессу сбора первичной информации.
Процесс сбора информации заключается в сборе необходимых сведений, их сортировке, классификации и нахождении взаимосвязей. В рассматриваемом ИА этот процесс целиком производится вручную специалистами-аналитиками, занимая большую часть времени проведения исследования; основными источниками информации являются статистические сборники, средства массовой информации и сеть интернет.
Настоящая ВКР отражает актуальную необходимость оптимизации процесса сбора первичной информации при проведении аналитического исследования, современное состояние которого имеет несколько существенных проблем, вызванных, в первую очередь, низким уровнем автоматизации этого процесса.
Первая проблема заключается в отсутствии у ИА каких-либо средств автоматического сбора первичных данных для решения рутинных задач, повторяющихся от исследования к исследованию и не требующих от исполнителя использования профессиональных навыков аналитика. Ручное выполнение такого сбора данных занимает значительную часть рабочего времени специалистов-аналитиков, которое, во-первых, приводит к излишним затратам на заработную плату, а во-вторых, может быть посвящено более интеллектуально емким задачам.
Вторая и основная проблема заключается в сложности преобразования собранных данных в полезную информацию, которая позволяла бы делать выводы об объекте исследования. Для этого необходимы не только глубокое понимание объекта исследования и специальные аналитические навыки выполняющего эту задачу сотрудника, но и достаточно трудоемкая предварительная работа с самими данными: их сортировка, классификация, нахождение взаимосвязей, при этом алгоритмы работы с данными специфичны для каждой отдельной предметной области и требуют специальной разработки.
Третья проблема связана с особенностями хранения и поиска информации в сети интернет, который является основным источником первичной информации для ИА:
• во-первых, число источников в Сети чрезвычайно велико, и, по оценкам экспертов, только 20% информации, получаемой при поиске, оказывается полезной, остальные 80% составляет “информационный шум”.
• во-вторых, по данным корпорации Google[21], около 30% интернет- документов являются полными или близкими копиями друг друга.
• в-третьих, неструктурированные данные, главным образом текст, составляют не менее 90% информации и лишь 10% приходится на структурированные данные, загружаемые в реляционные СУБД.
• в-четвертых, объем информации в Сети не только огромен по объему, но еще и крайне изменчив: за доли минут в виртуальной сети появляются сотни новых или измененных документов, десятки перемещаются на новые адреса, а единицы - навсегда прекращают свое существование.
Естественным методом решения перечисленных проблем является автоматизация части процесса проведения исследования, связанная со сбором вторичной информации.
Автоматизация процесса сбора вторичной информации позволит: •
• снизить нагрузку на сотрудников, освободить время для выполнения более важных, интеллектуально емких задач;
• исключить вероятность человеческого фактора и значительно увеличить массив обрабатываемых данных, тем самым повысив достоверность, актуальность и полноту данных - то есть. повысить качество собираемой информации и, как следствие, качество всего исследования в целом.
Необходимо также отметить, что технические препятствия для проведения автоматизации, ввиду низкого уровня автоматизации процесса, на данный момент отсутствуют либо решаются единожды и на все время функционирования информационной технологии при ее внедрении.
Таким образом, целью работы является сокращение временных и стоимостных затрат при проведении исследований в ИА, а также повышение качества этих исследований путем автоматизации процесса сбора вторичной информации.
Для достижения поставленной цели предполагается решение следующих частных задач:
• описание предметной области с краткой характеристикой специфики ИА и проводимых в нем аналитических исследований;
• описание универсальной технологии сбора информации, включая описание источников информации и обобщенного процесса сбора информации;
• разработка технологии информационного обеспечения ИА, включая сравнение существующих технологий, обоснование выбора конкретной технологии и ее адаптация к специфике исследований ИА;
• практическая реализации части технологии, оценка качества ее функционирования.
Объектом исследования является информационно-аналитическое агентство «ИНФОЛайн» и проводимые в ходе осуществления его деятельности аналитические исследования.
Предметом исследования является процесс сбора первичной информации в рамках проведения аналитического исследования в ИА «ИНФОЛайн».
В результате работы был предложен метод автоматизации процесса сбора первичной информации в информационном агентстве, который позволяет сократить временные и стоимостные затраты в ходе проведения аналитического исследования путем повышения производительности труда и высвобождения человеческих ресурсов. Также предложенный способ позволит повысить качество собираемой информации, ее полноту, достоверность, оперативность, а следовательно, ценность выпускаемых информационных продуктов и даже, возможно, положение ИА на конкурентном рынке.
В ходе работы была изучена специфика деятельности ИА и проводимых им аналитических исследований, описан обобщённый процесс проведения аналитического исследования. После этого была обследована универсальная технология сбора первичной информации, применяемая в настоящее время в ИА, описаны основные информационные источники и обобщенный процесс сбора первичной информации.
После выявления существующих недостатков процесса сбора первичной информации, были выделены специфические требования к информационной технологии, предназначенной для автоматизации этого процесса, после чего был проведен обзор и последующее сравнение технологий, существующих в данный момент на рынках систем автоматизации маркетинговых исследований и конкурентной разведки. В результате сравнительного анализа была выбрана технология, наиболее полно соответствующая предъявленным требованиям.
Выбор технологии был осложнен тем фактом, что большая часть корпоративных систем поиска и анализа информации предназначены для комплексной поддержки бизнес- процессов маркетинга и конкурентной разведки предприятий и, таким образом, слабо соответствуют специфике процессов, протекающих в рассматриваемом ИА и имеют большое количество избыточного функционала.
В работе дано описание инструментария выбранной технологии и его адаптации к специфике аналитических исследований, проводимых ИА. На примере типичного для ИА аналитического исследования, представлен обновлённый процесс сбора первичной информации и применение в нем инструментария выбранной технологии, формализованы и описаны новые алгоритмы действий.
Приведен пример практической реализации технологии для решения задач поиска и обработки первичной информации, демонстрирующий преимущество использования выбранной технологии перед выполнением операций вручную, результатам функционирования технологии дана качественная оценка. Практическая реализация осложнялась наличием в свободном доступе только демонстрационной версии программы, которая хоть и дает возможность сделать выводы о возможностях полной версии, однако тем не менее существенно ограничена и не позволяет проводить сколько-нибудь масштабных исследований.
Дальнейшим шагом в работе по автоматизации процесса сбора первичной информации является тестирование технологии на реальных данных в масштабах всего ИА, что в настоящий момент в рамках данной работы представляется невозможным.
1. Александров, А. Аналитика по-русски / А. Александров // Открытые системы. - 2007. - №8
2. Беляевский И.К. Маркетинговое исследование: информация, анализ, прогноз. Учебное пособие / И.К. Беляевский- М.: Финансы и статистика, 2001. - 320 с.
3. Вирник, Ю.П. Обзор информационных технологий, применяемых в аналитической работ / Ю.П. Вирник // Аналитический вестник Совета Федерации ФС РФ. - 2010. - №9(395)
4. Вороной А. Сравнительный анализ информационно-аналитических систем для обработки открытых источников информации / А. Вороной, П. Манько // Маркетинг и маркетинговые исследования. - 2007. - №3 (69)
5. Доронин А.И. Бизнес-разведка. 2-е изд., перераб. и доп / А.И. Доронин — М.: Ось-89, 2003. — 384 с.
6. Завьялов П.С. Маркетинг в схемах, рисунках, таблицах / П.С. Завьялов. - М.: Издательский Дом «ИНФРА-М», 2007http:///h
7. Иванов Л.А. Исследование рынка собственными силами. Мастер-класс / Л.А. Иванов. - СПб.: Питер, 2006 .- 144 с.
8. Колик А. Альтернатива: мы или конкуренты / А. Колик // М.: ИП Стрельбицкий, 2010. - 210 O-httpyZ/h
9. Ландэ Д.В. Поиск знаний в Internet. / Ландэ Д.В. - М.:Диалектика, 2005. - 272 с.
10. Левкин И.М., Микадзе С.Ю. Добывание и обработка информации в деловой разведки. / И.М Левкин, С.Ю. Микадзе - СПб: Университет ИТМО, 2015. - 460 с. Нуралиев С.У. Маркетинг: Учебник для бакалавров / С.У. Нуралиев, Д.С. Нуралиева. — М.: Издательско-торговая корпорация «Дашков и К°», 2013.http:///h
11. Токарев Б.Е. Методы сбора и использования маркетинговой информации / Б.Е. Токарев. - М.: Юрист, 2001http:///h
12. Ющук Е. Интернет-разведка. Руководство к действию / Е. Ющук. - М.: Вершина, 2007
13. Анализ информации — превращение данных в аналитические выводы // ИКФ "АЛЬТ",Global Intelligence Alliance - [Электронный ресурс] URL:http://www.marketing.spb.ru/lib-research/Intelligence_Process.htm(дата обращения: 16.05.2016)
14. Аналитическая база “700 торговых сетей FMCG России. Демонстрационная версия // Информационное агентство «ИНФОЛайн» [Электронный ресурс]. URL: http://infoline.spb.ru/upload/iblock/be7/be78839a6d00e2327ba8c034fab15fd5.pdf(дата обращения: 16.05.2016)
15. Аренков И.А. Бенчмаркинг и маркетинговые решения. Монография. // Энциклопедия маркетинга. [Электронный ресурс]. URL: http://www.marketing.spb.ru/read/m12/4.htm(дата обращения: 16.05.2016)
16. Деревяшко, В.В. Влияние фактора старения информации на ее ценность для организации [Текст] / В.В. Деревяшко // Экономические науки. - 2010. - №1. - С. 425-427
17. Мыльников А.Б. Программа SiteSputnik (СайтСпутник). Сравнительный анализ поисковиков // Персональный сайт Алексей Борисовича Мельникова. - 2008. - [Электронный ресурс]. URL:http://sitesputnik.livejournal.com/804.html(дата обращения: 16.05.2016)
18. Нежданов И.Ю. Технологии конкурентной разведки // электронная книга - 2009. [Электронный ресурс]. URL: http://www.ci2b.info/wp- content/uploads/2013/01/Технологии-КР-Нежданов-ИЮ-20130102.pdf (дата обращения: 16.05.2016)
19. Основные технологические и рыночные тренды // Компания «Ай-Теко».
[Электронный ресурс]. _intelligence_products/technological_and_market_trends/(дата обращения: 16.05.2016)
20. Проблемы современных методов анализа текста // Компания «Ай-Теко».
[Электронный ресурс]. URL: http://www.i-
teco.ru/solutions/business_intelligence_products/modern_methods_of_text_analysis/(дата обращения: 16.05.2016)
21. Schwartz B. Google’s Matt Cutts: 25-30% Of The Web’s Content Is Duplicate Content & That’s Okay // Search Engine Land. - 2013. [Электронный ресурс]. URL: http://searchengineland.com/googles-matt-cutts-25-30-of-the-webs-content-is-duplicate-content- thats-okay-180063(дата обращения: 16.05.2016)