РАЗРАБОТКА ФОРМАЛЬНО-ЛОГИЧЕСКИХ СРЕДСТВ КЛАСТЕРИЗАЦИИ ПОЛЬЗОВАТЕЛЕЙ ДЛЯ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ УПРАВЛЕНИЯ КОНТЕНТОМ WEB-РЕСУРСА
|
ВВЕДЕНИЕ 3
1 ИССЛЕДОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ КОНТЕНТОМ И
МЕТОДОВ КЛАСТЕРИЗАЦИИ МНОГОМЕРНЫХ ДАННЫХ 1.1. Обзор систем управления контентом 6
1.2. Исследование подходов реализации функции персонализации.... 18
1.3. Анализ методов кластеризации многомерных данных 24
2 ПРОЕКТИРОВАНИЕ ФОРМАЛЬНЫХ СРЕДСТВ
ФОРМИРОВАНИЯ ГРУПП ПОЛЬЗОВАТЕЛЕЙ САЙТА 37
2.1 Разработка подхода персонализированного управления сайтом... 37
2.2 Систематизация показателей и параметров сегментации интернет-
пользователей 41
2.3 Проектирование структуры модифицированной CMS 48
3 РАЗРАБОТКА АЛГОРИТМА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ
ИНТЕРНЕТ-РЕСУРСА 54
3.1 Разработка алгоритма сегментации пользователей ресурса 54
3.2 Разработка алгоритма динамического подбора
персонализированного контента 59
3.3 Обоснование эффективности разработанных средств 62
ЗАКЛЮЧЕНИЕ 66
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1 ИССЛЕДОВАНИЕ СИСТЕМ УПРАВЛЕНИЯ КОНТЕНТОМ И
МЕТОДОВ КЛАСТЕРИЗАЦИИ МНОГОМЕРНЫХ ДАННЫХ 1.1. Обзор систем управления контентом 6
1.2. Исследование подходов реализации функции персонализации.... 18
1.3. Анализ методов кластеризации многомерных данных 24
2 ПРОЕКТИРОВАНИЕ ФОРМАЛЬНЫХ СРЕДСТВ
ФОРМИРОВАНИЯ ГРУПП ПОЛЬЗОВАТЕЛЕЙ САЙТА 37
2.1 Разработка подхода персонализированного управления сайтом... 37
2.2 Систематизация показателей и параметров сегментации интернет-
пользователей 41
2.3 Проектирование структуры модифицированной CMS 48
3 РАЗРАБОТКА АЛГОРИТМА СЕГМЕНТАЦИИ ПОЛЬЗОВАТЕЛЕЙ
ИНТЕРНЕТ-РЕСУРСА 54
3.1 Разработка алгоритма сегментации пользователей ресурса 54
3.2 Разработка алгоритма динамического подбора
персонализированного контента 59
3.3 Обоснование эффективности разработанных средств 62
ЗАКЛЮЧЕНИЕ 66
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
В настоящее время каждая компания, предлагающая к продаже какие- либо товары или услуги, активно использует методы представления и продвижения своего продукта в сети Интернет как минимум при помощи размещения необходимой информации на страницах корпоративного сайта и разработки системы рекламных мероприятий. Самым распространенным способом осуществления продаж в сети является интернет - магазин, содержащий полный категорийный каталог товаров, их развернутое описание, а также формы заказа. Однако любой интернет - продавец может столкнуться с проблемой низкой конверсии сайта ввиду целого ряда причин.
С ростом конкуренции на рынке товаров и услуг становится актуальным вопрос о совершенствовании методов продвижения продукта среди целевой аудитории, а также разработке новых методов представления информации о нем в степени максимально соответствующей ожиданиям и потребностям клиентов. В связи с этим наряду с наиболее популярными инструментами персонализации (e-mail рассылки с персональными предложениями и скидками, показ объявлений контекстной рекламы, отображение баннеров с супер-предложениями и др.) наблюдаются тенденции развития новых подходов, например, персонализации контента сайта путем изменения его дизайна, структуры, способов отображения различных элементов и информации для определенных групп его посетителей [28]. Решение данной задачи влечет за собой серьезные денежные затраты на изучение аудитории сайта как потенциальных клиентов, сегментацию пользователей, подготовку соответствующих материалов контента и программную реализацию алгоритмов его отображения. Все обозначенные подзадачи требуют привлечения нескольких сторонних специалистов - профессиональных маркетологов и программистов, что не всегда возможно для компаний малого и среднего масштаба. Таким образом, научные
исследования в области автоматизации процесса персонализированного управления контентом web-pecypca являются актуальными.
Объектом исследования являются современные системы управления контентом сайта.
Предметом исследования являются средства формирования потребительских групп пользователей.
В связи с этим целью выпускной квалификационной работы является повышение эффективности процесса управления контентом web-pecypca на основе подхода персонализации.
В соответствии с поставленной целью определены следующие задачи исследования:
- исследовать системы управления контентом сайта и методы кластеризации многомерных данных;
- спроектировать формальные средства формирования групп пользователей сайта;
- разработать алгоритм сегментации пользователей web-pecypca.
При выполнении выпускной квалификационной работы были использованы следующие методы исследования: анализ, синтез, сравнение, классификация, формализация и моделирование.
Исследованиями в области персонализации интернет-ресурсов занимаются такие ученые как Царев А.Г., Царева Т.Н., Домрачев В.Г. и Ретинская И.В. [58-64]. В научных трудах этих ученых речь идет о моделях и методах персонализации сайта, исследованиях и сборе пользовательских данных. Методы кластеризации рассматриваются в научных трудах Климовой А.С., БериковаВ.С., Нейского И.М., Буховец А.Г. [19-23, 29-35].
Научную новизна исследования представляют:
- алгоритм кластеризации пользовательских профилей сайта, который не требует определения желаемого количества кластеров и позволяет учитывать изменения в предпочтениях пользователей сайта;
- алгоритм подбора персонализированного контента структурных элементов страницы web-pecypca в зависимости от того, к какому кластеру пользователь может быть отнесен.
Разработанные формально-логическое средства могут иметь непосредственное применение в практической деятельности в области автоматизации процесса персонализированного управления web-ресурсом.
Основным положения, выносимые на защиту выпускной квалификационной работы:
- структура модифицированной CMS;
- алгоритм кластеризации пользовательских профилей сайта;
- алгоритм подбора персонализированного контента.
Основные положения выпускной квалификационной работы опубликованы в 5 научных работах автора.
С ростом конкуренции на рынке товаров и услуг становится актуальным вопрос о совершенствовании методов продвижения продукта среди целевой аудитории, а также разработке новых методов представления информации о нем в степени максимально соответствующей ожиданиям и потребностям клиентов. В связи с этим наряду с наиболее популярными инструментами персонализации (e-mail рассылки с персональными предложениями и скидками, показ объявлений контекстной рекламы, отображение баннеров с супер-предложениями и др.) наблюдаются тенденции развития новых подходов, например, персонализации контента сайта путем изменения его дизайна, структуры, способов отображения различных элементов и информации для определенных групп его посетителей [28]. Решение данной задачи влечет за собой серьезные денежные затраты на изучение аудитории сайта как потенциальных клиентов, сегментацию пользователей, подготовку соответствующих материалов контента и программную реализацию алгоритмов его отображения. Все обозначенные подзадачи требуют привлечения нескольких сторонних специалистов - профессиональных маркетологов и программистов, что не всегда возможно для компаний малого и среднего масштаба. Таким образом, научные
исследования в области автоматизации процесса персонализированного управления контентом web-pecypca являются актуальными.
Объектом исследования являются современные системы управления контентом сайта.
Предметом исследования являются средства формирования потребительских групп пользователей.
В связи с этим целью выпускной квалификационной работы является повышение эффективности процесса управления контентом web-pecypca на основе подхода персонализации.
В соответствии с поставленной целью определены следующие задачи исследования:
- исследовать системы управления контентом сайта и методы кластеризации многомерных данных;
- спроектировать формальные средства формирования групп пользователей сайта;
- разработать алгоритм сегментации пользователей web-pecypca.
При выполнении выпускной квалификационной работы были использованы следующие методы исследования: анализ, синтез, сравнение, классификация, формализация и моделирование.
Исследованиями в области персонализации интернет-ресурсов занимаются такие ученые как Царев А.Г., Царева Т.Н., Домрачев В.Г. и Ретинская И.В. [58-64]. В научных трудах этих ученых речь идет о моделях и методах персонализации сайта, исследованиях и сборе пользовательских данных. Методы кластеризации рассматриваются в научных трудах Климовой А.С., БериковаВ.С., Нейского И.М., Буховец А.Г. [19-23, 29-35].
Научную новизна исследования представляют:
- алгоритм кластеризации пользовательских профилей сайта, который не требует определения желаемого количества кластеров и позволяет учитывать изменения в предпочтениях пользователей сайта;
- алгоритм подбора персонализированного контента структурных элементов страницы web-pecypca в зависимости от того, к какому кластеру пользователь может быть отнесен.
Разработанные формально-логическое средства могут иметь непосредственное применение в практической деятельности в области автоматизации процесса персонализированного управления web-ресурсом.
Основным положения, выносимые на защиту выпускной квалификационной работы:
- структура модифицированной CMS;
- алгоритм кластеризации пользовательских профилей сайта;
- алгоритм подбора персонализированного контента.
Основные положения выпускной квалификационной работы опубликованы в 5 научных работах автора.
Для достижения цели выпускной квалификационной работы были решены все поставленные задачи:
Е Исследованы системы управления контентом сайта и методы кластеризации многомерных данных. Проведенный обзор систем управления контентом показал, что для создания и поддержки работы сайтов компании активно используют как коммерческие CMS, так и системы, находящиеся в открытом доступе. Согласно анализу, все они имеют общий функционал - создание контента сайта, управление контентом, его публикация и управление представлением контента. Также были выявлены общие для всех систем управления контентом структурные элементы - модуль навигации, модуль содержания, модуль контент менеджера, модуль авторизации, файловая система, дизайн-шаблон и стили CSS, а также База данных, где хранится необходимая для работы системы информация.
В ходе исследования методов персонализации интернет-ресурсов было выявлено, что для этого существуют два подхода - основанный на правилах и подход, основанный на алгоритмах. Оба подхода показывают свою эффективность в определенных условиях. Правила лучше работают для узкоспециализированных компаний с небольшим разбросом отличий между клиентами. Алгоритмический же по подход позволяет учитывать большой поток посетителей сайта в сочетании с большим количеством предложений компании.
В результате анализа методов кластеризации различных типов - иерархических и неиерархических (плотностных, статистических, итеративных) - было выявлено, что алгоритмы иерархического типа на начальном этапе требуют указания максимального размера кластера (максимально возможного количества элементов), что нежелательно для задачи разбиения пользователей сайта по группам. Алгоритмы неиерархические итеративные не могут быть использованы в связи с необходимостью указания количества искомых кластеров, медленно работают при анализе больших объемов данных, а также чувствительны к шумам и могут давать недостоверные результаты в связи с этим. Неиерархические статистические алгоритмы также плохо справляются с анализом больших данных. Наиболее подходящими оказались плотностные алгоритмы, которые хорошо работают с большим объемом данных, не требуют указания количества кластеров и их размеров. Главными преимуществами подобных алгоритмов является устойчивость к данным шума и легкость их модификации и комбинирования с другими алгоритмами и процедурами. Таким образом, было принято решение разработке нового алгоритма гиперсегментации пользовательских профилей, на основании модифицированного плотностного алгоритма DBSCAN.
2. Спроектированы формальные средства формирования групп пользователей сайта. Предложен подход персонализированного управления сайтом, направленный на подбор и показ релевантного для разных групп пользователей контента страницы сайта с учетом интересов и потребностей пользователей сайта, а также изменения их предпочтений во времени. Подход предполагает сбор и обработку информации о пользователях, гиперсгментацию пользовательских профилей, разработку
специализированного контента определенных блоков структуры страницы и настройку отображения необходимого содержания для той или иной группы.
В ходе исследования были выявлены источники информации о пользователе, который обращается к сайту - данные из полей заголовка http, данные из web-браузера, дополнительные данные с сайта. Было дано теоретико-множественное описание показателей, по которым могут быть сегментированы пользователи ресурса.
Спроектирована структура новой системы управления контентом сайта, которая позволяет реализовать подход персонализированного управления web-ресурсом благодаря модификации модуля контент менеджера, расширению Базы данных с целью хранения информации о пользователях и вариантов контента структурных блоков страницы ресурса, а также подключению и настройке Базы знаний, необходимой для подбора специального для разных групп пользователей контента
3. Разработан алгоритм сегментации пользователей web-pecypca. Предложенный алгоритм гиперсегментации пользовательских профилей представляет собой комбинацию из модифицированного алгоритма DBSCAN и набора оригинальных процедур. Относительно алгоритмов кластеризации многомерных данных, рассмотренных в ходе исследования, предложенный имеет важные преимущества:
- не требует задания ожидаемого количества кластеров;
- позволяет учитывать изменяющиеся во времени потребности и интересы пользователей.
Разработан алгоритм подбора контента структурных элементов страницы сайта на основании отнесения пользователя к одной из выделенных групп. Предложенный подход сочетает алгоритмический и основанный на правилах способы реализации персонализированного подбора контента сайта под разные категории его посетителей. Причем алгоритмическая часть позволяет определить, каким именно правилом система будет руководствоваться при построении страницы. Для пользователей, которые не могут быть отнесены к уже выявленным группам, предлагается использование правил ближайшего кластера.
Е Исследованы системы управления контентом сайта и методы кластеризации многомерных данных. Проведенный обзор систем управления контентом показал, что для создания и поддержки работы сайтов компании активно используют как коммерческие CMS, так и системы, находящиеся в открытом доступе. Согласно анализу, все они имеют общий функционал - создание контента сайта, управление контентом, его публикация и управление представлением контента. Также были выявлены общие для всех систем управления контентом структурные элементы - модуль навигации, модуль содержания, модуль контент менеджера, модуль авторизации, файловая система, дизайн-шаблон и стили CSS, а также База данных, где хранится необходимая для работы системы информация.
В ходе исследования методов персонализации интернет-ресурсов было выявлено, что для этого существуют два подхода - основанный на правилах и подход, основанный на алгоритмах. Оба подхода показывают свою эффективность в определенных условиях. Правила лучше работают для узкоспециализированных компаний с небольшим разбросом отличий между клиентами. Алгоритмический же по подход позволяет учитывать большой поток посетителей сайта в сочетании с большим количеством предложений компании.
В результате анализа методов кластеризации различных типов - иерархических и неиерархических (плотностных, статистических, итеративных) - было выявлено, что алгоритмы иерархического типа на начальном этапе требуют указания максимального размера кластера (максимально возможного количества элементов), что нежелательно для задачи разбиения пользователей сайта по группам. Алгоритмы неиерархические итеративные не могут быть использованы в связи с необходимостью указания количества искомых кластеров, медленно работают при анализе больших объемов данных, а также чувствительны к шумам и могут давать недостоверные результаты в связи с этим. Неиерархические статистические алгоритмы также плохо справляются с анализом больших данных. Наиболее подходящими оказались плотностные алгоритмы, которые хорошо работают с большим объемом данных, не требуют указания количества кластеров и их размеров. Главными преимуществами подобных алгоритмов является устойчивость к данным шума и легкость их модификации и комбинирования с другими алгоритмами и процедурами. Таким образом, было принято решение разработке нового алгоритма гиперсегментации пользовательских профилей, на основании модифицированного плотностного алгоритма DBSCAN.
2. Спроектированы формальные средства формирования групп пользователей сайта. Предложен подход персонализированного управления сайтом, направленный на подбор и показ релевантного для разных групп пользователей контента страницы сайта с учетом интересов и потребностей пользователей сайта, а также изменения их предпочтений во времени. Подход предполагает сбор и обработку информации о пользователях, гиперсгментацию пользовательских профилей, разработку
специализированного контента определенных блоков структуры страницы и настройку отображения необходимого содержания для той или иной группы.
В ходе исследования были выявлены источники информации о пользователе, который обращается к сайту - данные из полей заголовка http, данные из web-браузера, дополнительные данные с сайта. Было дано теоретико-множественное описание показателей, по которым могут быть сегментированы пользователи ресурса.
Спроектирована структура новой системы управления контентом сайта, которая позволяет реализовать подход персонализированного управления web-ресурсом благодаря модификации модуля контент менеджера, расширению Базы данных с целью хранения информации о пользователях и вариантов контента структурных блоков страницы ресурса, а также подключению и настройке Базы знаний, необходимой для подбора специального для разных групп пользователей контента
3. Разработан алгоритм сегментации пользователей web-pecypca. Предложенный алгоритм гиперсегментации пользовательских профилей представляет собой комбинацию из модифицированного алгоритма DBSCAN и набора оригинальных процедур. Относительно алгоритмов кластеризации многомерных данных, рассмотренных в ходе исследования, предложенный имеет важные преимущества:
- не требует задания ожидаемого количества кластеров;
- позволяет учитывать изменяющиеся во времени потребности и интересы пользователей.
Разработан алгоритм подбора контента структурных элементов страницы сайта на основании отнесения пользователя к одной из выделенных групп. Предложенный подход сочетает алгоритмический и основанный на правилах способы реализации персонализированного подбора контента сайта под разные категории его посетителей. Причем алгоритмическая часть позволяет определить, каким именно правилом система будет руководствоваться при построении страницы. Для пользователей, которые не могут быть отнесены к уже выявленным группам, предлагается использование правил ближайшего кластера.



