В настоящее время задача исследования веб-пространства организаций является актуальной в связи со стремительным развитием сети интернет и ресурсов, представленных в ней. Эти исследования помогают определить, насколько организация следит за тенденцией развития своих сайтов и предоставляет результаты своей деятельности.
Веб-сайт - совокупность html-страниц и веб-документов, связанных внутренними гиперссылками [6] и обладающих единством содержания, идентифицируемая в Вебе по уникальному доменному имени.
Определим внутренние гиперссылки, как гиперссылки, которые ссылаются на html-страницы заданного веб-пространства, при этом URL-источник является также html-страницей из этого веб-пространства.
Веб-пространство организации - это множество, состоящее из вебсайтов организации, которые связаны между собой гиперссылками. У вебпространства всегда можно выделить его “головной сайт”, официальный сайт организации.
В данной работе будут рассмотрены веб-пространства нескольких университетов России (к примеру, Санкт-Петербургского государственного университета, Московского государственного университета), нескольких научных институтов (к примеру, Российской академии наук, Института вычислительных технологий СО РАН) и нескольких крупных организаций России (к примеру, ПАО “Газпром”, Роснефть).
Уровень веб-страницы определим следующим образом: начальная страница, передаваемая краулеру, определяемая по уникальному доменному имени, имеет уровень 0. Уровень любой другой страницы - это минимальное количество внутренних гиперссылок, ведущих от начальной страницы к данной.
Для описания веб-пространства можно использовать веб-граф. В общем случае веб-граф - это ориентированный граф, вершинами которого являются html-страницы, ребра - гиперссылки связывающие данные вершины. В данной работе веб-граф будет представлен в виде списочной структуры, состоящей из пар сайтов (сайт1, сайт2) организации и количества дуг между ними (количество всех гиперссылок ссылающихся с сайта1 на сайт2).
Для того, чтобы построить веб-граф сайта, необходимо получить сведения о его структуре: html-страницы и гиперссылки связывающие их. В частности в данной работе необходимо получить URL-адреса веб-сайтов веб-пространства и внутренние гиперссылки между ними. Для сбора данной информации необходима программа-краулер. Краулер или же поисковой робот - программа, предназначенная для перебора страниц сети Интернет с целью сбора и/или занесения определённой информации в некую базу знаний. С общими принципами разработки краулера можно ознакомиться в работе [4].
Задачу, рассмотренную в данной работе, в дальнейшем следует исследовать более детально. К примеру, для улучшения показателей можно воспользоваться методами кластерного анализа. Кластерный анализ - это метод классификационного анализа, основные функции которого заключаются в разбиении множества исследуемых объектов на однородные группы или кластеры [7]. Задача кластеризации относится к статистической обработке.