Математическую модель, отражающую взаимоотношения между людьми построить или сложно, или вообще невозможно: такая модель должна учитывать элемент случайности, множество индивидуальных характеристик, большинство из которых нельзя оценить численно. Основная сложность в том, как можно количественно оценить дружбу или антипатию. Часто опыт, или, как это называет кибернетика - «предыстория», должен быть принят во внимание для построения наиболее адекватной модели.
Важно определить, каким образом можно оценить характер взаимодействия, его силу и качество, для решения этой задачи можно использовать как аналитический, так и эмпирический подход. Например, как поступит обычный человек, если окажется в незнакомой ситуации и будет вынужден строить взаимоотношения с людьми, которых видит впервые? Если бы человек рассуждал как машина, то наиболее логичным было бы использование системы мер и весов, сбор начальных данных и их оценка в рамках установленной системы мер. Однако люди поступают иначе, они ориентируются на собственный опыт и интуицию. Понимание этого необходимо для построения правильной модели исследователем.
Задача определения подгрупп в некотором рабочем коллективе важна особенно с точки зрения формирования в будущем в этом коллективе успешно работающих команд.
Одной из основных проблем в изучении социальных структур является их субструктура с точки зрения группировок. Количество, размер и соединения между подгруппами в сети могут многое сказать нам о вероятном поведении сети в целом. Как быстро все будет происходить через акторов в сети? Будут ли конфликты, затрагивать несколько групп или фракций. В какой степени подгрупп перекрывают друг друга? Все эти аспекты структуры подгруппы могут быть очень важны для прогнозирования поведения сети в целом.
Сетевой подход при изучении социальной группы может многое сказать о том, как существует этот человек в некоторой социальной группе (сети). Некоторые люди могут действовать как «мосты» между подгруппами, другие могут быть изолянтами; некоторые действующие лица могут быть космополитами, а другие - местными с точки зрения их групповой принадлежности. Такие различия в способах, которыми индивиды связаны с группами, могут быть весьма важны для их поведения.
Один из наиболее распространенных интересов структурных аналитиков заключается в «подструктурах», которые могут присутствовать в сети. Диады, триады и эгоцентричные окрестности, можно рассматривать как субструктуры.
Многие из подходов к пониманию структуры сети подчеркивают, как плотные связи строятся от простых диад и триад до более расширенных плотных кластеров, таких как «клики». Этот взгляд на социальную структуру акцентирует внимание на том, как солидарность и связь крупных социальных структур могут быть построены из мелких и тесных компонентов: своего рода подход «снизу вверх». Сетевые аналитики разработали ряд полезных определений алгоритмов, которые определяют, как большие структуры составляются из меньших, таких как клики, п-клики, п-кланы, к-сплетения и др.
Разделение действующих лиц на группы и подструктуры может быть очень важным аспектом социальной структуры. Это может быть важно для понимания того, как может вести себя сеть в целом. Предположим, что участники одной сети образуют две непересекающиеся группы; и предположим, что участники другой сети также образуют две группы, но членство в них частично совпадает (некоторые люди являются членами обеих групп). Там, где группы перекрываются, можно ожидать, что конфликт между ними менее вероятен, чем когда группы не перекрываются. Там, где группы перекрываются, мобилизация и распространение могут быстро распространяться по всей сети; там, где группы не пересекаются, черты могут встречаться в одной группе и не распространяться на другую.
Также можно искать субструктуру «сверху вниз». Рассматривая всю сеть, можно думать о подструктурах как об областях графа, которые кажутся локально плотными, но в некоторой степени отделенными от остальной части графа.
Идея о том, что некоторые области графа могут быть менее связаны с целым, чем другие, может привести к пониманию линий расщепления и деления. Более слабые стороны в «социальной ткани» также создают возможности для брокерских и менее ограниченных действий. Таким образом, количество и размеры регионов, а также их «топология соединения» могут быть важны для прогнозирования как возможностей и ограничений, с которыми сталкиваются группы и участники, так и для прогнозирования эволюции самого графа.
Обнаружение подгруппы — это описательная задача локального анализа шаблонов, целью которой является поиск подмножеств данного набора данных, в которых распределение двоичной целевой переменной существенно отличается от ее распределения во всех данных, измеряемых мерой качества. Как правило, подгруппы описываются сочетаниями условий на атрибутах набора данных.
В ходе работы были рассмотрены популярные программные инструменты, поддерживающие методологию анализа социальных систем, такие как: Pajek, UCInet, Gephi и библиотека для языка Python NetworkX. Были изучены их функциональных возможности, которые можно применить для решения задач определения подгрупп. Помимо этого, также были рассмотрены встроенные механизмы визуализации графов.
Было проведено исследование для определения производственных связей в реальных социальных группах. На основе проведенных опросов была создана информационная база исследования.
Были изучены наиболее популярные методики к определению подгрупп, а также степень их поддержки существующими программными инструментами и удобство использования.
Были рассмотрены основные разновидности «подгрупп», разработанные теоретически, реальность их существования была подтверждена их обнаружением в реально существующих социальных группах.
При сравнительном анализе программных инструментов было установлено, что в системе Pajek реализовано большее число алгоритмов, также можно настраивать большее число параметров, что позволяет получить более точные результаты. Этот инструмент более удобен для решения задач, связанных с выявлением подгрупп, поскольку предоставляет пользователю дополнительную возможность визуального отображения полученных результатов. Стоит отметить, что Pajek работает с сетью как с набором векторов и в некоторых случаях это может стать значимым ограничением, однако для решения поставленной задачи этот инструмент подходит лучше всего.
Было установлено что программный инструмент Gephi обладает хорошими встроенными средствами визуализации, помимо этого, он обладает удобными средствами проведения аналитических вычислений базовых характеристик. Однако, в сравнении с другими рассмотренными инструментами имеет, у него достаточно небольшой функционал аналитических функций. Для решения поставленной задачи он не подходит.
Было выявлено, что коммерческий программный инструмент UCInet имеет самую большую и подробную документацию, очень большой перечень доступных алгоритмов анализа графов, однако, имеет не очень удобный интерфейс. Для решения задачи выявления подгрупп в социальной группе этот инструмент подходит.
Наравне с существующими программными инструментами также была рассмотрена библиотека NetworkX. Было выявлено, что эта библиотека хорошо справляется с решением типовых аналитических задач, помимо этого, в ней имеются средства визуализации сетей. Этот пакет обладает достаточно подробной и качественной документацией. Для решения поставленной задачи рассмотренный программный пакет также может быть использован, при этом требуется знание языка Python на базовом уровне.
Было проведено сравнение различных алгоритмов кластеризации для определения подгрупп как более плотных кластеров, в результате удалось установить, что для используемой выборки наиболее эффективно работает алгоритм Лувена.
Исходя из выше сказанного можно заключить, что цель работы была достигнута.