# 5. ПРЕДСТАВЛЕНИЕ СОЦИАЛЬНОЙ СЕТИ ГРАФОМ БОЛЬШОЙ РАЗМЕРНОСТИ, АНАЛИЗ СВЯЗЕЙ
[назад](README.md)
Как уже было отмечено выше социальные сети, их сегменты, а также связи в них принято представлять в виде графа. Рассмотрим основные понятия теории, необходимые для введения в анализ социальной сети, представленной графом.
Граф – это упорядоченная пара $`G = (V, E)`$, где $`V (vertices)`$ – множество вершин (узлов) графа, а $`E (edges)`$ – множество ребер. Граф может быть как ориентированным, так и неориентированным (рис. 17).
![Рис. 17. Ориентированный и неориентированный графы](images/2021-09-05_00-07-34.png)
Рис. 17. Ориентированный и неориентированный графы
C точки зрения социальных сетей ребра в неориентированном графе могут описывать такую связь как «дружба», а в ориентированном – «подписку». Граф, представляющий социальную сеть, также может быть и смешанным – имеющим как ориентированные ребра, так и неориентированные.
Таким образом, исходный набор данных $`D = \{x_i\}_{i=1}^n`$ будет представлен взвешенным графом. В случае с социальной сетью, отыскание зависимостей является тривиальной задачей.
Граф $`H = (V_H, E_H)`$ называется подграфом графа $`G = (V, E)`$, если $`V_H \subseteq V`$ и $`E_H \subseteq E`$. Такой граф может использоваться для выделения сообщества в социальной сети.
*Маршрутом* в графе называют конечную последовательность вершин, в которой каждая вершина (кроме последней) соединена со следующей в последовательности вершиной ребром.
*Цепью* принято называть маршрут, ребра которого различны. В ориентированном графе цепь является путём. Длина цепи – это количество входящих в неё рёбер.
*Циклом* называют цепь, первая и последняя вершины которой совпадают. Длиной пути (цикла) называют число составляющих его рёбер.
Граф называется *связным*, если любые две его вершины связаны маршрутом.
*Компонента связности* графа $`G = (V, E)`$ –его подграф $`H = (V_h, E_H)`$, образованный на подмножестве всех вершин $`V_H`$, которые можно соединить произвольным маршрутом.
Связный граф состоит из единственной компоненты связности. На компоненте связности можно ввести понятие расстояния между вершинами как минимальную длину пути, соединяющего эти вершины. Ребро графа называется *мостом*, если его удаление увеличивает число компонент.
*Расстояние* между вершинами графа – длина кратчайшей цепи, соединяющей эти вершины.
*Эксцентриситет вершины графа* − это максимальное расстояние от неё до других вершин (по количеству ребер или их весу).
*Диаметром* графа $`d(G)`$ является максимальное расстояние между всеми парами вершин в графе $`x_i`$ и $`x_j`$: $`d(G) = maxd(x_i, x_j)`$. Таким образом, диаметр графа − это максимальный из эксцентриситетов вершин.
*Радиусом графа* называется минимальный эксцентриситет среди всех вершин графа.
*Центральной вершиной* графа является вершина, чей эксцентриситет равен радиусу графа.
*Периферийной вершиной* графа является вершина, чей эксцентриситет равен диаметру графа.
При выделении сообщества принято сравнивать среднюю плотность связей внутри кластера и между кластерами, т.е. сообщество – это та часть графа, в которой средняя плотность между узлами превышает плотность связей между сообществами. Другими словами, внутри сообщества связей должно быть больше, чем между сообществами. Алгоритмы, описывающие выделение сообществ приводятся в соответствующем разделе данного учебного пособия.
*Степенью вершины* графа называется количество инцидентных ей рёбер. Последовательностью степеней вершин неориентированного графа является список степеней вершин, отсортированный по убыванию.
Пусть $`N_k`$ – количество вершин графа со степенью $`k`$. Распределение частот степеней графа при этом $`(N_0, N_1, \ldots, N_t)`$ , где $`t`$ – максимальная степень вершины в графе.
Пусть $`X`$ – случайная величина, обозначающая степень вершины. Распределение степеней в графе – есть функция вероятности $`f`$ случайной величины $`X`$, обозначенная как