Теория Графов: Расчет Коэффициента Кластеризации

Я провожу некоторые исследования, и я пришел к точке, где я рассчитал коэффициент кластеризации графика.

по данным эта статья непосредственно связана с моими исследованиями:

коэффициент кластеризации C (p) равен определяется следующим образом. Предположим, что вершина v имеет kv соседи; потом в большинство (кv * (kv-1)) / 2 ребер могут существуют между ними (это происходит, когда каждый сосед v подключать все остальные соседи v). Пусть Cv обозначим долю этих допустимых края, которые действительно существуют. Определить C как среднее значение Cv над всем v

но эта статья в Википедии на эту тему говорит по-разному:

С = (количество закрытых тройни) / (число связных троек)

Мне кажется, что последнее более вычислительно дорого.

Так что на самом деле мой вопрос: они эквивалентны?

следует отметить, что документ цитируется в статье Википедии.

Спасибо за ваше время.

5 ответов


Я думаю, что они эквивалентны. Страница wiki, на которую вы ссылаетесь, дает доказательство того, что формулировка троек эквивалентна фракции возможной формулировки ребер при вычислении местные коэффициент кластеризации, т. е. вычисляется только в вершине. Оттуда кажется, что вам просто нужно показать, что

sum_v lambda(v)/tau(v) = 3 x # triangles / # connected triples

здесь lambda(v) - количество треугольников, содержащих V и tau(v) - число связанных троек, для которых v-средняя вершина, т. е. смежная к каждому из двух других краев.

Теперь каждый треугольник подсчитывается три раза в числителе LHS. Однако каждая связанная тройка подсчитывается только один раз для средней вершины на LHS, поэтому знаменатели одинаковы.


эти две формулы не одинаковы; это два разных способа вычисления глобального коэффициента кластеризации.

один из способов-усреднение коэффициентов кластеризации (C_i [1]) всех узлов (это метод, который вы цитировали из Watts и Strogatz). Однако в [2, p204] Ньюман утверждает, что этот метод менее предпочтителен, чем второй (тот, который вы получили из Википедии). Он обосновывает, указывая, как можно доминировать в значении глобальной кластеризации coeff по узлам низкой степени, благодаря знаменателю C_i [1]. Таким образом, в сети со многими узлами низких степеней вы получаете большое значение для глобального кластерного эффекта, который, по мнению Ньюмана, будет непредставительным.

однако многие сетевые исследования (или, по моему опыту, по крайней мере, многие исследования, связанные с онлайн-социальными сетями), похоже, использовали этот метод, поэтому для того, чтобы иметь возможность сравнивать свои результаты с их, вам потребуется использовать тот же метод. Кроме того, критика, поднятая Ньюманом, не влияет на степень, в которой могут быть сделаны сравнения глобальных коэффициентов кластеризации, при условии, что тот же метод использовался при их измерении.

две формулы разные, и были предложены в разные моменты времени. Тот, который вы процитировали из "Уотта и Строгаца", старше, и, возможно, поэтому его чаще используют. Ньюмен также объясняет, что две формулы далеко от эквивалента и не должен использоваться как такие. Он говорит, что они могут дать существенно разные цифры для данной сети, однако не объясняет, почему.

[1] C_i = (количество пар соседей Я которые подключены) / (количество пар соседей Я)

[2] Ньюман, М. Е. Дж.. Сети: введение. Oxford New York: Oxford University Press, 2010. Печать.

Edit:

Я включаю здесь ряд вычислений для того же ER random диаграмма. Вы можете увидеть, как эти два метода дают разные результаты, даже для ненаправленных графов. (сделано с помощью Mathematica)


Я частично не согласен с Whatang. Эти методы эквивалентны только для неориентированных графов. Однако для направленных графиков они возвращают разные результаты. На мой взгляд, метод локального коэффициента кластеризации является правильным. Не говоря уже о меньших вычислительных затратах. Например

  <-----
4 -----> 5
|<--||-->
|   ||
|-> 6  -> 7

4(IN [5,6], OUT [5,6])
5(IN [4,6], OUT [4])
6(IN [4], OUT [4,5,7])
7(IN [6], OUT [])

Центральный = 6

localCC = 2 / 4*3 = 1/6

globalCC = 1 / 3


Я бы не доверял этой статье Википедии. Первая приведенная вами формула в настоящее время определяется как средний коэффициент кластеризации, следовательно, это среднее всех локальных коэффициентов кластеризации для графа g. Это никоим образом не совпадает с глобальным коэффициентом кластеризации, как метко выразился xk_id.


есть отличная страница, чтобы узнать основы!

http://www.learner.org/courses/mathilluminated/interactives/network/

все о коэффициентах кластера, маленький мир и так далее ...