平均クラスタ係数
隣接行列
隣接行列の要素は、番目のノードと番目のノードが隣接している場合、、そうでない場合にはを取る行列である。
無向グラフの場合、枝を区別しないので、隣接行列は対称行列となる。
- ネットワークの性質を解析的に議論する際には、隣接行列が有用である。
- 一方、数値的に解析する場合には、隣接していないノード対を表すゼロの数の割合が非常に高いため、現実のグラフを表現した際に、行列の成分全体の1%ほどしか非ゼロ成分が存在しない場合がある。このような非ゼロ成分の少ない行列を扱うために計算機のメモリを無駄にに消費してしまう。この場合は、行列のデータ構造を工夫するなどして効率よく計算していく必要がある。
ノードの次数
番目のノードに繋がっているエッジの本数をノードの次数といい、で表す。次数は隣接行列の要素を用いて
と表すことができる。例えば、単純グラフの場合はノード に隣接するノード数と次数が一致する。
- 次数は、ネットワークが持つ情報を全て含む隣接行列をトレースアウトして得られる特徴量のなかで最も単純な量である。
- ネットワーク構造を議論する際には、極めて重要となる基本的な量である。
代表的なグラフの次数に関する性質
- 全ノードの次数がであるネットワークは完全グラフである。
- 全ての次数がであるネットワークが正則グラフである。
握手の定理とは、グラフのノード全体の次数と枝の本数に関する関係式である。
この等式は、多重エッジや自己ループを含むようなグラフに対しても成立する。握手の定理から次の補題が従う。
[補題] 任意のネットワークにおいて奇数次数のノードは偶数個ある。
証明:
をそれぞれ次数が奇数, 偶数であるノードの集合とする。 であるから、握手の定理より
左辺に注目すると、Mが整数であることから2Mは偶数である。一方、右辺に着目すると第二項は次数が偶数のノードの次数の和であるから、偶数である。よって上記の等式が成り立つためには、第一項が偶数である必要がある。今、第一項は次数が奇数のノードの和であるから、上記の等式が成り立つためには、総和の項数が偶数である必要がある。逆に、総和の項数が偶数であれば、上記の等式が成り立つ。
よって任意のネットワークにおいて、奇数次数のノードは偶数個あることがわかる。
グラフの平均次数
次数を全ノードで平均した平均次数は、ネットワーク全体の大域的性質を表す量の1つである。全ノードの次数の平均値が平均次数なので
と表される。後半の式変更には握手の定理を用いた。
- 全ての無向グラフにおいてであり、等号成立条件は完全グラフの場合に限る。
- がNと同程度の大きさであるようなグラフは、エッジの密度が高い。
- 逆に平均次数がNから小さいグラフはエッジの密度の低い疎なグラフであると言える。
- 平均次数はグラフのエッジの「密度」を反映した量であると言える。
エッジ密度とクラスター係数
グラフ内のノードがどれほど密に繋がっているかは、グラフを特徴づける重要な要素である。
同じ個のノードからなるネットワークでも、完全グラフと木とでは、エッジの密度に大きな違いがある。当然、完全グラフが最もエッジの密度が高く、逆に孤立したノード集合からなるグラフが最もエッジの密度が低い。このように今考えているグラフの枝の本数と、のノードから生成される完全グラフの枝数に対する割合でグラフのエッジ密度を定義する。は
と表される。上記のエッジ密度の定義は、グラフ全体に対して定義されているが、同様にグラフの部分グラフに対しても同様に定義し、それを局所的エッジ密度と呼ぶこととする。
あるノードの近傍部分グラフを考える。ここで、近傍部分グラフとはノードからホップで辿れるノードとエッジに関する部分グラフである。近傍部分グラフのノード数と枝数をそれぞれとすると、近接部分グラフの局所的エッジ密度は
と表される。この指標により、近接部分グラフがクリークであればそのエッジ密度が1であるので、近接部分グラフのクリーク性の程度を表しているものと考えられる。
局所的エッジ密度として、特に重要なのは、最も局所性の高いにおけるである。近接部分グラフについて、ノード数とエッジ数はそれぞれとなる。ただし、は、ノードの隣接ノード間を結ぶエッジの数である。について、ノードの近接部分グラフがクリークであるとき、からノードが接続している本のエッジを取り除いた部分グラフもクリークとなる。よって、ノードの周りのエッジの密度をの枝数と点数を用いて次のように定義する。
をノードのクラスター係数と呼ぶ。クラスター係数はネットワーク科学において重要な役割を果たす。定義より、はノードを頂点とする三角形の個数と一致するので、クラスタ係数はノードを頂点とする三角形の割合とも捉えることができる。
各ノードのクラスタ係数の平均値を平均クラスタ係数といい、と表す。
となる場合は、完全グラフの場合のみに限る。
- クラスター係数は三角形(3次のサイクル)の数の割合である。
- エッジ密度がに近い場合でも平均クラスタ係数がに近い値を取ることがある。
- クラスター係数は無向グラフに対する特徴量であり、有向グラフには定義されない。
- 上記のクラスタ係数は3次のサイクルの割合と定義されていたが、4次のバージョンも存在し、サイクル係数と呼ばれる。
※近接部分グラフの密度だけでは不十分なのか?