Mímisbrunnr知恵の泉

← ネットワーク科学 一覧

🎓 レベル:標準 | 重要度:A(必須)

📎 前提:距離・直径・平均路長スケールフリー(Barabási–Albert) | 関連:スモールワールド(Watts–Strogatz)

要点(BLUF)

概念:分野を超えた普遍性

ネットワーク科学の面白さは、まったく異なる対象 — 人間関係、論文引用、空港路線、神経回路 — が、驚くほど似た統計的特徴を共有することです。これらは偶然ではなく、成長や効率といった共通の生成原理(第4章)の帰結。だからこそ、ひとつの分析道具がドメインを横断して通用します。ここでは代表的な実ネットワークの「指紋」を、これまでの指標で読み解きます。

代表的な実ネットワークと特徴

ネットワークノードエッジ際立つ特徴
ソーシャル(友人・SNS)関係高クラスタ・正の同類選好・コミュニティ
引用・WWW論文・ページ引用・リンク(有向)べき則・ハブ(被引用数)・PageRank
交通(空港・道路)拠点路線ハブ空港・地理的制約・コアペリフェリ
生体(タンパク質・神経)分子・細胞相互作用機能モジュール・disassortative

これらに共通するのが、ER(Erdős–Rényiランダムグラフ)には無い3つの性質です。

  1. 短い平均路長距離・直径・平均路長):巨大でも数ホップ。
  2. 高いクラスタ係数クラスタ係数と推移性):友達の友達は友達。
  3. 裾の重い次数分布次数中心性と次数分布):少数の巨大ハブ。

コードで確認

import networkx as nx

def lcc_path_length(G):
    if nx.is_connected(G):
        return nx.average_shortest_path_length(G)
    gcc = max(nx.connected_components(G), key=len)   # 最大連結成分で計算
    return nx.average_shortest_path_length(G.subgraph(gcc))

for name, G in [("空手クラブ(実データ)", nx.karate_club_graph()),
                ("ER(同規模ランダム)", nx.erdos_renyi_graph(34, 0.14, seed=1)),
                ("BA(同規模ハブ型)",   nx.barabasi_albert_graph(34, 2, seed=1))]:
    k = 2*G.number_of_edges() / G.number_of_nodes()
    print(f"{name}: <k>={k:.2f}, 平均路長={lcc_path_length(G):.2f}, "
          f"クラスタ係数={nx.average_clustering(G):.3f}")

実行結果:

空手クラブ(実データ): <k>=4.59, 平均路長=2.41, クラスタ係数=0.571
ER(同規模ランダム): <k>=4.47, 平均路長=2.45, クラスタ係数=0.163
BA(同規模ハブ型): <k>=3.76, 平均路長=2.45, クラスタ係数=0.272

3つとも平均路長は約2.4と短い(スモールワールド性は ER でも満たす)。決定的な差はクラスタ係数:実データの空手クラブは0.571と高いのに、同規模の ER はわずか0.163。実ネットワークは「短距離」だけでなく「高クラスタ」を併せ持ち、これは ER では再現できません。BA はハブを持つが三角形が少なく、クラスタ係数は中間。実ネットワークを説明するには、単一モデルでは不十分だと分かります。

分析の流れ

graph TD
    Data["実ネットワークデータ"] --> Basic["基本量: n, m, <k>, 次数分布"]
    Basic --> Meso["メソ構造: コミュニティ・コアペリフェリ"]
    Meso --> Central["中心性: 誰が重要か"]
    Central --> Compare["ヌルモデルと比較<br/>(ER/BA/configuration)"]
    Compare --> Interpret["ドメイン知識で解釈"]

数式の直観的意味

実ネットワークの普遍的特徴は、それぞれ生成原理に対応します。短い平均路長はランダムなショートカット(スモールワールド(Watts–Strogatz))、高クラスタは局所的な三角形閉合(知人を紹介し合う)、べき則は成長+優先的選択(スケールフリー(Barabási–Albert))。実データを解析するときの定石は、観測値をヌルモデルconfigurationモデル・次数保存ヌルモデル)と比べること。「クラスタ係数が0.57」だけでは意味が薄く、「同次数のランダムグラフの0.16より3倍以上高い」と言って初めて、構造の有意性が主張できます。普遍性があるからこそ、モデルとの差分でドメイン固有の発見が際立ちます。

⚠️ よくある誤解・落とし穴

対応シミュレーション

本文のコードがそのまま検証用です。比較に使うモデルは第4章(Erdős–Rényiランダムグラフスケールフリー(Barabási–Albert))。

関連