実ネットワークの解析事例｜ネットワーク科学

🎓 レベル：標準　|　重要度：A（必須）

📎 前提：距離・直径・平均路長・スケールフリー（Barabási–Albert）　|　関連：スモールワールド（Watts–Strogatz）

要点（BLUF）

分野が違っても、多くの実ネットワークは共通の統計的特徴を持つ：短い平均路長・高いクラスタ係数・裾の重い次数分布。
これらはランダムグラフ（ER）では再現できず、スモールワールド＋スケールフリーのモデルで説明される。
「ネットワーク科学」が独立分野たりうるのは、この普遍性ゆえ。同じ道具がソーシャルも引用も交通も解ける。

概念：分野を超えた普遍性

ネットワーク科学の面白さは、まったく異なる対象 — 人間関係、論文引用、空港路線、神経回路 — が、驚くほど似た統計的特徴を共有することです。これらは偶然ではなく、成長や効率といった共通の生成原理（第4章）の帰結。だからこそ、ひとつの分析道具がドメインを横断して通用します。ここでは代表的な実ネットワークの「指紋」を、これまでの指標で読み解きます。

代表的な実ネットワークと特徴

ネットワーク	ノード	エッジ	際立つ特徴
ソーシャル（友人・SNS）	人	関係	高クラスタ・正の同類選好・コミュニティ
引用・WWW	論文・ページ	引用・リンク（有向）	べき則・ハブ（被引用数）・PageRank
交通（空港・道路）	拠点	路線	ハブ空港・地理的制約・コアペリフェリ
生体（タンパク質・神経）	分子・細胞	相互作用	機能モジュール・disassortative

これらに共通するのが、ER（Erdős–Rényiランダムグラフ）には無い3つの性質です。

短い平均路長（距離・直径・平均路長）：巨大でも数ホップ。
高いクラスタ係数（クラスタ係数と推移性）：友達の友達は友達。
裾の重い次数分布（次数中心性と次数分布）：少数の巨大ハブ。

コードで確認

import networkx as nx

def lcc_path_length(G):
    if nx.is_connected(G):
        return nx.average_shortest_path_length(G)
    gcc = max(nx.connected_components(G), key=len)   # 最大連結成分で計算
    return nx.average_shortest_path_length(G.subgraph(gcc))

for name, G in [("空手クラブ(実データ)", nx.karate_club_graph()),
                ("ER(同規模ランダム)", nx.erdos_renyi_graph(34, 0.14, seed=1)),
                ("BA(同規模ハブ型)",   nx.barabasi_albert_graph(34, 2, seed=1))]:
    k = 2*G.number_of_edges() / G.number_of_nodes()
    print(f"{name}: <k>={k:.2f}, 平均路長={lcc_path_length(G):.2f}, "
          f"クラスタ係数={nx.average_clustering(G):.3f}")

実行結果：

空手クラブ(実データ): <k>=4.59, 平均路長=2.41, クラスタ係数=0.571
ER(同規模ランダム): <k>=4.47, 平均路長=2.45, クラスタ係数=0.163
BA(同規模ハブ型): <k>=3.76, 平均路長=2.45, クラスタ係数=0.272

3つとも平均路長は約2.4と短い（スモールワールド性は ER でも満たす）。決定的な差はクラスタ係数：実データの空手クラブは0.571と高いのに、同規模の ER はわずか0.163。実ネットワークは「短距離」だけでなく「高クラスタ」を併せ持ち、これは ER では再現できません。BA はハブを持つが三角形が少なく、クラスタ係数は中間。実ネットワークを説明するには、単一モデルでは不十分だと分かります。

分析の流れ

graph TD
    Data["実ネットワークデータ"] --> Basic["基本量: n, m, <k>, 次数分布"]
    Basic --> Meso["メソ構造: コミュニティ・コアペリフェリ"]
    Meso --> Central["中心性: 誰が重要か"]
    Central --> Compare["ヌルモデルと比較<br/>(ER/BA/configuration)"]
    Compare --> Interpret["ドメイン知識で解釈"]

数式の直観的意味

実ネットワークの普遍的特徴は、それぞれ生成原理に対応します。短い平均路長はランダムなショートカット（スモールワールド（Watts–Strogatz））、高クラスタは局所的な三角形閉合（知人を紹介し合う）、べき則は成長＋優先的選択（スケールフリー（Barabási–Albert））。実データを解析するときの定石は、観測値をヌルモデル（configurationモデル・次数保存ヌルモデル）と比べること。「クラスタ係数が0.57」だけでは意味が薄く、「同次数のランダムグラフの0.16より3倍以上高い」と言って初めて、構造の有意性が主張できます。普遍性があるからこそ、モデルとの差分でドメイン固有の発見が際立ちます。

⚠️ よくある誤解・落とし穴

「べき則に見える」は慎重に：両対数で直線っぽくても、対数正規など他分布のことがある。統計的検定が必要（スケールフリー（Barabási–Albert））。
生データの前処理を侮らない：多重辺・自己ループ・方向・重みの扱いで指標が変わります。
指標の値は必ずヌルモデルと比べる：絶対値だけでは「多い/少ない」が言えません。

対応シミュレーション

本文のコードがそのまま検証用です。比較に使うモデルは第4章（Erdős–Rényiランダムグラフ・スケールフリー（Barabási–Albert））。