🎓 レベル:標準 | 重要度:A(必須)
📎 前提:距離・直径・平均路長・スケールフリー(Barabási–Albert) | 関連:スモールワールド(Watts–Strogatz)
要点(BLUF)
- 分野が違っても、多くの実ネットワークは共通の統計的特徴を持つ:短い平均路長・高いクラスタ係数・裾の重い次数分布。
- これらはランダムグラフ(ER)では再現できず、スモールワールド+スケールフリーのモデルで説明される。
- 「ネットワーク科学」が独立分野たりうるのは、この普遍性ゆえ。同じ道具がソーシャルも引用も交通も解ける。
概念:分野を超えた普遍性
ネットワーク科学の面白さは、まったく異なる対象 — 人間関係、論文引用、空港路線、神経回路 — が、驚くほど似た統計的特徴を共有することです。これらは偶然ではなく、成長や効率といった共通の生成原理(第4章)の帰結。だからこそ、ひとつの分析道具がドメインを横断して通用します。ここでは代表的な実ネットワークの「指紋」を、これまでの指標で読み解きます。
代表的な実ネットワークと特徴
| ネットワーク | ノード | エッジ | 際立つ特徴 |
|---|---|---|---|
| ソーシャル(友人・SNS) | 人 | 関係 | 高クラスタ・正の同類選好・コミュニティ |
| 引用・WWW | 論文・ページ | 引用・リンク(有向) | べき則・ハブ(被引用数)・PageRank |
| 交通(空港・道路) | 拠点 | 路線 | ハブ空港・地理的制約・コアペリフェリ |
| 生体(タンパク質・神経) | 分子・細胞 | 相互作用 | 機能モジュール・disassortative |
これらに共通するのが、ER(Erdős–Rényiランダムグラフ)には無い3つの性質です。
- 短い平均路長(距離・直径・平均路長):巨大でも数ホップ。
- 高いクラスタ係数(クラスタ係数と推移性):友達の友達は友達。
- 裾の重い次数分布(次数中心性と次数分布):少数の巨大ハブ。
コードで確認
import networkx as nx
def lcc_path_length(G):
if nx.is_connected(G):
return nx.average_shortest_path_length(G)
gcc = max(nx.connected_components(G), key=len) # 最大連結成分で計算
return nx.average_shortest_path_length(G.subgraph(gcc))
for name, G in [("空手クラブ(実データ)", nx.karate_club_graph()),
("ER(同規模ランダム)", nx.erdos_renyi_graph(34, 0.14, seed=1)),
("BA(同規模ハブ型)", nx.barabasi_albert_graph(34, 2, seed=1))]:
k = 2*G.number_of_edges() / G.number_of_nodes()
print(f"{name}: <k>={k:.2f}, 平均路長={lcc_path_length(G):.2f}, "
f"クラスタ係数={nx.average_clustering(G):.3f}")
実行結果:
空手クラブ(実データ): <k>=4.59, 平均路長=2.41, クラスタ係数=0.571
ER(同規模ランダム): <k>=4.47, 平均路長=2.45, クラスタ係数=0.163
BA(同規模ハブ型): <k>=3.76, 平均路長=2.45, クラスタ係数=0.272
3つとも平均路長は約2.4と短い(スモールワールド性は ER でも満たす)。決定的な差はクラスタ係数:実データの空手クラブは0.571と高いのに、同規模の ER はわずか0.163。実ネットワークは「短距離」だけでなく「高クラスタ」を併せ持ち、これは ER では再現できません。BA はハブを持つが三角形が少なく、クラスタ係数は中間。実ネットワークを説明するには、単一モデルでは不十分だと分かります。
分析の流れ
graph TD
Data["実ネットワークデータ"] --> Basic["基本量: n, m, <k>, 次数分布"]
Basic --> Meso["メソ構造: コミュニティ・コアペリフェリ"]
Meso --> Central["中心性: 誰が重要か"]
Central --> Compare["ヌルモデルと比較<br/>(ER/BA/configuration)"]
Compare --> Interpret["ドメイン知識で解釈"]
数式の直観的意味
実ネットワークの普遍的特徴は、それぞれ生成原理に対応します。短い平均路長はランダムなショートカット(スモールワールド(Watts–Strogatz))、高クラスタは局所的な三角形閉合(知人を紹介し合う)、べき則は成長+優先的選択(スケールフリー(Barabási–Albert))。実データを解析するときの定石は、観測値をヌルモデル(configurationモデル・次数保存ヌルモデル)と比べること。「クラスタ係数が0.57」だけでは意味が薄く、「同次数のランダムグラフの0.16より3倍以上高い」と言って初めて、構造の有意性が主張できます。普遍性があるからこそ、モデルとの差分でドメイン固有の発見が際立ちます。
⚠️ よくある誤解・落とし穴
- 「べき則に見える」は慎重に:両対数で直線っぽくても、対数正規など他分布のことがある。統計的検定が必要(スケールフリー(Barabási–Albert))。
- 生データの前処理を侮らない:多重辺・自己ループ・方向・重みの扱いで指標が変わります。
- 指標の値は必ずヌルモデルと比べる:絶対値だけでは「多い/少ない」が言えません。
対応シミュレーション
本文のコードがそのまま検証用です。比較に使うモデルは第4章(Erdős–Rényiランダムグラフ・スケールフリー(Barabási–Albert))。
関連
- 前提:距離・直径・平均路長・スケールフリー(Barabási–Albert)
- スモールワールド:スモールワールド(Watts–Strogatz)
- ヌルモデル比較:configurationモデル・次数保存ヌルモデル
- 上位ハブ:応用と実データ解析 目次