🗺️ このノートは 第6章「分散処理」のハブ です。
第6章 ── 分散処理
データが1台のマシンに収まらなくなったら、多数のマシンで分けて処理します。この章では、その原点であるMapReduceの分割統治(06-01)、現代の標準エンジンSparkの基礎と遅延評価(06-02)、そして分散処理最大のボトルネックであるシャッフルとパーティショニング(06-03)を、map/reduceを再現するコードで確かめます。
ここでの主役は「実装と運用」です。分散の一貫性・合意といった理論は 分散システム へ wikilink で繋ぎます。
トピック一覧
- MapReduceの考え方 — 分割統治・map/shuffle/reduce
- Sparkの基礎 — RDD/DataFrame・遅延評価・DAG
- シャッフルとパーティショニング — データ移動・偏り(skew)・性能
この章の位置づけ
- 並列集計の発想はDWHのMPP(→ データウェアハウス)と同根
- データの置き方(パーティション)は データレイクとオブジェクトストレージ・インデックスと実行計画 と通じる
- 一貫性・合意・レプリケーションの理論は 分散システム へ