🗺️ このノートは 第6章「分散処理」のハブ です。

第6章 ── 分散処理

データが1台のマシンに収まらなくなったら、多数のマシンで分けて処理します。この章では、その原点であるMapReduceの分割統治（06-01）、現代の標準エンジンSparkの基礎と遅延評価（06-02）、そして分散処理最大のボトルネックであるシャッフルとパーティショニング（06-03）を、map/reduceを再現するコードで確かめます。

ここでの主役は「実装と運用」です。分散の一貫性・合意といった理論は分散システムへ wikilink で繋ぎます。

トピック一覧

MapReduceの考え方 — 分割統治・map/shuffle/reduce
Sparkの基礎 — RDD/DataFrame・遅延評価・DAG
シャッフルとパーティショニング — データ移動・偏り（skew）・性能

この章の位置づけ

並列集計の発想はDWHのMPP（→ データウェアハウス）と同根
データの置き方（パーティション）はデータレイクとオブジェクトストレージ・インデックスと実行計画と通じる
一貫性・合意・レプリケーションの理論は分散システムへ

← データエンジニアリング全体目次