Mímisbrunnr知恵の泉

← データエンジニアリング 一覧

🗺️ このノートは 第6章「分散処理」のハブ です。

第6章 ── 分散処理

データが1台のマシンに収まらなくなったら、多数のマシンで分けて処理します。この章では、その原点であるMapReduceの分割統治(06-01)、現代の標準エンジンSparkの基礎と遅延評価(06-02)、そして分散処理最大のボトルネックであるシャッフルとパーティショニング(06-03)を、map/reduceを再現するコードで確かめます。

ここでの主役は「実装と運用」です。分散の一貫性・合意といった理論は 分散システム へ wikilink で繋ぎます。

トピック一覧

この章の位置づけ

データエンジニアリング 全体目次