Mímisbrunnr知恵の泉

← MLOps 一覧

🎓 第5章:推論の最適化

第5章 推論の最適化

サービングが動いたら、次は「速く・安く・たくさん」捌く段階です。この章は本番推論の遅延・スループット・コストを詰めます。バッチングで単価を下げるレイテンシ/スループットの設計、量子化・蒸留・枝刈りでモデルそのものを軽くする手法、GPU やオートスケールで性能とコストを釣り合わせるスケーリング——「動く」を「実用的に回る」へ引き上げます。深層学習の軽量化アルゴリズムの理論は機械学習分野へ wikilink します。

トピック一覧

  1. レイテンシとスループットのトレードオフ — 標準
  2. モデル軽量化(量子化・蒸留・枝刈り) — 発展
  3. ハードウェアとスケーリング — 標準

この章の要点

関連章

上位ハブ