🎓 第5章:推論の最適化
第5章 推論の最適化
サービングが動いたら、次は「速く・安く・たくさん」捌く段階です。この章は本番推論の遅延・スループット・コストを詰めます。バッチングで単価を下げるレイテンシ/スループットの設計、量子化・蒸留・枝刈りでモデルそのものを軽くする手法、GPU やオートスケールで性能とコストを釣り合わせるスケーリング——「動く」を「実用的に回る」へ引き上げます。深層学習の軽量化アルゴリズムの理論は機械学習分野へ wikilink します。
トピック一覧
- レイテンシとスループットのトレードオフ — 標準
- モデル軽量化(量子化・蒸留・枝刈り) — 発展
- ハードウェアとスケーリング — 標準
この章の要点
- レイテンシ vs スループット:バッチングは単価(スループット)を下げるが個々の遅延を増やす。要件で釣り合いを取る。
- モデル軽量化:量子化(精度を落として小型化)・蒸留(小モデルに知識移転)・枝刈り(不要な重みを削除)で、サイズ・遅延・コストを下げる。
- ハードウェアとスケーリング:CPU/GPU の使い分け、水平スケール、オートスケールでコストと性能を最適化する。
関連章
- 第4章 デプロイとサービング — 最適化の対象
- 第7章 LLM・生成AIの運用基盤 — LLMの推論サービングと最適化基盤(LLM特化の最適化)
- 機械学習:深層学習の軽量化理論