🗺️ 第4章の目次です(ローカルLLM 全体目次 へ戻る)。 ⚠️ GPU/メモリ帯域の世代・価格は更新が速い。原理(式)に寄せ、製品は「要最新確認」。
第4章 ── ハードウェアとサイジング
「載るか、載らないか」を計算で決める章です。VRAM所要を 重み + KVキャッシュ + オーバーヘッド で見積もり、デバイス別(GPU/CPU/Apple Silicon)の特性を押さえ、コンテキスト長がメモリを食う仕組みを理解し、最後にオフロードと量子化で「足りないVRAMに収める」実務をまとめます。
トピック一覧
- VRAM所要の見積もり — パラメータ数 x bpw + KV + オーバーヘッドの足し算
- GPU・CPU・Apple Silicon — VRAM/帯域/統合メモリのデバイス別の勘所
- コンテキスト長とKVキャッシュ — 文脈を伸ばすほど線形に増えるメモリ
- オフロードと量子化でメモリに収める — 層分割とビット削減で限界を押し広げる
この章のゴール
- 自分のVRAMから「どのモデル・量子化・コンテキスト長なら載るか」を逆算できる
- KVキャッシュがなぜ長文で重みを超えるのか説明できる
- GPUを買い替える前にオフロード/量子化で粘れる
隣接分野
- ハードウェアとスケーリングの一般論は MLOps → ハードウェアとスケーリング
- 推論の実務(バッチ・スループット原理)は機械学習 → 推論の実務