🗺️ 第4章の目次です（ローカルLLM 全体目次へ戻る）。 ⚠️ GPU/メモリ帯域の世代・価格は更新が速い。原理（式）に寄せ、製品は「要最新確認」。

第4章 ── ハードウェアとサイジング

「載るか、載らないか」を計算で決める章です。VRAM所要を 重み + KVキャッシュ + オーバーヘッド で見積もり、デバイス別（GPU/CPU/Apple Silicon）の特性を押さえ、コンテキスト長がメモリを食う仕組みを理解し、最後にオフロードと量子化で「足りないVRAMに収める」実務をまとめます。

トピック一覧

VRAM所要の見積もり — パラメータ数 x bpw ＋ KV ＋オーバーヘッドの足し算
GPU・CPU・Apple Silicon — VRAM/帯域/統合メモリのデバイス別の勘所
コンテキスト長とKVキャッシュ — 文脈を伸ばすほど線形に増えるメモリ
オフロードと量子化でメモリに収める — 層分割とビット削減で限界を押し広げる

この章のゴール

自分のVRAMから「どのモデル・量子化・コンテキスト長なら載るか」を逆算できる
KVキャッシュがなぜ長文で重みを超えるのか説明できる
GPUを買い替える前にオフロード/量子化で粘れる

隣接分野

ハードウェアとスケーリングの一般論は MLOps → ハードウェアとスケーリング
推論の実務（バッチ・スループット原理）は機械学習 → 推論の実務