Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:標準 | 重要度:A(必須) 📎 前提:量子化方式(k-quantsとGPTQとAWQ) | 原理:推論の実務(機械学習)

要点(結論先出し)

概念 ── 2軸で考える

両軸はトレードオフ。**「VRAMに載る範囲で、最も高いbpw」**が基本方針です。

計算例 ── サイズと合計VRAM

対応lab vram_sizing.py の出力(8Bモデル):

FP16    bpw=16.0  -> 14.90 GiB
Q8_0    bpw= 8.5  ->  7.92 GiB
Q5_K_M  bpw= 5.7  ->  5.31 GiB
Q4_K_M  bpw= 4.8  ->  4.47 GiB
Q3_K_M  bpw= 3.9  ->  3.63 GiB

合計VRAMは 重み + KVキャッシュ + オーバーヘッド。Q4_K_M・8B・8KコンテキストでKV約1.0GiB+オーバーヘッド約0.7GiBを足し、合計約6.2GiB。8GB GPUでも収まる計算です(数値は目安・要最新確認、計算根拠は VRAM所要の見積もり)。

仕組み ── 選定フロー

flowchart TD
  V["手元のVRAM容量"] --> C["重み+KV+oh が収まる最大bpwを選ぶ"]
  C --> Q{"品質は足りるか"}
  Q -->|"足りる"| OK["確定(例 Q4_K_M)"]
  Q -->|"不足"| UP["より大きいモデルの低ビットを試す"]
  UP --> C

運用の勘所

なぜそうするか

「最高品質=FP16」を全部載せるのはローカルでは非現実的。載らなければ品質ゼロです。だから「載る範囲で最大bpw」。さらに、同じVRAM予算なら容量の大きいモデルを少し強めに量子化したほうが賢いことが多い——大モデルの低ビットは小モデルの高ビットに勝りやすいからです(要最新確認)。

⚠️ よくある落とし穴

対応lab

関連