Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:発展 | 重要度:B(推奨) 📎 前提:量子化の仕組み(ビット数と精度) | 原理:推論の実務(機械学習)

要点(結論先出し)

概念 ── 「どう賢く丸めるか」が方式の違い

ビット数(4bitなど)が同じでも、どの値にビットを多く割くかで品質が変わります。各方式はその配分戦略が違います。

仕組み ── 較正データの有無で二分する

flowchart TD
  M["FP16の重み"] --> A{"較正データを使うか"}
  A -->|"使わない"| KQ["k-quants(ブロック統計のみ)"]
  A -->|"使う"| CAL["imatrix・GPTQ・AWQ(重要度を測る)"]
  KQ --> GG["GGUF(CPU混在で実行)"]
  CAL --> G2["GGUF-IQ または GPU形式"]

較正データを使う方式ほど「どの重みが大事か」を考慮でき、低ビットでの品質が上がりやすい。一方で量子化の手間は増えます。

住み分け(実務の指針・要最新確認)

なぜそうするか

同じ4bitでも「賢い配分」をするほど、サイズはそのままで品質が上がる。逆に言えば、ビット数だけで品質を語るのは不十分。実行環境(CPU混在 or GPU専有)と必要品質で方式を選ぶのが正解です。

⚠️ よくある落とし穴

対応lab

関連