🗺️ 第2章の目次です(ローカルLLM 全体目次 へ戻る)。 ⚠️ 量子化の命名(Q4_K_M・IQ系等)はツール側で進化が速い。「要最新確認」。
第2章 ── モデル形式と量子化
ローカルで動かす鍵は「重みをどう保存し、どこまで圧縮するか」。まず重みの入れ物(safetensors と GGUF)を押さえ、次に量子化が精度をどう下げてサイズを稼ぐかを原理から理解し、代表的な方式(k-quants・GPTQ・AWQ)を比べ、最後にVRAMと品質のトレードオフを計算で詰めます。
トピック一覧
- モデル形式(safetensorsとGGUF) — 学習向けの safetensors と、ローカル推論向けの GGUF
- 量子化の仕組み(ビット数と精度) — 浮動小数点を整数に丸める/スケールとゼロ点
- 量子化方式(k-quantsとGPTQとAWQ) — スーパーブロック・importance matrix・方式の住み分け
- 量子化とVRAM・品質のトレードオフ — bpw からサイズを計算し、perplexity 悪化と釣り合わせる
この章のゴール
- safetensors と GGUF を「いつ・なぜ使い分けるか」言える
- 4bit量子化が何を捨てて何を残しているか説明できる
- 自分のVRAMから「どの量子化なら載るか」を逆算できる
隣接分野
- 量子化の数理(誤差・キャリブレーション)の原理は機械学習へ → 推論の実務
- 一般的なモデル軽量化(蒸留・枝刈り含む)は MLOps → モデル軽量化(量子化・蒸留・枝刈り)