🗺️ 第2章の目次です（ローカルLLM 全体目次へ戻る）。 ⚠️ 量子化の命名（Q4_K_M・IQ系等）はツール側で進化が速い。「要最新確認」。

第2章 ── モデル形式と量子化

ローカルで動かす鍵は「重みをどう保存し、どこまで圧縮するか」。まず重みの入れ物（safetensors と GGUF）を押さえ、次に量子化が精度をどう下げてサイズを稼ぐかを原理から理解し、代表的な方式（k-quants・GPTQ・AWQ）を比べ、最後にVRAMと品質のトレードオフを計算で詰めます。

トピック一覧

モデル形式（safetensorsとGGUF） — 学習向けの safetensors と、ローカル推論向けの GGUF
量子化の仕組み（ビット数と精度） — 浮動小数点を整数に丸める／スケールとゼロ点
量子化方式（k-quantsとGPTQとAWQ） — スーパーブロック・importance matrix・方式の住み分け
量子化とVRAM・品質のトレードオフ — bpw からサイズを計算し、perplexity 悪化と釣り合わせる

この章のゴール

safetensors と GGUF を「いつ・なぜ使い分けるか」言える
4bit量子化が何を捨てて何を残しているか説明できる
自分のVRAMから「どの量子化なら載るか」を逆算できる

隣接分野

量子化の数理（誤差・キャリブレーション）の原理は機械学習へ → 推論の実務
一般的なモデル軽量化（蒸留・枝刈り含む）は MLOps → モデル軽量化（量子化・蒸留・枝刈り）