Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:標準 | 重要度:A(必須) 📎 前提:量子化の仕組み(ビット数と精度) | 原理:ファインチューニング(機械学習)

要点(結論先出し)

概念 ── どこを動かすか

仕組み ── QLoRAの構図

flowchart LR
  BASE["ベース重み(4bitで凍結)"] --> FWD["順伝播"]
  ADAPT["LoRAアダプタ(学習対象・低ランク)"] --> FWD
  FWD --> LOSS["損失"]
  LOSS --> UPD["アダプタのみ更新(ベースは固定)"]

ベースは4bitで置いたまま勾配を通し、追加した小さなアダプタだけを更新します。だから必要メモリが劇的に小さい。

必要VRAMの目安(要最新確認)

手法7〜8B級の目安備考
フル微調整数十GB以上勾配・オプティマイザ状態が重い
LoRA(16bitベース)16〜24GB級アダプタのみ学習
QLoRA(4bitベース)8〜12GB級最軽量。家庭用GPUで現実的

数値は構成依存。自分のデータ長・バッチsizeで変わるので要最新確認。

運用の勘所

なぜそうするか

フル微調整は「全部を作り直す」ため重い。多くの用途ではスタイルや特定ドメインへの適応が目的で、それは小さなアダプタで十分。QLoRAは「ベースは凍結・追加分だけ学ぶ」ことで、ローカルの限られたVRAMでも微調整を成立させます。

⚠️ よくある落とし穴

対応lab

関連