微調整の選択肢（フル・LoRA・QLoRA）

🎓 レベル：標準　|　重要度：A（必須） 📎 前提：量子化の仕組み（ビット数と精度）　|　原理：ファインチューニング（機械学習）

要点（結論先出し）

微調整は3択：フル微調整（全パラメータ更新・重い）、LoRA（小さな低ランクアダプタだけ学習）、QLoRA（ベースを4bit凍結してLoRAを学習・最軽量）。
ローカルの主役は QLoRA。8B級を12GB前後のGPU、7B級を8GBで微調整できる例も（要最新確認）。
学習されるのは**アダプタ（数十MB級）**だけ。ベース重みは凍結なので、ストレージも軽い。

フル微調整：全重みを更新。最高の自由度だが、学習にはモデルサイズの数倍のVRAM（勾配・オプティマイザ状態）。ローカルでは大型は非現実的。
LoRA：ベースを凍結し、各層に**低ランクの小行列（アダプタ）**を足してそこだけ学習。更新対象が激減し、VRAMと時間が大幅減。原理は機械学習へ → ファインチューニング。
QLoRA：さらにベースを4bit量子化したまま凍結し、その上でLoRAを学習。メモリ最小で、家庭用GPUでの微調整を可能にした立役者（要最新確認）。

flowchart LR
  BASE["ベース重み（4bitで凍結）"] --> FWD["順伝播"]
  ADAPT["LoRAアダプタ（学習対象・低ランク）"] --> FWD
  FWD --> LOSS["損失"]
  LOSS --> UPD["アダプタのみ更新（ベースは固定）"]

ベースは4bitで置いたまま勾配を通し、追加した小さなアダプタだけを更新します。だから必要メモリが劇的に小さい。

数値は構成依存。自分のデータ長・バッチsizeで変わるので要最新確認。

フル微調整は「全部を作り直す」ため重い。多くの用途ではスタイルや特定ドメインへの適応が目的で、それは小さなアダプタで十分。QLoRAは「ベースは凍結・追加分だけ学ぶ」ことで、ローカルの限られたVRAMでも微調整を成立させます。