local LLM // 自前ハードで動かす
ローカルLLM
ローカルLLMは、ひとことで言えば「自前ハードでLLMを動かす」実践です。クラウドAPIに頼らず、手元のPC・GPU・Apple Siliconで。量子化で重みを圧縮し、推論エンジンで走らせ、VRAMに収まるようサイジングし、必要ならローカルで微調整・RAGまで。プライバシー・コスト・オフラインを自分の手に取り戻します。
なぜ学ぶのか
- 手元で動かせる。量子化と推論エンジンで、家庭用GPUでもLLMを走らせられます。
- サイジングできる。VRAM所要・量子化サイズ・KVキャッシュを計算して機種を選べます。
- プライバシーを保てる。完全オフラインのRAG・アプリを自分で組めます。
こんな場面で役立つ
- 量子化GGUF/GPTQ/AWQでVRAMに収める
- 実行Ollama・llama.cppで走らせる
- 微調整LoRA/QLoRAで家庭用GPUでも
- RAG埋め込み+ベクトルDBでオフラインRAG
ここでは、VRAM/量子化サイズ/KVキャッシュをPythonで計算実証し、実行系はOllama/llama.cppの動くコマンドで示す方針です。全体像から量子化・推論エンジン・サイジング・サービング・微調整・RAGまでを体系化しました。LLMの原理は機械学習、クラウド規模の運用はMLOpsへ相互リンク。動きが速いためツール固有は要最新確認。
カリキュラム(全7章)
目次・インデックス
第1章 ── ローカルLLMの全体像
- 第1章 ローカルLLMの全体像 目次 基礎 必須
- なぜローカルでLLMを動かすか 基礎 必須
- ローカルLLMのエコシステム地図 基礎 必須
- オープンウェイトモデルとライセンス 標準 必須
第2章 ── モデル形式と量子化
- 第2章 モデル形式と量子化 目次 標準 必須
- モデル形式(safetensorsとGGUF) 標準 必須
- 量子化の仕組み(ビット数と精度) 標準 必須
- 量子化方式(k-quantsとGPTQとAWQ) 発展
- 量子化とVRAM・品質のトレードオフ 標準 必須
第3章 ── 推論エンジン
- 第3章 推論エンジン 目次 標準 必須
- llama.cpp 標準 必須
- Ollama 基礎 必須
- vLLMとTGI 発展
- 推論エンジンの使い分け 標準 必須
第4章 ── ハードウェアとサイジング
- 第4章 ハードウェアとサイジング 目次 標準 必須
- VRAM所要の見積もり 標準 必須
- GPU・CPU・Apple Silicon 標準 必須
- コンテキスト長とKVキャッシュ 発展 必須
- オフロードと量子化でメモリに収める 標準 必須
第5章 ── ローカルサービングとAPI
- 第5章 ローカルサービングとAPI 目次 標準 必須
- OpenAI互換API 標準 必須
- ストリーミングと並行リクエスト 標準
- 埋め込みモデルのローカル運用 標準 必須
- デコーディングパラメータ 基礎
第6章 ── ローカル微調整
- 第6章 ローカル微調整 目次 標準
- 微調整の選択肢(フル・LoRA・QLoRA) 標準 必須
- データ準備と学習の実際 標準
- アダプタのマージとGGUF変換 発展
第7章 ── ローカルRAGとアプリ
- 第7章 ローカルRAGとアプリ 目次 標準 必須
- ローカルRAGの構成 標準 必須
- ローカルベクトルDB 標準
- オフライン・プライベートなLLMアプリ 標準 必須
- ローカルエージェントとツール使用 発展