Mímisbrunnr知恵の泉

local LLM // 自前ハードで動かす

ローカルLLM

ローカルLLMは、ひとことで言えば「自前ハードでLLMを動かす」実践です。クラウドAPIに頼らず、手元のPC・GPU・Apple Siliconで。量子化で重みを圧縮し、推論エンジンで走らせ、VRAMに収まるようサイジングし、必要ならローカルで微調整・RAGまで。プライバシー・コスト・オフラインを自分の手に取り戻します。

なぜ学ぶのか

  • 手元で動かせる。量子化と推論エンジンで、家庭用GPUでもLLMを走らせられます。
  • サイジングできる。VRAM所要・量子化サイズ・KVキャッシュを計算して機種を選べます。
  • プライバシーを保てる。完全オフラインのRAG・アプリを自分で組めます。

こんな場面で役立つ

  • 量子化GGUF/GPTQ/AWQでVRAMに収める
  • 実行Ollama・llama.cppで走らせる
  • 微調整LoRA/QLoRAで家庭用GPUでも
  • RAG埋め込み+ベクトルDBでオフラインRAG

ここでは、VRAM/量子化サイズ/KVキャッシュをPythonで計算実証し、実行系はOllama/llama.cppの動くコマンドで示す方針です。全体像から量子化・推論エンジン・サイジング・サービング・微調整・RAGまでを体系化しました。LLMの原理は機械学習、クラウド規模の運用はMLOpsへ相互リンク。動きが速いためツール固有は要最新確認。

カリキュラム(全7章)

目次・インデックス

第1章 ── ローカルLLMの全体像

第2章 ── モデル形式と量子化

第3章 ── 推論エンジン

第4章 ── ハードウェアとサイジング

第5章 ── ローカルサービングとAPI

第6章 ── ローカル微調整

第7章 ── ローカルRAGとアプリ