local LLM // 自前ハードで動かす

ローカルLLM

ローカルLLMは、ひとことで言えば「自前ハードでLLMを動かす」実践です。クラウドAPIに頼らず、手元のPC・GPU・Apple Siliconで。量子化で重みを圧縮し、推論エンジンで走らせ、VRAMに収まるようサイジングし、必要ならローカルで微調整・RAGまで。プライバシー・コスト・オフラインを自分の手に取り戻します。

なぜ学ぶのか

手元で動かせる。量子化と推論エンジンで、家庭用GPUでもLLMを走らせられます。
サイジングできる。VRAM所要・量子化サイズ・KVキャッシュを計算して機種を選べます。
プライバシーを保てる。完全オフラインのRAG・アプリを自分で組めます。

こんな場面で役立つ

量子化GGUF/GPTQ/AWQでVRAMに収める
実行Ollama・llama.cppで走らせる
微調整LoRA/QLoRAで家庭用GPUでも
RAG埋め込み＋ベクトルDBでオフラインRAG

ここでは、VRAM/量子化サイズ/KVキャッシュをPythonで計算実証し、実行系はOllama/llama.cppの動くコマンドで示す方針です。全体像から量子化・推論エンジン・サイジング・サービング・微調整・RAGまでを体系化しました。LLMの原理は機械学習、クラウド規模の運用はMLOpsへ相互リンク。動きが速いためツール固有は要最新確認。

カリキュラム（全7章）

目次・インデックス

ローカルLLM 全体目次

第1章 ── ローカルLLMの全体像

第2章 ── モデル形式と量子化

第3章 ── 推論エンジン

第3章推論エンジン目次標準必須
llama.cpp 標準必須
Ollama 基礎必須
vLLMとTGI 発展
推論エンジンの使い分け標準必須

ローカルLLM

なぜ学ぶのか

こんな場面で役立つ

カリキュラム（全7章）

目次・インデックス

第1章 ── ローカルLLMの全体像

第2章 ── モデル形式と量子化

第3章 ── 推論エンジン

第4章 ── ハードウェアとサイジング

第5章 ── ローカルサービングとAPI

第6章 ── ローカル微調整

第7章 ── ローカルRAGとアプリ