なぜローカルでLLMを動かすか

🎓 レベル：基礎　|　重要度：A（必須） 📎 前提：なし（ここが入口）　|　原理：LLMの全体像（機械学習）

要点（結論先出し）

ローカルLLM = 学習済みの「重み」を自前のハード（GPU/CPU/Apple Silicon）に置いて推論すること。プロンプトも応答も外部に送らない。
動機は4つ：プライバシー（データが手元から出ない）・コスト（従量課金が消える）・オフライン（ネット不要）・制御（モデル固定・改造・検閲なし）。
裏返しのトレードオフは初期構築の手間と最先端フラッグシップとの性能差。用途次第で割に合うかが決まる。

概念 ── クラウドAPIとの違いはデータの居場所

クラウドのLLM API（要最新確認）は、あなたのプロンプトを相手のサーバに送り、向こうのGPUで推論し、結果を返します。便利ですが、データは外に出て、課金はトークン従量、ネットが切れれば止まります。

ローカルLLMは逆で、モデルの重み（数GB〜数十GBのファイル）を一度ダウンロードして手元に置き、推論エンジンが自分のハードで計算します。一度落とせば、その後の推論は電気代だけ。データは1バイトも外に出ません。

仕組み ── 重みを落として、エンジンで走らせる

flowchart LR
  HF["配布元（Hugging Face等）"] --> W["重みファイル（GGUF等）"]
  W --> ENG["推論エンジン（Ollama・llama.cpp）"]
  ENG --> OUT["手元で生成（外に出ない）"]
  USER["あなたのプロンプト"] --> ENG

重みは第2章の量子化で圧縮し、第3章の推論エンジンで実行します。この1章ではまず「外に出さずに自分で計算する」という骨格だけ掴めば十分です。

コストはどこで逆転するか（計算例）

従量課金は使うほど増え、ローカルは初期投資（ハード）＋電気代で頭打ちになります。月間トークン量が一定量を超えると総額が逆転します。具体的な分岐点の試算は対応labで。print に上付き文字を入れないなどcp932配慮済みのスクリプトです。

運用の勘所

まず小さいモデルで体験して、必要なら大きくする。最初から最大モデルを狙わない。
機密データ・社内文書・個人情報を扱うなら、ローカルは「速いから」ではなく「出せないから」選ぶ。
24時間動かす常駐用途ほどローカルの従量課金ゼロが効く。単発・低頻度ならAPIが楽なことも多い。

なぜそうするか

LLMの価値は「どこで計算するか」と独立です。計算する場所を自分の管理下に移すだけで、規制・コンプライアンス・オフライン・コスト上限という制約を同時に外せる。だからこそ「動かす技術」が独立した分野として成立します。

⚠️ よくある落とし穴

最新フラッグシップと同等を期待する：オープンウェイトは強力だが、最上位クローズドモデルとは差がある（要最新確認）。用途を「十分動くか」で評価する。
GPUを買えば即動くと思う：VRAMが足りないとそもそも載らない。第4章のサイジングが必須。
ローカル＝安全と短絡する：重みの出所・ライセンス・プロンプトインジェクションは別問題。オープンウェイトモデルとライセンスを必ず確認。

対応lab

local-llm-study/labs/vram_sizing.py … ハード所要の感覚をVRAM計算でつかむ（コスト逆転の試算もここに集約）