🎓 レベル:基礎 | 重要度:A(必須) 📎 前提:なし(ここが入口) | 原理:LLMの全体像(機械学習)
要点(結論先出し)
- ローカルLLM = 学習済みの「重み」を自前のハード(GPU/CPU/Apple Silicon)に置いて推論すること。プロンプトも応答も外部に送らない。
- 動機は4つ:プライバシー(データが手元から出ない)・コスト(従量課金が消える)・オフライン(ネット不要)・制御(モデル固定・改造・検閲なし)。
- 裏返しのトレードオフは初期構築の手間と最先端フラッグシップとの性能差。用途次第で割に合うかが決まる。
概念 ── クラウドAPIとの違いはデータの居場所
クラウドのLLM API(要最新確認)は、あなたのプロンプトを相手のサーバに送り、向こうのGPUで推論し、結果を返します。便利ですが、データは外に出て、課金はトークン従量、ネットが切れれば止まります。
ローカルLLMは逆で、モデルの重み(数GB〜数十GBのファイル)を一度ダウンロードして手元に置き、推論エンジンが自分のハードで計算します。一度落とせば、その後の推論は電気代だけ。データは1バイトも外に出ません。
仕組み ── 重みを落として、エンジンで走らせる
flowchart LR HF["配布元(Hugging Face等)"] --> W["重みファイル(GGUF等)"] W --> ENG["推論エンジン(Ollama・llama.cpp)"] ENG --> OUT["手元で生成(外に出ない)"] USER["あなたのプロンプト"] --> ENG
重みは第2章の量子化で圧縮し、第3章の推論エンジンで実行します。この1章ではまず「外に出さずに自分で計算する」という骨格だけ掴めば十分です。
コストはどこで逆転するか(計算例)
従量課金は使うほど増え、ローカルは初期投資(ハード)+電気代で頭打ちになります。月間トークン量が一定量を超えると総額が逆転します。具体的な分岐点の試算は対応labで。print に上付き文字を入れないなどcp932配慮済みのスクリプトです。
運用の勘所
- まず小さいモデルで体験して、必要なら大きくする。最初から最大モデルを狙わない。
- 機密データ・社内文書・個人情報を扱うなら、ローカルは「速いから」ではなく「出せないから」選ぶ。
- 24時間動かす常駐用途ほどローカルの従量課金ゼロが効く。単発・低頻度ならAPIが楽なことも多い。
なぜそうするか
LLMの価値は「どこで計算するか」と独立です。計算する場所を自分の管理下に移すだけで、規制・コンプライアンス・オフライン・コスト上限という制約を同時に外せる。だからこそ「動かす技術」が独立した分野として成立します。
⚠️ よくある落とし穴
- 最新フラッグシップと同等を期待する:オープンウェイトは強力だが、最上位クローズドモデルとは差がある(要最新確認)。用途を「十分動くか」で評価する。
- GPUを買えば即動くと思う:VRAMが足りないとそもそも載らない。第4章のサイジングが必須。
- ローカル=安全と短絡する:重みの出所・ライセンス・プロンプトインジェクションは別問題。オープンウェイトモデルとライセンス を必ず確認。
対応lab
local-llm-study/labs/vram_sizing.py… ハード所要の感覚をVRAM計算でつかむ(コスト逆転の試算もここに集約)
関連
- 次は地図を描く → ローカルLLMのエコシステム地図
- 重みの入手とライセンス → オープンウェイトモデルとライセンス
- どれだけハードが要るか → VRAM所要の見積もり
- クラウド規模での配信・監視は別分野 → MLOps オンライン推論サービング