Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:基礎 | 重要度:A(必須) 📎 前提:なし(ここが入口) | 原理:LLMの全体像(機械学習)

要点(結論先出し)

概念 ── クラウドAPIとの違いはデータの居場所

クラウドのLLM API(要最新確認)は、あなたのプロンプトを相手のサーバに送り、向こうのGPUで推論し、結果を返します。便利ですが、データは外に出て、課金はトークン従量、ネットが切れれば止まります。

ローカルLLMは逆で、モデルの重み(数GB〜数十GBのファイル)を一度ダウンロードして手元に置き、推論エンジンが自分のハードで計算します。一度落とせば、その後の推論は電気代だけ。データは1バイトも外に出ません。

仕組み ── 重みを落として、エンジンで走らせる

flowchart LR
  HF["配布元(Hugging Face等)"] --> W["重みファイル(GGUF等)"]
  W --> ENG["推論エンジン(Ollama・llama.cpp)"]
  ENG --> OUT["手元で生成(外に出ない)"]
  USER["あなたのプロンプト"] --> ENG

重みは第2章の量子化で圧縮し、第3章の推論エンジンで実行します。この1章ではまず「外に出さずに自分で計算する」という骨格だけ掴めば十分です。

コストはどこで逆転するか(計算例)

従量課金は使うほど増え、ローカルは初期投資(ハード)+電気代で頭打ちになります。月間トークン量が一定量を超えると総額が逆転します。具体的な分岐点の試算は対応labで。print に上付き文字を入れないなどcp932配慮済みのスクリプトです。

運用の勘所

なぜそうするか

LLMの価値は「どこで計算するか」と独立です。計算する場所を自分の管理下に移すだけで、規制・コンプライアンス・オフライン・コスト上限という制約を同時に外せる。だからこそ「動かす技術」が独立した分野として成立します。

⚠️ よくある落とし穴

対応lab

関連