Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:基礎 | 重要度:A(必須) 📎 前提:なぜローカルでLLMを動かすか | 原理:LLMの全体像(機械学習)

要点(結論先出し)

概念 ── 4レイヤーの地図

flowchart TD
  M["モデル(Llama・Qwen・Gemma等の重み)"] --> F["形式(GGUF・safetensors・量子化)"]
  F --> E["エンジン(llama.cpp・MLX・vLLM)"]
  E --> U["UI/API(Ollama・LM Studio・OpenAI互換API)"]
  U --> APP["アプリ(チャット・RAG・エージェント)"]

上から「何を」「どの形で」「何で計算し」「どう触るか」。新しいツールが出ても、この4段のどこに属すかを問えば迷いません。

各レイヤーの代表(要最新確認)

仕組み ── 「体験層」は「エンジン層」を包む

重要な観察:Ollama や LM Studio は自前で推論カーネルを持つわけではなく、llama.cpp(や Apple Silicon では MLX)を内部で呼んでいることが多い(要最新確認)。だから「Ollamaが速い/遅い」の多くは下のエンジンの話。体験層=使いやすさエンジン層=速度と対応ハードと切り分けると、選定がぶれません。

運用の勘所

なぜそうするか

レイヤーで考えると、ツールの乗り換えコストが読める。形式(GGUF)が同じならエンジンを差し替えても重みは使い回せる。逆にレイヤーを混同すると「Ollamaを捨てたらモデルも作り直し」のような誤解に陥ります。

⚠️ よくある落とし穴

対応lab

関連