Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:標準 | 重要度:A(必須) 📎 前提:vLLMとTGI | 原理:推論の実務(機械学習)

要点(結論先出し)

意思決定表(要最新確認)

flowchart TD
  Q1{"同時に多人数で使うか"} -->|"いいえ・単機"| Q2{"手軽さ重視か制御重視か"}
  Q1 -->|"はい・多人数"| VLLM["vLLM・TGI(GPU専有)"]
  Q2 -->|"手軽さ"| OLL["Ollama または LM Studio"]
  Q2 -->|"制御・CPU混在"| LCPP["llama.cpp 直叩き"]
状況推奨(要最新確認)理由
とにかく動かしたいOllamapull/run が最短
GUIでモデルを探したいLM Studio量子化推奨つきブラウザ
-ngl などを細かく詰めたいllama.cpp層分割・設定を直接制御
Apple Silicon で最速MLX 系(Ollam経由含む)M系に最適化
同時多人数・本番常駐vLLM / TGI連続バッチングで高スループット

仕組み ── 2軸で位置づける

迷ったらOllamaで始めて、要求が見えてから降りる/移るのが安全。形式(GGUF)が共通なら重みは使い回せます。

運用の勘所

なぜそうするか

エンジンは目的特化で設計が分かれています。用途とハードに合わないエンジンを選ぶと、速くならないか、設定だけ増える。先に「単機か多人数か」「どのハードか」を確定すれば、選択肢はほぼ一意に絞れます。

⚠️ よくある落とし穴

対応lab

関連