Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🗺️ 第3章の目次です（ローカルLLM 全体目次へ戻る）。 ⚠️ エンジンのコマンド名・対応状況は更新が速い。「要最新確認」。

第3章 ── 推論エンジン

重みを実際に計算するのが推論エンジンです。何で動かすかで速度・対応ハード・手軽さが決まります。基盤の llama.cpp、その上の体験層 Ollama、サーバ向けの vLLM/TGI を押さえ、最後に「自分のハードと用途でどれを選ぶか」を整理します。

トピック一覧

llama.cpp — GGUFをCPU/GPU混在で動かす基盤エンジン。GPUオフロードの要
Ollama — pull/run とModelfileで最短に動かす体験層
vLLMとTGI — 連続バッチングとPagedAttentionで同時多人数を捌く
推論エンジンの使い分け — 単機/同時数/ハードで選ぶ意思決定表

この章のゴール

llama.cpp の GPUオフロード（-ngl）の意味を説明できる
Ollama で任意モデルを動かし、APIとして叩ける
「単機の対話」と「同時多人数の本番」でエンジンを選び分けられる

隣接分野

クラウド規模・本番のオンライン推論サービングは MLOps → オンライン推論サービング
スループット最適化の一般論は MLOps → レイテンシとスループットのトレードオフ