🗺️ 第3章の目次です(ローカルLLM 全体目次 へ戻る)。 ⚠️ エンジンのコマンド名・対応状況は更新が速い。「要最新確認」。
第3章 ── 推論エンジン
重みを実際に計算するのが推論エンジンです。何で動かすかで速度・対応ハード・手軽さが決まります。基盤の llama.cpp、その上の体験層 Ollama、サーバ向けの vLLM/TGI を押さえ、最後に「自分のハードと用途でどれを選ぶか」を整理します。
トピック一覧
- llama.cpp — GGUFをCPU/GPU混在で動かす基盤エンジン。GPUオフロードの要
- Ollama — pull/run とModelfileで最短に動かす体験層
- vLLMとTGI — 連続バッチングとPagedAttentionで同時多人数を捌く
- 推論エンジンの使い分け — 単機/同時数/ハードで選ぶ意思決定表
この章のゴール
- llama.cpp の GPUオフロード(
-ngl)の意味を説明できる - Ollama で任意モデルを動かし、APIとして叩ける
- 「単機の対話」と「同時多人数の本番」でエンジンを選び分けられる
隣接分野
- クラウド規模・本番のオンライン推論サービングは MLOps → オンライン推論サービング
- スループット最適化の一般論は MLOps → レイテンシとスループットのトレードオフ