🗺️ 第5章の目次です（ローカルLLM 全体目次へ戻る）。 ⚠️ APIの細部・既定ポートは実装で異なる。「要最新確認」。

第5章 ── ローカルサービングとAPI

動かせたモデルをアプリから使う段です。多くのローカルエンジンが OpenAI互換API を話すので、既存ツールの接続先を差し替えるだけで繋がります。ストリーミングと並行リクエストで体感を整え、埋め込みモデルをローカルで運用し（RAGの布石）、デコーディングパラメータで出力の性格を調整します。

トピック一覧

OpenAI互換API — base_url を差し替えるだけで既存コードがローカルに向く
ストリーミングと並行リクエスト — 体感速度（最初の1トークン）と同時実行
埋め込みモデルのローカル運用 — テキストをベクトル化する（RAGの土台）
デコーディングパラメータ — temperature/top-p等で出力の多様性を制御

この章のゴール

OpenAI SDK の base_url をローカルに向けて呼べる
ストリーミングと並行数の意味を説明できる
埋め込みAPIで文をベクトル化できる
temperature と top-p の効きを使い分けられる

隣接分野

本番のオンライン推論サービング設計は MLOps → オンライン推論サービング
デコーディングの原理は機械学習 → 推論の実務