🗺️ 第5章の目次です(ローカルLLM 全体目次 へ戻る)。 ⚠️ APIの細部・既定ポートは実装で異なる。「要最新確認」。
第5章 ── ローカルサービングとAPI
動かせたモデルをアプリから使う段です。多くのローカルエンジンが OpenAI互換API を話すので、既存ツールの接続先を差し替えるだけで繋がります。ストリーミングと並行リクエストで体感を整え、埋め込みモデルをローカルで運用し(RAGの布石)、デコーディングパラメータで出力の性格を調整します。
トピック一覧
- OpenAI互換API — base_url を差し替えるだけで既存コードがローカルに向く
- ストリーミングと並行リクエスト — 体感速度(最初の1トークン)と同時実行
- 埋め込みモデルのローカル運用 — テキストをベクトル化する(RAGの土台)
- デコーディングパラメータ — temperature/top-p等で出力の多様性を制御
この章のゴール
- OpenAI SDK の base_url をローカルに向けて呼べる
- ストリーミングと並行数の意味を説明できる
- 埋め込みAPIで文をベクトル化できる
- temperature と top-p の効きを使い分けられる
隣接分野
- 本番のオンライン推論サービング設計は MLOps → オンライン推論サービング
- デコーディングの原理は機械学習 → 推論の実務