🎓 第7章:LLM・生成AIの運用基盤
第7章 LLM・生成AIの運用基盤
LLM(大規模言語モデル)の運用は、これまでの ML 運用と共通点も多いですが、固有の難しさがあります——出力が確率的で評価が難しい、推論コストが高い、幻覚(ハルシネーション)や安全性のリスク、そして外部知識やツールとの連携。この章は、LLM アプリを**本番で運用する基盤(LLMOps)**を扱います。LLM の原理そのもの(Transformer・事前学習・アラインメント)は機械学習分野(LLMの全体像)へ。ここは「それを運用・実装する」基盤に集中します。
⚠️ 要最新確認:LLM の固有スペック・ツール名・ベストプラクティスは変化が非常に速い分野です。本章の具体ツール・数値は執筆時点(2026-06)のもので、実装前に最新情報を確認してください。
トピック一覧
- LLMアプリの構成(プロンプト・推論・オーケストレーション) — 標準
- RAGとベクトルデータベース — 標準
- エージェントの運用と評価 — 発展
- LLMの評価・ガードレール・コスト管理 — 標準
- LLMの推論サービングと最適化基盤 — 発展
この章の要点
- LLMアプリの構成:プロンプト・推論・オーケストレーションの3層。プロンプトも版管理・評価の対象。
- RAG:外部知識をベクトル検索で取り込み、幻覚を抑え最新情報を反映する。検索品質が全体を左右する。
- エージェント:LLM がツールを呼んで多段で動く。評価はトラジェクトリ(軌跡)全体で。
- 評価・ガードレール・コスト:LLMの評価は難しく LLM-as-judge も使う。ガードレールで危険出力を抑え、コストを監視する。
- 推論サービング基盤:KVキャッシュ・連続バッチングで、巨大モデルの推論を実用速度・コストにする。
関連章
- 第5章 推論の最適化 — モデル軽量化(量子化・蒸留・枝刈り)(量子化はLLMでも要)
- 第6章 監視と継続的学習 — LLMの出力監視・評価
- 機械学習:LLMの全体像・検索拡張生成・ツール使用とエージェント・評価・ハルシネーション・安全性(LLMの原理)