🎓 Phase 12 大規模言語モデル(ドメイン目次)
Phase 12 大規模言語モデル(LLM)目次
大規模言語モデル(LLM)は、Transformerを大規模化し、次トークン予測で膨大なテキストから学んだモデルです。この Phase は LLM 固有の仕組みを、廃れにくい原理を中心に扱います。モデル固有のスペックや最新手法は移り変わりが速いので、随所に**「要最新確認」**を置きます。
LLM のライフサイクルに沿って積み上がります。
-
基礎:LLMの全体像(トークン化・自己回帰生成)
-
作る:事前学習とスケーリング則 → ファインチューニング(SFT・LoRA/PEFT)→ アラインメント(RLHF・DPO)
-
使う:プロンプティングとIn-context learning・検索拡張生成(RAG)・推論の実務・ツール使用とエージェント
-
信頼する:評価・ハルシネーション・安全性
-
前提:Transformer(アーキテクチャ)・自己回帰モデル(生成の枠組み)・Actor-Criticと深層強化学習(RLHF の PPO)
-
統計の土台:事前学習の次トークン予測は最尤推定(最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論) 統計)
トピック一覧
- LLMの全体像(基礎)— トークン化・埋め込み・自己回帰生成・推論の流れ
- 事前学習とスケーリング則(標準)— causal LM・データと計算と規模の関係
- ファインチューニング(標準)— SFT・指示チューニング・LoRA/PEFT
- アラインメント(発展)— RLHF・DPO・人間の選好に合わせる
- プロンプティングとIn-context learning(基礎)— few-shot・Chain-of-Thought
- 検索拡張生成(標準)— RAG・外部知識の接続・埋め込み検索
- 推論の実務(標準)— デコーディング・量子化・KVキャッシュ・コンテキスト長
- ツール使用とエージェント(発展)— 関数呼び出し・エージェント(要最新確認)
- 評価・ハルシネーション・安全性(標準)— ベンチマーク・幻覚・ガードレール
関連ドメイン
- 深層学習アーキテクチャ 目次(Transformer・自己注意)
- 生成モデル 目次(自己回帰生成)
- 強化学習 目次(RLHF=PPO の応用)
- 統計サイト:最尤法・モーメント法(推定量の作り方と最尤推定量の漸近論)(次トークン予測の最尤)
- 機械学習テキスト 全体目次