← 機械学習テキスト一覧

🎓 Phase 12 大規模言語モデル（ドメイン目次）

Phase 12 大規模言語モデル（LLM）目次

大規模言語モデル（LLM）は、Transformerを大規模化し、次トークン予測で膨大なテキストから学んだモデルです。この Phase は LLM 固有の仕組みを、廃れにくい原理を中心に扱います。モデル固有のスペックや最新手法は移り変わりが速いので、随所に**「要最新確認」**を置きます。

LLM のライフサイクルに沿って積み上がります。

基礎：LLMの全体像（トークン化・自己回帰生成）
作る：事前学習とスケーリング則 → ファインチューニング（SFT・LoRA/PEFT）→ アラインメント（RLHF・DPO）
使う：プロンプティングとIn-context learning・検索拡張生成（RAG）・推論の実務・ツール使用とエージェント
信頼する：評価・ハルシネーション・安全性
前提：Transformer（アーキテクチャ）・自己回帰モデル（生成の枠組み）・Actor-Criticと深層強化学習（RLHF の PPO）
統計の土台：事前学習の次トークン予測は最尤推定（最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論）統計）

トピック一覧

LLMの全体像（基礎）— トークン化・埋め込み・自己回帰生成・推論の流れ
事前学習とスケーリング則（標準）— causal LM・データと計算と規模の関係
ファインチューニング（標準）— SFT・指示チューニング・LoRA／PEFT
アラインメント（発展）— RLHF・DPO・人間の選好に合わせる
プロンプティングとIn-context learning（基礎）— few-shot・Chain-of-Thought
検索拡張生成（標準）— RAG・外部知識の接続・埋め込み検索
推論の実務（標準）— デコーディング・量子化・KVキャッシュ・コンテキスト長
ツール使用とエージェント（発展）— 関数呼び出し・エージェント（要最新確認）
評価・ハルシネーション・安全性（標準）— ベンチマーク・幻覚・ガードレール

関連ドメイン

深層学習アーキテクチャ目次（Transformer・自己注意）
生成モデル目次（自己回帰生成）
強化学習目次（RLHF＝PPO の応用）
統計サイト：最尤法・モーメント法（推定量の作り方と最尤推定量の漸近論）（次トークン予測の最尤）
機械学習テキスト全体目次