Mímisbrunnr知恵の泉

← ローカルLLM 一覧

🎓 レベル:標準 | 重要度:A(必須) 📎 前提:VRAM所要の見積もり | 原理:推論の実務(機械学習)

要点(結論先出し)

概念 ── 推論はメモリ帯域律速

LLMの1トークン生成ではモデルの重みをほぼ全部読み出す必要があります。だから速度の上限は概ね メモリ帯域 / 重みサイズ。計算力(FLOPS)より帯域が効くのがLLM推論の特徴です(要最新確認)。

仕組み ── デバイス別の置き場所

flowchart TD
  W["モデルの重み"] --> D{"どこに載せるか"}
  D -->|"GPU VRAM"| FAST["高帯域=速い(容量が壁)"]
  D -->|"システムRAM+CPU"| SLOW["大容量=遅い(帯域が細い)"]
  D -->|"統合メモリ(Apple Silicon)"| UNI["大容量かつ比較的高帯域"]

デバイス別の勘所(要最新確認)

運用の勘所

なぜそうするか

「容量が足りれば速い」と思うと、CPUに巨大モデルを載せて遅さに驚きます。速度は帯域、容量は載るか否か——2つを分けて考えると、デバイス選定もオフロード判断も一貫します。Apple Silicon が注目されるのは、この2つを統合メモリで両取りしやすいからです(要最新確認)。

⚠️ よくある落とし穴

対応lab

関連