デコーディングパラメータ

🎓 レベル：基礎　|　重要度：B（推奨） 📎 前提：OpenAI互換API　|　原理：推論の実務（機械学習）

要点（結論先出し）

生成は「次トークンの確率分布からどう選ぶか」。**温度（temperature）**で分布の尖り、top-p / top-kで候補の絞り込みを制御する。
低温＝堅実・再現的、高温＝多様・創造的。事実回答やコードは低温、ブレストや創作は高温が目安（要最新確認）。
これらはモデルを変えずに出力の性格を変えるノブ。原理は機械学習へ、ここはローカルでの設定の置き方に集中。

原理（サンプリングの数理）は機械学習へ → 推論の実務。

flowchart LR
  LOGITS["次トークンの分布"] --> T["temperatureで鋭さ調整"]
  T --> P["top-p・top-kで候補を絞る"]
  P --> PEN["繰り返しペナルティを適用"]
  PEN --> PICK["1トークンをサンプリング"]

温度で分布の形を決め、top-p/top-kで裾を切り、ペナルティでループを防ぎ、最後に1つ引く——この順で出力の性格が決まります。

top-p は 0.9 前後を起点に、繰り返しが出るなら repeat penalty を少し上げる、が定番（要最新確認）。

モデルを変えなくても、サンプリングの設定だけで「堅い/柔らかい」を切り替えられる。用途ごとに既定値を決めておけば、毎回同じ品質で回せます。逆に既定のまま使うと、事実回答が無駄に揺れたり創作が単調になったりします。