🎓 レベル:標準 | 重要度:A(必須) 📎 前提:ローカルLLMのエコシステム地図 | 原理:事前学習とスケーリング則(機械学習)
要点(結論先出し)
- ローカルで動かせるのは**「オープンウェイト」モデル**=学習済みの重みが公開され、ダウンロードして自分のハードで推論できるもの。
- 「オープンウェイト」≠「オープンソース」。重みは貰えても、学習データやコードは非公開、利用条件はライセンス次第(要最新確認)。
- 商用利用・再配布・出力の二次利用(蒸留)で条件が変わる。動かす前にライセンスを読むのが事故防止の最短路。
概念 ── 3つの「オープン」を切り分ける
- オープンウェイト:重みファイルが手に入る。ローカル実行に必要なのはこれ。
- オープンソース(厳密):重み+学習コード+データ+手順がすべて公開。実際には稀。
- 許諾ライセンス:Apache-2.0 / MIT のような寛容なものから、独自のコミュニティライセンス(利用規模や用途に制限)までさまざま(要最新確認)。
「ローカルで動く」=「何にでも使ってよい」ではありません。
仕組み ── 重みの入手から実行まで
flowchart LR HUB["配布ハブ(Hugging Face等)"] --> CARD["モデルカード(ライセンス・用途)"] CARD --> DL["重みをダウンロード"] DL --> CONV["形式変換・量子化(必要なら)"] CONV --> RUN["手元で推論"]
多くの重みは配布ハブ(要最新確認)から落とします。各モデルにはモデルカードがあり、ライセンス・想定用途・既知の制限が書かれています。ダウンロードボタンの前にカードを読むのが正しい順序。
ライセンス確認のチェックリスト
- 商用利用は可か:社内ツール・製品組み込みで使えるか。
- 再配布の条件:量子化して配り直す・派生モデルを公開する際の表示義務。
- 利用規模の制限:一定以上の規模で別契約が要るタイプがあるか(要最新確認)。
- 出力の扱い:生成テキストで別モデルを学習(蒸留)してよいか。禁止条項を持つものがある。
- 名称・帰属表示:派生物に元モデル名の表示が要るか。
なぜそうするか
ローカルだと「誰にも見られない」感覚になりがちですが、製品やサービスに組み込めばライセンス違反は表に出ます。最初にカードとライセンスを確認しておけば、後から「使えない重みでプロダクトを作っていた」という手戻りを防げます。
⚠️ よくある落とし穴
- 「オープン」を一括りにする:寛容ライセンスと制限付きコミュニティライセンスを混同しない。
- 派生・量子化版のライセンスを未確認:第三者が量子化した GGUF にも元のライセンスが及ぶ。配布者ではなく元モデルの条件を見る。
- 蒸留禁止を見落とす:出力で別モデルを訓練する用途は、条項で禁じられていることがある(要最新確認)。
- データの素性:学習データ由来の権利・バイアスはライセンスとは別問題として残る。
対応lab
関連
- 第2章で重みの「形」を学ぶ → モデル形式(safetensorsとGGUF)
- モデルの原理・系譜は機械学習へ → LLMの全体像
- 章の入口へ戻る → 第1章 ローカルLLMの全体像 目次