SLM(小規模言語モデル). エッジコンピューティング、📝組み込みシステム用AI.
モデル
- GPT-4o mini: オープンでないのでAPIでアクセス.
- Gemma2: Google
- Phi-3: Microsoft
- QWen
- Aya Expanse: Cohere. 多言語モデル. 8Bの評判がいい. 商業利用不可.
LLM量子化
LLMを軽量化するための技術. ローカルで動かすためには必須. 📝量子化
方式
- モデルの訓練時から小さいビット数で訓練する(事前量子化)
- モデルの訓練時には通常のビット数で訓練し、訓練し終わったモデルの重みを小さいビット数に変換して推論する(事後量子化)
形式
- GGML
- GGUF
- GPTQ
- AWQ
🤖ローカルLLM
ローカルで動作するオープンソースのSLM.
- 2023夏くらいから自宅のPCでできるようになって話題.
なぜローカルLLMなのか?
- APIではないのでコスト削減
- セキュリティ問題の解決
- オープンなモデルをカスタマイズ可能
🤖Llama(Meta)
🌐Metaの開発したローカルLLMモデル.
業界スタンダード. MetaはAI競争でローカルLLMに戦略的に取り組んでいる.
- Llama-3-ELYZA-JP-8B: 日本語特化の大規模言語モデル.
Apps
🐄Ollama
CLI用. ローカルサーバを立ち上げてAPIからアクセスできる.
Modelfile
Ollamaの設定ファイル.
https://github.com/ollama/ollama/blob/main/docs/modelfile.md
<2024-11-27 Wed 17:05>
huggingfaceからダウンロードしたモデルだと無限に回答を生成してしまった.
Open WebUI
ブラウザでChatGPTをつかうようにLLMをつかえる.
LLMフレームワーク
いろんなローカルLLMを試せる. API keyを設定すればAPIをたたいてクラウドサービスもつかえる.
- LM Studio: GUI向け、導入簡単なのはこれ.
llama.cpp
LlamaのC++IF
https://github.com/ggerganov/llama.cpp
Issues
ローカルLLMのパソコンスペックは?
パラメータ数とメモリの整理. GPUは推奨であるが不要.
- 7B: ローカルの限界、メモリ16GB.
- 13B
- 33B
- 65B
国産公開LLMは高性能非公開企業LLMに優れるか?
日本語公開モデルは、Claude/OpenAIのような企業型非公開大規模LLMと比べると劣る. しかし、公開モデルは追加学習によるカスタマイズ出来ることが利点.
API/Few-shot/instructin turningの費用対効果の検証
- APIは2件Few-shortまでなら確かな性能向上がある.
- Claude Intant/ChatGPT3.5相当は、7Bクラスのモデルを30-200程度で追加学習
- Claude2.1/GPT-4相当は、13BクラスのOSSモデル or 7Bクラスのモデルを500件程度追加学習
ref. Prompt Tuning から Fine Tuning への移行時期推定 - Speaker Deck, 24/03