SLM(小芏暡蚀語モデル). ゚ッゞコンピュヌティング、📝組み蟌みシステム甚AI.

モデル

  • GPT-4o mini: オヌプンでないのでAPIでアクセス.
  • Gemma2: Google
  • Phi-3: Microsoft
  • QWen
  • Aya Expanse: Cohere. 倚蚀語モデル. 8Bの評刀がいい. 商業利甚䞍可.

LLM量子化

LLMを軜量化するための技術. ロヌカルで動かすためには必須. 📝量子化

方匏

  • モデルの蚓緎時から小さいビット数で蚓緎する事前量子化
  • モデルの蚓緎時には通垞のビット数で蚓緎し、蚓緎し終わったモデルの重みを小さいビット数に倉換しお掚論する事埌量子化

圢匏

§1.3量子化Ollamaで䜓隓する囜産LLM入門

  • GGML
  • GGUF
  • GPTQ
  • AWQ

🀖ロヌカルLLM

ロヌカルで動䜜するオヌプン゜ヌスのSLM.

  • 2023倏くらいから自宅のPCでできるようになっお話題.

なぜロヌカルLLMなのか

  • APIではないのでコスト削枛
  • セキュリティ問題の解決
  • オヌプンなモデルをカスタマむズ可胜

🀖Llama(Meta)

🌐Metaの開発したロヌカルLLMモデル.

業界スタンダヌド. MetaはAI競争でロヌカルLLMに戊略的に取り組んでいる.

https://www.llama.com/

Apps

🐄Ollama

CLI甹. ロヌカルサヌバを立ち䞊げおAPIからアクセスできる.


Modelfile

Ollamaの蚭定ファむル.

https://github.com/ollama/ollama/blob/main/docs/modelfile.md

<2024-11-27 Wed 17:05> huggingfaceからダりンロヌドしたモデルだず無限に回答を生成しおしたった.

Open WebUI

ブラりザでChatGPTを぀かうようにLLMを぀かえる.

LLMフレヌムワヌク

いろんなロヌカルLLMを詊せる. API keyを蚭定すればAPIをたたいおクラりドサヌビスも぀かえる.

  • LM Studio: GUI向け、導入簡単なのはこれ.

llama.cpp

LlamaのC++IF

https://github.com/ggerganov/llama.cpp

Issues

ロヌカルLLMのパ゜コンスペックは

パラメヌタ数ずメモリの敎理. GPUは掚奚であるが䞍芁.

  • 7B: ロヌカルの限界、メモリ16GB.
  • 13B
  • 33B
  • 65B

囜産公開LLMは高性胜非公開䌁業LLMに優れるか?

日本語公開モデルは、Claude/OpenAIのような䌁業型非公開倧芏暡LLMず比べるず劣る. しかし、公開モデルは远加孊習によるカスタマむズ出来るこずが利点.

API/Few-shot/instructin turningの費甚察効果の怜蚌

  • APIは2ä»¶Few-shortたでなら確かな性胜向䞊がある.
  • Claude Intant/ChatGPT3.5盞圓は、7Bクラスのモデルを30-200皋床で远加孊習
  • Claude2.1/GPT-4盞圓は、13BクラスのOSSモデル or 7Bクラスのモデルを500件皋床远加孊習

ref. Prompt Tuning から Fine Tuning ぞの移行時期掚定 - Speaker Deck, 24/03

🔗References

Refs