Home chevron_right Mac Guides chevron_right Mac向けLlama.cppパワーユーザーガイド Mac向けLlama.cppパワーユーザーガイド laptop_mac macOS Sonoma Intermediate schedule 8 min read by Alex Rivera • May 14, 2024 最大のパフォーマンス、完全なコントロール、そして余分なものを一切排除したいなら、llama.cpp をソースコードから直接コンパイルするのが唯一の方法です。Apple Silicon 上でのやり方を正確に説明します。 Step 1 はじめに llama.cpp は、Ollama や LM Studio を含むほぼすべてのローカル AI ツールを支える C++ エンジンです。ターミナルからネイティブに実行することで、UI のオーバーヘッドを排除し、パフォーマンスフラグを完全にコントロールできます。 Step 2 前提条件 C++ コードをコンパイルするには、Apple の Xcode コマンドラインツールと Homebrew がインストールされている必要があります。 Terminalcontent_copyCopyxcode-select --install brew install cmake python3 Step 3 コンパイル リポジトリをクローンし、Apple の GPU を活用するために LLAMA_METAL=1 フラグを使用してコンパイルします。 Terminalcontent_copyCopygit clone https://github.com/ggerganov/llama.cpp cd llama.cpp make -j LLAMA_METAL=1 Step 4 ウェイトのダウンロード .gguf 形式のモデルをダウンロードする必要があります。huggingface-cli を使用して Llama 3 8B をダウンロードします。 Terminalcontent_copyCopypip3 install huggingface-hub huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models Step 5 推論の実行 それでは、モデルとチャットしてみましょう。-ngl 99 フラグは、すべてのレイヤーを Mac の GPU にオフロードするようエンジンに指示します。 Terminalcontent_copyCopy./llama-cli -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \ -n 512 \ -ngl 99 \ --color \ -i -r "User:" \ -p "You are a helpful AI assistant.\n\nUser: Hello!\nAI:" Step 6 ローカルサーバー ターミナルから直接 OpenAI 互換の API エンドポイントをホストしたい場合は、llama-server バイナリを使用してください: Terminalcontent_copyCopy./llama-server -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080 高パフォーマンスのバックエンドが http://127.0.0.1:8080 でリクエストを待ち受けています。 Continue Reading Performance Mistral 7B vs Llama 3 on Apple Silicon Tools Best GUI clients for Local LLMs Advanced Quantization 101: Speed up your Inference