Mac向けLlama.cppパワーユーザーガイド

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

最大のパフォーマンス、完全なコントロール、そして余分なものを一切排除したいなら、llama.cpp をソースコードから直接コンパイルするのが唯一の方法です。Apple Silicon 上でのやり方を正確に説明します。

Step 1 はじめに

llama.cpp は、Ollama や LM Studio を含むほぼすべてのローカル AI ツールを支える C++ エンジンです。ターミナルからネイティブに実行することで、UI のオーバーヘッドを排除し、パフォーマンスフラグを完全にコントロールできます。

Step 2 前提条件

C++ コードをコンパイルするには、Apple の Xcode コマンドラインツールと Homebrew がインストールされている必要があります。

Terminal
xcode-select --install
brew install cmake python3

Step 3 コンパイル

リポジトリをクローンし、Apple の GPU を活用するために LLAMA_METAL=1 フラグを使用してコンパイルします。

Terminal
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j LLAMA_METAL=1

Step 4 ウェイトのダウンロード

.gguf 形式のモデルをダウンロードする必要があります。huggingface-cli を使用して Llama 3 8B をダウンロードします。

Terminal
pip3 install huggingface-hub
huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models

Step 5 推論の実行

それでは、モデルとチャットしてみましょう。-ngl 99 フラグは、すべてのレイヤーを Mac の GPU にオフロードするようエンジンに指示します。

Terminal
./llama-cli -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
  -n 512 \
  -ngl 99 \
  --color \
  -i -r "User:" \
  -p "You are a helpful AI assistant.\n\nUser: Hello!\nAI:"

Step 6 ローカルサーバー

ターミナルから直接 OpenAI 互換の API エンドポイントをホストしたい場合は、llama-server バイナリを使用してください:

Terminal
./llama-server -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080

高パフォーマンスのバックエンドが http://127.0.0.1:8080 でリクエストを待ち受けています。