Mac पर Llama.cpp: पावर यूज़र की संपूर्ण गाइड

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

यदि आप अधिकतम प्रदर्शन, पूर्ण नियंत्रण, और शून्य ब्लोटवेयर चाहते हैं, तो llama.cpp को सीधे सोर्स कोड से कंपाइल करना ही एकमात्र सही रास्ता है। यहाँ बताया गया है कि Apple Silicon पर इसे ठीक-ठीक कैसे करें।

Step 1 परिचय

llama.cpp वह अंतर्निहित C++ इंजन है जो लगभग सभी लोकल AI टूल्स (जिसमें Ollama और LM Studio शामिल हैं) को शक्ति प्रदान करता है। इसे टर्मिनल से नेटिव रूप से चलाकर, आप UI ओवरहेड को हटा देते हैं और परफॉर्मेंस फ्लैग्स पर पूर्ण नियंत्रण प्राप्त करते हैं।

Step 2 पूर्वापेक्षाएँ

C++ कोड को कंपाइल करने के लिए आपके पास Apple का Xcode Command Line Tools और Homebrew इंस्टॉल होना आवश्यक है।

Terminal

xcode-select --install
brew install cmake python3

Step 3 संकलन (Compilation)

हम रिपॉजिटरी को क्लोन करेंगे और इसे LLAMA_METAL=1 फ्लैग का उपयोग करके कंपाइल करेंगे, ताकि यह सुनिश्चित हो सके कि यह Apple के GPU का लाभ उठाए।

Terminal

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j LLAMA_METAL=1

Step 4 वेट्स डाउनलोड करना

हमें .gguf फॉर्मेट में एक मॉडल डाउनलोड करना होगा। हम Llama 3 8B डाउनलोड करने के लिए huggingface-cli का उपयोग करेंगे।

Terminal

pip3 install huggingface-hub
huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models

Step 5 इन्फरेंस चलाना

अब, मॉडल के साथ चैट करते हैं। -ngl 99 फ्लैग इंजन को निर्देश देता है कि वह सभी लेयर्स को आपके Mac के GPU पर ऑफलोड करे।

Terminal

./llama-cli -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
  -n 512 \
  -ngl 99 \
  --color \
  -i -r "User:" \
  -p "You are a helpful AI assistant.\n\nUser: Hello!\nAI:"

Step 6 लोकल सर्वर

यदि आप सीधे टर्मिनल से एक OpenAI-compatible API एंडपॉइंट होस्ट करना चाहते हैं, तो llama-server बाइनरी का उपयोग करें:

Terminal

./llama-server -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080

आपका उच्च-प्रदर्शन बैकएंड अब http://127.0.0.1:8080 पर सुन रहा है।

Continue Reading

Performance

Mac पर Llama.cpp: पावर यूज़र की संपूर्ण गाइड

Step 1 परिचय

Step 2 पूर्वापेक्षाएँ

Step 3 संकलन (Compilation)

Step 4 वेट्स डाउनलोड करना

Step 5 इन्फरेंस चलाना

Step 6 लोकल सर्वर

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference