Mac पर Llama.cpp: पावर यूज़र की संपूर्ण गाइड

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

यदि आप अधिकतम प्रदर्शन, पूर्ण नियंत्रण, और शून्य ब्लोटवेयर चाहते हैं, तो llama.cpp को सीधे सोर्स कोड से कंपाइल करना ही एकमात्र सही रास्ता है। यहाँ बताया गया है कि Apple Silicon पर इसे ठीक-ठीक कैसे करें।

Step 1 परिचय

llama.cpp वह अंतर्निहित C++ इंजन है जो लगभग सभी लोकल AI टूल्स (जिसमें Ollama और LM Studio शामिल हैं) को शक्ति प्रदान करता है। इसे टर्मिनल से नेटिव रूप से चलाकर, आप UI ओवरहेड को हटा देते हैं और परफॉर्मेंस फ्लैग्स पर पूर्ण नियंत्रण प्राप्त करते हैं।

Step 2 पूर्वापेक्षाएँ

C++ कोड को कंपाइल करने के लिए आपके पास Apple का Xcode Command Line Tools और Homebrew इंस्टॉल होना आवश्यक है।

Terminal
xcode-select --install
brew install cmake python3

Step 3 संकलन (Compilation)

हम रिपॉजिटरी को क्लोन करेंगे और इसे LLAMA_METAL=1 फ्लैग का उपयोग करके कंपाइल करेंगे, ताकि यह सुनिश्चित हो सके कि यह Apple के GPU का लाभ उठाए।

Terminal
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j LLAMA_METAL=1

Step 4 वेट्स डाउनलोड करना

हमें .gguf फॉर्मेट में एक मॉडल डाउनलोड करना होगा। हम Llama 3 8B डाउनलोड करने के लिए huggingface-cli का उपयोग करेंगे।

Terminal
pip3 install huggingface-hub
huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models

Step 5 इन्फरेंस चलाना

अब, मॉडल के साथ चैट करते हैं। -ngl 99 फ्लैग इंजन को निर्देश देता है कि वह सभी लेयर्स को आपके Mac के GPU पर ऑफलोड करे।

Terminal
./llama-cli -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \
  -n 512 \
  -ngl 99 \
  --color \
  -i -r "User:" \
  -p "You are a helpful AI assistant.\n\nUser: Hello!\nAI:"

Step 6 लोकल सर्वर

यदि आप सीधे टर्मिनल से एक OpenAI-compatible API एंडपॉइंट होस्ट करना चाहते हैं, तो llama-server बाइनरी का उपयोग करें:

Terminal
./llama-server -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080

आपका उच्च-प्रदर्शन बैकएंड अब http://127.0.0.1:8080 पर सुन रहा है।