Home chevron_right Mac Guides chevron_right Mac पर Llama.cpp: पावर यूज़र की संपूर्ण गाइड Mac पर Llama.cpp: पावर यूज़र की संपूर्ण गाइड laptop_mac macOS Sonoma Intermediate schedule 8 min read by Alex Rivera • May 14, 2024 यदि आप अधिकतम प्रदर्शन, पूर्ण नियंत्रण, और शून्य ब्लोटवेयर चाहते हैं, तो llama.cpp को सीधे सोर्स कोड से कंपाइल करना ही एकमात्र सही रास्ता है। यहाँ बताया गया है कि Apple Silicon पर इसे ठीक-ठीक कैसे करें। Step 1 परिचय llama.cpp वह अंतर्निहित C++ इंजन है जो लगभग सभी लोकल AI टूल्स (जिसमें Ollama और LM Studio शामिल हैं) को शक्ति प्रदान करता है। इसे टर्मिनल से नेटिव रूप से चलाकर, आप UI ओवरहेड को हटा देते हैं और परफॉर्मेंस फ्लैग्स पर पूर्ण नियंत्रण प्राप्त करते हैं। Step 2 पूर्वापेक्षाएँ C++ कोड को कंपाइल करने के लिए आपके पास Apple का Xcode Command Line Tools और Homebrew इंस्टॉल होना आवश्यक है। Terminalcontent_copyCopyxcode-select --install brew install cmake python3 Step 3 संकलन (Compilation) हम रिपॉजिटरी को क्लोन करेंगे और इसे LLAMA_METAL=1 फ्लैग का उपयोग करके कंपाइल करेंगे, ताकि यह सुनिश्चित हो सके कि यह Apple के GPU का लाभ उठाए। Terminalcontent_copyCopygit clone https://github.com/ggerganov/llama.cpp cd llama.cpp make -j LLAMA_METAL=1 Step 4 वेट्स डाउनलोड करना हमें .gguf फॉर्मेट में एक मॉडल डाउनलोड करना होगा। हम Llama 3 8B डाउनलोड करने के लिए huggingface-cli का उपयोग करेंगे। Terminalcontent_copyCopypip3 install huggingface-hub huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models Step 5 इन्फरेंस चलाना अब, मॉडल के साथ चैट करते हैं। -ngl 99 फ्लैग इंजन को निर्देश देता है कि वह सभी लेयर्स को आपके Mac के GPU पर ऑफलोड करे। Terminalcontent_copyCopy./llama-cli -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf \ -n 512 \ -ngl 99 \ --color \ -i -r "User:" \ -p "You are a helpful AI assistant.\n\nUser: Hello!\nAI:" Step 6 लोकल सर्वर यदि आप सीधे टर्मिनल से एक OpenAI-compatible API एंडपॉइंट होस्ट करना चाहते हैं, तो llama-server बाइनरी का उपयोग करें: Terminalcontent_copyCopy./llama-server -m ./models/Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080 आपका उच्च-प्रदर्शन बैकएंड अब http://127.0.0.1:8080 पर सुन रहा है। Continue Reading Performance Mistral 7B vs Llama 3 on Apple Silicon Tools Best GUI clients for Local LLMs Advanced Quantization 101: Speed up your Inference