Windows पर Llama.cpp: CUDA गाइड

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

यदि आप अधिकतम प्रदर्शन, पूर्ण नियंत्रण और शून्य ब्लोटवेयर चाहते हैं, तो NVIDIA CUDA Toolkit का उपयोग करके सीधे स्रोत कोड से llama.cpp को संकलित करना ही एकमात्र सही तरीका है। यहाँ बताया गया है कि Windows पर इसे ठीक-ठीक कैसे करें।

Step 1 परिचय

llama.cpp वह अंतर्निहित C++ इंजन है जो लगभग सभी लोकल AI टूल्स (Ollama और LM Studio सहित) को शक्ति प्रदान करता है। Windows टर्मिनल से इसे नेटिव रूप से संकलित और चलाकर, आप UI ओवरहेड को हटा देते हैं और VRAM आवंटन फ्लैग पर पूर्ण नियंत्रण प्राप्त करते हैं।

Step 2 पूर्वावश्यकताएँ

CUDA समर्थन के साथ Windows पर C++ कोड संकलित करने के लिए आवश्यक बिल्ड टूल्स इंस्टॉल करने की जरूरत है।

Git for Windows इंस्टॉल करें।
CMake इंस्टॉल करें (सुनिश्चित करें कि यह आपके PATH में जोड़ा गया हो)।
Visual Studio Build Tools 2022 इंस्टॉल करें ("Desktop development with C++" चुनें)।
NVIDIA CUDA Toolkit इंस्टॉल करें (GPU त्वरण के लिए आवश्यक)।

Step 3 संकलन

Developer Command Prompt for VS 2022 खोलें (इसे अपने Windows Start मेनू में खोजें)।

रिपॉजिटरी को क्लोन करें और NVIDIA GPU का उपयोग सुनिश्चित करने के लिए LLAMA_CUDA=ON फ्लैग का उपयोग करके इसे संकलित करें।

Terminal

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release

संकलन पूर्ण होने के बाद, एक्जीक्यूटेबल फाइलें build\bin\Release\ में स्थित होंगी।

Step 4 वेट्स डाउनलोड करना

हमें .gguf फॉर्मेट में एक मॉडल डाउनलोड करना होगा। हम एक सामान्य PowerShell विंडो में huggingface-cli का उपयोग करेंगे।

Terminal

pip install -U huggingface_hub
huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models

Step 5 इन्फरेंस चलाना

अब, मॉडल के साथ चैट करते हैं। -ngl 99 फ्लैग इंजन को निर्देश देता है कि सभी लेयर्स को आपके NVIDIA GPU के VRAM पर ऑफलोड किया जाए।

Terminal

.\build\bin\Release\llama-cli.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -n 512 -ngl 99 --color -i -r "User:" -p "You are a helpful AI assistant.

User: Hello!
AI:"

Step 6 लोकल सर्वर

यदि आप टर्मिनल से सीधे OpenAI-संगत API एंडपॉइंट होस्ट करना चाहते हैं, तो llama-server एक्जीक्यूटेबल का उपयोग करें:

Terminal

.\build\bin\Release\llama-server.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080

आपका उच्च-प्रदर्शन CUDA बैकएंड अब http://127.0.0.1:8080 पर सुन रहा है।

Continue Reading

Performance

Windows पर Llama.cpp: CUDA गाइड

Step 1 परिचय

Step 2 पूर्वावश्यकताएँ

Step 3 संकलन

Step 4 वेट्स डाउनलोड करना

Step 5 इन्फरेंस चलाना

Step 6 लोकल सर्वर

Continue Reading

Mistral 7B vs Llama 3 on Apple Silicon

Best GUI clients for Local LLMs

Quantization 101: Speed up your Inference