Windows पर Llama.cpp: CUDA गाइड

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

यदि आप अधिकतम प्रदर्शन, पूर्ण नियंत्रण और शून्य ब्लोटवेयर चाहते हैं, तो NVIDIA CUDA Toolkit का उपयोग करके सीधे स्रोत कोड से llama.cpp को संकलित करना ही एकमात्र सही तरीका है। यहाँ बताया गया है कि Windows पर इसे ठीक-ठीक कैसे करें।

Step 1 परिचय

llama.cpp वह अंतर्निहित C++ इंजन है जो लगभग सभी लोकल AI टूल्स (Ollama और LM Studio सहित) को शक्ति प्रदान करता है। Windows टर्मिनल से इसे नेटिव रूप से संकलित और चलाकर, आप UI ओवरहेड को हटा देते हैं और VRAM आवंटन फ्लैग पर पूर्ण नियंत्रण प्राप्त करते हैं।

Step 2 पूर्वावश्यकताएँ

CUDA समर्थन के साथ Windows पर C++ कोड संकलित करने के लिए आवश्यक बिल्ड टूल्स इंस्टॉल करने की जरूरत है।

  1. Git for Windows इंस्टॉल करें।
  2. CMake इंस्टॉल करें (सुनिश्चित करें कि यह आपके PATH में जोड़ा गया हो)।
  3. Visual Studio Build Tools 2022 इंस्टॉल करें ("Desktop development with C++" चुनें)।
  4. NVIDIA CUDA Toolkit इंस्टॉल करें (GPU त्वरण के लिए आवश्यक)।

Step 3 संकलन

Developer Command Prompt for VS 2022 खोलें (इसे अपने Windows Start मेनू में खोजें)।

रिपॉजिटरी को क्लोन करें और NVIDIA GPU का उपयोग सुनिश्चित करने के लिए LLAMA_CUDA=ON फ्लैग का उपयोग करके इसे संकलित करें।

Terminal
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

mkdir build
cd build
cmake .. -DLLAMA_CUDA=ON
cmake --build . --config Release

संकलन पूर्ण होने के बाद, एक्जीक्यूटेबल फाइलें build\bin\Release\ में स्थित होंगी।

Step 4 वेट्स डाउनलोड करना

हमें .gguf फॉर्मेट में एक मॉडल डाउनलोड करना होगा। हम एक सामान्य PowerShell विंडो में huggingface-cli का उपयोग करेंगे।

Terminal
pip install -U huggingface_hub
huggingface-cli download bartowski/Meta-Llama-3-8B-Instruct-GGUF Meta-Llama-3-8B-Instruct-Q4_K_M.gguf --local-dir ./models

Step 5 इन्फरेंस चलाना

अब, मॉडल के साथ चैट करते हैं। -ngl 99 फ्लैग इंजन को निर्देश देता है कि सभी लेयर्स को आपके NVIDIA GPU के VRAM पर ऑफलोड किया जाए।

Terminal
.\build\bin\Release\llama-cli.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -n 512 -ngl 99 --color -i -r "User:" -p "You are a helpful AI assistant.

User: Hello!
AI:"

Step 6 लोकल सर्वर

यदि आप टर्मिनल से सीधे OpenAI-संगत API एंडपॉइंट होस्ट करना चाहते हैं, तो llama-server एक्जीक्यूटेबल का उपयोग करें:

Terminal
.\build\bin\Release\llama-server.exe -m .\models\Meta-Llama-3-8B-Instruct-Q4_K_M.gguf -ngl 99 --port 8080

आपका उच्च-प्रदर्शन CUDA बैकएंड अब http://127.0.0.1:8080 पर सुन रहा है।