laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
WSL की परेशानियाँ अब खत्म। Ollama अब Windows पर एक standalone application के रूप में natively चलता है। यह स्वचालित रूप से आपके NVIDIA या AMD ग्राफ़िक्स कार्ड को detect करता है और बिना किसी अतिरिक्त configuration के आपके local AI inference को accelerate कर देता है।
Step 1 परिचय (Introduction)
पहले, Windows पर local LLMs चलाने के लिए Windows Subsystem for Linux (WSL) install करना पड़ता था और driver passthroughs से जूझना पड़ता था। आज, Ollama एक native Windows .exe प्रदान करता है जो सीधे DirectX और CUDA से जुड़ता है।
Step 2 इंस्टॉलेशन (Installation)
- ollama.com/download पर जाएं।
- Windows पर क्लिक करें और
.exe installer डाउनलोड करें।
- Installer को run करने के लिए उस पर double-click करें।
Ollama खुद को install कर लेगा और आपके system tray (taskbar के नीचे दाएं कोने) में एक icon रख देगा।
Step 3 अपना पहला मॉडल Pull करना (Pulling Your First Model)
एक नई PowerShell या Command Prompt विंडो खोलें। आइए Meta का अत्यंत सक्षम 8-billion parameter मॉडल pull करें।
इसके बाद क्या होता है?
- Ollama registry से connect करता है।
- यह ~4.7GB के model weights को आपके local C:\Users\<YourUser>\.ollama folder में download करता है।
- यह आपको एक interactive chat prompt में ले जाता है।
अब आप टाइप कर सकते हैं: Write a python script to scrape a website और देखें कि आपका PC तुरंत code generate करता है।
Step 4 हार्डवेयर की सीमाएँ (Hardware Limits)
Windows PC आमतौर पर Macs की तरह Unified Memory के बजाय discrete GPUs (VRAM) पर निर्भर करते हैं। किसी AI मॉडल को तेज़ी से चलाने के लिए, उसे पूरी तरह आपके VRAM के अंदर fit होना चाहिए।
| आपका VRAM |
अधिकतम Model Size |
अनुशंसित Models |
| 6GB से 8GB |
~7B से 8B parameters |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12GB से 16GB |
~13B से 14B parameters |
Qwen 2.5 (14B), Command R |
| 24GB (RTX 3090/4090) |
~30B parameters |
Mixtral (8x7B) |
यदि कोई मॉडल आपके VRAM की क्षमता से अधिक हो जाता है, तो Ollama स्वचालित रूप से शेष layers को आपके अत्यंत धीमे system RAM (CPU) पर offload कर देगा।
Step 5 GPU Acceleration
Ollama स्वचालित रूप से आपके hardware को detect करता है।
- यदि आपके पास NVIDIA कार्ड है, तो यह CUDA का उपयोग करता है।
- यदि आपके पास AMD कार्ड है, तो यह ROCm का उपयोग करता है।
GPU usage verify करने के लिए, Task Manager (Ctrl + Shift + Esc) खोलें, Performance tab पर जाएं और अपना GPU चुनें। Ollama को एक बड़ा prompt भेजें और देखें कि आपके "Dedicated GPU Memory" और "3D" compute graphs 100% तक spike करते हैं।
Step 6 लोकल API (The Local API)
Ollama स्वचालित रूप से background में एक local API server चलाता है। आप इस endpoint को VS Code extensions या Python scripts से जोड़ सकते हैं।
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
आपका Windows PC अब एक पूरी तरह कार्यात्मक, निजी AI server है!