Ollama को Windows पर नेटिव रूप से चलाएं

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

WSL की परेशानियाँ अब खत्म। Ollama अब Windows पर एक standalone application के रूप में natively चलता है। यह स्वचालित रूप से आपके NVIDIA या AMD ग्राफ़िक्स कार्ड को detect करता है और बिना किसी अतिरिक्त configuration के आपके local AI inference को accelerate कर देता है।

Step 1 परिचय (Introduction)

पहले, Windows पर local LLMs चलाने के लिए Windows Subsystem for Linux (WSL) install करना पड़ता था और driver passthroughs से जूझना पड़ता था। आज, Ollama एक native Windows .exe प्रदान करता है जो सीधे DirectX और CUDA से जुड़ता है।

Step 2 इंस्टॉलेशन (Installation)

  1. ollama.com/download पर जाएं।
  2. Windows पर क्लिक करें और .exe installer डाउनलोड करें।
  3. Installer को run करने के लिए उस पर double-click करें।

Ollama खुद को install कर लेगा और आपके system tray (taskbar के नीचे दाएं कोने) में एक icon रख देगा।

Step 3 अपना पहला मॉडल Pull करना (Pulling Your First Model)

एक नई PowerShell या Command Prompt विंडो खोलें। आइए Meta का अत्यंत सक्षम 8-billion parameter मॉडल pull करें।

Terminal
ollama run llama3

इसके बाद क्या होता है? - Ollama registry से connect करता है। - यह ~4.7GB के model weights को आपके local C:\Users\<YourUser>\.ollama folder में download करता है। - यह आपको एक interactive chat prompt में ले जाता है।

अब आप टाइप कर सकते हैं: Write a python script to scrape a website और देखें कि आपका PC तुरंत code generate करता है।

Step 4 हार्डवेयर की सीमाएँ (Hardware Limits)

Windows PC आमतौर पर Macs की तरह Unified Memory के बजाय discrete GPUs (VRAM) पर निर्भर करते हैं। किसी AI मॉडल को तेज़ी से चलाने के लिए, उसे पूरी तरह आपके VRAM के अंदर fit होना चाहिए।

आपका VRAM अधिकतम Model Size अनुशंसित Models
6GB से 8GB ~7B से 8B parameters Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB से 16GB ~13B से 14B parameters Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090) ~30B parameters Mixtral (8x7B)

यदि कोई मॉडल आपके VRAM की क्षमता से अधिक हो जाता है, तो Ollama स्वचालित रूप से शेष layers को आपके अत्यंत धीमे system RAM (CPU) पर offload कर देगा।

Step 5 GPU Acceleration

Ollama स्वचालित रूप से आपके hardware को detect करता है। - यदि आपके पास NVIDIA कार्ड है, तो यह CUDA का उपयोग करता है। - यदि आपके पास AMD कार्ड है, तो यह ROCm का उपयोग करता है।

GPU usage verify करने के लिए, Task Manager (Ctrl + Shift + Esc) खोलें, Performance tab पर जाएं और अपना GPU चुनें। Ollama को एक बड़ा prompt भेजें और देखें कि आपके "Dedicated GPU Memory" और "3D" compute graphs 100% तक spike करते हैं।

Step 6 लोकल API (The Local API)

Ollama स्वचालित रूप से background में एक local API server चलाता है। आप इस endpoint को VS Code extensions या Python scripts से जोड़ सकते हैं।

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

आपका Windows PC अब एक पूरी तरह कार्यात्मक, निजी AI server है!