Ollama को Windows पर नेटिव रूप से चलाएं

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

WSL की परेशानियाँ अब खत्म। Ollama अब Windows पर एक standalone application के रूप में natively चलता है। यह स्वचालित रूप से आपके NVIDIA या AMD ग्राफ़िक्स कार्ड को detect करता है और बिना किसी अतिरिक्त configuration के आपके local AI inference को accelerate कर देता है।

Step 1 परिचय (Introduction)

पहले, Windows पर local LLMs चलाने के लिए Windows Subsystem for Linux (WSL) install करना पड़ता था और driver passthroughs से जूझना पड़ता था। आज, Ollama एक native Windows .exe प्रदान करता है जो सीधे DirectX और CUDA से जुड़ता है।

Step 2 इंस्टॉलेशन (Installation)

ollama.com/download पर जाएं।
Windows पर क्लिक करें और .exe installer डाउनलोड करें।
Installer को run करने के लिए उस पर double-click करें।

Ollama खुद को install कर लेगा और आपके system tray (taskbar के नीचे दाएं कोने) में एक icon रख देगा।

Step 3 अपना पहला मॉडल Pull करना (Pulling Your First Model)

एक नई PowerShell या Command Prompt विंडो खोलें। आइए Meta का अत्यंत सक्षम 8-billion parameter मॉडल pull करें।

Terminal

ollama run llama3

इसके बाद क्या होता है? - Ollama registry से connect करता है। - यह ~4.7GB के model weights को आपके local C:\Users\<YourUser>\.ollama folder में download करता है। - यह आपको एक interactive chat prompt में ले जाता है।

अब आप टाइप कर सकते हैं: Write a python script to scrape a website और देखें कि आपका PC तुरंत code generate करता है।

Step 4 हार्डवेयर की सीमाएँ (Hardware Limits)

Windows PC आमतौर पर Macs की तरह Unified Memory के बजाय discrete GPUs (VRAM) पर निर्भर करते हैं। किसी AI मॉडल को तेज़ी से चलाने के लिए, उसे पूरी तरह आपके VRAM के अंदर fit होना चाहिए।

आपका VRAM	अधिकतम Model Size	अनुशंसित Models
6GB से 8GB	~7B से 8B parameters	Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB से 16GB	~13B से 14B parameters	Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090)	~30B parameters	Mixtral (8x7B)

यदि कोई मॉडल आपके VRAM की क्षमता से अधिक हो जाता है, तो Ollama स्वचालित रूप से शेष layers को आपके अत्यंत धीमे system RAM (CPU) पर offload कर देगा।

Step 5 GPU Acceleration

Ollama स्वचालित रूप से आपके hardware को detect करता है। - यदि आपके पास NVIDIA कार्ड है, तो यह CUDA का उपयोग करता है। - यदि आपके पास AMD कार्ड है, तो यह ROCm का उपयोग करता है।

GPU usage verify करने के लिए, Task Manager (Ctrl + Shift + Esc) खोलें, Performance tab पर जाएं और अपना GPU चुनें। Ollama को एक बड़ा prompt भेजें और देखें कि आपके "Dedicated GPU Memory" और "3D" compute graphs 100% तक spike करते हैं।

Step 6 लोकल API (The Local API)

Ollama स्वचालित रूप से background में एक local API server चलाता है। आप इस endpoint को VS Code extensions या Python scripts से जोड़ सकते हैं।

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

आपका Windows PC अब एक पूरी तरह कार्यात्मक, निजी AI server है!

Continue Reading

Performance