Ollama nativ auf Windows ausführen

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Keine WSL-Kopfschmerzen mehr. Ollama läuft jetzt nativ auf Windows als eigenständige Anwendung. Es erkennt automatisch Ihre NVIDIA- oder AMD-Grafikkarte und beschleunigt Ihre lokale KI-Inferenz sofort nach der Installation.

Step 1 Einführung

In der Vergangenheit erforderte das Ausführen lokaler LLMs unter Windows die Installation des Windows-Subsystems für Linux (WSL) und den Umgang mit Treiber-Passthroughs. Heute bietet Ollama eine native Windows-.exe, die direkt in DirectX und CUDA eingebunden ist.

Step 2 Installation

  1. Besuchen Sie ollama.com/download.
  2. Klicken Sie auf Windows und laden Sie das .exe-Installationsprogramm herunter.
  3. Doppelklicken Sie auf das Installationsprogramm, um es auszuführen.

Ollama installiert sich selbst und platziert ein Symbol in Ihrem Systembereich (untere rechte Ecke Ihrer Taskleiste).

Step 3 Ihr erstes Modell herunterladen

Öffnen Sie ein neues PowerShell- oder Eingabeaufforderungs-Fenster. Laden wir Metas unglaublich leistungsfähiges Modell mit 8 Milliarden Parametern herunter.

Terminal
ollama run llama3

Was passiert als Nächstes? - Ollama verbindet sich mit der Registry. - Es lädt die ca. 4,7 GB großen Modellgewichte in Ihren lokalen Ordner C:\Users\<YourUser>\.ollama herunter. - Es versetzt Sie in eine interaktive Chat-Eingabeaufforderung.

Sie können jetzt eingeben: Write a python script to scrape a website und beobachten, wie Ihr PC sofort Code generiert.

Step 4 Hardware-Einschränkungen

Windows-PCs nutzen in der Regel dedizierte GPUs (VRAM) anstelle von Unified Memory wie Macs. Um ein KI-Modell schnell auszuführen, muss es vollständig in Ihren VRAM passen.

Ihr VRAM Maximale Modellgröße Empfohlene Modelle
6 GB bis 8 GB ~7B bis 8B Parameter Llama 3 (8B), Mistral (7B), Gemma (2B)
12 GB bis 16 GB ~13B bis 14B Parameter Qwen 2.5 (14B), Command R
24 GB (RTX 3090/4090) ~30B Parameter Mixtral (8x7B)

Wenn ein Modell Ihren VRAM überschreitet, lagert Ollama die verbleibenden Schichten automatisch in Ihren deutlich langsameren Arbeitsspeicher (CPU) aus.

Step 5 GPU-Beschleunigung

Ollama erkennt Ihre Hardware automatisch. - Wenn Sie eine NVIDIA-Karte haben, wird CUDA verwendet. - Wenn Sie eine AMD-Karte haben, wird ROCm verwendet.

Um die GPU-Nutzung zu überprüfen, öffnen Sie den Task-Manager (Ctrl + Shift + Esc), gehen Sie zur Registerkarte Leistung und wählen Sie Ihre GPU aus. Senden Sie eine große Eingabeaufforderung an Ollama und beobachten Sie, wie Ihre Graphen für „Dedizierter GPU-Speicher" und „3D"-Berechnungen auf 100 % ansteigen.

Step 6 Die lokale API

Ollama führt automatisch im Hintergrund einen lokalen API-Server aus. Sie können diesen Endpunkt in VS Code-Erweiterungen oder Python-Skripte einbinden.

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Ihr Windows-PC ist jetzt ein vollständig funktionsfähiger, privater KI-Server!