laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Keine WSL-Kopfschmerzen mehr. Ollama läuft jetzt nativ auf Windows als eigenständige Anwendung. Es erkennt automatisch Ihre NVIDIA- oder AMD-Grafikkarte und beschleunigt Ihre lokale KI-Inferenz sofort nach der Installation.
Step 1 Einführung
In der Vergangenheit erforderte das Ausführen lokaler LLMs unter Windows die Installation des Windows-Subsystems für Linux (WSL) und den Umgang mit Treiber-Passthroughs. Heute bietet Ollama eine native Windows-.exe, die direkt in DirectX und CUDA eingebunden ist.
Step 2 Installation
- Besuchen Sie ollama.com/download.
- Klicken Sie auf Windows und laden Sie das
.exe-Installationsprogramm herunter.
- Doppelklicken Sie auf das Installationsprogramm, um es auszuführen.
Ollama installiert sich selbst und platziert ein Symbol in Ihrem Systembereich (untere rechte Ecke Ihrer Taskleiste).
Step 3 Ihr erstes Modell herunterladen
Öffnen Sie ein neues PowerShell- oder Eingabeaufforderungs-Fenster. Laden wir Metas unglaublich leistungsfähiges Modell mit 8 Milliarden Parametern herunter.
Was passiert als Nächstes?
- Ollama verbindet sich mit der Registry.
- Es lädt die ca. 4,7 GB großen Modellgewichte in Ihren lokalen Ordner C:\Users\<YourUser>\.ollama herunter.
- Es versetzt Sie in eine interaktive Chat-Eingabeaufforderung.
Sie können jetzt eingeben: Write a python script to scrape a website und beobachten, wie Ihr PC sofort Code generiert.
Step 4 Hardware-Einschränkungen
Windows-PCs nutzen in der Regel dedizierte GPUs (VRAM) anstelle von Unified Memory wie Macs. Um ein KI-Modell schnell auszuführen, muss es vollständig in Ihren VRAM passen.
| Ihr VRAM |
Maximale Modellgröße |
Empfohlene Modelle |
| 6 GB bis 8 GB |
~7B bis 8B Parameter |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12 GB bis 16 GB |
~13B bis 14B Parameter |
Qwen 2.5 (14B), Command R |
| 24 GB (RTX 3090/4090) |
~30B Parameter |
Mixtral (8x7B) |
Wenn ein Modell Ihren VRAM überschreitet, lagert Ollama die verbleibenden Schichten automatisch in Ihren deutlich langsameren Arbeitsspeicher (CPU) aus.
Step 5 GPU-Beschleunigung
Ollama erkennt Ihre Hardware automatisch.
- Wenn Sie eine NVIDIA-Karte haben, wird CUDA verwendet.
- Wenn Sie eine AMD-Karte haben, wird ROCm verwendet.
Um die GPU-Nutzung zu überprüfen, öffnen Sie den Task-Manager (Ctrl + Shift + Esc), gehen Sie zur Registerkarte Leistung und wählen Sie Ihre GPU aus. Senden Sie eine große Eingabeaufforderung an Ollama und beobachten Sie, wie Ihre Graphen für „Dedizierter GPU-Speicher" und „3D"-Berechnungen auf 100 % ansteigen.
Step 6 Die lokale API
Ollama führt automatisch im Hintergrund einen lokalen API-Server aus. Sie können diesen Endpunkt in VS Code-Erweiterungen oder Python-Skripte einbinden.
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Ihr Windows-PC ist jetzt ein vollständig funktionsfähiger, privater KI-Server!