laptop_mac macOS Sonoma
Intermediate
schedule 8 min read
by Alex Rivera • May 14, 2024
Niente più grattacapi con WSL. Ollama ora gira nativamente su Windows come applicazione standalone. Rileva automaticamente la tua scheda grafica NVIDIA o AMD e accelera l'inferenza AI locale direttamente out of the box.
Step 1 Introduzione
In passato, eseguire LLM locali su Windows richiedeva l'installazione del Sottosistema Windows per Linux (WSL) e la gestione complicata dei passthrough dei driver. Oggi, Ollama fornisce un .exe nativo per Windows che si aggancia direttamente a DirectX e CUDA.
Step 2 Installazione
- Vai su ollama.com/download.
- Clicca su Windows e scarica il programma di installazione
.exe.
- Fai doppio clic sul programma di installazione per avviarlo.
Ollama si installerà automaticamente e posizionerà un'icona nella tua area di notifica (angolo in basso a destra della barra delle applicazioni).
Step 3 Scaricare il Tuo Primo Modello
Apri una nuova finestra di PowerShell o Prompt dei comandi. Scarichiamo l'incredibile modello di Meta con 8 miliardi di parametri.
Cosa succede dopo?
- Ollama si connette al registro.
- Scarica i pesi del modello (~4.7GB) nella tua cartella locale C:\Users\<YourUser>\.ollama.
- Ti porta direttamente a un prompt di chat interattivo.
Ora puoi digitare: Write a python script to scrape a website e guardare il tuo PC generare codice all'istante.
Step 4 Limiti Hardware
I PC Windows si affidano tipicamente a GPU discrete (VRAM) piuttosto che alla Memoria Unificata come i Mac. Per eseguire un modello AI velocemente, esso deve rientrare interamente nella tua VRAM.
| La Tua VRAM |
Dimensione Massima del Modello |
Modelli Consigliati |
| 6GB a 8GB |
~7B a 8B parametri |
Llama 3 (8B), Mistral (7B), Gemma (2B) |
| 12GB a 16GB |
~13B a 14B parametri |
Qwen 2.5 (14B), Command R |
| 24GB (RTX 3090/4090) |
~30B parametri |
Mixtral (8x7B) |
Se un modello supera la tua VRAM, Ollama scaricherà automaticamente i livelli rimanenti sulla RAM di sistema, molto più lenta (CPU).
Step 5 Accelerazione GPU
Ollama rileva automaticamente il tuo hardware.
- Se hai una scheda NVIDIA, utilizza CUDA.
- Se hai una scheda AMD, utilizza ROCm.
Per verificare l'utilizzo della GPU, apri il Gestione attività (Ctrl + Shift + Esc), vai alla scheda Prestazioni e seleziona la tua GPU. Invia un prompt lungo a Ollama e osserva i grafici "Memoria GPU dedicata" e il calcolo "3D" salire fino al 100%.
Step 6 L'API Locale
Ollama esegue automaticamente un server API locale in background. Puoi collegare questo endpoint alle estensioni di VS Code o agli script Python.
Terminal
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Why is the sky blue?",
"stream": false
}'
Il tuo PC Windows è ora un server AI privato e completamente funzionale!