Esegui Ollama su Windows in modo nativo

laptop_mac macOS Sonoma Intermediate schedule 8 min read

by Alex Rivera • May 14, 2024

Niente più grattacapi con WSL. Ollama ora gira nativamente su Windows come applicazione standalone. Rileva automaticamente la tua scheda grafica NVIDIA o AMD e accelera l'inferenza AI locale direttamente out of the box.

Step 1 Introduzione

In passato, eseguire LLM locali su Windows richiedeva l'installazione del Sottosistema Windows per Linux (WSL) e la gestione complicata dei passthrough dei driver. Oggi, Ollama fornisce un .exe nativo per Windows che si aggancia direttamente a DirectX e CUDA.

Step 2 Installazione

Vai su ollama.com/download.
Clicca su Windows e scarica il programma di installazione .exe.
Fai doppio clic sul programma di installazione per avviarlo.

Ollama si installerà automaticamente e posizionerà un'icona nella tua area di notifica (angolo in basso a destra della barra delle applicazioni).

Step 3 Scaricare il Tuo Primo Modello

Apri una nuova finestra di PowerShell o Prompt dei comandi. Scarichiamo l'incredibile modello di Meta con 8 miliardi di parametri.

Terminal

ollama run llama3

Cosa succede dopo? - Ollama si connette al registro. - Scarica i pesi del modello (~4.7GB) nella tua cartella locale C:\Users\<YourUser>\.ollama. - Ti porta direttamente a un prompt di chat interattivo.

Ora puoi digitare: Write a python script to scrape a website e guardare il tuo PC generare codice all'istante.

Step 4 Limiti Hardware

I PC Windows si affidano tipicamente a GPU discrete (VRAM) piuttosto che alla Memoria Unificata come i Mac. Per eseguire un modello AI velocemente, esso deve rientrare interamente nella tua VRAM.

La Tua VRAM	Dimensione Massima del Modello	Modelli Consigliati
6GB a 8GB	~7B a 8B parametri	Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB a 16GB	~13B a 14B parametri	Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090)	~30B parametri	Mixtral (8x7B)

Se un modello supera la tua VRAM, Ollama scaricherà automaticamente i livelli rimanenti sulla RAM di sistema, molto più lenta (CPU).

Step 5 Accelerazione GPU

Ollama rileva automaticamente il tuo hardware. - Se hai una scheda NVIDIA, utilizza CUDA. - Se hai una scheda AMD, utilizza ROCm.

Per verificare l'utilizzo della GPU, apri il Gestione attività (Ctrl + Shift + Esc), vai alla scheda Prestazioni e seleziona la tua GPU. Invia un prompt lungo a Ollama e osserva i grafici "Memoria GPU dedicata" e il calcolo "3D" salire fino al 100%.

Step 6 L'API Locale

Ollama esegue automaticamente un server API locale in background. Puoi collegare questo endpoint alle estensioni di VS Code o agli script Python.

Terminal

curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Il tuo PC Windows è ora un server AI privato e completamente funzionale!

Continue Reading

Performance