Esegui Ollama su Windows in modo nativo

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Niente più grattacapi con WSL. Ollama ora gira nativamente su Windows come applicazione standalone. Rileva automaticamente la tua scheda grafica NVIDIA o AMD e accelera l'inferenza AI locale direttamente out of the box.

Step 1 Introduzione

In passato, eseguire LLM locali su Windows richiedeva l'installazione del Sottosistema Windows per Linux (WSL) e la gestione complicata dei passthrough dei driver. Oggi, Ollama fornisce un .exe nativo per Windows che si aggancia direttamente a DirectX e CUDA.

Step 2 Installazione

  1. Vai su ollama.com/download.
  2. Clicca su Windows e scarica il programma di installazione .exe.
  3. Fai doppio clic sul programma di installazione per avviarlo.

Ollama si installerà automaticamente e posizionerà un'icona nella tua area di notifica (angolo in basso a destra della barra delle applicazioni).

Step 3 Scaricare il Tuo Primo Modello

Apri una nuova finestra di PowerShell o Prompt dei comandi. Scarichiamo l'incredibile modello di Meta con 8 miliardi di parametri.

Terminal
ollama run llama3

Cosa succede dopo? - Ollama si connette al registro. - Scarica i pesi del modello (~4.7GB) nella tua cartella locale C:\Users\<YourUser>\.ollama. - Ti porta direttamente a un prompt di chat interattivo.

Ora puoi digitare: Write a python script to scrape a website e guardare il tuo PC generare codice all'istante.

Step 4 Limiti Hardware

I PC Windows si affidano tipicamente a GPU discrete (VRAM) piuttosto che alla Memoria Unificata come i Mac. Per eseguire un modello AI velocemente, esso deve rientrare interamente nella tua VRAM.

La Tua VRAM Dimensione Massima del Modello Modelli Consigliati
6GB a 8GB ~7B a 8B parametri Llama 3 (8B), Mistral (7B), Gemma (2B)
12GB a 16GB ~13B a 14B parametri Qwen 2.5 (14B), Command R
24GB (RTX 3090/4090) ~30B parametri Mixtral (8x7B)

Se un modello supera la tua VRAM, Ollama scaricherà automaticamente i livelli rimanenti sulla RAM di sistema, molto più lenta (CPU).

Step 5 Accelerazione GPU

Ollama rileva automaticamente il tuo hardware. - Se hai una scheda NVIDIA, utilizza CUDA. - Se hai una scheda AMD, utilizza ROCm.

Per verificare l'utilizzo della GPU, apri il Gestione attività (Ctrl + Shift + Esc), vai alla scheda Prestazioni e seleziona la tua GPU. Invia un prompt lungo a Ollama e osserva i grafici "Memoria GPU dedicata" e il calcolo "3D" salire fino al 100%.

Step 6 L'API Locale

Ollama esegue automaticamente un server API locale in background. Puoi collegare questo endpoint alle estensioni di VS Code o agli script Python.

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Il tuo PC Windows è ora un server AI privato e completamente funzionale!