La Guida Definitiva: Eseguire Ollama su Mac M3

laptop_mac macOS Sonoma Intermediate schedule 8 min read
Author by Alex Rivera • May 14, 2024

Possiedi già una delle macchine AI locali più potenti del pianeta. Che tu stia usando un MacBook Pro M3 base, un MacBook Pro M3 Max, o un Mac Studio — questa guida ti insegnerà come sbloccare il suo pieno potenziale con Ollama. Niente cloud. Niente costi API. Solo intelligenza pura e privata.


Step 1 Introduzione

Ollama richiede macOS 11 Big Sur o successivo. Tuttavia, per una accelerazione GPU Apple Silicon ottimale e il miglior supporto per Metal Performance Shaders (MPS), dovresti utilizzare macOS 14 Sonoma o successivo.

Utilizzeremo il Terminale di macOS. Premi Cmd + Space e digita "Terminale", oppure usa un'alternativa moderna come iTerm2 o Warp.


Step 2 Installare Ollama

Hai due opzioni per installare Ollama sul tuo Mac: il programma di installazione GUI ufficiale per macOS oppure Homebrew (il gestore di pacchetti per macOS). Raccomandiamo vivamente Homebrew perché rende gli aggiornamenti incredibilmente semplici.

Se hai già Homebrew installato, apri il terminale ed esegui:

Terminal
brew install ollama

Una volta installato, avvia il servizio in background di Ollama in modo che possa ricevere i comandi:

Terminal
ollama serve

(Nota: Tieni aperta questa finestra del terminale, oppure esegui brew services start ollama per farlo avviare automaticamente in background all'avvio del sistema).


Step 3 Scaricare il Tuo Primo Modello

Ollama rende il download di un Large Language Model (LLM) semplice come scaricare un container Docker.

Inizieremo con Llama 3 di Meta (8 miliardi di parametri). È veloce, altamente capace e si adatta perfettamente alla memoria di qualsiasi Mac M3. Apri una nuova finestra del terminale ed esegui:

Terminal
ollama run llama3

Cosa succede dopo? - Ollama si connette al registro. - Scarica i pesi del modello da 4,7 GB sul tuo disco locale. - Ti porta in una sessione di chat interattiva.

Ora puoi digitare: Write a python script to scrape a website e guardare il tuo Mac locale generare codice istantaneamente, completamente offline.


Step 4 Limiti Hardware e RAM

Perché i Mac Apple Silicon sono così bravi con l'AI? La Memoria Unificata.

Su un PC, hai la RAM di sistema e la RAM grafica (VRAM sulla GPU). Per eseguire un modello AI velocemente, deve rientrare interamente nella VRAM. Ma su un Mac M3, la CPU e la GPU condividono lo stesso pool di memoria. Se hai un Mac con 36 GB di Memoria Unificata, la tua GPU può accedere a tutta quanta!

Ecco esattamente cosa puoi eseguire in base alla RAM del tuo Mac:

RAM del tuo Mac Dimensione Massima Modello Modelli Consigliati Note
8GB (M3 Base) ~7B a 8B parametri Llama 3 (8B), Mistral (7B), Gemma (2B) Chiudi le altre app per evitare lo swap di memoria.
16GB / 18GB ~13B a 14B parametri Qwen 2.5 (14B), Command R Il punto di equilibrio ideale. Esegui Llama 3 (8B) a velocità fulminea.
36GB / 64GB ~30B a 70B parametri Mixtral (8x7B), Llama 3 (70B a Q2) AI di livello desktop in modo nativo.
128GB+ ~120B+ parametri Llama 3 (70B Q8), Command R+ Possiedi un supercomputer personale.

Step 5 Ottimizzare le Prestazioni

Come fai a sapere che Ollama sta effettivamente utilizzando la GPU del tuo M3 e non stia ricadendo sulla lenta CPU? Verifichiamolo matematicamente.

  1. Apri Monitor Attività sul tuo Mac (Cmd + Space -> "Monitor Attività").
  2. Premi Cmd + 4 per aprire la finestra Cronologia GPU.
  3. Tieni quella finestra visibile e torna al terminale dove è in esecuzione ollama run llama3.
  4. Fornisci un prompt massiccio: Write a 1000 word essay about the history of artificial intelligence.

Osserva il grafico della Cronologia GPU. Dovresti vedere un picco massiccio e sostenuto che porta la tua GPU al 90-100% di utilizzo. Se lo vedi, l'accelerazione Metal di Apple funziona alla perfezione!


Step 6 Esporre le API Locali

Il terminale è ottimo, ma cosa succede se vuoi utilizzare una bella interfaccia web o integrare il tuo modello locale in un'app che stai sviluppando?

Ollama esegue un server API locale per impostazione predefinita. Apri un browser e vai a: http://localhost:11434

Ora puoi accedere a questa API tramite curl o Python esattamente come le API di OpenAI:

Terminal
curl http://localhost:11434/api/generate -d '{
  "model": "llama3",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Hai trasformato con successo il tuo Mac M3 in un server AI privato e offline. I tuoi dati non lasciano mai il tuo computer e non paghi nessuna tariffa per le API.